El uso de inteligencia artificial en la redacción de escritos judiciales ya no es una hipótesis de laboratorio. Es una práctica que los tribunales están empezando a enfrentar con herramientas concretas —y con resultados que merecen un análisis cuidadoso. Un reciente precedente de la Sala de Casación Penal de la Corte Suprema de Justicia de Colombia lo ilustra con claridad.
El caso que puso en debate la detección automática de IA
El 11 de febrero de 2026, la Sala de Casación Penal de la Corte Suprema de Justicia de Colombia resolvió el caso AP760-2026 y adoptó una medida inédita en la región: sometió el escrito presentado por la defensa a dos herramientas de detección de inteligencia artificial —Winston AI y Copyleaks— e incorporó sus resultados en los fundamentos de la decisión.
El trasfondo era el siguiente: una mujer había sido condenada por fraude procesal tras declarar bajo juramento desconocer el domicilio de su arrendador, con el propósito de obtener una sentencia de prescripción adquisitiva. Condenada en dos instancias, su defensor recurrió en casación. Lo que presentó, sin embargo, no era una demanda técnicamente articulada sino una serie de indicaciones generales sobre cómo debería construirse ese recurso. Cada sección del escrito se iniciaba con expresiones como «se debe demostrar que…» o «también se debe enfatizar…»: el output de un modelo de lenguaje que le explicaba al abogado qué hacer, sin que el abogado hubiera traducido esas directrices en verdaderos cargos casacionales.
Los detectores arrojaron resultados contundentes: 7% de contenido humano y 100% de probabilidad de generación por inteligencia artificial. La demanda fue inadmitida.
Los detectores de IA no prueban autoría: estiman probabilidad estadística. La Biblia, sometida a estas herramientas, arroja un 78% de probabilidad de haber sido generada por inteligencia artificial.
Qué miden realmente estas herramientas
Antes de incorporar estos sistemas como elemento de convicción en una resolución judicial, conviene entender su funcionamiento real. Los detectores de IA no determinan quién escribió un texto: calculan qué tan probable es que ese texto haya sido generado por un modelo de lenguaje. Para eso utilizan dos métricas estadísticas principales.
La primera es la perplexity, que mide cuán predecible es una secuencia de palabras para un modelo de lenguaje. Los sistemas de IA generativa tienden a elegir las opciones estadísticamente más probables en cada paso, lo que produce textos con baja perplejidad —es decir, muy predecibles. La segunda es la burstiness, que captura la variación natural del texto humano: los escritores reales alternan frases cortas con largas, estructuras simples con complejas; los modelos de lenguaje, en cambio, tienden a la homogeneidad rítmica.
El problema es que estas métricas son estadísticas, no determinísticas. Para ponerlo en perspectiva: fragmentos del comienzo de El Quijote arrojan una probabilidad de generación por IA del 22%; La metamorfosis de Kafka, del 61%; y el Evangelio de San Juan, del 78%, con clasificación directa como «generado por AI/GPT». Con ese umbral, la Biblia no pasaría un detector de inteligencia artificial.
El experimento inverso es igualmente revelador: un texto generado por un modelo de lenguaje con instrucciones específicas para emular escritura humana —variaciones rítmicas, registro conversacional, irregularidades sintácticas— puede obtener 0% de probabilidad de IA ante las mismas herramientas.
El riesgo de usarlos como prueba de autoría
Lo anterior no significa que estas herramientas carezcan de utilidad. Significa que su rol en sede judicial debe ser calibrado con precisión. Un resultado positivo en un detector de IA puede ser una señal de alerta, pero no puede funcionar por sí solo como prueba suficiente de que un escrito fue generado por un modelo de lenguaje.
En el caso colombiano, la inadmisión del recurso estuvo técnicamente fundada en los graves defectos del escrito: ausencia de cargos casacionales concretos, falta de referencia al expediente, estructura de recomendaciones en lugar de argumentación procesal. El detector fue un elemento más dentro de un cuadro más amplio. Esa es la única manera razonable de incorporar estas herramientas: como disparador de un análisis más riguroso que contemple, por ejemplo, la presencia de citas inexistentes, jurisprudencia alucinada, inconsistencias normativas o ausencia total de referencia a los hechos del caso concreto.
Responsabilidad profesional que ningún algoritmo puede asumir
El caso AP760-2026 expone, en el fondo, un problema de responsabilidad profesional. Un modelo de lenguaje no razona en sentido jurídico: predice secuencias de palabras estadísticamente probables. Cuando se le solicita redactar un recurso de casación sin acceso al expediente, a la sentencia recurrida ni a la jurisprudencia aplicable, produce estructura sin sustancia. Y esa estructura no es un acto procesal.
La inteligencia artificial puede ser una herramienta valiosa para investigar antecedentes, organizar argumentos, revisar contratos o detectar jurisprudencia relevante. Pero la decisión sobre qué presentar ante un tribunal, cómo encuadrar los hechos y qué consecuencias jurídicas tiene ese acto es una responsabilidad inalienablemente humana, y en el caso de los abogados, una obligación deontológica.
El debate sobre la regulación del uso de IA en el proceso judicial recién comienza. Lo que el precedente colombiano deja en claro es que los tribunales ya están actuando —y que la calidad del análisis con el que lo hagan marcará la diferencia entre una respuesta institucional sólida y una nueva fuente de incertidumbre procesal.
