¿Por Qué los LLM Alucinan?

Ejemplo de alucinación en IA mostrando información inventada con alta confianza

Un LLM no sabe lo que es verdad. No tiene una base de datos de hechos. No comprueba lo que dice. Lo que hace es predecir la siguiente palabra más probable.

Cuando esa predicción coincide con la realidad, parece inteligente. Cuando no coincide, parece que miente. Pero no está mintiendo. Simplemente está haciendo lo único que sabe hacer: generar la secuencia de tokens más probable según sus patrones estadísticos.

Una alucinación es cuando el modelo genera contenido que suena perfecto, está bien escrito, tiene estructura lógica, y es completamente falso.

Por Qué Ocurren

Hay varias causas documentadas y verificadas:

Primera causa: El mecanismo de entrenamiento. Los LLM se entrenan para predecir el siguiente token. Se les premia por generar texto fluido y coherente. No se les premia por decir la verdad. Verdad y fluidez no son lo mismo. Un texto puede ser perfectamente fluido y totalmente inventado.

Segunda causa: Errores en los datos de entrenamiento. Si el modelo se entrenó con textos que decían cosas incorrectas, aprendió esos patrones incorrectos con la misma fiabilidad que los correctos. El modelo no distingue entre un paper científico revisado por pares y un post de un blog con datos inventados. Para el modelo, ambos son secuencias de tokens.

Tercera causa: Los sistemas de evaluación premian adivinar. OpenAI publicó un paper en septiembre de 2025 explicando esto en detalle. Si le preguntas a un modelo la fecha de nacimiento de alguien y no lo sabe, tiene dos opciones: decir “no lo sé” y sacar 0 puntos en la evaluación, o inventar una fecha y tener una probabilidad de 1 entre 365 de acertar. Los benchmarks actuales premian el segundo comportamiento.

Tipos de Alucinaciones

Alucinación factual: El modelo dice algo que contradice la realidad verificable. Ejemplo: afirmar que un personaje histórico nació en un año incorrecto.

Fabricación: El modelo inventa algo que no existe. Ejemplo: citar un paper académico con título, autores y año de publicación que nunca se escribió. Esto ocurre y está documentado.

Alucinación de fidelidad: En una tarea donde el modelo debe trabajar con un documento proporcionado, genera contenido que contradice lo que dice el propio documento. No contradice la realidad externa, contradice la información que le acabas de dar.

Casos Reales Documentados

Mata vs Avianca (2023): Un abogado en Nueva York presentó ante el tribunal un escrito legal que contenía citas de casos judiciales. Esos casos no existían. Los había generado ChatGPT. El abogado fue sancionado por el juez.

Air Canada (2024): La aerolínea canadiense fue obligada a pagar una indemnización a un cliente porque su chatbot basado en un LLM inventó una política de tarifas por duelo que no existía. El cliente actuó basándose en esa información falsa y el tribunal falló a su favor.

Estudio de Scientific Reports (2025): Analizó tres millones de reseñas de aplicaciones móviles y encontró que aproximadamente el 1.75% de las quejas de usuarios mencionaban explícitamente errores que se pueden clasificar como alucinaciones.

¿Se Pueden Eliminar las Alucinaciones?

No. Hay demostración formal.

Un paper de Xu, Jain y Kankanhalli publicado en 2024 en arXiv demostró matemáticamente que las alucinaciones son inevitables en cualquier LLM computable. Usando resultados de teoría de la computabilidad, mostraron que ningún LLM puede aprender todas las funciones computables y que por tanto siempre existirán entradas para las que el modelo genera salidas incorrectas.

Esto no significa que no se puedan reducir. Se pueden y se reducen con cada nueva generación de modelos. Pero eliminación total no es posible con la arquitectura actual.

Cómo se Reducen

Las técnicas principales que se usan:

RAG (Retrieval Augmented Generation): En vez de confiar solo en lo que el modelo aprendió durante el entrenamiento, se le da acceso a documentos o bases de datos externas. El modelo busca información relevante y la usa como contexto para generar su respuesta. Esto reduce alucinaciones factuales pero no las elimina.

RLHF (Reinforcement Learning from Human Feedback): Se entrena al modelo con retroalimentación humana que penaliza respuestas incorrectas y premia respuestas precisas o que reconocen incertidumbre.

Chain of Thought: Se le pide al modelo que razone paso a paso antes de dar una respuesta final. Esto reduce algunos tipos de errores pero puede crear otros nuevos si algún paso intermedio del razonamiento es incorrecto.

Evaluaciones con penalización: Propuestas por OpenAI en su paper de 2025, donde se penalizan los errores con confianza alta más que la incertidumbre. La idea es que es mejor que el modelo diga “no sé” a que invente una respuesta con un 99% de confianza que resulta ser falsa.

Lo que Debes Hacer como Usuario

No confíes en la salida de un LLM sin verificar los datos críticos. Esto aplica a cualquier LLM de cualquier proveedor.

Si el modelo te da un dato específico (un nombre, una fecha, una cifra, una referencia bibliográfica), compruébalo en la fuente original. Si no puedes encontrar la fuente original, trata ese dato como no verificado.

Esto no es un defecto temporal. Es una limitación estructural de cómo funcionan estos modelos.

Verifica por Ti Mismo

Pídele a cualquier LLM que te dé una lista de papers académicos sobre un tema muy específico. Después busca esos papers en Google Scholar o en arXiv.org. Es muy probable que al menos uno no exista.

Qué pasa en la práctica

Si le pides que nombre tres librerías de JavaScript para una tarea específica, puede inventar una que no existe (y que suena completamente plausible).
Si le pides datos estadísticos exactos, puede generar números que no corresponden con ninguna fuente real.
En tareas creativas, esto es una ventaja. En datos, es un problema.

Error común

Pensar que si el modelo lo dice con seguridad, es porque lo verificó. No hay verificación interna. La confianza con la que escribe no tiene relación con la exactitud.

Para técnicas prácticas de integración de IA con barreras anti-alucinación (RAG, verificación de fuentes), puedes consultar esta guía de implementación responsable.