Ir al contenido

Aprende IA desde Cero: Guía Completa de LLMs

Aprende IA desde cero - Guía completa de modelos de lenguaje LLM

Esto no es un curso. No es un blog. No hay opiniones ni marketing.

Aquí se explica cómo funcionan los modelos de lenguaje por dentro. Con datos reales, fuentes verificables, y código que puedes ejecutar tú mismo. Si algo no se puede demostrar, no está aquí.

Cada concepto tiene su guía completa. Empiezan con los fundamentos y después la explicación técnica para que encaje.


Un modelo de lenguaje predice la siguiente palabra. No piensa, no busca, no verifica. Calcula probabilidades sobre tokens. Esta guía recorre todo el proceso de principio a fin.

Ver explicación completa

Los modelos no leen texto. Leen números. Tu texto se parte en trozos llamados tokens y cada trozo se convierte en un número. Esto determina cómo el modelo ve todo lo que le escribes.

Ver explicación completa

Un programa basado en la arquitectura Transformer que predice el siguiente token usando atención y redes neuronales. Sin recurrencia, sin reglas escritas a mano. Solo patrones estadísticos aprendidos de billones de tokens.

Ver explicación completa

Los números brutos que el modelo asigna a cada token posible antes de decidir cuál viene después. Pueden ser positivos o negativos. No son probabilidades. Son puntuaciones sin procesar.

Ver explicación completa

Una función matemática que convierte los logits en probabilidades que suman 1. Es lo que permite al modelo elegir un token. Se calcula con una exponencial y una división.

Ver explicación completa

Un número que se usa para controlar cuánto riesgo toma el modelo al elegir la siguiente palabra. Se divide entre los logits antes de softmax. Más baja, más predecible. Más alta, más variada.

Ver explicación completa

El último paso antes de que veas una palabra en pantalla. El modelo tiene probabilidades para cada token y tiene que elegir uno. Puede elegir siempre el más probable, o usar filtros como top-p y top-k.

Ver explicación completa

Un LLM genera texto de uno en uno. Predice un token, lo añade a la secuencia, y repite. Esto se llama generación autoregresiva. No hay planificación. Solo predicción del siguiente paso.

Ver explicación completa

La ventana de contexto es la cantidad máxima de texto que el modelo puede tener en cuenta. Todo lo que está fuera de la ventana no existe para el modelo. Se mide en tokens y tiene implicaciones directas en la calidad de las respuestas.

Ver explicación completa

Los LLM alucinan. Generan texto falso que suena perfecto. Esto ocurre porque el mecanismo premia la fluidez, no la verdad. Hay demostración matemática de que no se puede eliminar del todo.

Ver explicación completa

No entiende, no siente, no quiere. Calcula el siguiente token más probable. Parece inteligente porque los textos de entrenamiento fueron escritos por personas inteligentes. La fluidez no es comprensión.

Ver explicación completa

Un prompt no es una pregunta. Es el contexto estadístico que determina los tokens de salida. Aquí se explica qué funciona, qué no funciona, y por qué, desde la mecánica interna del modelo.

Ver explicación completa


  • Entender cómo funciona el modelo ayuda a tener expectativas realistas.
  • Saber sus límites evita frustraciones y errores costosos.
  • Distinguir lo que hace bien de lo que hace mal permite aprovecharlo mejor.

Pensar que el modelo busca en internet cuando responde. No lo hace. Solo usa patrones estadísticos aprendidos durante el entrenamiento.


Todas las guías están interconectadas. Cada concepto enlaza a los que necesita. El orden recomendado es el que ves arriba: de lo más básico a lo más aplicado.