¿Qué es un LLM?

Arquitectura de un modelo Transformer con capas de atención y feed-forward

Un LLM (Large Language Model) es un programa que predice la siguiente palabra.

No piensa. No entiende. No razona. Calcula cuál es el siguiente token más probable dada una secuencia de tokens anteriores. Lo hace extremadamente bien, hasta el punto de que parece que entiende. Pero el mecanismo interno es predicción estadística pura.

Cuando le preguntas a ChatGPT cuál es la capital de Francia, el modelo no busca en una base de datos. Calcula que después de los tokens “cuál es la capital de Francia”, la secuencia más probable de tokens siguiente es “París”. Lo aprendió de los miles de millones de textos con los que fue entrenado.

De dónde sale la arquitectura

Todo LLM moderno está basado en una arquitectura llamada Transformer. Fue presentada en un paper de 2017 titulado Attention Is All You Need, escrito por Vaswani, Shazeer, Parmar, Uszkoreit, Jones, Gomez, Kaiser y Polosukhin. Los ocho trabajaban en Google en ese momento.

Antes de los Transformers existían las redes recurrentes (RNN) y las LSTM. El problema de esas arquitecturas es que procesaban el texto palabra por palabra, en orden. Eso era lento y difícil de paralelizar en GPUs.

El Transformer eliminó la recurrencia por completo. Usa un mecanismo llamado atención que permite procesar todas las palabras de la secuencia al mismo tiempo, en paralelo. Eso hizo que el entrenamiento fuera mucho más rápido y permitió escalar a modelos enormes.

Como funciona paso a paso

Esto es lo que pasa cuando escribes algo en un LLM:

Primero, el texto se tokeniza. Se convierte en una secuencia de números. Cada número representa un fragmento de texto del vocabulario del modelo.

Segundo, cada token se convierte en un vector de números llamado embedding. Un embedding es una representación numérica en un espacio de muchas dimensiones. Tokens con significados similares acaban en posiciones cercanas en ese espacio.

Tercero, los embeddings pasan por múltiples bloques Transformer. Cada bloque tiene dos partes principales: un mecanismo de atención que permite a cada token mirar a todos los demás tokens de la secuencia para captar relaciones y contexto, y una red feed-forward que procesa cada token de forma independiente para enriquecer su representación.

El modelo original del paper tenía 6 bloques. Los modelos actuales tienen decenas o incluso más de cien.

Cuarto, al final de todos los bloques, el último vector se multiplica por una matriz para obtener un número por cada token posible del vocabulario. Esos números se llaman logits.

Quinto, los logits se pasan por la función softmax para convertirlos en probabilidades. Cada token del vocabulario tiene una probabilidad asignada. Todas suman 1.

Sexto, se selecciona el siguiente token. Esto se puede hacer de varias formas: eligiendo siempre el más probable, o muestreando de la distribución con distintos grados de aleatoriedad.

Séptimo, el token seleccionado se añade a la secuencia y se repite todo el proceso para generar el siguiente token. Así hasta que el modelo decide parar o alcanza el límite de tokens.

Qué significa que un modelo tiene miles de millones de parámetros

Los parámetros son los números que el modelo aprendió durante el entrenamiento. Son los pesos de las matrices que multiplican los vectores en cada capa. Cuando se dice que GPT-4 tiene cientos de miles de millones de parámetros, significa que tiene esa cantidad de números ajustados durante el entrenamiento para que las predicciones sean lo más precisas posible.

Más parámetros no significa automáticamente mejor modelo. Pero en general, modelos más grandes pueden captar patrones más complejos en los datos.

Qué NO es un LLM

No es una base de datos. No almacena hechos en forma de registros. Almacena patrones estadísticos en sus parámetros.

No es un buscador. No consulta internet cuando responde, salvo que tenga una herramienta externa conectada para eso.

No es consciente. No tiene experiencias. No tiene preferencias reales. Genera texto que parece tener esas cosas porque los textos con los que fue entrenado las tenían.

No es infalible. Como su mecanismo es predecir lo más probable, puede generar contenido que suena perfecto pero es completamente falso. Eso se llama alucinación y tiene consecuencias matemáticas inevitables.

Dato verificable

El paper original del Transformer, Attention Is All You Need, se puede leer completo en arXiv. Ha sido citado más de 173.000 veces desde 2017. Es uno de los diez papers más citados del siglo XXI en ciencias de la computación.

Experimenta con un Transformer

Observa cómo un Transformer procesa texto paso a paso en nuestro simulador interactivo, donde puedes ver la tokenización, embeddings, y generación de tokens en tiempo real.

Qué pasa en la práctica

Reformular la misma pregunta puede dar respuestas completamente distintas.
Un texto coherente y bien escrito no significa que el modelo haya comprendido nada.
El modelo reproduce patrones, no razona sobre ellos.

Error común

Creer que el modelo razona como un humano. No lo hace. Calcula la continuación estadísticamente más probable según los patrones que aprendió.