# Language Models

Todos los LLM's (Large Language Models) conocidos al día de hoy como GPT, Claude, Mistral, LLAMA, Granite, Gemini, Deepseek, etc, para poder haber sido entrenados tienen como base la arquitectura Transformers.

Parte de este entrenamiento, es necesario contar con grandes cantidades de texto usadas, así como el proceso de **transfer learning**.

# Transfer Learning

El transfer learning es unicamente el método de poder entrenar a un modelo reutilizando el conocimiento que un modelo ya aprendió en una tarea y transferirlo a otra tarea distinta.

El **preentrenamiento** se basa en entrenar un modelo desde cero, lo cual empieza desde ningún conocimiento previo del lenguaje y representa un gran costo de tiempo computacional así como la necesidad de contar con grandes corpus de data.

Por otro lado, el **fine tunning**, es la capacidad de poder entrenar a un modelo ya preentrenado, de forma que se podrá adaptar con un dataset adicional relacionado a una tarea específica, al hacerlo de esta forma podemos entrenar a los modelos con menor cantidad de datos obteniendo resultados más decentes.

# Capas de Atención (Attention Layers)

Las capas de atención son las que le permitirán al modelo saber a qué palabras en la oración ponerle más atención (representado en pesos de c/u de las palabras) o cuáles ignorar.

Con oraciones más complejas (y reglas gramaticales más complejas), el modelo necesitaría prestar especial atención a las palabras que podrían aparecer más lejos en la oración para traducir correctamente cada palabra.

# Arquitectura Transformers 

![image.png](attachment:image.png)

### Encoders

Los Encoders son buenos para tarea que requieran entender el input, como en casos en los que se tenga que hacer:

* Clasificación de oraciones
* Reconocimiento de entidades
* Question answering
* Masked language modeling

Dentro de los modelos encoders más usados son : BERT, RoBERTa, ALBERT

El encoder recibe la oración y la convierte en embeddings iniciales de cada palabra (vectores básicos).
Luego, el mecanismo de self-attention calcula qué palabras son más relevantes para cada una y asigna pesos de atención.
Con esos pesos, combina los embeddings iniciales de todas las palabras para producir nuevas representaciones contextualizadas.
Al final, cada palabra queda representada por un embedding que no solo refleja su significado aislado, sino también su relación con las demás palabras de la oración.

Por ejemplo, en la generación de embeddings iniciales, las palabras "rey" y "reina" tendrían vectores cercanos entre sí porque están semánticamente relacionadas, mientras que "rey" y "refrigerador" estarían más alejados. Sin embargo, estos embeddings iniciales no consideran el contexto de la oración. Es ahí donde entra el mecanismo de self-attention, que ajusta estas representaciones según las palabras circundantes. Por ejemplo, la palabra "banco" tendría una representación diferente en "me senté en el banco del parque" que en "fui al banco a sacar dinero".

Estos modelos echos bajo esta arquitectura pueden ser "Bidireccionales" lo cual significa que el mecanismo de atención puede poner atención a cualquier otra palabra de la misma oración, sin importar la posición en la cual se encuentre.

![image-2.png](attachment:image-2.png)

### Decoderes

Los modelos basados en Decoders están mayormente optimizados para tareas de "generación", como generación de texto

El decoder recibe un input (por ejemplo, una instrucción) y lo convierte en embeddings (representaciones vectoriales). A partir de ahí, utiliza el mecanismo de **masked self-attention**, donde cada palabra solo puede atender a las palabras anteriores **(unidireccional)** , ya que las futuras están bloqueadas por la máscara. Esto permite al modelo entender el contexto de lo que ya se ha generado. Luego, esa representación pasa por una capa lineal y una función softmax que asigna probabilidades a cada palabra del vocabulario, seleccionando la más probable como predicción. Finalmente, de manera **auto-regresiva**, esa palabra generada se agrega al input y el proceso se repite hasta completar la respuesta.

### Encoder-decoder

![image.png](attachment:image.png)

Funcionan para tareas de "generación" que requeiran un input , como summarization o traducción

## Tipos de Modelos de Lenguaje

### Encoder models
Funcionan de manera bidireccional para entender el contexto en ambas direcciones. Funciona mejor para tareas que requieran un profundo aprendizaje del texto como clasificación, entity recognition, question answering, etc
### Decoder models
Estos modelos procesan texto de izquierda a derecha para entender el contexto  y son buenos para generación de texto, acompletar frases, escribir ensayos o incluso generar código
### Encoder-decoder models
Combinan ambos enfoques, utilizando un codificador para comprender la entrada y un decodificador para generar la salida. Destacan en tareas secuencia a secuencia, como la traducción, el resumen y la respuesta a preguntas.

**Nota: Podremos tener distintos tipos de estrategias de decoding para la generación de texto** 

Qué Arquitectura usar para dependiendo la tarea a realizar

![image.png](attachment:image.png)