# 🚀 Self-Attention explicado con un ejemplo

Este README explica **cómo funciona el mecanismo de atención** en los Transformers (el corazón de los LLMs como GPT, LLaMA, etc.), usando la frase:

> **"The dog ran quickly"**

---

## 📌 1. Contexto: ¿Qué es la atención en un LLM?

En un **Large Language Model (LLM)**, cada palabra (token) no se procesa de manera aislada, sino que construye su significado **teniendo en cuenta el contexto** de las demás.

El mecanismo que hace posible esto es la **Self-Attention**:

- Cada token genera **tres vectores**:
  - **Query (Q)** → lo que busca.
  - **Key (K)** → lo que ofrece.
  - **Value (V)** → la información que aporta.

---

## 📌 2. El ejemplo: "The dog ran quickly"

Supongamos que estamos procesando la palabra **"quickly"**.  
Queremos saber: **¿qué tokens influyen en el significado de "quickly"?**

### Vectores iniciales (ejemplo simplificado en 3 dimensiones):

- **Query (quickly)**:  
  \[
  Q_{quickly} = [0.22, 0.64, 0.73]
  \]

- **Key (dog)**:  
  \[
  K_{dog} = [0.54, 0.36, 0.74]
  \]

- **Value (dog)**:  
  \[
  V_{dog} = [0.12, 0.84, 0.51]
  \]

- **Value (quickly)**:  
  \[
  V_{quickly} = [0.62, 0.24, 0.33]
  \]

---

## 📌 3. Paso 1: Similaridad Query–Key

Calculamos el **producto punto** entre el Query de "quickly" y los Keys de otros tokens:

\[
score(dog, quickly) = Q_{quickly} \cdot K_{dog}
\]

\[
= (0.22)(0.54) + (0.64)(0.36) + (0.73)(0.74)
\]

\[
= 0.1188 + 0.2304 + 0.5402 \approx 0.889
\]

> Este número nos dice **qué tanto "quickly" presta atención a "dog"**.

(En la práctica se hace con todos los tokens: "the", "dog", "ran", "quickly"...).

---

## 📌 4. Paso 2: Softmax → Pesos de Atención

Convertimos estos scores en **pesos normalizados**:

Ejemplo con solo *dog* y *quickly* (suponiendo un score para quickly ≈ 1.2):

\[
\alpha_{dog} = \frac{e^{0.889}}{e^{0.889} + e^{1.2}} \approx 0.42
\]

\[
\alpha_{quickly} = \frac{e^{1.2}}{e^{0.889} + e^{1.2}} \approx 0.58
\]

---

## 📌 5. Paso 3: Combinación de Values

El **output de "quickly"** es la **suma ponderada de los Values**:

\[
output(quickly) = \alpha_{dog} \cdot V_{dog} + \alpha_{quickly} \cdot V_{quickly}
\]

\[
= 0.42 \cdot [0.12, 0.84, 0.51] + 0.58 \cdot [0.62, 0.24, 0.33]
\]

\[
= [0.41, 0.49, 0.41] \ (\text{aprox})
\]

---

## 📌 6. Interpretación conceptual

- **Cada token tiene un único Value**, no uno distinto para cada otro token.  
- Lo que cambia es el **peso con el que ese Value se combina**, según la similitud Query–Key.  
- El resultado es un **nuevo vector semántico** para "quickly", que ya no es solo su embedding original, sino una **mezcla contextualizada** de información de toda la frase.  

---

## 📌 7. Visualización mental

Piensa en una fiesta 🎉:

- Cada persona tiene un **cartel en la frente** (**Key**) con lo que representa (“sé de perros”, “soy un verbo de acción”).  
- Cada persona también tiene un **interés** (**Query**) de lo que busca (“quiero encontrar un verbo con el que encaje”).  
- Cuando encuentran un match (Query ↔ Key), se escuchan con más o menos atención.  
- Lo que cada uno aporta a la conversación es su **Value**.  
- El resultado es que cada persona se lleva un **nuevo resumen contextual** de la fiesta.

---

## 📌 8. Conclusión

- **Query + Key = cuánto caso hago a otro token.**  
- **Pesos (softmax) = con qué fuerza escucho a cada token.**  
- **Values = lo que cada token aporta a la mezcla.**  
- **Output = nuevo vector contextualizado**, usado en capas posteriores para finalmente **predecir el siguiente token**.

---
