# üöÄ Self-Attention explicado con un ejemplo

Este README explica **c√≥mo funciona el mecanismo de atenci√≥n** en los Transformers (el coraz√≥n de los LLMs como GPT, LLaMA, etc.), usando la frase:

> **"The dog ran quickly"**

---

## üìå 1. Contexto: ¬øQu√© es la atenci√≥n en un LLM?

En un **Large Language Model (LLM)**, cada palabra (token) no se procesa de manera aislada, sino que construye su significado **teniendo en cuenta el contexto** de las dem√°s.

El mecanismo que hace posible esto es la **Self-Attention**:

- Cada token genera **tres vectores**:
  - **Query (Q)** ‚Üí lo que busca.
  - **Key (K)** ‚Üí lo que ofrece.
  - **Value (V)** ‚Üí la informaci√≥n que aporta.

---

## üìå 2. El ejemplo: "The dog ran quickly"

Supongamos que estamos procesando la palabra **"quickly"**.  
Queremos saber: **¬øqu√© tokens influyen en el significado de "quickly"?**

### Vectores iniciales (ejemplo simplificado en 3 dimensiones):

- **Query (quickly)**:  
  \[
  Q_{quickly} = [0.22, 0.64, 0.73]
  \]

- **Key (dog)**:  
  \[
  K_{dog} = [0.54, 0.36, 0.74]
  \]

- **Value (dog)**:  
  \[
  V_{dog} = [0.12, 0.84, 0.51]
  \]

- **Value (quickly)**:  
  \[
  V_{quickly} = [0.62, 0.24, 0.33]
  \]

---

## üìå 3. Paso 1: Similaridad Query‚ÄìKey

Calculamos el **producto punto** entre el Query de "quickly" y los Keys de otros tokens:

\[
score(dog, quickly) = Q_{quickly} \cdot K_{dog}
\]

\[
= (0.22)(0.54) + (0.64)(0.36) + (0.73)(0.74)
\]

\[
= 0.1188 + 0.2304 + 0.5402 \approx 0.889
\]

> Este n√∫mero nos dice **qu√© tanto "quickly" presta atenci√≥n a "dog"**.

(En la pr√°ctica se hace con todos los tokens: "the", "dog", "ran", "quickly"...).

---

## üìå 4. Paso 2: Softmax ‚Üí Pesos de Atenci√≥n

Convertimos estos scores en **pesos normalizados**:

Ejemplo con solo *dog* y *quickly* (suponiendo un score para quickly ‚âà 1.2):

\[
\alpha_{dog} = \frac{e^{0.889}}{e^{0.889} + e^{1.2}} \approx 0.42
\]

\[
\alpha_{quickly} = \frac{e^{1.2}}{e^{0.889} + e^{1.2}} \approx 0.58
\]

---

## üìå 5. Paso 3: Combinaci√≥n de Values

El **output de "quickly"** es la **suma ponderada de los Values**:

\[
output(quickly) = \alpha_{dog} \cdot V_{dog} + \alpha_{quickly} \cdot V_{quickly}
\]

\[
= 0.42 \cdot [0.12, 0.84, 0.51] + 0.58 \cdot [0.62, 0.24, 0.33]
\]

\[
= [0.41, 0.49, 0.41] \ (\text{aprox})
\]

---

## üìå 6. Interpretaci√≥n conceptual

- **Cada token tiene un √∫nico Value**, no uno distinto para cada otro token.  
- Lo que cambia es el **peso con el que ese Value se combina**, seg√∫n la similitud Query‚ÄìKey.  
- El resultado es un **nuevo vector sem√°ntico** para "quickly", que ya no es solo su embedding original, sino una **mezcla contextualizada** de informaci√≥n de toda la frase.  

---

## üìå 7. Visualizaci√≥n mental

Piensa en una fiesta üéâ:

- Cada persona tiene un **cartel en la frente** (**Key**) con lo que representa (‚Äús√© de perros‚Äù, ‚Äúsoy un verbo de acci√≥n‚Äù).  
- Cada persona tambi√©n tiene un **inter√©s** (**Query**) de lo que busca (‚Äúquiero encontrar un verbo con el que encaje‚Äù).  
- Cuando encuentran un match (Query ‚Üî Key), se escuchan con m√°s o menos atenci√≥n.  
- Lo que cada uno aporta a la conversaci√≥n es su **Value**.  
- El resultado es que cada persona se lleva un **nuevo resumen contextual** de la fiesta.

---

## üìå 8. Conclusi√≥n

- **Query + Key = cu√°nto caso hago a otro token.**  
- **Pesos (softmax) = con qu√© fuerza escucho a cada token.**  
- **Values = lo que cada token aporta a la mezcla.**  
- **Output = nuevo vector contextualizado**, usado en capas posteriores para finalmente **predecir el siguiente token**.

---
