# Interpretabilidad Mecanicista de Transformers

## Introducci√≥n

Este documento detalla el proceso para descargar e implementar el modelo **Llama 3.2 1B en fp16** desde **Hugging Face**, extrayendo la *n*-√©sima salida de la capa MLP (*Multi-Layer Perceptron*). Tambi√©n se documentar√° cada paso siguiendo una metodolog√≠a.

## ¬øQu√© es Llama 3.2 1B?

Llama 3.2 es un modelo de lenguaje basado en la arquitectura **Transformer**, desarrollado por Meta. Su tama√±o (1B de par√°metros) lo hace eficiente para tareas de procesamiento del lenguaje natural.

## ¬øQu√© es fp16 y por qu√© es importante?

**fp16 (Floating Point 16 bits)** es un formato de precisi√≥n reducida que permite acelerar el entrenamiento y la inferencia del modelo, reduciendo el uso de memoria sin perder mucha precisi√≥n.

## ¬øQu√© es Hugging Face?

**Hugging Face** es una plataforma l√≠der en el desarrollo de modelos de inteligencia artificial, especialmente en el campo del procesamiento del lenguaje natural (NLP). Proporciona una gran variedad de modelos preentrenados, herramientas para el entrenamiento y despliegue de modelos, y una comunidad activa de investigadores y desarrolladores.

### ¬øPara qu√© se usa Hugging Face?

- **Repositorio de modelos:** Permite descargar y compartir modelos preentrenados.
- **Transformers Library:** Proporciona una API para usar modelos de NLP f√°cilmente.
- **Hugging Face Hub:** Un espacio para colaborar y almacenar modelos y datasets.
- **Inference API:** Para probar modelos sin necesidad de descargarlos localmente.

### Conceptos clave que usaremos en Hugging Face

1. **Token de autenticaci√≥n:** Necesario para acceder a modelos privados o restringidos.
2. **Modelos preentrenados:** Conjuntos de pesos y configuraciones listos para usar.
3. **Tokenizer:** Convierte texto en tensores num√©ricos que el modelo puede procesar.
4. **Pipeline:** Interfaz sencilla para ejecutar modelos en tareas espec√≠ficas.
5. **AutoModel y AutoTokenizer:** Clases que nos permiten cargar modelos y tokenizadores sin necesidad de conocer su arquitectura exacta.

---

## Acceso al modelo en Hugging Face

Para acceder a *Llama 3.2*, hay dos m√©todos principales:

### M√©todo 1: Solicitud de acceso manual 

1. Ir a [Hugging Face](https://huggingface.co/).
2. Usar la barra de b√∫squeda para encontrar **Llama 3.2 1B**.
3. Llenar el formulario de solicitud de acceso.
4. Una vez aprobado, podr√°s acceder a los archivos del modelo en la pesta√±a **Files and versions**.

Este m√©todo es √∫til si el modelo tiene restricciones de acceso y no requiere autenticaci√≥n en c√≥digo.

### M√©todo 2: Autenticaci√≥n con un token de acceso

Si necesitas automatizar el proceso o descargar modelos privados, puedes generar un token de acceso:

1. Ve a **Settings > Access Tokens** en Hugging Face.
2. Genera un nuevo *token* con permisos de "read".
3. Usa el siguiente c√≥digo para autenticarte:

```python
from huggingface_hub import login
login("TU_TOKEN_AQUI")  # Reemplaza con tu token
```

Este m√©todo es m√°s formal y √∫til si trabajas en servidores o con varios modelos en diferentes proyectos.

---

## Configuraci√≥n del entorno

Instalaremos las dependencias necesarias en nuestro entorno de Python:

```bash
pip install torch torchvision torchaudio transformers huggingface_hub
```

Verificamos la instalaci√≥n ejecutando:

```bash
python3 -c "import torch; print(torch.__version__)"
```

Si el comando muestra un n√∫mero de versi√≥n (`2.x.x`), significa que **PyTorch est√° correctamente instalado**.

Opcionalmente, podemos crear un entorno virtual (quiz√° esrte paso lo debas hacer primero para poder instalar paquetes, ya deoendera de tu gestor de paquetes que tengas en uso):

```bash
python -m venv llama_env
source llama_env/bin/activate  # En macOS/Linux
llama_env\Scripts\activate  # En Windows
```

---

## Descarga del modelo desde Hugging Face

Cargaremos el modelo y el *tokenizer* desde Hugging Face:

```python
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "meta-llama/Llama-3.2-1B"  # Nombre exacto del modelo

# Cargar el tokenizer
try:
    tokenizer = AutoTokenizer.from_pretrained(model_name)
    print("Tokenizer cargado exitosamente.")
except Exception as e:
    print(f"Error al cargar el tokenizer: {e}")

# Cargar el modelo completo
try:
    model = AutoModelForCausalLM.from_pretrained(model_name)
    print("Modelo cargado exitosamente.")
except Exception as e:
    print(f"Error al cargar el modelo: {e}")
```

Si el modelo se descarga correctamente, estar√° listo para su an√°lisis y uso en inferencias. En caso de errores, verifica los permisos de acceso en Hugging Face o la correcta instalaci√≥n de las dependencias.

---

## Estructura del modelo Llama 3.2 1B

Llama 3.2 1B sigue la arquitectura **Transformer**, que est√° compuesta por m√∫ltiples bloques de procesamiento de informaci√≥n. Sus principales componentes son:

###  1. **Embeddings**
Los embeddings convierten palabras o tokens en vectores num√©ricos de alta dimensi√≥n. Estos vectores son la entrada del modelo y representan el significado de las palabras en un espacio matem√°tico.

###  2. **M√∫ltiples capas de atenci√≥n (Self-Attention)**
Cada capa de atenci√≥n analiza las relaciones entre todas las palabras de la oraci√≥n para determinar cu√°les son m√°s relevantes para la predicci√≥n.

###  3. **Capa MLP (Multi-Layer Perceptron)**
Despu√©s de cada capa de atenci√≥n, los datos pasan por una **MLP (Red Neuronal de M√∫ltiples Capas)**. Esta capa:
   - Refina la informaci√≥n extra√≠da por la atenci√≥n.
   - Introduce no linealidad al modelo.
   - Generaliza mejor las representaciones del lenguaje.

Cada MLP en el Transformer tiene dos capas completamente conectadas con una funci√≥n de activaci√≥n no lineal intermedia.

###  4. **Capa de salida**
Finalmente, la capa de salida del modelo convierte la representaci√≥n final en una probabilidad de predicci√≥n sobre el siguiente token en la secuencia.

### üîπ 5. **Estructura en profundidad**
Llama 3.2 1B tiene varias capas Transformer apiladas, donde cada capa tiene una subcapa de **self-attention** y una subcapa MLP. Las activaciones intermedias dentro de la MLP son esenciales para analizar la informaci√≥n que el modelo est√° aprendiendo en cada paso.

---

## Guardar y cargar el modelo localmente

Para evitar descargar el modelo cada vez que lo necesitemos, podemos almacenarlo localmente:

```python
# Guardar el modelo localmente
model.save_pretrained("./llama3_model")
tokenizer.save_pretrained("./llama3_model")

# Cargarlo m√°s tarde sin conexi√≥n
from transformers import AutoModelForCausalLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("./llama3_model")
model = AutoModelForCausalLM.from_pretrained("./llama3_model")
```

Esto optimiza el tiempo y evita depender de internet en cada ejecuci√≥n.

---

## Generar texto con Llama 3.2

Una vez que el modelo est√° cargado, podemos probarlo generando texto:

```python
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

# Definir el modelo
model_name = "meta-llama/Llama-3.2-1B"

# Cargar el tokenizer y el modelo
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

# Verificar si MPS est√° disponible y mover el modelo a GPU
device = torch.device("mps" if torch.backends.mps.is_available() else "cpu")
model.to(device)

# Tokenizar la entrada y mover a GPU
prompt = "Explica la importancia de la interpretabilidad en transformers."
inputs = tokenizer(prompt, return_tensors="pt").to(device)

# Generar texto con MPS activado
print("Generando texto...")
with torch.no_grad():
    outputs = model.generate(
        **inputs, 
        max_length=100,  # Reducido para mejorar velocidad
        temperature=0.7,  # Controla la aleatoriedad
        top_p=0.9  # Controla la diversidad de respuestas
    )
print("Generaci√≥n completada.")

# Decodificar la salida del modelo
texto_generado = tokenizer.decode(outputs[0], skip_special_tokens=True)
print("Texto generado:", texto_generado)

```

Este c√≥digo permite ver c√≥mo Llama 3.2 responde a una consulta en lenguaje natural.


# Explorando la arquitectura interna de Llama 3.2 1B

Antes de extraer salidas intermedias, es fundamental comprender c√≥mo est√° estructurado el modelo.

## 1Ô∏è Ver la configuraci√≥n general del modelo

La configuraci√≥n del modelo contiene informaci√≥n clave como:
- N√∫mero de capas (`num_hidden_layers`)
- Dimensi√≥n de los embeddings (`hidden_size`)
- N√∫mero de cabezas de atenci√≥n (`num_attention_heads`)
- Tama√±o de la capa intermedia MLP (`intermediate_size`)

```python
from transformers import AutoModelForCausalLM

model_name = "meta-llama/Llama-3.2-1B"
model = AutoModelForCausalLM.from_pretrained(model_name)

# Ver configuraci√≥n general del modelo
print(model.config)
```

### Explicaci√≥n detallada de la configuraci√≥n del modelo:

- **_name_or_path**: indica el nombre exacto del modelo que estamos utilizando.
- **architectures**: muestra la clase principal usada para la arquitectura, en este caso `LlamaForCausalLM`.
- **attention_bias**: especifica si hay un sesgo aplicado en las matrices de atenci√≥n (aqu√≠ es `false`).
- **attention_dropout**: nivel de abandono (dropout) aplicado en la atenci√≥n (0.0 significa sin dropout).
- **bos_token_id / eos_token_id**: identificadores especiales de inicio y fin de secuencia.
- **head_dim**: tama√±o de la dimensi√≥n de cada cabeza de atenci√≥n.
- **hidden_act**: funci√≥n de activaci√≥n en la MLP (aqu√≠ `silu`).
- **hidden_size**: tama√±o de la representaci√≥n oculta, es decir, la dimensi√≥n del embedding (2048).
- **initializer_range**: rango usado para inicializar los pesos.
- **intermediate_size**: tama√±o de la capa intermedia de la MLP (8192).
- **max_position_embeddings**: el m√°ximo n√∫mero de posiciones que puede procesar el modelo (131072).
- **mlp_bias**: indica si la MLP usa sesgos (falso en este caso).
- **model_type**: tipo de modelo (`llama`).
- **num_attention_heads**: n√∫mero de cabezas de atenci√≥n (32).
- **num_hidden_layers**: n√∫mero de capas Transformer (16).
- **num_key_value_heads**: n√∫mero de cabezas para valores y llaves (8).
- **pretraining_tp**: indica partici√≥n para entrenamiento (1 significa sin particiones).
- **rms_norm_eps**: valor epsilon para estabilidad num√©rica en normalizaci√≥n.
- **rope_scaling**: contiene par√°metros relacionados con el mecanismo de rotaci√≥n posicional (RoPE).
- **rope_theta**: par√°metro adicional para la frecuencia rotacional (500000.0).
- **tie_word_embeddings**: indica si las embeddings de entrada y salida est√°n ligadas.
- **torch_dtype**: tipo de datos usado (`float32`).
- **transformers_version**: versi√≥n de la librer√≠a Transformers usada (4.49.0).
- **use_cache**: indica si se utiliza cache para acelerar inferencias.
- **vocab_size**: tama√±o del vocabulario (128256 tokens).

---

## 2Ô∏è Ver cu√°ntos bloques Transformer tiene el modelo

El modelo tiene una lista de capas accesible con `model.model.layers`. Cada elemento es un bloque Transformer completo.

```python
# Visualizar la lista de bloques Transformer
print(model.model.layers)
```

### Explicaci√≥n l√≠nea por l√≠nea del resultado:

```plaintext
ModuleList(
  (0-15): 16 x LlamaDecoderLayer(
```
- `ModuleList`: indica que es una lista de m√≥dulos (capas).
- `(0-15): 16 x LlamaDecoderLayer`: el modelo tiene 16 capas numeradas de la 0 a la 15, cada una es un `LlamaDecoderLayer`.

```plaintext
    (self_attn): LlamaAttention(
```
- Cada capa contiene un m√≥dulo de autoatenci√≥n (`self_attn`).

```plaintext
      (q_proj): Linear(in_features=2048, out_features=2048, bias=False)
```
- `q_proj`: capa lineal que proyecta la consulta (query) desde 2048 a 2048 dimensiones.

```plaintext
      (k_proj): Linear(in_features=2048, out_features=512, bias=False)
```
- `k_proj`: proyecci√≥n de la clave (key) de 2048 dimensiones a 512.

```plaintext
      (v_proj): Linear(in_features=2048, out_features=512, bias=False)
```
- `v_proj`: proyecci√≥n del valor (value) de 2048 a 512 dimensiones.

```plaintext
      (o_proj): Linear(in_features=2048, out_features=2048, bias=False)
```
- `o_proj`: proyecta la salida de vuelta a 2048 dimensiones.

```plaintext
    )
```
- Fin del m√≥dulo de atenci√≥n.

```plaintext
    (mlp): LlamaMLP(
```
- Comienza la descripci√≥n del m√≥dulo MLP (multi-layer perceptron).

```plaintext
      (gate_proj): Linear(in_features=2048, out_features=8192, bias=False)
```
- `gate_proj`: primera capa lineal que expande la dimensi√≥n de 2048 a 8192.

```plaintext
      (up_proj): Linear(in_features=2048, out_features=8192, bias=False)
```
- `up_proj`: otra proyecci√≥n de expansi√≥n.

```plaintext
      (down_proj): Linear(in_features=8192, out_features=2048, bias=False)
```
- `down_proj`: reduce nuevamente de 8192 dimensiones a 2048.

```plaintext
      (act_fn): SiLU()
```
- `act_fn`: la funci√≥n de activaci√≥n usada es SiLU (Sigmoid Linear Unit).

```plaintext
    )
```
- Fin del m√≥dulo MLP.

```plaintext
    (input_layernorm): LlamaRMSNorm((2048,), eps=1e-05)
```
- `input_layernorm`: normalizaci√≥n de entrada.

```plaintext
    (post_attention_layernorm): LlamaRMSNorm((2048,), eps=1e-05)
```
- `post_attention_layernorm`: normalizaci√≥n despu√©s del bloque de atenci√≥n.

```plaintext
  )
)
```

---


## 3Ô∏è Analizar un bloque Transformer espec√≠fico

Para entender mejor la estructura interna, accedemos al primer bloque (√≠ndice 0):

```python
# Acceder al primer bloque Transformer
primer_bloque = model.model.layers[0]

# Ver la estructura interna del primer bloque
print(primer_bloque)
```
Al imprimir el contenido de un bloque Transformer, observamos la estructura de un **LlamaDecoderLayer**, que es la unidad b√°sica repetida en el modelo.

# Estructura del `LlamaDecoderLayer`

```python
LlamaDecoderLayer(
  (self_attn): LlamaAttention(
    (q_proj): Linear(in_features=2048, out_features=2048, bias=False)
    (k_proj): Linear(in_features=2048, out_features=512, bias=False)
    (v_proj): Linear(in_features=2048, out_features=512, bias=False)
    (o_proj): Linear(in_features=2048, out_features=2048, bias=False)
  )
  (mlp): LlamaMLP(
    (gate_proj): Linear(in_features=2048, out_features=8192, bias=False)
    (up_proj): Linear(in_features=2048, out_features=8192, bias=False)
    (down_proj): Linear(in_features=8192, out_features=2048, bias=False)
    (act_fn): SiLU()
  )
  (input_layernorm): LlamaRMSNorm((2048,), eps=1e-05)
  (post_attention_layernorm): LlamaRMSNorm((2048,), eps=1e-05)
)
```

# Desglose de cada componente:

#  **(self_attn): LlamaAttention**
Este bloque es el mecanismo de atenci√≥n, compuesto por:
- **q_proj**: Proyecci√≥n lineal de las queries.
- **k_proj**: Proyecci√≥n lineal de las keys (notar que reduce de 2048 a 512 dimensiones).
- **v_proj**: Proyecci√≥n lineal de los values (tambi√©n reduce de 2048 a 512 dimensiones).
- **o_proj**: Proyecci√≥n lineal para combinar el resultado de la atenci√≥n (vuelve a 2048).

###  **(mlp): LlamaMLP**
Es la red neuronal de m√∫ltiples capas, compuesta por:
- **gate_proj**: Proyecci√≥n lineal que lleva de 2048 a 8192 dimensiones.
- **up_proj**: Otra proyecci√≥n lineal de 2048 a 8192.
- **down_proj**: Reduce de 8192 de vuelta a 2048 dimensiones.
- **act_fn**: La funci√≥n de activaci√≥n no lineal **SiLU()**.

###  **Normalizaciones**
- **input_layernorm**: Normalizaci√≥n RMS antes de la atenci√≥n, estabiliza la entrada.
- **post_attention_layernorm**: Otra normalizaci√≥n RMS aplicada despu√©s del bloque de atenci√≥n.

## Observaciones importantes:
- Las proyecciones lineales con `bias=False` indican que no hay t√©rmino constante agregado.
- La reducci√≥n de dimensionalidad en las proyecciones de keys y values ayuda a ahorrar memoria y computaci√≥n.
- La MLP amplifica la representaci√≥n (multiplicando por 4 el tama√±o del vector) y luego la comprime, lo cual ayuda a capturar relaciones complejas.


---

## 4Ô∏è La MLP dentro de un bloque Transformer

Cada bloque Transformer contiene un subm√≥dulo `mlp` que es un perceptr√≥n multicapa con dos capas lineales y una activaci√≥n no lineal.

```python
# Visualizar la estructura de la MLP dentro del primer bloque
print(primer_bloque.mlp)
```

Al imprimir el contenido de la MLP dentro de un bloque Transformer, vemos la estructura siguiente:

```python
LlamaMLP(
  (gate_proj): Linear(in_features=2048, out_features=8192, bias=False)
  (up_proj): Linear(in_features=2048, out_features=8192, bias=False)
  (down_proj): Linear(in_features=8192, out_features=2048, bias=False)
  (act_fn): SiLU()
)
```

# Descripci√≥n de cada componente

  **gate_proj**
- Es una capa lineal que transforma un vector de dimensi√≥n 2048 a 8192.
- El nombre *gate* indica que se utiliza junto con una funci√≥n de activaci√≥n para controlar qu√© informaci√≥n pasa y qu√© se bloquea.
- No tiene sesgo (`bias=False`), lo que significa que solo es una multiplicaci√≥n lineal.

  **up_proj**
- Tambi√©n proyecta de 2048 a 8192 dimensiones.
- Funciona en conjunto con `gate_proj` para ampliar la representaci√≥n interna.

 **act_fn: SiLU()**
- La funci√≥n de activaci√≥n es **SiLU** (*Sigmoid Linear Unit*), que introduce no linealidad en la transformaci√≥n.
- Esta funci√≥n es suave y se ha demostrado eficaz en modelos grandes.

 **down_proj**
- Una vez ampliada y transformada la representaci√≥n, esta capa la reduce de nuevo de 8192 a 2048 dimensiones.
- La compresi√≥n permite que la informaci√≥n relevante pase, eliminando redundancia y permitiendo un procesamiento eficiente.

 ¬øPor qu√© estas proyecciones?  
La MLP dentro de un Transformer act√∫a como una red que:
1. Expande la representaci√≥n (de 2048 a 8192).
2. Aplica una activaci√≥n no lineal.
3. Comprime nuevamente a 2048 dimensiones.

Este proceso permite que la red capture relaciones m√°s complejas y refinadas que no podr√≠an obtenerse solo mediante capas de atenci√≥n.




## Interceptando la salida de la MLP en la capa n-√©sima

Para entender qu√© informaci√≥n est√° procesando el modelo, vamos a interceptar la salida de la MLP en una capa espec√≠fica.

### ¬øC√≥mo hacerlo?

Utilizaremos *hooks* de PyTorch.  
Un *hook* es una funci√≥n que se ejecuta autom√°ticamente cada vez que pasa informaci√≥n por una capa espec√≠fica.  
As√≠ podremos capturar la salida intermedia sin modificar el modelo.

---

### Paso 1Ô∏è: Definir una funci√≥n hook

Un hook es una funci√≥n que se ejecuta cada vez que la capa procesa informaci√≥n.
Esto nos permitir√° interceptar y guardar la salida intermedia de la MLP.

```python
# Diccionario para guardar las activaciones
activaciones_mlp = {}

# Funci√≥n hook para almacenar la salida
def guardar_salida_mlp(layer_num):
    def hook(module, input, output):
        activaciones_mlp[f'capa_{layer_num}'] = output.detach().cpu()
    return hook
```
**Explicaci√≥n:**
- `activaciones_mlp` es un diccionario donde almacenamos la salida de la MLP.
- `guardar_salida_mlp(layer_num)` devuelve una funci√≥n interna (hook) que captura el `output` de la MLP cuando se ejecuta el `forward`.
- `output.detach().cpu()` desconecta el tensor del grafo de c√≥mputo y lo pasa a la CPU para ahorrar memoria.

---

### Paso 2Ô∏è: Registrar el hook en la capa deseada

Elegimos el n√∫mero de capa `n` en la cual queremos interceptar la salida y registramos el hook.

```python
n = 5  # este numero lo cambiamos a gusto para interceptar la capa que se desee
handle = model.model.layers[n].mlp.register_forward_hook(guardar_salida_mlp(n))
```
**Explicaci√≥n:**
- Se elige la capa `n` donde quieres capturar la salida.
- `register_forward_hook()` vincula la funci√≥n hook a la capa MLP de ese bloque.
---

### Paso 3Ô∏è: Ejecutar una inferencia para activar el hook

Realizamos una inferencia normal; el hook capturar√° la salida autom√°ticamente.
# si no tienes definido donde correras el modelo, definirlo ahora con torch.device("mps" if torch.backends.mps.is_available() else 2cpu")
```python
prompt = "La interpretabilidad en transformers es fundamental."
inputs = tokenizer(prompt, return_tensors="pt").to(device)

with torch.no_grad():
    _ = model(**inputs)
```
**Explicaci√≥n:**
- Definimos el dispositivo para que el modelo y las entradas trabajen en la misma plataforma.
- El modelo ejecuta un `forward` sobre el `prompt`, y gracias al hook, se almacena autom√°ticamente la salida de la MLP de la capa interceptada.

---

### Paso 4Ô∏è: Visualizar la activaci√≥n interceptada

Revisamos qu√© se ha capturado y el tama√±o de la salida.

```python
print(f"Salida interceptada en la capa {n}:")
print(activaciones_mlp[f'capa_{n}'])
print(f"Forma de la salida: {activaciones_mlp[f'capa_{n}'].shape}")
```
**Explicaci√≥n de la salida:**
- La salida es un tensor tridimensional de forma `(1, secuencia, dimensiones)`.
- En este caso: `torch.Size([1, 11, 2048])` significa:
  - 1: solo un ejemplo procesado.
  - 11: tokens que forman la secuencia.
  - 2048: dimensi√≥n de la representaci√≥n interna que produce la MLP.
- Cada fila representa las activaciones (caracter√≠sticas) para un token en la capa interceptada.

---

### Paso 5: Eliminar el hook

Eliminamos el hook para liberar recursos y evitar que siga interceptando salidas.

```python
handle.remove()
**Explicaci√≥n:**
- El hook consume recursos y permanece activo mientras no se elimine.
- Siempre es buena pr√°ctica eliminarlo despu√©s de haber capturado la salida deseada.




## Verificando que la extracci√≥n de la salida MLP fue exitosa

Despu√©s de interceptar la salida de la MLP y ejecutar una inferencia, es importante comprobar que la captura fue realizada correctamente.

#### 1Ô∏è. Revisar las claves del diccionario
El diccionario `activaciones_mlp` debe contener una clave con el nombre `capa_n`.

```python
print(activaciones_mlp.keys())
```
Salida esperada:
```python
dict_keys(['capa_5'])  # Si n=5
```

#### 2Ô∏è. Comprobar el tama√±o de la activaci√≥n capturada

```python
print(activaciones_mlp[f'capa_{n}'].shape)
```
La forma t√≠pica ser√°:
- `(batch_size, sequence_length, hidden_size)`
- Por ejemplo: `(1, 15, 2048)` si el batch size es 1, el prompt tiene 15 tokens y el `hidden_size` es 2048.

#### 3Ô∏è. Visualizar valores ejemplo

```python
print(activaciones_mlp[f'capa_{n}'][0, 0, :10])  # Primer token, primeras 10 activaciones
```

---

## Explicaci√≥n matem√°tica y an√°lisis de la salida de la MLP

Dentro de cada bloque Transformer, la MLP es un mapeo no lineal que transforma la representaci√≥n obtenida despu√©s de la atenci√≥n.

### Formula general de la MLP

Si la entrada a la MLP es un vector $x \in \mathbb{R}^d$, la MLP realiza la siguiente operaci√≥n:

$$
\text{MLP}(x) = W_2(\sigma(W_1 x + b_1)) + b_2
$$

Donde:
- $W_1 \in \mathbb{R}^{d_{inter} \times d}$ es la matriz de pesos de la primera capa lineal (expansi√≥n).
- $b_1$ es el vector de sesgo (en Llama 3.2 puede ser nulo).
- $\sigma$ es la funci√≥n de activaci√≥n no lineal (SiLU).
- $W_2 \in \mathbb{R}^{d \times d_{inter}}$ es la matriz de compresi√≥n.
- $b_2$ es el vector de sesgo final.
- $d$ es la dimensi√≥n de entrada/salida (ejemplo: 2048).
- $d_{inter}$ es la dimensi√≥n intermedia expandida (ejemplo: 8192).

### Desglose paso a paso:

#### 1Ô∏è‚É£ Expansi√≥n lineal:
$$
z = W_1 x + b_1
$$
Se expande la representaci√≥n de $d$ a $d_{inter}$.

#### 2Ô∏è‚É£ Activaci√≥n SiLU:
$$
z_{act} = \text{SiLU}(z) = z \cdot \text{sigmoid}(z)
$$
La activaci√≥n SiLU introduce no linealidad suave, favoreciendo la estabilidad en modelos grandes.

#### 3Ô∏è‚É£ Compresi√≥n lineal:
$$
y = W_2 z_{act} + b_2
$$
Se reduce de nuevo la representaci√≥n a la dimensi√≥n original $d$.

### Correspondencia con el c√≥digo del modelo
En el bloque `LlamaMLP`, estas operaciones corresponden a:
- `gate_proj` y `up_proj`: expansi√≥n.
- `act_fn = SiLU()`: activaci√≥n.
- `down_proj`: compresi√≥n.

---

## An√°lisis de las activaciones capturadas

Una vez que interceptamos la salida de la MLP, obtenemos un tensor de forma:
$$
(\text{batch size}, \text{sequence length}, d)
$$

Interpretaci√≥n:
- La dimensi√≥n $d$ es la dimensi√≥n de activaci√≥n (ejemplo: 2048).
- Cada posici√≥n de la secuencia tiene un vector de activaciones, representando la respuesta del modelo para ese token en esa capa.

## Visualizaci√≥n b√°sica de las activaciones

### Mostrar el tama√±o de las activaciones
```python
# Ver forma de las activaciones
print(activaciones_mlp[f'capa_{n}'].shape)
```

### Graficar histograma de valores
```python
import matplotlib.pyplot as plt

activaciones = activaciones_mlp[f'capa_{n}'].flatten().numpy()

plt.hist(activaciones, bins=100, density=True)
plt.title(f"Distribuci√≥n de activaciones de la capa {n}")
plt.xlabel("Valor de activaci√≥n")
plt.ylabel("Frecuencia relativa")
plt.show()
```

### Calcular media y varianza de las activaciones
```python
print("Media de las activaciones:", activaciones.mean())
print("Varianza de las activaciones:", activaciones.var())
```

## Interpretaci√≥n de la distribuci√≥n
- Una media cercana a 0 y varianza controlada indican una activaci√≥n normalizada y estable.
- Valores extremos en la cola del histograma representan "picos" de activaci√≥n.
- Estos picos suelen corresponder a dimensiones que el modelo usa para tomar decisiones clave.

En la siguiente secci√≥n, se aplicar√° reducci√≥n de dimensionalidad (PCA o t-SNE) para visualizar estas representaciones en un espacio 2D o 3D y analizar agrupamientos sem√°nticos.


## Visualizaci√≥n avanzada de las activaciones de la MLP

### Reducci√≥n de dimensionalidad con PCA

Las activaciones que hemos capturado son vectores en un espacio de alta dimensi√≥n ($d=2048$). Para poder interpretarlas visualmente, usaremos **An√°lisis de Componentes Principales (PCA)**, que permite proyectar estos datos a un espacio de menor dimensi√≥n (usualmente 2D o 3D), preservando la mayor cantidad posible de varianza.

---

###  Explicaci√≥n matem√°tica de PCA (breve)

Dado un conjunto de datos $X$ con $m$ muestras y $d$ dimensiones, PCA:
1. Centra los datos restando la media.
2. Calcula la matriz de covarianza $C = X^T X / m$.
3. Obtiene los vectores propios y valores propios de $C$.
4. Ordena esos vectores propios y selecciona los primeros $k$ para proyectar los datos en un subespacio de dimensi√≥n $k$.

---

### Paso 1Ô∏è: Preparar los datos para PCA

```python
import numpy as np
from sklearn.decomposition import PCA

# Extraemos el tensor de activaciones (ejemplo: capa n)
activaciones_tensor = activaciones_mlp[f'capa_{n}']  # Shape: (batch_size, seq_length, hidden_dim)

# Convertimos el tensor en un arreglo 2D: (batch_size * seq_length, hidden_dim)
activaciones_2d = activaciones_tensor.reshape(-1, activaciones_tensor.shape[-1]).numpy()
```

---

### Paso 2Ô∏è: Aplicar PCA

```python
# Aplicamos PCA para reducir a 2 dimensiones
pca = PCA(n_components=2)
activaciones_pca = pca.fit_transform(activaciones_2d)

# Informaci√≥n sobre varianza explicada
print("Varianza explicada por cada componente:", pca.explained_variance_ratio_)
```

**Salida esperada:**
- Un array con dos valores que indican qu√© porcentaje de la varianza original es explicada por cada componente.
- Ejemplo:
```text
Varianza explicada por cada componente: [0.35 0.20]
```
Esto significar√≠a que el primer componente retiene el 35% de la varianza y el segundo el 20%.

---

### Paso 3Ô∏è: Graficar las activaciones proyectadas

```python
import matplotlib.pyplot as plt

plt.figure(figsize=(8, 6))
plt.scatter(activaciones_pca[:, 0], activaciones_pca[:, 1], alpha=0.3, s=10)
plt.title(f"Proyecci√≥n PCA de las activaciones de la capa {n}")
plt.xlabel("Componente principal 1")
plt.ylabel("Componente principal 2")
plt.grid(True)
plt.show()
```

**Salida esperada:**
- Un gr√°fico de dispersi√≥n (scatter plot) donde cada punto representa una posici√≥n de token proyectada a 2D.
- Pueden aparecer nubes densas o grupos de puntos, lo que indica que las activaciones tienen patrones estructurados.

---

En la siguiente secci√≥n explicaremos c√≥mo interpretar estas agrupaciones y qu√© significan en el contexto de la interpretabilidad mecanicista de transformers.


## Interpretaci√≥n de las agrupaciones observadas en PCA

Una vez que hemos proyectado las activaciones en 2D, podemos analizar visualmente los patrones:

### ¬øQu√© representan los grupos o nubes de puntos?
- Cada punto en el gr√°fico corresponde a un vector de activaci√≥n para un token espec√≠fico dentro del lote de entrada.
- Grupos densos indican que hay tokens o posiciones que comparten representaciones internas similares.
- Puntos alejados o dispersos pueden representar outliers o tokens con roles especiales (por ejemplo, delimitadores o s√≠mbolos que la red trata de manera particular).

---

### Ejemplos de interpretaci√≥n:
- Si observamos una nube central muy densa con algunas ramas o salidas laterales, esto indica que la mayor√≠a de las activaciones est√°n cerca de un espacio com√∫n, pero ciertos tokens activan dimensiones espec√≠ficas.
- Si aparecen subgrupos claramente diferenciados, puede ser evidencia de cl√∫sters sem√°nticos: grupos de tokens con funciones similares.

---

## Visualizaci√≥n avanzada con t-SNE 

El algoritmo **t-SNE** (t-distributed Stochastic Neighbor Embedding) es una t√©cnica de reducci√≥n de dimensionalidad no lineal, ideal para visualizar agrupaciones y relaciones locales.

### Paso 1Ô∏è: Aplicar t-SNE

```python
from sklearn.manifold import TSNE

# Reducimos primero con PCA a 50 dimensiones para mayor eficiencia
pca_50 = PCA(n_components=50)
activaciones_pca50 = pca_50.fit_transform(activaciones_2d)

# Ahora aplicamos t-SNE
print("Ejecutando t-SNE... (puede tardar unos segundos)")
tsne = TSNE(n_components=2, perplexity=30, learning_rate=200, n_iter=1000, verbose=1)
activaciones_tsne = tsne.fit_transform(activaciones_pca50)
```

### Paso 2Ô∏è: Graficar la proyecci√≥n t-SNE

```python
plt.figure(figsize=(8, 6))
plt.scatter(activaciones_tsne[:, 0], activaciones_tsne[:, 1], alpha=0.4, s=10, cmap="viridis")
plt.title(f"Visualizaci√≥n t-SNE de las activaciones de la capa {n}")
plt.xlabel("Dimensi√≥n 1")
plt.ylabel("Dimensi√≥n 2")
plt.grid(True)
plt.show()
```

---

## Interpretaci√≥n de t-SNE
- t-SNE permite observar relaciones locales: puntos cercanos en el gr√°fico representan activaciones similares.
- Clusters bien definidos son evidencia de estructuras internas aprendidas por la red.
- Si observamos brazos o ramificaciones, pueden indicar caminos de transformaci√≥n de informaci√≥n desde representaciones generales a espec√≠ficas.




## Comparando activaciones de la MLP entre diferentes prompts

Para entender a√∫n m√°s la interpretabilidad mecanicista, es √∫til comparar c√≥mo cambian las activaciones de la MLP al variar el texto de entrada.

---

### Paso 1Ô∏è: Definir diferentes prompts

```python
prompts = [
    "La inteligencia artificial est√° transformando la educaci√≥n.",
    "La biolog√≠a estudia los seres vivos y su entorno.",
    "Las matem√°ticas son el lenguaje del universo.",
    "El arte es una forma de expresi√≥n humana."
]
```

---

### Paso 2Ô∏è: Capturar las activaciones para cada prompt

```python
resultados_prompts = {}

for idx, prompt in enumerate(prompts):
    inputs = tokenizer(prompt, return_tensors="pt").to(device)
    
    # Interceptar con hook
    handle = model.model.layers[n].mlp.register_forward_hook(guardar_salida_mlp(f"prompt_{idx}"))
    
    with torch.no_grad():
        _ = model(**inputs)
    
    resultados_prompts[f'prompt_{idx}'] = activaciones_mlp[f'prompt_{idx}']
    handle.remove()
```

---

### Paso 3Ô∏è: Visualizar comparando prompts

Podemos graficar histogramas superpuestos:

```python
plt.figure(figsize=(10, 6))

for idx, prompt in enumerate(prompts):
    activaciones = resultados_prompts[f'prompt_{idx}'].flatten().numpy()
    plt.hist(activaciones, bins=100, alpha=0.3, density=True, label=f'Prompt {idx+1}')

plt.title(f"Comparaci√≥n de distribuciones de activaciones en la capa {n}")
plt.xlabel("Valor de activaci√≥n")
plt.ylabel("Frecuencia relativa")
plt.legend()
plt.show()
```

---

## Interpretaci√≥n
- Si las distribuciones son similares, la capa MLP est√° respondiendo de forma general.
- Diferencias notables entre prompts indican especializaci√≥n: ciertas dimensiones se activan m√°s seg√∫n el tipo de entrada.
- Esto respalda la idea de que la MLP refina informaci√≥n contextual.


## Conclusiones y recomendaciones

### Conclusiones principales:
1. **La MLP en cada bloque Transformer** act√∫a como un refinador de representaciones, expandiendo y comprimiendo la informaci√≥n despu√©s de la atenci√≥n.
2. **Las activaciones de la MLP** son vectores en espacios de alta dimensi√≥n que muestran estructuras internas, evidenciadas por patrones y agrupaciones cuando se proyectan a 2D.
3. **La variaci√≥n en las activaciones entre diferentes prompts** revela que la red ajusta sus representaciones dependiendo del contenido sem√°ntico de la entrada.
4. Las herramientas de reducci√≥n de dimensionalidad como **PCA** y **t-SNE** permiten visualizar y entender mejor la estructura interna de las activaciones.

---

###  Recomendaciones para futuros an√°lisis:
- Probar con m√°s prompts y dominios tem√°ticos (ciencia, arte, pol√≠tica) para observar especializaci√≥n.
- Realizar an√°lisis estad√≠sticos sobre las activaciones para medir dispersi√≥n, concentraci√≥n y valores extremos.
- Comparar activaciones entre capas tempranas y capas tard√≠as para ver c√≥mo evoluciona la informaci√≥n.
- Investigar qu√© dimensiones de la MLP dominan las salidas y c√≥mo est√°n correlacionadas con tokens clave.

---

###  Resumen para anexar al reporte:
- Se explic√≥ formalmente qu√© es la MLP y su funci√≥n dentro del modelo Llama 3.2.
- Se mostr√≥ c√≥mo interceptar la salida de la MLP utilizando hooks.
- Se analizaron las activaciones obtenidas mediante visualizaci√≥n b√°sica y avanzada.
- Se compararon las respuestas del modelo ante diferentes prompts.
- Se plantearon recomendaciones para un an√°lisis m√°s profundo en proyectos de interpretabilidad.

Este an√°lisis forma una base s√≥lida para demostrar comprensi√≥n te√≥rica, capacidad pr√°ctica y an√°lisis cr√≠tico en el proyecto de interpretabilidad mecanicista de transformers.
