# **Formulaci√≥n Matem√°tica de Autoencoders**

El estudio de los autoencoders, en general, es importante para poder interpretar lo que aprenden los modelos Transformer. Esta es una de las herramientas m√°s 
utilizadas actualmente para la interpretaci√≥n de dichos modelos. En esta secci√≥n se analizar√° la estructura matem√°tica de los autoencoders simples y, posteriormente,
 de los autoencoders sparsos, los cuales incorporan peque√±as penalizaciones en la funci√≥n de p√©rdida. Estas penalizaciones les otorgan propiedades particulares que 
 pueden ser √∫tiles para nuestros fines.


## **Autoencoder Simple**


### **Definici√≥n del Autoencoder**
Un **autoencoder** es una funci√≥n compuesta $ h: \mathcal{X} \to \mathcal{X} $ definida por la composici√≥n de dos funciones diferenciables:

$$
h(\mathbf{x}) = g_{\phi}\bigl(f_{\theta}(\mathbf{x})\bigr)
$$


donde, $f_{\theta}: \mathcal{X} \to \mathbb{R}^m$ es la **funci√≥n de codificaci√≥n (encoder)** y $g_{\phi}: \mathbb{R}^m \to \mathcal{X}$ es la **funci√≥n de decodificaci√≥n (decoder)**.

El objetivo del autoencoder es encontrar los par√°metros $\theta$ y $\phi$ tales que $h(\mathbf{x}) \approx \mathbf{x}$, minimizando una funci√≥n de p√©rdida adecuada.


### **Codificador (Encoder)**
El encoder transforma la entrada $\mathbf{x} \in \mathbb{R}^n$ en una representaci√≥n latente $\mathbf{z} \in \mathbb{R}^m$, con $m < n$ en el caso de reducci√≥n de dimensionalidad:

$$
\mathbf{z} = f_{\theta}(\mathbf{x}) = \sigma\bigl(W_e \,\mathbf{x} + \mathbf{b}_e\bigr)
$$

donde, $W_e \in \mathbb{R}^{m \times n}$ es la **matriz de pesos del encoder**, $\mathbf{b}_e \in \mathbb{R}^{m}$ es el **vector de sesgo**, $\sigma: \mathbb{R} \to \mathbb{R}$ es una funci√≥n de activaci√≥n (**ReLU**, **Sigmoid**, **Tanh**) y $\mathbf{z} \in \mathbb{R}^{m}$ es la representaci√≥n latente.


### **Decodificador (Decoder)**
El decoder reconstruye la entrada original a partir de $\mathbf{z}$:

$$
\hat{\mathbf{x}} = g_{\phi}(\mathbf{z}) = \sigma'\bigl(W_d \,\mathbf{z} + \mathbf{b}_d\bigr)
$$

donde, $W_d \in \mathbb{R}^{n \times m}$ es la **matriz de pesos del decoder**, $\mathbf{b}_d \in \mathbb{R}^{n}$ es el **vector de sesgo**, $\sigma': \mathbb{R} \to \mathbb{R}$ es una funci√≥n de activaci√≥n (puede diferir de $\sigma$) y $\hat{\mathbf{x}} \in \mathbb{R}^n$ es la **reconstrucci√≥n de la entrada**.


### **Funci√≥n de P√©rdida**

Es importante considerar que la funci√≥n de p√©rdida puede variar. En principio, el error cuadr√°tico medio (Mean Squared Error, MSE) es una de las m√°s utilizadas en autoencoders simples; sin embargo, dependiendo de la tarea a realizar, en algunos casos conviene m√°s utilizar una u otra.

Para un conjunto de datos 

$$
\mathcal{D} = \{\mathbf{x}_i\}_{i=1}^{N},
$$

el entrenamiento del autoencoder minimiza la diferencia entre la entrada $\mathbf{x}_i$ y la reconstrucci√≥n $\hat{\mathbf{x}}_i$. Usamos el **Error Cuadr√°tico Medio (MSE)** promediado:

$$
\mathcal{L}_{MSE} = \frac{1}{N} \sum_{i=1}^{N}
\left(
    \frac{1}{n} \sum_{j=1}^{n} 
    \bigl(x_{i,j} - \hat{x}_{i,j}\bigr)^2
\right).
$$

donde, $N$ es el n√∫mero total de muestras, $d$ es la dimensi√≥n de cada muestra $\mathbf{x}_i$, $x_{i,j}$ y $\hat{x}_{i,j}$ representan la $j$-√©sima componente de la muestra $\mathbf{x}_i$ y de su reconstrucci√≥n, respectivamente.

<br>
<details>
<summary>Nota: Sobre algunas otras funciones de p√©rdida. </summary>

El **Error cuadr√°tico medio** es ideal para datos continuos, como im√°genes con valores reales. Es f√°cil de usar y da resultados estables, pero puede generar salidas borrosas porque penaliza fuertemente los errores grandes.

**Binary Crossentropy** se usa cuando los datos est√°n entre 0 y 1, como im√°genes normalizadas. Funciona bien con activaciones como sigmoide, y modela la probabilidad de cada p√≠xel o bit.

La Binary Crossentropy se expresa como:

$$
\mathcal{L}_{BCE} = 
- \frac{1}{N \times d} \sum_{i=1}^{N} \sum_{j=1}^{d}
\Bigl[
    x_{i,j} \, \log\bigl(\hat{x}_{i,j}\bigr) 
    +
    \bigl(1 - x_{i,j}\bigr) \, \log\bigl(1 - \hat{x}_{i,j}\bigr)
\Bigr],
$$

donde $ d $ es la dimensi√≥n de cada muestra, $ x_{i,j} \in \{0,1\} $ y $ \hat{x}_{i,j} $ es la probabilidad estimada por el modelo para dicha componente. Esta funci√≥n de p√©rdida castiga fuertemente aquellas predicciones en las que $ \hat{x}_{i,j} $ difiere de $ x_{i,j} $ con alto grado de confianza (debido al uso del logaritmo).


**Categorical Crossentropy** es m√°s adecuada cuando la salida son categor√≠as, como texto o etiquetas. 
Para cuando cada muestra $ \mathbf{x}_i $ pertenece a una de $ K $ categor√≠as y se representa en formato *one-hot* (solo una de sus $ K $ posiciones es 1, mientras que el resto son 0), tenemos la **Categorical Crossentropy**:

$$
\mathcal{L}_{CCE} =
- \frac{1}{N}
\sum_{i=1}^{N}
\sum_{k=1}^{K}
x_{i,k} \,\log\bigl(\hat{x}_{i,k}\bigr),
$$

donde $ x_{i,k} $ es 1 si la clase $ k $ es la correcta para la muestra $ \mathbf{x}_i $, y $ \hat{x}_{i,k} $ es la probabilidad que el modelo asigna a la clase $ k $. El objetivo en este caso es alinear la distribuci√≥n pronosticada con la verdadera, penalizando fuertemente cuando la probabilidad de la clase correcta resulta ser baja.


</details>


### **Optimizaci√≥n**
El objetivo es encontrar los par√°metros $\theta$ y $\phi$ que minimicen la funci√≥n de p√©rdida:

$$
\theta^*, \phi^* = \arg \min_{\theta, \phi} \,\mathcal{L}_{MSE}.
$$

La optimizaci√≥n se resuelve mediante **descenso de gradiente**, por ejemplo usando una tasa de aprendizaje $\eta$:

$$
\theta \leftarrow \theta - \eta\,\nabla_{\theta} \,\mathcal{L}_{MSE},
\quad
\phi \leftarrow \phi - \eta\,\nabla_{\phi} \,\mathcal{L}_{MSE}.
$$


<details>
<summary>Nota: Sobre la optimizacion</summary>

Hay diferentes formas de optimizacion. 
</details>


<br>

## **Sparse Autoencoder**

Los sparse autoencoders son √∫tiles para interpretar modelos Transformer porque permiten identificar representaciones latentes significativas y m√°s f√°cilmente interpretables. Al forzar que solo una peque√±a parte del espacio latente se active para cada ejemplo, el modelo tiende a representar conceptos m√°s espec√≠ficos y dispersos. Esto facilita analizar qu√© tipo de informaci√≥n se activa internamente en respuesta a una entrada, ayudando a entender mejor c√≥mo el Transformer organiza y procesa los datos.

Los sparse autoencoders respetan la estructura del "autoencoder simple" y simplemente se a√±ade una **funci√≥n de penalizaci√≥n** que fomenta activaciones promedio bajas en la capa latente, lo que provoca la dispersi√≥n. 
Adem√°s, es importante considerar que el **espacio latente** puede ser distinto al de los autoencoders simples. El espacio latente puede llegar a ser mayor que el tama√±o de la entrada, pero esto depender√° del tipo de datos con los que se est√© trabajando. Si los datos tienen una estructura com√∫n o baja complejidad, entonces requerir√°n un espacio latente m√°s peque√±o que la entrada. Por otro lado, si los datos son m√°s complejos o variados, requerir√°n un espacio latente m√°s grande.
Aunque en la mayor√≠a de los SAEs usados en interpretabilidad de LLMs (Large Language Models) el tama√±o del espacio latente suele ser mayor que el de la entrada. 

 **Nota: anotar el caso de la dimensionalidad para el ejemplo a abordar.** 

<details>
<summary> Nota: Informaci√≥n extra sobre las funci√≥n de ponalizaci√≥n </summary>

Las funciones de penalizaci√≥n que inducen dispersi√≥n tienen en com√∫n que su objetivo es restringir el soporte efectivo del vector de representaci√≥n latente, es decir, promover que la mayor√≠a de sus componentes sean iguales o cercanos a cero. Para lograr esto, se introduce un t√©rmino adicional en la funci√≥n de p√©rdida que aumenta su valor cuando el n√∫mero o magnitud de componentes diferentes de cero en la representaci√≥n latente crece.

La condici√≥n de diferenciabilidad que suelen tener las funciones de penalizaci√≥n utilizadas en aprendizaje autom√°tico no es una necesidad te√≥rica, sino una conveniencia computacional. En teor√≠a, se pueden utilizar funciones no diferenciables como la norma L‚ÇÄ exacta para inducir dispersi√≥n, ya que definen perfectamente bien el problema de optimizaci√≥n. Sin embargo, en la pr√°ctica, los m√©todos est√°ndar como el descenso de gradiente requieren calcular derivadas, por lo que se favorecen penalizaciones suaves y diferenciables que permitan aplicar este tipo de algoritmos de forma eficiente.Por lo tanto, es totalmente v√°lido prescindir de esta restricci√≥n si se est√° dispuesto a trabajar con enfoques diferentes, aunque estos podr√≠an no ser √≥ptimos desde el punto de vista computacional.

</details>

### **Funciones de Penalizaci√≥n**


**Divergencia KL**

   Se define $\rho$ como la activaci√≥n deseada. La desviaci√≥n de $\hat{\rho}_j$ respecto a $\rho$ se mide con la **Divergencia KL**:

   $$
   \mathrm{KL}\bigl(\rho \,\|\, \hat{\rho}_j\bigr)
   =
   \rho \,\log \frac{\rho}{\hat{\rho}_j}
   \;+\;
   (1-\rho)\,\log \frac{1-\rho}{\,1-\hat{\rho}_j}.
   $$

   Donde la activaci√≥n promedio de la neurona $j$ es:

   $$
   \hat{\rho}_j = \frac{1}{N}\sum_{i=1}^N z_{i,j}.
   $$


<details>

<summary> Nota: Sobre la divergencia KL </summary>


**Definici√≥n General de la Divergencia KL**

La divergencia KL entre dos distribuciones de probabilidad $P(x)$ y $Q(x)$ se define como:

$$
D_{KL}(P \,\|\, Q) \;=\; \sum_{x} P(x)\,\log\!\Bigl(\tfrac{P(x)}{Q(x)}\Bigr).
$$

Donde, $P(x)$ es la distribuci√≥n de referencia, $Q(x)$ es la distribuci√≥n que usamos para aproximar a $P(x)$, La divergencia KL mide cu√°nta informaci√≥n se pierde cuando usamos $Q(x)$ en lugar de $P(x)$.

El principal objetivo de la divergencia de Kullback-Leibler (KL) es medir cu√°nta informaci√≥n se pierde cuando usamos una distribuci√≥n de probabilidad ùëÑ para aproximar otra distribuci√≥n P. En otras palabras, mide la diferencia entre dos distribuciones de probabilidad y nos dice cu√°nto nos alejamos de la distribuci√≥n "verdadera" al usar una aproximaci√≥n.


-- Imagen del articulo pendiente:  Solomon Kullback y Richard A. Leibler en su art√≠culo de 1951: "On Information and Sufficiency".


**Divergencia KL con Bernoulli**

Cuando $P$ y $Q$ son distribuciones de Bernoulli con par√°metros $\rho$ y $\hat{\rho}_j$, respectivamente, la variable aleatoria $X$ solo puede tomar los valores $0$ o $1$. Entonces:

- Para $X = 1$:
  
  $$
  P(1) = \rho, \quad Q(1) = \hat{\rho}_j.
  $$
  
- Para $X = 0$:
  
  $$
  P(0) = 1 - \rho, \quad Q(0) = 1 - \hat{\rho}_j.
  $$

Aplicamos la definici√≥n de la divergencia KL:

$$
D_{KL}(P \,\|\, Q) 
= \sum_{x \in \{0,1\}} P(x) \log \frac{P(x)}{Q(x)}.
$$

entonces,

$$
D_{KL}(\text{Bern}(\rho) \,\|\, \text{Bern}(\hat{\rho}_j))
=
\rho \,\log\!\Bigl(\tfrac{\rho}{\hat{\rho}_j}\Bigr)
\;+\;
(1-\rho)\,\log\!\Bigl(\tfrac{1-\rho}{1-\hat{\rho}_j}\Bigr).
$$

Esto nos da la divergencia KL espec√≠fica para dos distribuciones Bernoulli.



</details>

**Penalizaci√≥n $L_0$**

Otra funcion de penalizacion en la que nos centraremos por su uso practico en la aplicaci√≥n de este proyecto es la  regulacion **$L_0$**. La penalizaci√≥n $L_0$ (a veces denominada ‚Äúnorma $L_0$‚Äù) se define como el n√∫mero de elementos distintos de cero en un vector.  
Si $z_i \in \mathbb{R}^m$ es el vector de activaciones de la capa oculta para la muestra $i$, entonces la ‚Äúnorma‚Äù $L_0$ de $z_i$ se expresa como:

$$
\| z_i \|_0 \;=\; \bigl|\{\,j : z_{i,j} \neq 0\,\}\bigr|.
$$

En otras palabras, $\| z_i \|_0$ es simplemente la cantidad de neuronas que est√°n encendidas (activas) en la muestra $i$.  
Para todo el conjunto de datos, con $N$ muestras, la penalizaci√≥n $L_0$ se puede escribir de forma compacta como:

$$
L_0 \;=\; \sum_{i=1}^{N} \| z_i \|_0,
$$

o, de forma m√°s expl√≠cita:

$$
L_0 \;=\; \sum_{i=1}^{N} \sum_{j=1}^{m} \mathbf{1}(z_{i,j} \neq 0),
$$

vale 1 si la condici√≥n se cumple y 0 en caso contrario, $z_{i,j}$ es la activaci√≥n de la neurona $j$ en la muestra $i$, $N$ es el n√∫mero de muestras de entrenamiento y $m$ es el n√∫mero de neuronas en la capa oculta.
En la pr√°ctica, $L_0$ no es derivable con respecto a los par√°metros del modelo, por lo que se suele aproximar o sustituir por otras penalizaciones (como $L_1$), que permiten m√©todos de optimizaci√≥n basados en gradientes.


<details>
<summary> Nota: Otras funciones de penalizacion comunes </summary>


Otra opci√≥n muy usada es la **regularizaci√≥n L1 sobre las activaciones**, que consiste en sumar el valor absoluto de todas las activaciones de la capa oculta:

$$
\text{L1} 
= \sum_{i=1}^{N} \sum_{j=1}^{m} \bigl|\,z_{i,j}\bigr|.
$$

Esta penalizaci√≥n empuja directamente las activaciones a ser lo m√°s cercanas posible a cero, lo cual naturalmente genera *dispersi√≥n*.


Tambi√©n existe la **regularizaci√≥n L2 sobre activaciones**, que en lugar de tomar el valor absoluto, eleva las activaciones al cuadrado:

$$
\text{L2} 
= \sum_{i=1}^{N} \sum_{j=1}^{m} \bigl(z_{i,j}\bigr)^2.
$$

Esta penalizaci√≥n no genera dispersi√≥n tan fuerte como L1, pero ayuda a mantener las activaciones controladas.

</details>


### **Implementacion de la funci√≥n de penalizaci√≥n**

La estructura general de la fuci√≥n de perdida es la siguiente:
$$
   \mathcal{L}_{Sparse}
   =
   \mathcal{L}_{MSE}
   \;+\;
   \text{Funci√≥n de penalizaci√≥n}$$

Basicamente se a√±ade la funcion de penalizacion a la funci√≥n de perdida.


**Ejemplo de como implementar**  
   El t√©rmino de dispersi√≥n se agrega al MSE multiplicado por un factor $\beta$:

   $$
   \mathcal{L}_{Sparse}
   =
   \mathcal{L}_{MSE}
   \;+\;
   \beta \sum_{j=1}^{m} 
   \mathrm{KL}\bigl(\rho \,\|\, \hat{\rho}_j\bigr).
   $$

Este t√©rmino adicional obliga a que la **activaci√≥n promedio** de cada neurona $\hat{\rho}_j$ se acerque a $\rho$, convirtiendo as√≠ un autoencoder normal en un **autoencoder *disperso***.




##  **JumpReLU Sparse Autoencoder**

El JumpReLU Sparse Autoencoder es una arquitectura dise√±ada para obtener representaciones dispersas e interpretables de las activaciones internas de modelos de lenguaje grandes, como los transformers. Su prop√≥sito es decomponer vectores de activaci√≥n en combinaciones lineales de un conjunto de direcciones base (features), de manera que solo unas pocas de estas se activen en cada caso, permitiendo an√°lisis m√°s interpretables y eficientes.
JumpReLU SAE emplea una activaci√≥n modificada llamada JumpReLU, que introduce un umbral personalizado para cada feature. Esta peque√±a variaci√≥n permite mejorar tanto la dispersi√≥n como la fidelidad de reconstrucci√≥n sin sacrificar eficiencia computacional.
La importancia esta estructura de Autoencoder para este proyecto es que es la que se utilizara para los experimentos y sobre el modelo Gemma 2 (modelo Trasformer).


### **Estructura del modelo**

La estructura del modelo JumpReLU Sparse Autoencoder difiere poco del modelo de los Autoencoders Dispersos, y por lo tanto, tambi√©n de los Autoencoders simples. Hay que notar la similitud entre este modelo y los dem√°s. De esta forma, podemos observar que la diferencia principal est√° en el tipo de **funci√≥n de activaci√≥n del encoder**, su particular **funci√≥n de penalizaci√≥n** que se integra, y los desaf√≠os que implica incorporar dicha funci√≥n de penalizaci√≥n. Igualmente, en este caso no se implementar√° una funci√≥n de activaci√≥n en la parte del decoder.


### **Codificador**

Toma como entrada una activaci√≥n $x \in \mathbb{R}^n$ (proveniente de un transformer) y la proyecta a una representaci√≥n dispersa $f(x) \in \mathbb{R}^m$, con $m > n$:

$$
\mathbf{z} = f_{\theta}(\mathbf{x}) = \sigma\bigl(W_e \,\mathbf{x} + \mathbf{b}_e\bigr) = \text{JumpReLU}_\theta(W_{\text{e}} x + b_{\text{e}})
$$

$\text{JumpReLU}_\theta$: funci√≥n de activaci√≥n descrita m√°s abajo

### **Decodificador**

Reconstruye la activaci√≥n original $x$ a partir de su representaci√≥n dispersa:

$$
\hat{x} = W_{\text{d}} f(x) + b_{\text{d}}
$$

$W_{\text{d}} \in \mathbb{R}^{n \times M}$: matriz de pesos del decoder y $b_{\text{d}} \in \mathbb{R}^n$: vector de sesgos.

La raz√≥n por la que se decide evitar el uso de una funci√≥n de activaci√≥n en el decodificador es principalmente porque, en la aplicaci√≥n de este autoencoder a nuestro modelo de lenguaje, la entrada y la salida del autoencoder son vectores reales, ya que representan activaciones internas del modelo. Estas activaciones pueden ser positivas o negativas, y el objetivo del SAE es reconstruir exactamente esas activaciones internas, no convertirlas en otra cosa.

### **Funci√≥n de activaci√≥n JumpReLU**

La funci√≥n **JumpReLU** act√∫a como un ReLU con un umbral desplazado hacia la derecha. Se define como:

$$
\text{JumpReLU}_\theta(z_i) = 
\begin{cases}
z_i & \text{si } z_i > \theta_i \\
0 & \text{en otro caso}
\end{cases}
$$

O de forma compacta:

$$
\text{JumpReLU}_\theta(z) = z \cdot H(z - \theta)
$$

donde $H(\cdot)$ es la funci√≥n escal√≥n de Heaviside:

$$
H(a) =
\begin{cases}
1 & \text{si } a > 0 \\
0 & \text{si } a \leq 0
\end{cases}
$$

Esta funci√≥n permite activar solo aquellos razgos cuya preactivaci√≥n supere cierto umbral, evitando as√≠ "falsas activaciones" y mejorando la selectividad del encoder.


### **Funci√≥n de p√©rdida**

El entrenamiento del JumpReLU SAE se realiza minimizando una funci√≥n de p√©rdida.
La funci√≥n de p√©rdida es:

$$
L(x) = \underbrace{\|x - \hat{x}(f(x))\|_2^2}_{\text{Error de reconstrucci√≥n}} + \lambda \cdot \underbrace{\|f(x)\|_0}_{\text{Penalizaci√≥n de dispersi√≥n (L0)}}
$$

Esta parte ya est√° m√°s desallada en el apartado de las funciones de perdida. 


### **Entrenamiento con funciones no diferenciables**

La penalizaci√≥n $L_0$ y la funci√≥n escal√≥n $H(z - \theta)$ **no son diferenciables**, lo que complica el uso de backpropagation est√°ndar. Para solucionarlo, se usa una t√©cnica llamada **Straight-Through Estimator (STE)**, que permite calcular **gradientes aproximados** y as√≠ entrenar el modelo usando m√©todos convencionales de optimizaci√≥n.
