# **Autoencoder Simple: Formulación Matemática**
---

## 1. Definición del Autoencoder
Un **autoencoder** es una función compuesta $ h: \mathcal{X} \to \mathcal{X} $ definida por la composición de dos funciones diferenciables:

$$
h(\mathbf{x}) = g_{\phi}\bigl(f_{\theta}(\mathbf{x})\bigr)
$$

donde:

- $f_{\theta}: \mathcal{X} \to \mathbb{R}^m$ es la **función de codificación (encoder)**.
- $g_{\phi}: \mathbb{R}^m \to \mathcal{X}$ es la **función de decodificación (decoder)**.

El objetivo del autoencoder es encontrar los parámetros $\theta$ y $\phi$ tales que $h(\mathbf{x}) \approx \mathbf{x}$, minimizando una función de pérdida adecuada.

---

## 2. Codificador (Encoder)
El encoder transforma la entrada $\mathbf{x} \in \mathbb{R}^n$ en una representación latente $\mathbf{z} \in \mathbb{R}^m$, con $m < n$ en el caso de reducción de dimensionalidad:

$$
\mathbf{z} = f_{\theta}(\mathbf{x}) = \sigma\bigl(W_e \,\mathbf{x} + \mathbf{b}_e\bigr)
$$

donde:

- $W_e \in \mathbb{R}^{m \times n}$ es la **matriz de pesos del encoder**.
- $\mathbf{b}_e \in \mathbb{R}^{m}$ es el **vector de sesgo**.
- $\sigma: \mathbb{R} \to \mathbb{R}$ es una función de activación (e.g., **ReLU**, **Sigmoid**, **Tanh**).
- $\mathbf{z} \in \mathbb{R}^{m}$ es la representación latente.

---

## 3. Decodificador (Decoder)
El decoder reconstruye la entrada original a partir de $\mathbf{z}$:

$$
\hat{\mathbf{x}} = g_{\phi}(\mathbf{z}) = \sigma'\bigl(W_d \,\mathbf{z} + \mathbf{b}_d\bigr)
$$

donde:

- $W_d \in \mathbb{R}^{n \times m}$ es la **matriz de pesos del decoder**.
- $\mathbf{b}_n \in \mathbb{R}^{n}$ es el **vector de sesgo**.
- $\sigma': \mathbb{R} \to \mathbb{R}$ es una función de activación (puede diferir de $\sigma$).
- $\hat{\mathbf{x}} \in \mathbb{R}^n$ es la **reconstrucción de la entrada**.

---

## 4. Función de Pérdida
Para un conjunto de datos 

$$
\mathcal{D} = \{\mathbf{x}_i\}_{i=1}^{N},
$$

el entrenamiento del autoencoder minimiza la diferencia entre la entrada $\mathbf{x}_i$ y la reconstrucción $\hat{\mathbf{x}}_i$. Usamos el **Error Cuadrático Medio (MSE)** promediado:

$$
\mathcal{L}_{MSE} = \frac{1}{N} \sum_{i=1}^{N}
\left(
    \frac{1}{d} \sum_{j=1}^{d} 
    \bigl(x_{i,j} - \hat{x}_{i,j}\bigr)^2
\right).
$$

donde:

- $N$ es el número total de muestras.
- $d$ es la dimensión de cada muestra $\mathbf{x}_i$.
- $x_{i,j}$ y $\hat{x}_{i,j}$ representan la $j$-ésima componente de la muestra $\mathbf{x}_i$ y de su reconstrucción, respectivamente.

---

## 5. Optimización
El objetivo es encontrar los parámetros $\theta$ y $\phi$ que minimicen la función de pérdida:

$$
\theta^*, \phi^* = \arg \min_{\theta, \phi} \,\mathcal{L}_{MSE}.
$$

La optimización se resuelve mediante **descenso de gradiente**, por ejemplo usando una tasa de aprendizaje $\eta$:

$$
\theta \leftarrow \theta - \eta\,\nabla_{\theta} \,\mathcal{L}_{MSE},
\quad
\phi \leftarrow \phi - \eta\,\nabla_{\phi} \,\mathcal{L}_{MSE}.
$$

---

## 6. Resumen

1. **Encoder:**  
   $$
   \mathbf{z} = \sigma\bigl(W_e \,\mathbf{x} + \mathbf{b}_e\bigr)
   $$

2. **Decoder:**  
   $$
   \hat{\mathbf{x}} = \sigma'\bigl(W_d \,\mathbf{z} + \mathbf{b}_d\bigr)
   $$

3. **Pérdida (MSE Promediado):**  
   $$
   \mathcal{L}_{MSE} = \frac{1}{N} \sum_{i=1}^{N} \left(\frac{1}{n} \sum_{j=1}^{n} \bigl(x_{i,j} - \hat{x}_{i,j}\bigr)^2\right)
   $$

4. **Optimización:**  
   $$
   \theta^*, \phi^* = \arg \min_{\theta, \phi} \,\mathcal{L}_{MSE}
   $$

---

#  **Sparse Autoencoder**

Los sparse autoencoder respetan la estrucuta generla de un autoencoder simple pero para lograr que sea **disperso**, se añade un término de penalización que fomenta activaciones promedio bajas en la capa latente:

1. **Activación promedio de la neurona $j$:**  
   Sea $\mathbf{z}_i = f_{\theta}(\mathbf{x}_i)$ la salida del encoder para la muestra $i$. La **activación promedio** de la neurona $j$ es:

   $$
   \hat{\rho}_j = \frac{1}{N}\sum_{i=1}^N z_{i,j}.
   $$

2. **Penalización (Divergencia KL):**  
   Se define $\rho$ como la activación deseada (por ejemplo, $\rho=0.05$). La desviación de $\hat{\rho}_j$ respecto a $\rho$ se mide con la **Divergencia KL**:

   $$
   \mathrm{KL}\bigl(\rho \,\|\, \hat{\rho}_j\bigr)
   =
   \rho \,\log \frac{\rho}{\hat{\rho}_j}
   \;+\;
   (1-\rho)\,\log \frac{1-\rho}{\,1-\hat{\rho}_j}.
   $$

3. **Función de costo total (con dispersión):**  
   El término de dispersión se agrega al MSE multiplicado por un factor $\beta$:

   $$
   \mathcal{L}_{Sparse}
   =
   \mathcal{L}_{MSE}
   \;+\;
   \beta \sum_{j=1}^{m} 
   \mathrm{KL}\bigl(\rho \,\|\, \hat{\rho}_j\bigr).
   $$

Este término adicional obliga a que la **activación promedio** de cada neurona $\hat{\rho}_j$ se acerque a $\rho$, convirtiendo así un autoencoder normal en un **autoencoder *sparse***.

## 1. Definición General de la Divergencia KL

La divergencia KL entre dos distribuciones de probabilidad $P(x)$ y $Q(x)$ se define como:

$$
D_{KL}(P \,\|\, Q) \;=\; \sum_{x} P(x)\,\log\!\Bigl(\tfrac{P(x)}{Q(x)}\Bigr).
$$

Donde:

- $P(x)$ es la distribución de referencia.
- $Q(x)$ es la distribución que usamos para aproximar a $P(x)$.
- La divergencia KL mide cuánta información se pierde cuando usamos $Q(x)$ en lugar de $P(x)$.
---

## 2. Aplicando la Divergencia KL a la Bernoulli

Cuando $P$ y $Q$ son distribuciones de Bernoulli con parámetros $\rho$ y $\hat{\rho}_j$, respectivamente, la variable aleatoria $X$ solo puede tomar los valores $0$ o $1$. Entonces:

- Para $X = 1$:
  
  $$
  P(1) = \rho, \quad Q(1) = \hat{\rho}_j.
  $$
  
- Para $X = 0$:
  
  $$
  P(0) = 1 - \rho, \quad Q(0) = 1 - \hat{\rho}_j.
  $$

Aplicamos la definición de la divergencia KL:

$$
D_{KL}(P \,\|\, Q) 
= \sum_{x \in \{0,1\}} P(x) \log \frac{P(x)}{Q(x)}.
$$

Sustituyendo los valores para la distribución Bernoulli:

$$
D_{KL}(\text{Bern}(\rho) \,\|\, \text{Bern}(\hat{\rho}_j))
=
\rho \,\log\!\Bigl(\tfrac{\rho}{\hat{\rho}_j}\Bigr)
\;+\;
(1-\rho)\,\log\!\Bigl(\tfrac{1-\rho}{1-\hat{\rho}_j}\Bigr).
$$

Esto nos da la divergencia KL específica para dos distribuciones Bernoulli.
Así tenemos que la expresión anterior describe cuánta información se pierde cuando usamos una distribución Bernoulli con parámetro $\hat{\rho}_j$ para aproximar otra con parámetro $\rho$. Es especialmente útil en problemas de modelado probabilístico y aprendizaje automático.

