## Retropropagación


En el ámbito del aprendizaje automático y la inteligencia artificial, las redes neuronales artificiales han emergido como una herramienta fundamental para abordar problemas complejos de reconocimiento de patrones, clasificación y regresión. 

El algoritmo de retropropagación (backpropagation) es uno de los pilares fundamentales en el campo del aprendizaje profundo y las redes neuronales artificiales. Introducido en la década de 1980, ha permitido entrenar redes neuronales de múltiples capas, superando las limitaciones de los métodos anteriores y abriendo camino a los avances actuales en inteligencia artificial.


**Fundamentos de las redes neuronales artificiales**

Antes de adentrarnos en el algoritmo de retropropagación, es esencial comprender la estructura y funcionamiento básico de una red neuronal artificial (RNA).

1. **Neuronas artificiales**

   Una neurona artificial es una unidad de procesamiento que recibe una entrada, realiza una operación matemática y produce una salida. Matemáticamente, se define como:

   $$
   y = \phi\left(\sum_{i=1}^{n} w_i x_i + b\right)
   $$

   Donde:
   - $x_i$ son las entradas.
   - $w_i$ son los pesos asociados a cada entrada.
   - $b$ es el sesgo.
   - $\phi$ es la función de activación.
   - $y$ es la salida de la neurona.

2. **Capas y arquitectura de la red**

   - **Capa de entrada**: Recibe los datos de entrada.
   - **Capas ocultas**: Procesan la información mediante neuronas interconectadas.
   - **Capa de salida**: Produce la predicción o resultado final.

   La red neuronal se construye conectando neuronas en capas, donde la salida de una capa es la entrada de la siguiente.

3. **Función de activación**

   Las funciones de activación introducen no linealidad en la red, permitiendo que aprenda relaciones complejas entre las entradas y salidas. Algunas funciones comunes incluyen:

   - **Sigmoide**:
     $$
     \sigma(z) = \frac{1}{1 + e^{-z}}
     $$
   - **ReLU (Unidad lineal rectificada)**:
     $$
     \text{ReLU}(z) = \max(0, z)
     $$
   - **TanH (Tangente hiperbólica)**:
     $$
     \tanh(z) = \frac{e^{z} - e^{-z}}{e^{z} + e^{-z}}
     $$

---

**El problema del entrenamiento de redes neuronales**

El objetivo del entrenamiento es ajustar los pesos y sesgos de la red para que las predicciones $\hat{y}$ se acerquen lo más posible a los valores objetivos $y$. Esto se logra minimizando una función de pérdida $L(y, \hat{y})$, que cuantifica el error entre las predicciones y los objetivos.

**Función de pérdida común: error cuadrático medio (MSE)**

$$
L(y, \hat{y}) = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2
$$

Donde $n$ es el número de muestras.

**Desafío principal:**

- **Optimización de parámetros**: Encontrar los valores óptimos de los pesos y sesgos que minimicen la función de pérdida.
- **Computación de gradientes**: Calcular cómo la pérdida cambia con respecto a cada parámetro para ajustar los pesos en la dirección que reduce el error.

---

**El algoritmo de retropropagación**

La retropropagación es un algoritmo que calcula eficientemente los gradientes de la función de pérdida con respecto a todos los pesos y sesgos en la red neuronal. Se basa en la regla de la cadena del cálculo diferencial y permite actualizar los parámetros utilizando métodos de optimización como el descenso de gradiente.

**Pasos del algoritmo:**

1. **Pase hacia adelante (forward pass)**

   - Las entradas se propagan a través de la red para obtener las predicciones $\hat{y}$.
   - Se calcula la función de pérdida $L(y, \hat{y})$.

2. **Pase hacia atrás (backward pass)**

   - Se calcula el gradiente de la pérdida con respecto a las salidas de la red.
   - Se aplica la regla de la cadena para propagar los gradientes hacia atrás a través de cada capa.
   - Se calculan los gradientes con respecto a los pesos y sesgos.

3. **Actualización de parámetros**

   - Los pesos y sesgos se actualizan utilizando un algoritmo de optimización (p. ej., descenso de gradiente).

---

**Fundamentos matemáticos de la retropropagación**

1. **Regla de la cadena**

   La regla de la cadena es una herramienta fundamental en cálculo diferencial que permite calcular la derivada de una función compuesta.

   Si $y = f(u)$ y $u = g(x)$, entonces:

   $$
   \frac{dy}{dx} = \frac{dy}{du} \cdot \frac{du}{dx}
   $$

2. **Aplicación en redes neuronales**

   En una red neuronal, la salida depende de los pesos y las entradas a través de múltiples funciones compuestas. La retropropagación utiliza la regla de la cadena para calcular las derivadas parciales de la pérdida con respecto a cada parámetro.

---

**Derivación detallada del algoritmo de retropropagación**

Consideremos una red neuronal simple con una capa oculta y una capa de salida, similar al código proporcionado.

**Notaciones:**

- **Entradas y salidas:**

  - $\mathbf{x} = [x_1, x_2]^T$: Vector de entrada.
  - $\mathbf{y} = [y_1, y_2]^T$: Vector objetivo.
  - $\mathbf{\hat{y}} = [\hat{y}_1, \hat{y}_2]^T$: Predicciones de la red.

- **Pesos y sesgos:**

  - $\mathbf{W}^{(1)}$: Matriz de pesos de la capa oculta (dimensión $n_h \times n_x$).
  - $\mathbf{b}^{(1)}$: Vector de sesgos de la capa oculta (dimensión $n_h$).
  - $\mathbf{W}^{(2)}$: Matriz de pesos de la capa de salida (dimensión $n_y \times n_h$).
  - $\mathbf{b}^{(2)}$: Vector de sesgos de la capa de salida (dimensión $n_y$).

- **Activaciones:**

  - $\mathbf{z}^{(1)} = \mathbf{W}^{(1)} \mathbf{x} + \mathbf{b}^{(1)}$: Entradas a la capa oculta.
  - $\mathbf{a}^{(1)} = \sigma(\mathbf{z}^{(1)})$: Salidas de la capa oculta.
  - $\mathbf{z}^{(2)} = \mathbf{W}^{(2)} \mathbf{a}^{(1)} + \mathbf{b}^{(2)}$: Entradas a la capa de salida.
  - $\mathbf{a}^{(2)} = \sigma(\mathbf{z}^{(2)})$: Salidas de la red (predicciones $\mathbf{\hat{y}}$).

**Paso 1: Pase hacia adelante**

1. **Cálculo de $\mathbf{z}^{(1)}$**

   $$
   \mathbf{z}^{(1)} = \mathbf{W}^{(1)} \mathbf{x} + \mathbf{b}^{(1)}
   $$

2. **Cálculo de $\mathbf{a}^{(1)}$**

   $$
   \mathbf{a}^{(1)} = \sigma(\mathbf{z}^{(1)})
   $$

3. **Cálculo de $\mathbf{z}^{(2)}$**

   $$
   \mathbf{z}^{(2)} = \mathbf{W}^{(2)} \mathbf{a}^{(1)} + \mathbf{b}^{(2)}
   $$

4. **Cálculo de las predicciones $\mathbf{\hat{y}}$**

   $$
   \mathbf{\hat{y}} = \mathbf{a}^{(2)} = \sigma(\mathbf{z}^{(2)})
   $$

5. **Cálculo de la pérdida $L$**

   Usando MSE:

   $$
   L = \frac{1}{2} \sum_{i=1}^{n_y} (y_i - \hat{y}_i)^2
   $$

**Paso 2: Pase hacia atrás**

El objetivo es calcular $\frac{\partial L}{\partial \mathbf{W}^{(1)}}$, $\frac{\partial L}{\partial \mathbf{b}^{(1)}}$, $\frac{\partial L}{\partial \mathbf{W}^{(2)}}$, y $\frac{\partial L}{\partial \mathbf{b}^{(2)}}$.

1. **Gradiente en la capa de salida**

   - **Error en la salida ($\delta^{(2)}$)**:

     $$
     \delta^{(2)} = \frac{\partial L}{\partial \mathbf{z}^{(2)}} = (\mathbf{\hat{y}} - \mathbf{y}) \circ \sigma'(\mathbf{z}^{(2)})
     $$

     Donde $\circ$ denota el producto elemento a elemento, y $\sigma'$ es la derivada de la función sigmoide:

     $$
     \sigma'(z) = \sigma(z)(1 - \sigma(z))
     $$

   - **Gradiente de los pesos y sesgos de la capa de salida**:

     $$
     \frac{\partial L}{\partial \mathbf{W}^{(2)}} = \delta^{(2)} (\mathbf{a}^{(1)})^T
     $$

     $$
     \frac{\partial L}{\partial \mathbf{b}^{(2)}} = \delta^{(2)}
     $$

2. **Gradiente en la capa oculta**

   - **Error en la capa oculta ($\delta^{(1)}$)**:

     $$
     \delta^{(1)} = (\mathbf{W}^{(2)})^T \delta^{(2)} \circ \sigma'(\mathbf{z}^{(1)})
     $$

   - **Gradiente de los pesos y sesgos de la capa oculta**:

     $$
     \frac{\partial L}{\partial \mathbf{W}^{(1)}} = \delta^{(1)} \mathbf{x}^T
     $$

     $$
     \frac{\partial L}{\partial \mathbf{b}^{(1)}} = \delta^{(1)}
     $$

**Paso 3: Actualización de parámetros**

Usando el descenso de gradiente, los parámetros se actualizan:

- **Pesos**:

  $$
  \mathbf{W} = \mathbf{W} - \eta \frac{\partial L}{\partial \mathbf{W}}
  $$

- **Sesgos**:

  $$
  \mathbf{b} = \mathbf{b} - \eta \frac{\partial L}{\partial \mathbf{b}}
  $$

Donde $\eta$ es la tasa de aprendizaje.

---

**Derivación de las ecuaciones de retropropagación**

1. **Cálculo de $\delta^{(2)}$**

   La derivada de la pérdida con respecto a $\mathbf{z}^{(2)}$:

   $$
   \frac{\partial L}{\partial z^{(2)}_i} = \frac{\partial L}{\partial \hat{y}_i} \cdot \frac{\partial \hat{y}_i}{\partial z^{(2)}_i}
   $$

   Dado que:

   $$
   \frac{\partial L}{\partial \hat{y}_i} = \hat{y}_i - y_i
   $$

   Y:

   $$
   \frac{\partial \hat{y}_i}{\partial z^{(2)}_i} = \sigma'(z^{(2)}_i)
   $$

   Entonces:

   $$
   \delta^{(2)}_i = (\hat{y}_i - y_i) \sigma'(z^{(2)}_i)
   $$

2. **Cálculo de $\delta^{(1)}$**

   Para cada neurona $j$ en la capa oculta:

   $$
   \frac{\partial L}{\partial z^{(1)}_j} = \sum_{i} \frac{\partial L}{\partial z^{(2)}_i} \cdot \frac{\partial z^{(2)}_i}{\partial a^{(1)}_j} \cdot \frac{\partial a^{(1)}_j}{\partial z^{(1)}_j}
   $$

   Dado que:

   $$
   \frac{\partial z^{(2)}_i}{\partial a^{(1)}_j} = W^{(2)}_{ij}
   $$

   Y:

   $$
   \frac{\partial a^{(1)}_j}{\partial z^{(1)}_j} = \sigma'(z^{(1)}_j)
   $$

   Entonces:

   $$
   \delta^{(1)}_j = \left( \sum_{i} \delta^{(2)}_i W^{(2)}_{ij} \right) \sigma'(z^{(1)}_j)
   $$

---

**Interpretación intuitiva del algoritmo**

- **Propagación de errores**: Los errores se propagan desde la capa de salida hacia las capas anteriores, ajustando los pesos en cada capa para reducir el error en la salida.
- **Uso de la regla de la cadena**: Permite descomponer el gradiente global en gradientes locales, facilitando el cálculo de derivadas en redes profundas.
- **Actualización incremental**: Los pesos se actualizan en pequeños incrementos, moviéndose en la dirección que reduce la pérdida.

---

**Consideraciones sobre la función de activación sigmoide**

Aunque la función sigmoide es popular por su interpretación probabilística y su salida en el rango (0, 1), presenta algunos desafíos:

- **Desvanecimiento del gradiente**: Para valores extremos de $z$, la derivada $\sigma'(z)$ se acerca a cero, lo que puede ralentizar el aprendizaje.
- **Salida no cero-centrada**: La salida de la sigmoide siempre es positiva, lo que puede afectar la dinámica del entrenamiento.

Alternativas como ReLU o funciones de activación cero-centradas pueden mitigar estos problemas.

---

**Implementación del algoritmo en PyTorch**

PyTorch facilita la implementación del algoritmo de retropropagación mediante su módulo `autograd`, que automatiza el cálculo de gradientes.

1. **Definición del modelo**

   Utilizando `nn.Module`, se definen las capas y las funciones de activación.

   ```python
   class NeuralNetwork(nn.Module):
       def __init__(self, num_inputs, num_hidden, num_outputs):
           super(NeuralNetwork, self).__init__()
           self.hidden_layer = nn.Linear(num_inputs, num_hidden)
           self.output_layer = nn.Linear(num_hidden, num_outputs)
           self.sigmoid = nn.Sigmoid()

       def forward(self, x):
           hidden = self.sigmoid(self.hidden_layer(x))
           output = self.sigmoid(self.output_layer(hidden))
           return output
   ```

2. **Proceso de entrenamiento**

   - **Pase hacia adelante**: `outputs = model(inputs)`
   - **Cálculo de la pérdida**: `loss = criterion(outputs, targets)`
   - **Retropropagación**: `loss.backward()`
   - **Actualización de parámetros**: `optimizer.step()`

3. **Automatización de gradientes**

   PyTorch rastrea automáticamente las operaciones sobre los tensores y calcula los gradientes necesarios durante `loss.backward()`.

---

**Limitaciones y consideraciones prácticas**

1. **Tasa de aprendizaje**

   - **Selección apropiada**: Una tasa de aprendizaje demasiado alta puede provocar oscilaciones o divergencia; demasiado baja puede ralentizar el aprendizaje.
   - **Algoritmos adaptativos**: Optimizadores como Adam o RMSprop ajustan la tasa de aprendizaje durante el entrenamiento.

2. **Sobreajuste**

   - **Definición**: El modelo aprende demasiado bien los datos de entrenamiento y no generaliza a datos nuevos.
   - **Mitigación**: Uso de regularización, early stopping, o aumento de datos.

3. **Inicialización de pesos**

   - **Importancia**: Una mala inicialización puede dificultar el entrenamiento.
   - **Estrategias**: Inicialización aleatoria con distribuciones específicas o técnicas como Xavier/He inicialización.

4. **Funciones de activación alternativas**

   - **ReLU**: Evita el problema del desvanecimiento del gradiente en redes profundas.
   - **Leaky ReLU**: Variante que permite un pequeño gradiente cuando la entrada es negativa.

---

**Avances posteriores al algoritmo de retropropagación**

Aunque la retropropagación sigue siendo el método estándar para entrenar redes neuronales, se han desarrollado técnicas y mejoras:

1. **Batch normalization**

   - **Objetivo**: Acelerar el entrenamiento y mejorar la estabilidad.
   - **Método**: Normalizar las activaciones de cada mini-lote.

2. **Dropout**

   - **Objetivo**: Evitar el sobreajuste.
   - **Método**: Durante el entrenamiento, se "apagan" aleatoriamente neuronas.

3. **Optimizadores avanzados**

   - **Adam**: Combina las ventajas de AdaGrad y RMSprop.
   - **Adadelta, AdaMax**: Adaptan la tasa de aprendizaje basándose en el historial de gradientes.



In [1]:
import torch
import torch.nn as nn
import torch.optim as optim

class NeuralNetwork(nn.Module):
    def __init__(self, num_inputs, num_hidden, num_outputs):
        super(NeuralNetwork, self).__init__()
        self.hidden_layer = nn.Linear(num_inputs, num_hidden)
        self.output_layer = nn.Linear(num_hidden, num_outputs)
        self.sigmoid = nn.Sigmoid()

    def forward(self, x):
        hidden = self.sigmoid(self.hidden_layer(x))
        output = self.sigmoid(self.output_layer(hidden))
        return output

# Cambiando el nombre de la instancia para evitar confusión
model = NeuralNetwork(num_inputs=2, num_hidden=2, num_outputs=2)

# Optimizador y función de pérdida
optimizer = optim.SGD(model.parameters(), lr=0.5)
criterion = nn.MSELoss()  # Instancia correctamente MSELoss

# Datos de entrenamiento
inputs = torch.tensor([[0.05, 0.1]], dtype=torch.float32)
targets = torch.tensor([[0.01, 0.99]], dtype=torch.float32)

# Bucle de entrenamiento
for i in range(10000):
    model.zero_grad()           # Resetea los gradientes
    outputs = model(inputs)     # Pase hacia adelante
    loss = criterion(outputs, targets)  # Calcula la pérdida
    loss.backward()             # Pase hacia atrás
    optimizer.step()            # Actualiza los parámetros

    if i % 1000 == 0:
        print(f'Epoca {i}, Perdida: {loss.item()}')

# Código opcionalmente añadido para validación/pruebas
# Supongamos que tenemos datos de validación:
validation_inputs = torch.tensor([[0.1, 0.2]], dtype=torch.float32)
validation_targets = torch.tensor([[0.05, 0.95]], dtype=torch.float32)

# Evaluar el modelo en modo de evaluación
model.eval()
with torch.no_grad():  # Desactiva el cálculo de gradientes
    validation_outputs = model(validation_inputs)
    validation_loss = criterion(validation_outputs, validation_targets)
    print(f'Pérdida de validación: {validation_loss.item()}')


Epoca 0, Perdida: 0.26962941884994507
Epoca 1000, Perdida: 0.00028327354812063277
Epoca 2000, Perdida: 9.581194899510592e-05
Epoca 3000, Perdida: 4.695755342254415e-05
Epoca 4000, Perdida: 2.686593506950885e-05
Epoca 5000, Perdida: 1.674771192483604e-05
Epoca 6000, Perdida: 1.1025298590539023e-05
Epoca 7000, Perdida: 7.537267265433911e-06
Epoca 8000, Perdida: 5.296076324157184e-06
Epoca 9000, Perdida: 3.7999598134774715e-06
Pérdida de validación: 0.0014848790597170591


### Ejercicios

**Ejercicio 1:** Implementación manual del algoritmo  de retropropagación

Crea una red neuronal simple (por ejemplo, una red con una capa oculta) desde cero en Python. Implementa manualmente el algoritmo de retropropagación para actualizar los pesos de la red.  Utiliza esta red para entrenar un modelo que pueda clasificar puntos en dos clases basadas en su posición en un plano 2D. Genera datos sintéticos que sean linealmente separables.

**Ejercicio 2:**  Comparación de funciones de activación

Modifica la red del ejercicio 1 para probar diferentes funciones de activación (ReLU, sigmoidal, tanh) en la capa oculta.  Compara el rendimiento del entrenamiento con cada función de activación. Observa cómo cambia la rapidez de convergencia y si alguna configuración es particularmente propensa a problemas como el desvanecimiento o la explosión de gradientes.

**Ejercicio 3:** Retropropagación con regularización

Añade L2 (ridge) o L1 (lasso) regularización a la red neuronal que creaste en el ejercicio 1. Entrena la red en un conjunto de datos más complejo que introduzca algo de ruido y observa si la regularización ayuda a mejorar la generalización del modelo.

**Ejercicio 4:** Experimentando con tamaños de batch

Implementa la retropropagación utilizando diferentes tamaños de batch: desde el descenso de gradiente estocástico (un ejemplo a la vez) hasta el descenso de gradiente por lotes (usando todo el conjunto de datos a la vez). Analiza cómo cambian la estabilidad y la velocidad de convergencia del entrenamiento con los diferentes tamaños de batch. Considera incluir una visualización de la disminución de la pérdida a lo largo de las iteraciones para cada configuración de tamaño de batch.

**Ejercicio 5:**  Optimización de Hiperparámetros

Utiliza la red neuronal del ejercicio 1 y experimenta con diferentes tasas de aprendizaje y números de épocas de entrenamiento. Implementa una búsqueda de cuadrícula o aleatoria para encontrar la combinación óptima de tasa de aprendizaje y número de épocas. Evalúa el rendimiento del modelo en un conjunto de validación para determinar la mejor configuración de hiperparámetros.

In [2]:
## Tus respuestas

## Backpropagation Through Time (BPTT)

En este documento, explicaremos el algoritmo de retropropagación a través del tiempo (BPTT), un método de retropropagación utilizado para entrenar redes neuronales recurrentes (RNN). Mostraremos tanto la derivación matemática como la implementación en código utilizando PyTorch, lo que nos permitirá comparar los gradientes calculados automáticamente por PyTorch con los calculados manualmente.

#### Definición matemática de una RNN

En primer lugar, definamos matemáticamente cómo funciona una RNN en cada paso de tiempo $ t $.

Sea $ x_t \in \mathbb{R}^{d_x} $ un vector de entrada en el paso de tiempo $ t $. Una RNN de tamaño $ d_h $ calcula su estado oculto $ h_t $ como:

$$
\begin{align*}
  r_t &= U x_t + V h_{t-1} + b \\
  h_t &= f(r_t)
\end{align*}
$$

donde:
- $ U \in \mathbb{R}^{d_h \times d_x} $ y $ V \in \mathbb{R}^{d_h \times d_h} $ son matrices de pesos,
- $ b \in \mathbb{R}^{d_h} $ es un vector de sesgo,
- $ f $ es una función de activación no lineal, comúnmente la tangente hiperbólica ($ \tanh $).

El vector de salida $ y_t \in \mathbb{R}^{d_o} $ se calcula como:

$$
\begin{align*}
  s_t &= W h_t + c \\
  y_t &= g(s_t)
\end{align*}
$$

donde:
- $ W \in \mathbb{R}^{d_o \times d_h} $ es una matriz de pesos,
- $ c \in \mathbb{R}^{d_o} $ es un vector de sesgo,
- $ g $ es una función de salida no lineal, como la softmax para tareas de clasificación.

**Nota:** Los parámetros $U$, $V$, $W$, $b $ y $ c $ se comparten a lo largo de todos los pasos de tiempo, es decir, no hay matrices de pesos separadas para cada paso de tiempo.

#### Funciones de activación

- **Función de activación oculta ($f$):** Comúnmente se utiliza la tangente hiperbólica ($\tanh$) o la función sigmoide ($\sigma$) debido a su capacidad para introducir no linealidades en el modelo.
  
  $$
  f(r_t) = \tanh(r_t) \quad \text{o} \quad f(r_t) = \sigma(r_t)
  $$

- **Función de salida ($g$):** Depende de la tarea específica. Por ejemplo, para problemas de clasificación, se emplea la función softmax:

  $$
  g(s_t)_i = \frac{e^{s_{t,i}}}{\sum_{j=1}^{d_o} e^{s_{t,j}}}
  $$


Durante el entrenamiento de una RNN, se define una función de pérdida que acumula las diferencias entre las predicciones $y_t$ y las etiquetas reales a lo largo de todos los pasos de tiempo. 
Debido a la naturaleza recurrente de las RNN, los errores deben propagarse hacia atrás a través de todos los pasos de tiempo para actualizar los parámetros $ U $, $V$, $W$, $b$ y $c$. Este proceso se denomina Retropropagación a través del Tiempo (BPTT).

El algoritmo BPTT extiende la retropropagación estándar al descomponer la RNN a través del tiempo y aplicar la retropropagación en esta estructura expandida. Esto permite calcular los gradientes de la función de pérdida respecto a cada uno de los parámetros de la red, teniendo en cuenta las dependencias temporales.



### Proceso del algoritmo

Sea $L = \mathcal{L}(y_t)$ la pérdida de nuestra RNN. Uno podría intentar derivar los gradientes de $U$, $V$, $W$ de manera ingenua. Por ejemplo, para calcular el gradiente sobre $W$:

$$
\frac{\partial L}{\partial W_{ij}} = \sum_k \frac{\partial L}{\partial (s_t)_k} \frac{\partial (s_t)_k}{\partial W_{ij}}
$$

Dado que

$$
\frac{\partial (s_t)_k}{\partial W_{ij}} =
\begin{cases}
0 & k \neq i \\
(h_t)_j & \text{de lo contrario}
\end{cases}
$$

tenemos

$$
\frac{\partial L}{\partial W_{ij}} = \frac{\partial L}{\partial (s_t)_i}.(h_t)_j
$$

O, en notación matricial

$$
\overline{W} = \overline{s}_t.h_t^{\top}
$$

donde la notación de barra denota el gradiente de $L$ con respecto a la matriz correspondiente, es decir, $\overline{A}_{ij} = \frac{\partial L}{\partial A_{ij}}$ y $\overline{a}_i = \frac{\partial L}{\partial a_i}$.

Sin embargo, esto es **incorrecto**. Dado que $W$ se comparte a lo largo de los pasos de tiempo, contribuye a $s_t$ para *todos* los pasos de tiempo  $t$. Por lo tanto, al calcular el gradiente, necesitamos sumar los gradientes de todos los pasos de tiempo. En otras palabras, lo que necesitamos es:

$$
\overline{W} = \sum_t \overline{s}_t. h_t^{\top}
$$

Los gradientes sobre $U$ y $V$ se pueden calcular de manera similar, es decir

$$
\begin{align*}
  \overline{U} &= \sum_t \overline{r}_t . x_t^{\top} \\
  \overline{V} &= \sum_t \overline{r}_t .h_{t-1}^{\top}
\end{align*}
$$

**Gradiente sobre $r_t$**

Gradiente sobre $r_t$ es:

$$
\begin{align*}
  \frac{\partial L}{\partial (r_t)_i}
  &= \sum_j \frac{\partial L}{\partial (h_t)_j}. \frac{\partial (h_t)_j}{\partial (r_t)_i} \\
  &= \frac{\partial L}{\partial (h_t)_i}. f' (r_t)_i
\end{align*}
$$

O, en notación vectorial

$$
\overline{r}_t = \overline{h}_t \circ f' (r_t)
$$

De manera similar, el gradiente sobre $s_t$ se puede mostrar como $\overline{s}_t = \overline{y}_t \circ g' (s_t)$.

**Gradiente sobre $h_t$** 

Por último, necesitamos calcular $\overline{h}_t$. Note que $h_t$ contribuye a $s_t$, y si $t$ no es el último paso de tiempo, entonces también contribuye a $r_{t+1}$. Por lo tanto, si $T$ denota el último paso de tiempo, entonces

$$
\begin{align*}
  \frac{\partial L}{\partial (h_T)_i}
  &= \sum_j \frac{\partial L}{\partial (s_T)_j}. \frac{\partial (s_T)_j}{\partial (h_T)_i} \\
  &= \sum_j \frac{\partial L}{\partial (s_T)_j}.W_{ji}
\end{align*}
$$

y para $t < T$

$$
\begin{align*}
  \frac{\partial L}{\partial (h_t)_i}
  &= \sum_j \frac{\partial L}{\partial (s_t)_j}. \frac{\partial (s_t)_j}{\partial (h_t)_i}
  + \sum_k \frac{\partial L}{\partial (r_{t+1})_k}. \frac{\partial (r_{t+1})_k}{\partial (h_t)_i} \\
  &= \sum_j \frac{\partial L}{\partial (s_t)_j}.W_{ji}
  + \sum_k \frac{\partial L}{\partial (r_{t+1})_k}.V_{ki}
\end{align*}
$$

En notación matricial (y combinando los dos)

$$
\overline{h}_t = W^{\top}. \overline{s}_t +
\begin{cases}
0 & t = T \\
V^{\top}. \overline{r}_{t+1} & \text{si} t < T
\end{cases}
$$


### Implementacion en PyTorch

La implementación del cálculo hacia adelante es bastante directa. Comenzamos desde el paso de tiempo 1 y calculamos $ r_t $, $ h_t $, $ s_t $ y $ y_t $, dadas las entradas $ x_t $ y $ h_{t-1} $, hasta el último paso de tiempo $ T $. Iniciamos desde el paso de tiempo 1 porque, en la relación de recurrencia, para calcular $ r_t $ necesitamos $ h_{t-1} $. Por lo tanto, el paso de tiempo anterior debe completarse primero.

La implementación del cálculo hacia atrás es similar, pero en este caso comenzamos desde el último paso de tiempo $ T $ y retrocedemos hasta el primero. Esto se debe a que, en la relación de recurrencia, necesitamos $ \overline{r}_{t+1} $ para calcular $ \overline{h}_t $. Así, el siguiente paso de tiempo debe completarse previamente. Además, a medida que iteramos, necesitamos acumular los gradientes en $ U $, $ V $ y $ W $.

Primero, vamos a crear una clase `RNNCell`. Esta clase es responsable de un solo paso de tiempo y contiene métodos `forward` y `backward` que realizan los cálculos hacia adelante y hacia atrás, respectivamente."


In [3]:
import torch

In [4]:
class RNNCell:
    """Una celda RNN responsable de un solo paso de tiempo.

    Args:
        inp_sz (int): Tamaño de la entrada.
        hid_sz (int): Tamaño del estado oculto.
        out_sz (int): Tamaño de la salida.
    """
    def __init__(self, inp_sz, hid_sz, out_sz):
        self.inp_sz = inp_sz
        self.hid_sz = hid_sz
        self.out_sz = out_sz

        # U, V, W son los parámetros, por lo que establecemos requires_grad=True
        # para indicar a PyTorch que necesitamos calcular los gradientes
        self.U = torch.empty(hid_sz, inp_sz, requires_grad=True)
        self.V = torch.empty(hid_sz, hid_sz, requires_grad=True)
        self.W = torch.empty(out_sz, hid_sz, requires_grad=True)

        # Estos son los gradientes en U, V y W que calcularemos
        # manualmente. También los compararemos con
        # los gradientes calculados por PyTorch para ver si nuestro
        # cálculo de gradientes es correcto.
        self.U_grad = torch.zeros_like(self.U)
        self.V_grad = torch.zeros_like(self.V)
        self.W_grad = torch.zeros_like(self.W)
        
        self.reset_parameters()

    def reset_parameters(self):
        """Inicializar parámetros.

        Los parámetros se inicializarán desde la distribución uniforme U(-0.1, 0.1).
        """
        s = 0.1  # un valor mayor puede hacer que los gradientes exploten
        torch.nn.init.uniform_(self.U, -s, s)
        torch.nn.init.uniform_(self.V, -s, s)
        torch.nn.init.uniform_(self.W, -s, s)
    def zero_grad(self):
        """Se pone el gradiente a cero"""
        self.U_grad.zero_()
        self.V_grad.zero_()
        self.W_grad.zero_()
    
    def forward(self, x, hp):
        """Realizar el cálculo hacia adelante.
        
        Args:
            x (Tensor): Entrada en el paso de tiempo actual.
            hp (Tensor): Estado oculto en el paso de tiempo anterior.
            
        Returns:
            Tensor: Salida en el paso de tiempo actual.
            Tensor: Estado oculto en el paso de tiempo actual.
        """
        _, h, _, y = self._get_internals(x, hp)
        return y, h

    def backward(self, y_grad, rn_grad, x, hp):
        """Realizar el cálculo hacia atrás.
        
        Args:
            y_grad (Tensor): Gradiente sobre la salida en el paso de tiempo actual.
            rn_grad (Tensor): Gradiente sobre el vector r en el siguiente paso de tiempo.
            x (Tensor): Entrada en el paso de tiempo actual que se pasó a `forward`.
            hp (Tensor): Estado oculto en el paso de tiempo anterior que se pasó a `forward`.
            
        Returns:
            Tensor: Gradiente sobre el vector r en el paso de tiempo actual.
        """
        # Obtener los vectores internos r, h, y s del cálculo hacia adelante
        r, h, s, _ = self._get_internals(x, hp)

        s_grad = y_grad * torch.sigmoid(s) * (1-torch.sigmoid(s))
        h_grad = self.W.t().matmul(s_grad) + self.V.t().matmul(rn_grad)
        r_grad = h_grad * torch.sigmoid(r) * (1-torch.sigmoid(r))

        # Los gradientes de los parámetros se acumulan
        self.U_grad += r_grad.view(-1, 1).matmul(x.view(1, -1))
        self.V_grad += r_grad.view(-1, 1).matmul(hp.view(1, -1))
        self.W_grad += s_grad.view(-1, 1).matmul(h.view(1, -1))

        return r_grad

    def _get_internals(self, x, hp):
        # Estos son los calculos forward reales
        r = self.U.matmul(x) + self.V.matmul(hp)
        h = torch.sigmoid(r)
        s = self.W.matmul(h)
        y = torch.sigmoid(s)
        
        return r, h, s, y


Ahora, creemos una clase RNN. Esta clase acepta una RNNCell y es responsable de realizar la iteración sobre los pasos de tiempo.

In [5]:
class RNN:
    def __init__(self, cell):
        self.cell = cell
    
    def forward(self, xs, h0):
        """Realiza la computación hacia adelante para todos los pasos de tiempo.
        
        Args:
            xs (Tensor): Tensor 2-D de entradas para cada paso de tiempo. La
                primera dimensión corresponde al número de pasos de tiempo.
            h0 (Tensor): Estado oculto inicial.
            
        Returns:
            Tensor: Tensor 2-D de salidas para cada paso de tiempo. La primera
                dimensión corresponde al número de pasos de tiempo.
            Tensor: Tensor 2-D de estados ocultos para cada paso de tiempo más
                `h0`. La primera dimensión corresponde al número de pasos de
                tiempo.
        """
        ys, hs = [], [h0]  # Inicializa listas vacías para almacenar las salidas y los estados ocultos
        for x in xs:
            y, h = self.cell.forward(x, hs[-1])  # Calcula la salida y el siguiente estado oculto
            ys.append(y)  # Agrega la salida a la lista de salidas
            hs.append(h)  # Agrega el estado oculto al final de la lista de estados ocultos
        return torch.stack(ys), torch.stack(hs)  # Apila las salidas y los estados ocultos en tensores
    
    def backward(self, ys_grad, xs, hs):
        """Realiza la computación hacia atrás para todos los pasos de tiempo.
        
        Args:
            ys_grad (Tensor): Tensor 2-D de los gradientes en las salidas
                para cada paso de tiempo. La primera dimensión corresponde a
                el número de pasos de tiempo.
            xs (Tensor): Tensor 2-D de entradas para cada paso de tiempo que
                fue pasado a `forward`.
            hs (Tensor): Tensor 2-D de estados ocultos que es devuelto por
                `forward`.
        """
        # Para el último paso de tiempo, el gradiente en r es cero
        rn_grad = torch.zeros(self.cell.hid_sz)  # Inicializa el gradiente de la celda recurrente como cero

        for y_grad, x, hp in reversed(list(zip(ys_grad, xs, hs))):
            rn_grad = cell.backward(y_grad, rn_grad, x, hp)  # Calcula el gradiente para cada paso de tiempo


A continuación, la función de pérdida. Aquí utilizamos una pérdida simple de suma de cuadrados.

In [6]:
def compute_loss(ys, ts):
    return 0.5 * torch.sum((ys - ts)**2)

Ahora, construimos nuestra RNN. Tendrá un tamaño de entrada de 2, un tamaño oculto de 3 y un tamaño de salida de 4.

In [7]:
cell = RNNCell(2, 4, 5)
rnn = RNN(cell)

Luego, creamos entradas y objetivos ficticios para nuestra RNN. Estableceremos el número de pasos de tiempo en 3.

In [8]:
xs = torch.rand(3, cell.inp_sz)
hp = torch.rand(cell.hid_sz)
ts = torch.rand(3, cell.out_sz)

A continuación, realizamos la computación del forward y calculamos la pérdida.

In [9]:
ys, hs = rnn.forward(xs, hp)
loss = compute_loss(ys, ts)

In [10]:
loss

tensor(0.6165, grad_fn=<MulBackward0>)


Veamos los gradientes calculados por PyTorch.


In [11]:
loss.backward()

In [12]:
rnn.cell.U.grad

tensor([[-1.4026e-04, -3.9695e-04],
        [ 8.1963e-05,  4.9689e-04],
        [ 2.1676e-03,  1.2979e-03],
        [-5.3256e-04, -2.2029e-04]])

In [13]:
rnn.cell.V.grad

tensor([[-0.0002, -0.0005, -0.0005, -0.0003],
        [ 0.0010,  0.0004,  0.0004,  0.0007],
        [ 0.0033,  0.0022,  0.0023,  0.0027],
        [-0.0010, -0.0004, -0.0004, -0.0007]])

In [14]:
rnn.cell.W.grad

tensor([[ 0.0101,  0.0116,  0.0111,  0.0125],
        [-0.0587, -0.0549, -0.0562, -0.0527],
        [ 0.0243,  0.0226,  0.0239,  0.0212],
        [-0.0436, -0.0416, -0.0428, -0.0403],
        [ 0.0722,  0.0696,  0.0714,  0.0678]])

Ahora, ejecutemos nuestra computación backward y comparemos el resultado con el de PyTorch.

In [15]:
# Esto se obtiene de nuestra función de pérdida de suma de cuadrados
ys_grad = ys - ts

with torch.no_grad():  # necesario para que PyTorch no genere un erro
    rnn.cell.zero_grad()
    rnn.backward(ys_grad, xs, hs)

Ahora veamos si nuestros gradientes calculados manualmente son correctos, es decir, si son iguales a los de PyTorch.

In [16]:
rnn.cell.U_grad

tensor([[-1.4026e-04, -3.9695e-04],
        [ 8.1963e-05,  4.9689e-04],
        [ 2.1676e-03,  1.2979e-03],
        [-5.3256e-04, -2.2029e-04]])

In [17]:
rnn.cell.V_grad

tensor([[-0.0002, -0.0005, -0.0005, -0.0003],
        [ 0.0010,  0.0004,  0.0004,  0.0007],
        [ 0.0033,  0.0022,  0.0023,  0.0027],
        [-0.0010, -0.0004, -0.0004, -0.0007]])

In [18]:
rnn.cell.W_grad

tensor([[ 0.0101,  0.0116,  0.0111,  0.0125],
        [-0.0587, -0.0549, -0.0562, -0.0527],
        [ 0.0243,  0.0226,  0.0239,  0.0212],
        [-0.0436, -0.0416, -0.0428, -0.0403],
        [ 0.0722,  0.0696,  0.0714,  0.0678]])


¡Y son iguales! Así que nuestra computación es realmente correcta.

### Ejercicios

**Ejercicio 1**: Derivación manual de BPTT

Dado un simple RNN con una capa oculta y una función de activación sigmoide, realiza la derivación manual de los gradientes para los parámetros $U$, $V$ y $W$ utilizando BPTT. Asume que la RNN tiene una sola unidad oculta y procesa secuencias de tres tiempos.

**Ejercicio 2**: Implementación de BPTT desde cero

Implementa una RNN simple en Python sin usar bibliotecas de deep learning como TensorFlow o PyTorch. Tu RNN debe incluir métodos de forward y backward, y debe ser capaz de procesar secuencias de longitud variable.

**Ejercicio 3**: Comparación de gradientes

Utiliza PyTorch para crear una RNN simple y compara los gradientes que calcula automáticamente con los que calculaste manualmente en el ejercicio 1 o implementaste en el ejercicio 2.

**Ejercicio 4:** Exploración de la explosión y desvanecimiento de gradientes

Modifica la RNN implementada en el ejercicio 2 para incluir secuencias de entrada de diferentes longitudes. Experimenta con inicializaciones de parámetros y observa cómo afectan a la magnitud de los gradientes durante el entrenamiento.

**Ejercicio 5:** BPTT con diferentes funciones de activación

Implementa varias funciones de activación (ReLU, tanh, sigmoide) en tu RNN del ejercicio 2. Entrena tu modelo en un conjunto de datos de prueba simple (puede ser generado sintéticamente) y compara cómo la elección de la función de activación afecta el rendimiento.



In [None]:
## Tus respuestas