# Redes Neuronales Recurrentes(RNN's)

## *¿Alguna vez han pensado en cómo las máquinas entienden el contexto en el tiempo?*  
## *¿Cómo sabe un teclado predictivo cuál es la próxima palabra que quiero escribir o cómo una app de traducción interpreta correctamente una frase completa?*


![](Images/deeplearning.jpg)

## Las Redes Neuronales Recurrentes resuelven lo que las redes neuronales 'convencionales' no pueden

Las **Redes Neuronales Recurrentes (RNN)** son una **evolución** clave dentro del campo del aprendizaje profundo, diseñadas específicamente para superar una de las limitaciones más importantes de las redes neuronales convencionales: la incapacidad de **manejar datos secuenciales** o **dependencias temporales**. Mientras que una red neuronal tradicional procesa las entradas de manera aislada, las **RNN tienen una memoria interna** que les permite recordar información relevante a lo largo de secuencias de datos.


### Limitaciones de las Redes Neuronales y Convolucionales

**La importancia de las RNN radica en su capacidad para resolver problemas donde el orden y el contexto importan**. 

Las **Redes Neuronales** o las **Redes Convolucionales** permiten **procesar un solo dato a la vez** (como un sonido o una imagen), pero si tenemos una secuencia de sonidos (una conversación) o de imágenes (un video), este tipo de arquitecturas no estarán en capacidad de procesar este tipo de secuencias.

Las Redes Neuronales Recurrentes resuelven este inconveniente, pues son capaces de procesar diferentes tipos de secuencias (como videos, conversaciones, texto) y, a diferencia de las redes neuronales o convolucionales, no se utilizan para clasificar un dato en particular sino que también están en capacidad incluso de **generar nuevas secuencias**.

### Ejemplo sencillo

1. Predicción de texto en un teclado o autocompletado

Las redes neuronales convencionales no tienen una memoria interna que les permita recordar las palabras previas que has escrito. Imagina que estás escribiendo una frase como:

    "Voy al parque con mi per..."

Para predecir correctamente que la siguiente palabra puede ser "perro", es necesario tener en cuenta las palabras anteriores ("parque" y "mi"). Una red neuronal convencional solo procesaría el input actual ("per..."), sin considerar el contexto, y podría hacer una predicción inexacta. En cambio, una RNN puede recordar el contexto anterior y usarlo para hacer predicciones más precisas.

![Descripción de la imagen](Images/mascota1.jpg)

## Breve historia de las RNN's

#### 2. Primeros desarrollos
En los años 80, los investigadores querían extender las redes neuronales para que tuvieran **memoria**.  
Una de las primeras ideas vino de **John Hopfield**, quien en 1982 desarrolló las **redes de Hopfield**, un precursor que ya tenía capacidad de **recordar patrones**.

Este fue el inicio de la idea clave detrás de las RNN: que las redes pudieran "recordar" información de las entradas previas para usarla en predicciones futuras.
![HOPFIELD](Images/Hopfield_John-Former-Faculty.3062f464.fill-1600x810-c100.jpg)

#### 3. Retropropagación y RNN básicas
En 1986, **David Rumelhart**, **Geoffrey Hinton**, y **Ronald J. Williams** sentaron las bases de las redes neuronales modernas con su algoritmo de **backpropagation** o retropropagación del error. Esto hizo posible entrenar redes de forma eficiente, ajustando los pesos de las conexiones.


![](Images/geofreyhinton.jpeg)


En 1989, Williams, junto a **David Zipser**, introdujo un avance clave para las RNN: el algoritmo de **Backpropagation Through Time (BPTT)**.  
**Este algoritmo permitió aplicar retropropagación a las redes recurrentes para entrenarlas a través del tiempo**, es decir, aprendiendo de secuencias.

#### 4. Los desafíos: El desvanecimiento del gradiente
Sin embargo, las RNN enfrentaron un problema serio: ¿cómo hacer que las redes recuerden información en secuencias muy largas?

El algoritmo de retropropagación enfrentaba el **desvanecimiento del gradiente**, lo que hacía que fuera difícil entrenar la red cuando las secuencias de datos eran largas.  
Los gradientes se volvían tan pequeños que las actualizaciones en los pesos eran casi insignificantes.

Por un tiempo, parecía que las RNN tenían una limitación importante.

#### 5. La solución: Long Short-Term Memory (LSTM)
En 1997, **Sepp Hochreiter** y **Jürgen Schmidhuber** resolvieron este problema con las **LSTM** o **Long Short-Term Memory**.

Las LSTM introdujeron una serie de "puertas" en su arquitectura que regulan el flujo de información, permitiendo a las redes olvidar o recordar lo que es relevante en el momento adecuado.  
Esto hizo que las redes pudieran aprender dependencias a largo plazo con mayor efectividad.

### 6. Impulsores recientes y auge de las RNN
En la última década, investigadores como **Yoshua Bengio**, **Geoffrey Hinton**, y **Yann LeCun** ayudaron a consolidar las RNN, en especial con arquitecturas como las LSTM y las GRU.

Estos avances han permitido que las RNN se utilicen en tareas como:
- Procesamiento del lenguaje natural (chatbots, traducción automática).
- Reconocimiento de voz (asistentes virtuales).
- Predicción de series temporales (predicción de mercados financieros).

## Las Redes Neuronales Recurrentes vs. otras arquitecturas

La **diferencia*** entre una **RNN** y otras arquitecturas como las **Redes neuronales** o **Convolucionales**, radica en el tipo de datos que pueden analizar. Las Redes Recurrentes están en capacidad de **analizar secuencias de datos**, las otras dos arquitecturas no.

Si a una Red Neuronal o Convolucional se le presenta, por ejemplo, una **imagen** o una **palabra**, con el entrenamiento adecuado estas arquitecturas lograrán clasificar un sinnúmero de datos logrando a la vez una alta precisión.

![](Images/CNN.png)
![](Images/CNN-WORD.png)

¿Pero qué pasa si en lugar de una única imagen o palabra, se introduce a la red una **secuencia de imágenes** (un video) o una **secuencia de palabras** (una conversación)?

En este caso, ninguna de las redes será capaz de procesar los datos.

En primer lugar **estas arquitecturas están diseñadas para que los datos de entrada y de salida siempre tengan el mismo tamaño**. Sin embargo, un video o una conversación se caracterizan por ser un tipo de dato con un tamaño variable.

![](Images/videoframes.png)

**En segundo lugar, en un video o en una conversación los datos están correlacionados**. 


Las Redes Neuronales Recurrentes no presentan este inconveniente que las dos anteriores si, y por tanto son capaces de analizar secuencias.

## Conceptos importantes en RNN

#### Secuencias...
**Una secuencia es una serie de datos (imágenes, palabras, notas musicales, sonidos) que siguen un orden específico y tienen únicamente significado cuando se analizan en conjunto y no de manera individual**.

Por ejemplo, la palabra “secuencia” está conformada por diferentes caracteres (“s”-“e”-“c”-“u”-“e”-“n”-“c”-“i”-“a”). Dichos caracteres, analizados de forma individual o en un orden diferente (por ejemplo, “n”-“s”-“e”-“i”-“c”-“c”-“u”-“a”), carecen de significado.

*IMPORTANTE:*
1. No tiene un tamaño predefinido.


#### Correlación...

**La correlación en el contexto de las redes neuronales recurrentes (RNN) se refiere a la relación que existe entre las entradas y salidas a lo largo del tiempo. En las RNN, los datos de entrada no son independientes entre sí, sino que tienen una estructura temporal, lo que significa que el estado actual de la red depende de las entradas anteriores**

## ¿Cómo funcionan las RNN's?

Para lograr procesar una secuencia, las Redes Neuronales Recurrentes usan el concepto de **recurrencia**: para generar la salida, que en adelante llamaremos **activación**, la red **usa** no solo la entrada actual sino **la activación generada en la iteración previa**. 

![](Images/funcionamiento.png)

## Tipos de Redes Neuronales Recurrentes

### One to many
La entrada es un único dato y la salida es una secuencia.


![](Images/onetomany.png)

### Many to one
La entrada es una secuencia y la salida es por ejemplo una categoría.

![](Images/manytoone.png)

### Many to many

La arquitectura “many to many” en donde tanto a la entrada como a la salida se tienen secuencias.

En esta misma arquitectura “many to many” podemos encontrar los conversores de **voz-a-texto** o **texto a voz**, que son Redes Neuronales Recurrentes cuya entrada y salida es también una secuencia
![](Images/manytomany.png)

## Aplicaciones de las RNN's

## Image captioning

Una de las primeras aplicaciones es el image captioning, en donde se usan dos modelos en conjunto: una Red Convolucional seguida por una Red Neuronal Recurrente. El resultado: el modelo entrenado es capaz de generar automáticamente texto que describe el contenido de la imagen.

![](Images/Imagecaptioning.png)

## Reconocimiento de escritura


Recientemente Google desarrolló un módulo, ya disponible en los dispositivos Android, que permite el reconocimiento de escritura.


![](Images/reconocimientoautomaticoescritura.png)

## Más aplicaciones...

* Comprensión del lenguaje.

* Análisis de sentimientos

* Generación de música

* Detección de modificaciones en el ADN

![](Images/aplicacionesrnn.jpg)

## Estructura básica de una RNN

Recordemos que las **Redes Neuronales y Convolucionales sufren de amnesia**: para generar una salida sólo consideran la entrada actual, no entradas pasadas o futuras.

Esta es la principal limitación de este tipo de redes, pues cuando hablamos de secuencias (como por ejemplo un texto, una conversación o un video) lo que nos interesa precisamente es que la red sea capaz de analizar el comportamiento de los datos en instantes previos (y posteriores) de tiempo.
![](Images/diplosaurio1.png)

## Estructura de una red neuronal recurrente  

 **Instante de tiempo**: Para una secuencia, el instante de tiempo es simplemente un número entero que define la posición de cada elemento dentro de la secuencia.

 
![](Images/diplosaurio2.png)



Nos referiremos a $x_t$ como la entrada  a la red recurrente en el instante de tiempo $t$, y a $y_t$ como la salida en el instante de tiempo $t$.

![](Images/diplosaurio3.png)

**¿Cómo logra la Red Recurrente predecir correctamente el siguiente caracter en la secuencia?** 


Se observa que en cada instante de tiempo la red tiene realmente dos entradas y dos salidas.

Las entradas son el dato actual $x_t$ y la activación anterior $a_{t-1}$, mientras que las salidas son la predicción actual $y_t$ y la activación actual $a_{t}$.
Esta activación también recibe el nombre de **hidden state** o estado oculto.

Estas **activaciones** las que corresponden precisamente a la **memoria de la red**, pues permiten **preservar y compartir la información entre un instante de tiempo y otro**.

![](Images/entradasysalidasredrecurrente.png)

Para calcular la **salida y la activación de la Red Recurrente**, a partir de sus dos entradas, se usa la misma lógica de una Neurona Artificial convencional, es decir una neurona 'convencional' tiene una entrada $x$ y genera una salida $y$, y que la salida es el resultado de aplicar dos operaciones al dato de entrada: una transformación y una función de activación no-lineal.

En el caso de las Redes Recurrentes, **la activación se calcula de manera similar**, y es el resultado primero de transformar los datos de entrada (es decir la activación anterior y la entrada actual) y luego llevarlos a una función de activación no-lineal.

Los valores de los coeficientes W y b se calculan  con el mismo procedimiento usado en las Redes Neuronales, es decir con el entrenamiento.
similarmente los coeficientes requeridos para el cálculo de la activación se obtienen mediante del entrenamiento de la Red Recurrente.

![](Images/calculo-activacion-red-recurrente.png)

De igual forma, para obtener la salida, se usa la activación del instante previo y se realizan las mismas operaciones (transformación y función de activación).

![](Images/calculo-salida-red-recurrente2.png)

En este esquema se muestra el comportamiento de la red para tres instantes de tiempo diferentes, sin embargo, es la misma red.

![](Images/representacion-extendida-red-recurrente.png)

## En resumen ...
La Red Recurrente tiene **dos entradas**: el **dato actual** y la **predicción anterior**. Al **combinar** estos dos elementos (usando una transformación y una función lineal, similares a las usadas en la Neurona Artificial), es posible **generar la salida de la red** así como **preservar la información obtenida en instantes de tiempo anteriores**, lo que equivale precisamente a la memoria de la red.


## LSTM (Long Short-Term Memory)

### Limitaciones de las RNN's

Veamos el porque se dice que las RNN's tienen **memoria de corto plazo**  para entender esto mejor usemos un ejemplo en el cual se  mostrara el **efecto que tienen los estados ocultos en la salida** para ello supongamos que se usa  la función de activación tangente hiperbólica para generar los estados ocultos y la función softmax para generar las predicciones y además omitiremos  el efecto que la entrada y el parámetro “b” tienen en el cálculo exacto de cada uno de estos estados.

Supongamos que queremos calcular $y_3$ y  tomamos el estado oculto 3, lo multiplicamos por el parámetro de la red y lo llevamos a la función de activación softmax.

Este estado oculto 3 se calcula a partir del estado oculto 2, que a su vez depende del estado 1 y del estado cero.
![](Images/calculo-y3-red-recurrent.png)

se empieza a ver cual es el problema...


![](Images/calculo-anidado-y3-red-recurrente.png)

El resultado de esto es que la activación inicial $a_0$ terminará siendo escalada por un valor mucho menor a 1 al llegar a la salida, puesto que las funciones tangente hiperbólica están anidadas y estas tienen un valor que en el mejor de los casos es cercano a uno.

**Es decir  el efecto que $a_0$ tendrá en el cálculo de la salida 3 será mínimo.**

Esto es lo que hace  que una Red Recurrente básica tenga una memoria de corto plazo: **la secuencia procesada debe ser relativamente corta para que las activaciones anteriores  tenga un efecto relevante en la predicción actual**.



![](Images/efecto-escalamiento-red-recurrente.png)

### Diferencia de LSTM con RNN convencionales

Una Red LSTM es capaz de **“recordar”** un dato relevante en la secuencia y de **preservarlo por varios instantes de tiempo**. Por tanto, puede tener una **memoria** tanto de corto plazo (como las Redes Recurrentes básicas) como también de **largo plazo**.



### Celda LSTM
Comparado con una celda de red recurrente básica, la celda LSTM tiene una entrada y una salida adicional. Este elemento adicional se conoce como **celda de estado**.


![](Images/celda_LSTM.jpg)
![](Images/forget_update.png)

### Compuertas en LSTM
Para añadir o remover datos de esta memoria usamos varias compuertas:
1. **Forget gate**: permite eliminar elementos de la memoria.
2. **Update gate**:  permite añadir nuevos elementos a la memoria.
3. **Compuerta de salida**: permite crear el estado oculto actualizado.

![](Images/compuertas-red-lstm.png)

**Estas compuertas son redes neuronales que funcionan como válvulas**: totalmente abiertas permiten el paso de información, y totalmente cerradas lo bloquean por completo.

Estas compuertas (o válvulas) está conformada por tres elementos: una **red neuronal**, una **función sigmoidal** y un **elemento multiplicador**.


![](Images/elementos-compuerta-red-lstm.png)

### 1. Compuerta de Olvido (forget gate)
- **Objetivo**: permite decidir qué información se va a descartar, y que por tanto no pasará a la celda de estado.
- **Cálculo**: 
  $$
  f_t = \sigma(W_f [a_{t-1}, x_t] + b_f)
  $$
  Donde $\sigma$ es la función sigmoidal que devuelve valores entre 0 y 1. Valores cercanos a 0 (o iguales a cero) se  eliminaran de la memoria,  mientras que si alcanza valores iguales (o cercanos) a 1 esta información se mantendrá y llegará a la celda de estado..

![](Images/compuerta-forget-red-lstm.png)

### 2. Compuerta de Actualización (update gate)
- **Objetivo**: Actualiza el estado de la celda añadiendo nueva información relevante.
- **Cálculo**: 
  $$
  u_t = \sigma(W_u [a_{t-1}, x_t] + b_u)
  $$
  Esta salida pasa por una función sigmoidal, valores cercanos a 1 se consideran para actualizar la memoria.


![](Images/compuerta-update-red-lstm.png)

### 3. Generación del Vector Candidato
- **Objetivo**: Crear un vector candidato para formar parte del nuevo estado de la celda.
- **Cálculo**: 
  $$
  c_t^{'} = \tanh(W_c [a_{t-1}, x_t] + b_c)
  $$
  Aquí se usa una función tangente hiperbólica ($\tanh$) que asegura valores entre $[-1, 1]$.

![](Images/actualizacion-celda-estado-red-lstm.png)

### 4. Actualización del Estado de la Celda (cell state)
- **Objetivo**: Combinar la información que debe ser olvidada y la nueva información relevante.
- **Cálculo**: 
  $$
  c_t = f_t \cdot c_{t-1} + u_t \cdot c_t^{'}
  $$
  Donde $f_t \cdot c_{t-1}$ elimina información irrelevante y $u_t \cdot c_t^{'}$ añade nueva información.

### 5. Compuerta de Salida (output gate)
- **Objetivo**: Decide qué parte del estado de la celda será utilizada para generar el nuevo estado oculto.
- **Cálculo**: 
    En primer lugar **escalamos el nuevo “cell state”** para garantizar que esté en el rango de -1 a 1 (el rango que tiene precisamente el estado oculto). Para ello usamos la **función tangente hiperbólica**. Luego, usamos la compuerta de salida para determinar qué porciones del cell-state entrarán a formar parte del nuevo estado oculto
  $$
  o_t = \sigma(W_o [a_{t-1}, x_t] + b_o)
  $$
  Luego, el nuevo estado oculto $a_t$ se obtiene aplicando la tangente hiperbólica al nuevo estado de la celda $c_t$ y multiplicándolo por la salida de la compuerta:
  $$
  a_t = o_t \cdot \tanh(c_t)
  $$

![](Images/actualizacion-estado-oculto-red-lstm.png)

### En resumen...

1. Calcular $f_t = \sigma(W_f [a_{t-1}, x_t] + b_f)$.
2. Calcular $u_t = \sigma(W_u [a_{t-1}, x_t] + b_u)$.
3. Calcular $c_t^{'} = \tanh(W_c [a_{t-1}, x_t] + b_c)$.
4. Actualizar el estado de la celda $c_t = f_t \cdot c_{t-1} + u_t \cdot c_t^{'}$.
5. Calcular $o_t = \sigma(W_o [a_{t-1}, x_t] + b_o)$.
6. Actualizar el estado oculto $a_t = o_t \cdot \tanh(c_t)$.

### Ventajas de la Red LSTM
En esta red  la información puede ser fácilmente removida o añadida de la memoria basta con entrenar adecuadamente las compuertas forget y update, de modo que, con el entrenamiento adecuado, que la información almacenada en el estado C_0 se propague fácilmente hasta el estado C_5 o hasta estados posteriores, y que además la información irrelevante sea eliminada de la memoria en el momento adecuado.

![](Images/red-lstm-ventaja-celda-de-estados.png)

## GRU


![](Images/GRU.png)

Las **GRU** son una variante simplificada de las **LSTM** que permiten manejar dependencias a largo plazo en secuencias.

### Similitudes con LSTM:
- Ambas son redes recurrentes que permiten manejar secuencias y retener información durante varios pasos.
- Utilizan **compuertas** para controlar el flujo de información.

### Diferencias clave con LSTM:
1. **Menos Compuertas**:  
   GRU utiliza **dos compuertas** en lugar de tres:
   - **Update Gate**: Decide cuánto del estado anterior mantener.
   - **Reset Gate**: Decide cuánta información del pasado olvidar.

2. **Estado**:  
   GRU no tiene un estado separado de "celda" ($c_t$) como en LSTM. En cambio, combina directamente el estado oculto ($h_t$) para ambos propósitos.

---

## Arquitectura de GRU

### 1. Compuerta de actualización (*Update Gate*):

Esta compuerta decide cuánto del estado anterior se mantendrá. La fórmula es:

$$
z_t = \sigma(W_z \cdot [h_{t-1}, x_t])
$$

Donde:
- $z_t$ es el vector de la compuerta de actualización.
- $W_z$ son los pesos aprendidos.
- $h_{t-1}$ es el estado oculto anterior.
- $x_t$ es la entrada en el tiempo $t$.
- $\sigma$ es la función sigmoide.

### 2. Compuerta de reseteo (*Reset Gate*):

Esta compuerta controla cuánto del estado anterior olvidar. La fórmula es:

$$
r_t = \sigma(W_r \cdot [h_{t-1}, x_t])
$$

Donde:
- $r_t$ es el vector de la compuerta de reseteo.
- $W_r$ son los pesos aprendidos.
- $h_{t-1}$ es el estado oculto anterior.
- $x_t$ es la entrada en el tiempo $t$.
- $\sigma$ es la función sigmoide.

### 3. Cálculo del nuevo estado:

El nuevo estado $\tilde{h}_t$ es un estado candidato, calculado considerando la información más reciente y la información reseteada del pasado:

$$
\tilde{h}_t = \tanh(W_h \cdot [r_t \cdot h_{t-1}, x_t])
$$

Donde:
- $\tilde{h}_t$ es el estado oculto candidato.
- $W_h$ son los pesos aprendidos.
- $r_t \cdot h_{t-1}$ es el estado oculto reseteado.

### 4. Actualización del estado oculto:

Finalmente, el nuevo estado oculto $h_t$ se calcula como una interpolación entre el estado anterior y el estado candidato:

$$
h_t = z_t \cdot h_{t-1} + (1 - z_t) \cdot \tilde{h}_t
$$

Esto significa que la compuerta de actualización $z_t$ decide qué porción del estado oculto anterior mantener y qué porción actualizar con el nuevo estado candidato.

---

## Diferencias con LSTM:
- **Menos Compuertas**: GRU no tiene una compuerta de olvido independiente, lo que hace que su cálculo sea más rápido y menos costoso.
- **Menos Parámetros**: Al no tener un estado de celda separado ($c_t$), hay menos parámetros y menos complejidad en comparación con las LSTM.

