# Redes Neuronales Recurrentes (RNN)

## Intuición

Supongamos que estamos leyendo la descripción de un ordenador. Hay palabras que no nos importan mucho y lo mas probable que con el paso del tiempo las vamos a olvidar.

Si un día alguien nos pregunta, seguro recordaremos los puntos principales..

<img src="images/notebook_rnn.png" alt="drawing" width="600"/>

### Descripción

La **notebook Apple MacBook Air** A1466 es una solución tanto **para trabajar y estudiar** como para **entretenerte**. Al ser **portátil**, el escritorio dejará de ser tu único espacio de uso para abrirte las puertas a otros ambientes ya sea en tu casa o en la oficina.

**Pantalla con gran impacto visual**.
Su **pantalla LED de 13.3"** y 1440x900 px de resolución te brindará **colores** más **vivos y definidos***. Tus películas y series preferidas cobrarán vida, ya que ganarán **calidad y definición** en cada detalle.

### ¿Qué hace que aparezcan este tipo de redes?

Primera RNN, 1980: https://www.nature.com/articles/323533a0

* Las redes neuronales tradicionales (vanillas) solo aceptan un vector de entrada de tamaño fijo y devuelve un vector de salida de tamaño fijo.
* Las redes neuronales permiten operar sobre secuencias de vectores: secuencias en la entrada, en la salida o, en el caso más general, en ambas.


* En las redes neuronales feed-forward, la información solo se mueve hacia adelante (de la capa de entrada hacia las capas ocultas, hasta la capa de salida).
* Las nn feed-forward no tienen memoria de la entrada que recibe -> son malas para predecir lo que "viene", ya que solo considera la entrada actual.

* En un RNN, la información recorre un ciclo. Cuando toma una decisión, considera la entrada actual y también lo que ha aprendido de las entradas que recibió anteriormente.

* Un RNN básica tiene memoria a corto plazo. En combinación con un LSTM, también tienen una memoria a largo plazo (ya lo veremos).

<img src="images/ffvsrnn.png" alt="drawing" width="700"/>

#### Procesamiento

* Las entradas se convierten en un vector numérico.
* Luego la RNN procesa la secuencia de vectores uno a uno.

<img src="images/rnn_procesamiento.gif" alt="drawing" width="700"/>

Suponer que una red feed-forward le damos como entrada la palabra **"NEURONAL"**, la cual tiene que procesar caracter a caracter. Cuando llegue a la **U** ya se "olvidó" de "N" "E", por lo que es muy difícil que puede predecr que caracter viene después.

* Una red recurrente sería adecuada para recordar dichos caracteres debido a la memoria interna.

#### Diferencias

* A diferencia de una red tradicional, un RNN tiene mas de 1 entrada (el presente y el pasado reciente).

* Una red neuronal feed-forward asigna, como todos los demás algoritmos de aprendizaje profundo, una matriz de peso a sus entradas y luego produce la salida. 

* Las RNN aplican ponderaciones a la entrada actual y también a la anterior. Además, una red neuronal recurrente también ajustará los pesos tanto para el descenso de gradiente como para la propagación inversa a través del tiempo (BPTT).

#### BPTT: Backpropagation through time

BPTT solo es la forma de hacer retropropagación hacia atrás en RNNs.

A una RNN se la puede ver como una secuencia de redes neuronales que entrena una tras otra con backpropagation.

<img src="images/rnn_rolled.png" alt="drawing" width="100"/>

La siguiente imagen muestra por qué se puede ver como una secuencia de redes neuronales. 

El **error** de un paso de tiempo determinado depende del paso de tiempo anterior. El BPTT aumenta su costo computacional en funcion de los pasos de tiempo.

<img src="images/rnn_unrolled.png" alt="drawing" width="450"/>

Durante el **procesamiento**, 

1. Pasa el **estado oculto** anterior al siguiente paso de la secuencia. El estado oculto actúa como la memoria de las redes neuronales. Contiene información sobre datos anteriores que la red ha visto antes.

2. ¿Cómo se calcula estado oculto?

Primero, la entrada y el estado oculto anterior se combinan en un vector. Ese vector ahora tiene información sobre la entrada actual y las entradas anteriores. El vector pasa por la activación tanh (valores entre -1 y 1) y la salida es el nuevo estado oculto (la **memoria de la red**).

<img src="images/rnn_animado.gif" alt="drawing" width="600"/>

#### Problemas de las RNN

* **Exploding gradients**: básicamente se acumulan grandes gradientes de error y la actualización de los pesos son tan grandes que se inestabiliza el entrenamiento, produce desbordamiento de memoria, etc. ¿Cómo saber si pasa? ¿Se resuelve fácil? -> Regularizacion, aplastar el gradiente, rediseñar la arquitectura de red, otros..
* **Vanishig gradients**: los valores de un gradiente son tan pequeños que el modelo tarda mucho en aprender o nunca converje. Sucede en las redes de gran tamaño.. Usar funciones de activación como ReLU que no genera una derivada demasiado pequeña puede ayudar. Hay otras alternativas como Batch normalization: normalizacion de entradas de las capas: centrado y escalado.
* La **brecha entre la información relevante y el punto donde se necesita** se vuelva muy **grande**. (La teoría dice que las RNN debería resolverlo)

<img src="images/rnn_long_dependencies.png" alt="drawing" width="450"/>

## LSTM - Long Short-Term Memory

LSTM, 1997: https://direct.mit.edu/neco/article-abstract/9/8/1735/6109/Long-Short-Term-Memory?redirectedFrom=fulltext

Las redes de memoria a corto y largo plazo, generalmente llamadas simplemente "LSTM", son un tipo especial de RNN, capaz de aprender las dependencias a largo plazo. 

<img src="images/rnn_simple.png" alt="drawing" width="450"/>
El módulo de repetición en un RNN tradicional contiene una sola capa.

<img src="images/lstm.png" alt="drawing" width="450"/>
El módulo de repetición en un LSTM contiene cuatro capas que interactúan.


#### ¿Cómo incorporar información a largo plazo?

Se incoporan compuertas que pueden aprender qué datos de una secuencia es importante conservar o desechar.

* Input gate: compuerta de entrada, para actualizar el estado de la celda.
* Forget gate: decide que información debe guardarse u olvidarse.
* Output gate: decide cual debe ser el siguiente estado oculto.

Lo **principal idea** de las **LSTM** son el **estado de la celda** y las **compuertas**. El estado de la celda es como la memoria de la red; ya que puede transportar información relevante a lo largo del procesamiento de la secuencia.

A medida que el estado de la celda va pasando a través de las distintas celdas a lo largo del tiempo, la información se agrega o elimina al estado de la celda a través de compuertas. 

<img src="images/inside_lstm.png" alt="drawing" width="450"/>
<img src="images/elements_lstm.png" alt="drawing" width="370"/>


**Forget gate:**

Uso de la función sigmoidea: valores entre 0 y 1. Útil para actualizar u olvidar datos (cuando es 0)

**Input gate:**

Para actualizar el estado de la celda. Primero se pasa el estado oculto anterior y la entrada actual a una función sigmoidea (elegir valores importantes y no importantes). También entran a una función tanh (valores entre -1 y 1) para regular los valores de la red (aplanar).

**Cell state:**

El estado de la celda se calcula:

    1. Multiplicar el estado de la celda actual por el vector de *forget gate*
    2. Se toma la salida de la compuerta de entrada y se hace una suma elemento a elemento con el paso anterior.
    3. Eso da un nuevo estado.

**Output gate:**

La compuerta de salida decide cual debe ser el siguiente estado oculto. 

    1. Se pasa el estado oculto anterior y la entrada actual a una función sigmoidea. 
    2. Luego se pasa el estado de celda recién modificado a la función tanh. 
    3. Se multiplica la salida tanh con la salida sigmoidea para decidir qué información debe llevar el estado oculto. 
    4. La salida es el estado oculto

## GRU - Gated Recurrent Unit

Es una simplificación (y mas nueva) de las LSTM.

Básicamente se deshace del **estado de celda** y utiliza el **estado oculto** para transferir la información.

Tiene 2 compuertas:

* **Reset gate**: como la forget gate de la LSTM.
* **Update gate**: básicamente se usa para decidir cuanta información pasada se debe olvidar.

<img src="images/gru.png" alt="drawing" width="450"/>


## Aplicaciones de las RNN

Primero hay que entender que clase de problema es:

<img src="images/rnn_types.jpeg" alt="drawing" width="600"/>


* **One to one**: Modelo sin procesamiento RNN

* **One to many**: salida en secuencia. Por ej. prediccion de descripción de imagenes (image captioning)

* **Many to one**: secuencia de entrada, unico elemento de salida. Por ej. sentiment analysis (text)
    
* **Many to many**: secuencia de entrada y secuencia de salida. Por ej. Traducción de texto

**Algunos ejemplos**

1. Reconocimiento de voz
2. Image captioning
3. Traducción
4. Sentiment analysis
5. Etiquetado de video