<a href="https://colab.research.google.com/github/aszapla/Curso-DL/blob/master/2_2_1_Teor%C3%ADa_Redes_Neuronales_Recurrentes.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 2.2. Redes Neuronales Recurrentes


* Determinados problemas no se pueden resolver usando solamente la información del instante actual. 

* Por ejemplo, qué está sucediendo en una película viendo solamente una imagen, el significado de una palabra sin consultar su contexto, o más sencillo, el siguiente valor en una serie basándonos solamente en el valor anterior. 


<br>
<p align="center">
![Serie temporal](http://www.dlsi.ua.es/~jgallego/deepraltamira/serie_temporal.png)
</p>
<br>

* La redes neuronales tradicionales no pueden hacer esto. 

* Para solucionarlo surgieron las Redes Neuronales Recurrentes (RNN).

* La primera red neuronal recurrente fue propuesta por [Jordan en 1986](https://eric.ed.gov/?id=ED276754), posteriormente, en [1997, Hochreiter 	y Schmidhuber](http://www.bioinf.jku.at/publications/older/2604.pdf), propusieron las neuronas tipo LSTM.
 


<br>
<p align="center">
![Deep Learning Timeline](http://www.dlsi.ua.es/~jgallego/deepraltamira/deep_learning_timeline_rnn.png)
</p>
<br>

* Las neuronas recurrentes son similares a las neuronas normales pero con bucles dentro que les permiten mantener un estado en el tiempo. 


* Con estas neuronas se pueden crear distintos tipos de arquitecturas de red, clasificándolos según su entrada y su salida tendríamos: 

<br>
<p align="center">
![Deep Learning Timeline](http://www.dlsi.ua.es/~jgallego/deepraltamira/rnn_diagrams.png)
</p>
<br>

* Algunos ejemplos de estos tipos de arquitecturas serían: 

 * **Uno a uno:** tareas de clasificación o regresión a partir de una entrada, por ejemplo la clasificación de imágenes. 
  
 * **Muchos a uno:** Series temporales, *sentiment analysis*, etc. 
 
 * **Uno a muchos:** *image captioning.*
  
 * **Muchos a muchos:** tareas de traducción automática. Por ejemplo, a partir de una frase en inglés obtener la traducción en francés. 
 
 * **Muchos a muchos sincronizado:** clasificación de vídeo. 
 
 
 * En las sesiones anteriores hemos visto la arquitectura "Uno a uno".
 
 * En esta sesión vamos a ver la arquitectura "Muchos a uno".
 
 * El resto se verán en las siguientes sesiones. 



## Neuronas recurrentes

* Como ya hemos visto, las neuronas recurrentes son similares a las neuronas normales pero contienen un **bucle** dentro que les permiten mantener un estado en el tiempo. 

<br>
<p align="center">
![Neurona recurrente](http://www.dlsi.ua.es/~jgallego/deepraltamira/rnn2.png)
</p>
<br>

* Esta neurona predice la salida $h_t$ a partir de la entrada $x_t$ pero también a partir del valor o estado anterior.

* Por lo tanto el estado interior de la neurona va cambiando o evolucionando en función de lo que ha visto hasta ese momento. 

* También podemos pensar en las neuronas recurrentes de forma "desplegada", en la que tendríamos tantas neuronas como elementos de la secuencia y cada una le pasa su estado a la siguiente. 


<br>
<p align="center">
![RNN unrolled](http://www.dlsi.ua.es/~jgallego/deepraltamira/rnn_unrolled1.png)
</p>
<br>






## Problema de las dependencias a largo plazo

* En algunas tareas solo es necesario utilizar la información más reciente para calcular la siguiente predicción.

  Es el caso de las series temporales (solo necesitamos consultar lo $n$ elementos anteriores), o para aprender a predecir la siguiente palabra en una frase sencilla, como por ejemplo "*Las nubes están en el  [ ?  ]*"


<br>
<p align="center">
![short term depdencies](http://www.dlsi.ua.es/~jgallego/deepraltamira/rnn_shorttermdepdencies1.png)
</p>
<br>

* Pero a veces sí que es necesario consultar más contexto para obtener la siguiente predicción. 

  Por ejemplo, para predecir la siguiente palabra en la frase "*Nací en Francia pero a los 12 años me vine a España, ... por eso es que hablo tan bien el [ ? ]*". 
  
  El contexto reciente sugiere que la siguiente palabra es un idioma pero para saber el idioma correcto tenemos que utilizar la información del principio de la frase. 

<br>
<p align="center">
![long term dependencies](http://www.dlsi.ua.es/~jgallego/deepraltamira/rnn_longtermdependencies1.png)
</p>
<br>

* Este es un problema para las RNN, dado que según aumenta la distancia hasta la información a utilizar, se vuelve más difícil aprender a conectar la información. 

* Para solucionar este problema surgieron las neuronas tipo LSTM.


## Neuronas LSTM (Long Short-Term Memory)

* Su diseño permite recordar valores durante periodos de tiempo cortos y largos.

* La principal diferencia con las neuronas recurrentes es que incluyen (internamente) una celda o bucle de memoria. 

* Gracias a esto evitan el efecto del "*vanishing gradient*" durante el entrenamiento.


<br>
<p align="center">
![Neurona LSTM](http://www.dlsi.ua.es/~jgallego/deepraltamira/lstm.png)
</p>
<br>

* Otra diferencia es que incluyen una serie de puertas que permiten controlar la información que entra y sale de la celda de memoria: 

 * **Puerta de entrada:** Permite controlar los valores de entrada que se van a utilizar para actualizar el estado de la memoria. 
 * **Puerta de salida:** Permite controlar los valores a devolver a partir de la entrada y del contenido de la memoria.
 * **Puerta de olvido:** Permite borrar el contenido de la memoria.

* Existe una versión simplificada de estas neuronas llamadas GRU (Gated Recurrent Units), sin memoria interna y con menos puertas, y por lo tanto con menos parámetros a aprender. 



## RNN con Keras

* Con Keras podemos crear RNN usando la clase `Sequential` y `LSTM` para añadir neuronas recurrentes. 

* La clase [LSTM](https://keras.io/layers/recurrent/#lstm) permite añadir capas con neuronas de este tipo a la red.

  Como parámetro recibe el número de neuronas a añadir de este tipo, por ejemplo "`LSTM(4)`"








### Formato de los datos para Keras

* Para entrenar y validar las redes recurrentes tenemos que formatear los datos en secuencias. 

* Para la arquitectura "muchos a uno", cada muestra o ejemplo de entrenamiento constará de una secuencia (de un tamaño fijo dado) y de una etiqueta (que será el siguiente valor de la serie a predecir), por ejemplo: 

\begin{equation}
\begin{matrix}
X & & Y \\
\begin{bmatrix}
  \begin{bmatrix} 1 \\ 2 \\ 3 \end{bmatrix} \\
  \begin{bmatrix} 2 \\ 3 \\ 4 \end{bmatrix} \\
  \begin{bmatrix} 3 \\ 4 \\ 5 \end{bmatrix}  \\
  \begin{bmatrix} 4 \\ 5 \\ 1 \end{bmatrix} 
\end{bmatrix}
& &
\begin{bmatrix}
\\ \\ 4 \\
\\ \\ 5 \\
\\ \\ 1 \\
\\ \\ 2 \\
\end{bmatrix}
\end{matrix}
\end{equation}


* Las dimensiones de estas matrices serían:

          X = (4, 3)
          Y = (4)


* Pero para implementar este tipo de redes en Keras (RNN para secuencias temporales) se espera recibir como entrada un vector de **3 dimensiones** y como salida uno de 2. 

* Para las X tendríamos: 
 * En la primera dimensión el número de ejemplos.
 * En la segunda dimensión la longitud de la secuencia.
 * Y en la tercera dimensión el valor. 
* Y para las Y solo se necesitan 2 dimensiones: la primera con el número de ejemplos y la segunda para el valor a predecir. 

\begin{equation}
\begin{matrix}
X & & Y \\
\begin{bmatrix}
  \begin{bmatrix} [1] \\ [2] \\ [3] \end{bmatrix} \\
  \begin{bmatrix} [2] \\ [3] \\ [4] \end{bmatrix} \\
  \begin{bmatrix} [3] \\ [4] \\ [5] \end{bmatrix}  \\
  \begin{bmatrix} [4] \\ [5] \\ [1] \end{bmatrix} 
\end{bmatrix}
& &
\begin{bmatrix}
\\ \\ [4] \\
\\ \\ [5] \\
\\ \\ [1] \\
\\ \\ [2] \\
\end{bmatrix}
\end{matrix}
\end{equation}



* En este caso las dimensiones de estas matrices serían:

          X = (4, 3, 1)
          Y = (4, 1)


* Y en el caso de que utilicemos la codificación "one-hot" o categórica, tendríamos: 


\begin{equation}
\begin{matrix}
X & & Y \\
\begin{bmatrix}
  \begin{bmatrix}  
    \begin{bmatrix} 1 & 0 & 0 & 0 & 0 \end{bmatrix}
    \\ 
    \begin{bmatrix} 0 & 1 & 0 & 0 & 0 \end{bmatrix}
    \\ 
    \begin{bmatrix} 0 & 0 & 1 & 0 & 0 \end{bmatrix}
  \end{bmatrix} 
  \\
  \begin{bmatrix}
    \begin{bmatrix} 0 & 1 & 0 & 0 & 0 \end{bmatrix}
    \\ 
    \begin{bmatrix} 0 & 0 & 1 & 0 & 0 \end{bmatrix}
    \\ 
    \begin{bmatrix} 0 & 0 & 0 & 1 & 0 \end{bmatrix}
  \end{bmatrix} 
  \\
  \begin{bmatrix} 
    \begin{bmatrix} 0 & 0 & 1 & 0 & 0 \end{bmatrix}
    \\ 
    \begin{bmatrix} 0 & 0 & 0 & 1 & 0 \end{bmatrix}
    \\ 
    \begin{bmatrix} 0 & 0 & 0 & 0 & 1 \end{bmatrix}
  \end{bmatrix}  
  \\
  \begin{bmatrix} 
    \begin{bmatrix} 0 & 0 & 0 & 1 & 0 \end{bmatrix}
    \\ 
    \begin{bmatrix} 0 & 0 & 0 & 0 & 1 \end{bmatrix}
    \\ 
    \begin{bmatrix} 1 & 0 & 0 & 0 & 0 \end{bmatrix}
  \end{bmatrix} 
\end{bmatrix}
& &
\begin{bmatrix}
\\ \\ \begin{bmatrix} 0 & 0 & 0 & 1 & 0 \end{bmatrix} \\
\\ \\ \begin{bmatrix} 0 & 0 & 0 & 0 & 1 \end{bmatrix} \\
\\ \\ \begin{bmatrix} 1 & 0 & 0 & 0 & 0 \end{bmatrix} \\
\\ \\ \begin{bmatrix} 0 & 1 & 0 & 0 & 0 \end{bmatrix} \\
\end{bmatrix}
\end{matrix}
\end{equation}

* En este caso las dimensiones serían:

          X = (4, 3, 5)
          Y = (4, 5)



### Ejemplo con Keras

En este ejemplo vamos a ver el código que tendríamos que escribir para implementar una RNN que aprenda el siguiente elemento de una serie temporal, en este caso vamos a intentar que aprenda el alfabeto inglés.

En primer lugar definimos la serie temporal que queremos aprender,  la dividimos en secuencias (de longitud "maxlen") y también guardamos el siguien carácter de la serie (que será la etiqueta que queremos predecir).

In [0]:
import numpy as np

# Serie temporal a aprender
serie = "abcdefghijklmnopqrstuvwxyz" * 100
print('Serie temporal:     {}'.format(serie))
print('Longitud serie:     {}'.format(len(serie)))


# Cortamos la serie temporal en secuencias de longitud "maxlen" 
maxlen = 5
secuencias = []
next_chars = []

for i in range(0, len(serie) - maxlen):
  secuencias.append(serie[i: i + maxlen])
  next_chars.append(serie[i + maxlen])

print('Secuencias:         {}'.format(secuencias))
print('Siguiente carácter: {}'.format(next_chars))
print('Número secuencias:  {}'.format(len(secuencias)))
print('Número caracteres:  {}'.format(len(next_chars)))


# Número de posibles etiquetas
NUM_LABELS = len(np.unique(next_chars))
print('Número etiquetas:   {}'.format(NUM_LABELS))


Serie temporal:     abcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqr

Una vez tenemos la serie temporal dividida en secuencias de longitud fija, vamos a preparar estos datos con el formato adecuado para poder pasárselos a la red. 

Para esto primero debemos codificar las etiquetas de la serie como números enteros consecuitos y a continuación transformarlos a categórico usando la codificación "one-hot".

In [0]:
%%capture --no-stdout
from keras import utils
from sklearn.preprocessing import LabelEncoder

# --------------------------------
def vectorizacion(data, encoder, num_labels):
  x = encoder.transform(data).astype(np.int32)  # Codificamos cada etiqueta como un entero
  x = utils.to_categorical(x, num_labels)       # Transformamos a categórico 
  return x

# Vamos a utilizar la clase "LabelEncoder" para transformar las etiquetas de la 
# secuencia en números enteros (las etiquetas podrías ser letras, números no
# consecutivos, etc.)
encoder = LabelEncoder()
encoder.fit(next_chars)


# Vectorizamos las etiquetas
y_train = vectorizacion( next_chars, encoder, NUM_LABELS )


# Vectorizamos las secuencias
x_train = []
for i, secuencia in enumerate(secuencias):
  x_train.append( vectorizacion( list(secuencia), encoder, NUM_LABELS ) )


x_train = np.array(x_train)  # Transformamos a un array de Numpy


# Ya las tenemos preparadas con el formato adecuado
print('x_train shape: {}'.format(x_train.shape))
print('y_train shape: {}'.format(y_train.shape))


x_train shape: (2595, 5, 26)
y_train shape: (2595, 26)


A continuación vamos a construir la RNN y a entrenarla. Para aprender esta secuencia vamos a crear una red con dos capas:

* La primera capa estará formada por 8 neuronas LSTM.
* Y la segunda capa será de tipo "denso" y tendrá tantas neuronas como etiquetas (dado que hemos utilizado codificación one-one y clasificación categórica). 
* La activación de la segunda capa será de tipo Softmax. 

In [0]:
from keras.models import Sequential
from keras.layers import Dense, Activation
from keras.layers import LSTM
from keras.optimizers import RMSprop


print('Construimos el modelo de red...')

model = Sequential()
model.add(LSTM(8, input_shape=(maxlen, NUM_LABELS)))
model.add(Dense(NUM_LABELS))
model.add(Activation('softmax'))

model.compile(loss='categorical_crossentropy', optimizer='rmsprop')


print('Entrenamos la red...')

history = model.fit(x_train, y_train, batch_size=32, epochs=50, verbose=2)


Construimos el modelo de red...
Entrenamos la red...
Epoch 1/50
 - 1s - loss: 3.2234
Epoch 2/50
 - 0s - loss: 3.1263
Epoch 3/50
 - 0s - loss: 2.9597
Epoch 4/50
 - 0s - loss: 2.7332
Epoch 5/50
 - 0s - loss: 2.4842
Epoch 6/50
 - 0s - loss: 2.2191
Epoch 7/50
 - 0s - loss: 1.9540
Epoch 8/50
 - 0s - loss: 1.7199
Epoch 9/50
 - 0s - loss: 1.5076
Epoch 10/50
 - 0s - loss: 1.3166
Epoch 11/50
 - 0s - loss: 1.1468
Epoch 12/50
 - 0s - loss: 1.0018
Epoch 13/50
 - 0s - loss: 0.8833
Epoch 14/50
 - 0s - loss: 0.7826
Epoch 15/50
 - 0s - loss: 0.6947
Epoch 16/50
 - 0s - loss: 0.6163
Epoch 17/50
 - 0s - loss: 0.5470
Epoch 18/50
 - 0s - loss: 0.4844
Epoch 19/50
 - 0s - loss: 0.4266
Epoch 20/50
 - 0s - loss: 0.3739
Epoch 21/50
 - 0s - loss: 0.3259
Epoch 22/50
 - 0s - loss: 0.2830
Epoch 23/50
 - 0s - loss: 0.2447
Epoch 24/50
 - 0s - loss: 0.2109
Epoch 25/50
 - 0s - loss: 0.1807
Epoch 26/50
 - 0s - loss: 0.1540
Epoch 27/50
 - 0s - loss: 0.1309
Epoch 28/50
 - 0s - loss: 0.1102
Epoch 29/50
 - 0s - loss: 0.0922

Por último vamos a evaluar el modelo de red con los pesos aprendidos. Para esto usaremos nuevas secuencias y comprobaremos si la predicción es correcta. 

In [0]:
%%capture --no-stdout

# -----------------------------------------------------------------
def evaluate(secuencia, next_label, model, maxlen, encoder, num_labels):
  x = vectorizacion( list(secuencia), encoder, num_labels )  
  x = x.reshape(1, maxlen, num_labels)
  
  prediccion = model.predict(x, verbose=0)[0]
  etiqueta = encoder.inverse_transform( np.argmax(prediccion) )
  es_acierto = "¡Acierto!" if etiqueta == next_label else "Fallo :("
  
  print("Secuencia: {}\t->\tPredicción: {}\t\t{}".format(secuencia, etiqueta, es_acierto))


# Vamos a evaluar las siguientes secuencias

evaluate("abcde", "f", model, maxlen, encoder, NUM_LABELS)

evaluate("fghij", "k", model, maxlen, encoder, NUM_LABELS)

evaluate("nopqr", "s", model, maxlen, encoder, NUM_LABELS)

evaluate("wxyza", "b", model, maxlen, encoder, NUM_LABELS)


Secuencia: abcde	->	Predicción: f		¡Acierto!
Secuencia: fghij	->	Predicción: k		¡Acierto!
Secuencia: nopqr	->	Predicción: s		¡Acierto!
Secuencia: wxyza	->	Predicción: b		¡Acierto!


&nbsp;

&nbsp;


---


<font size="3">
**[&#10158;  Vamos a practicar &#10158; ](https://colab.research.google.com/drive/1yuSWNCT0xuGxRXWCdpxFJDyhfS93_wEm)**
</font>



---