# <span style="color:green"><center>Diplomado en Inteligencia Artificial y Aprendizaje Profundo</center></span>

# <span style="color:red"><center>Redes Recurrentes Simples en Keras</center></span>

##   <span style="color:blue">Profesores</span>

1. Alvaro Mauricio Montenegro Díaz, ammontenegrod@unal.edu.co
2. Daniel Mauricio Montenegro Reyes, dextronomo@gmail.com 
3. Campo Elías Pardo Turriago, cepardot@unal.edu.co 

##   <span style="color:blue">Asesora Medios y Marketing digital</span>
 

4. Maria del Pilar Montenegro, pmontenegro88@gmail.com 

## <span style="color:blue">Asistentes</span>

5. Oleg Jarma, ojarmam@unal.edu.co 
6. Laura Lizarazo, ljlizarazore@unal.edu.co 

## <span style="color:blue">Referencias</span>

1. Adapatado parcialmente de [Miguel Sotaquirá](https://www.youtube.com/watch?v=aA9QaPu_QpA)
2. Ralf C. Staudemeyer and Eric Rothstein Morris, [Understanding LSTM a tutorial into Long Short-Term Memory Recurrent Neural Networks*, arxiv, September 2019](https://arxiv.org/pdf/1909.09586.pdf)
3. Karpathy, [The Unreasonable Effectiveness of Recurrent Neural Networks](http://karpathy.github.io/2015/05/21/rnn-effectiveness/)
4. [Time Series Forecasting with LSTMs using TensorFlow 2 and Keras in Python](https://towardsdatascience.com/time-series-forecasting-with-lstms-using-tensorflow-2-and-keras-in-python-6ceee9c6c651/)
5. [Dive into Deep Learnig](https://d2l.ai/)

## <span style="color:blue">Contenido</span>

* [Introducción](#Introducción)
* [RNR simple en Kera](#RNR-simple-en-Kera)


## <span style="color:blue">Introducción</span>

En esta lección se introduce el modelo recurrente más simple, disponible en Keras. Hacemos un ejemplo para predecir nombres de personas. Consulte los detalles de la API [aquí](https://keras.io/api/layers/recurrent_layers/simple_rnn/).

## <span style="color:blue">RNR simple en Keras</span>

In [2]:
import tensorflow as tf

from tensorflow.keras.layers import SimpleRNN

import numpy as np

### Creación de una capa recurrente

Para ilustrar de manera muy simple vamos a crear un modelo muy simpe que recibe a la entrada secuencias de tamaño 8.

En concreto el ejemplo es construido de la siguiente forma:

1. Se construyen 32 conjuntos de datos. Por ejemplo 32 sentencias. Tamb ién pueden ser 32 ventanas de datos de uan serie de tiempo univariada.
2. Cada conjunto de datos consiste de 10 secuencias de tamaño 8
3. Se esperan secuencias de salida de tamaño 4. Por lo tanto la capa recurrente oculta tendrá tamaño 4

Como se presentó en la lección anterior de introducción a redes recurrentes el proceso que hace la capa recurrente es como sigue. Para cada uno de los 32 conjuntos de datos, se sigue el siguiente procedimiento. 

#### Matrices Wxh, Whh y bh

La capa inicializa los pesos por defecto de la sigiente forma

1. Inicializa el kernel $W_{xh}$ usando por ejemplo [glorot uniform](http://proceedings.mlr.press/v9/glorot10a.html). Este es el kerel usado para transformar las entradas. En el ejemplo será una matriz de tamaño 8 x 4.
2. Inicializa el kernel recurrente $W_{hh}$. Por defecto Keras usa el método llamado [orthogonal](https://smerity.com/articles/2016/orthogonal_init.html). En el ejemplo será una matriz 4 x 4, la cual transforma el estado recurrente.
3. Inicializa el bias en cero, por defecto. Este parámetro es opcional. Su tamaño en el ejemplo es 4. 

### Proceso recurrente de cada secuencia.

En el ejemplo, cada una de las 10 secuencias de cada conjunto de datos se procesa d ela sigueinte forma.

1. Inicializa le estado recurrente $h = x_0W_{xh}$. 
2. Cada elemento $i, i = 1,\ldots,9$ de la secuencia ingresa y transforma el estado recurrente de la siguiente forma $h = x_iW_{xh} + hW_{hh} + b$.
3. Al finalizar el último valor del estado recurrente se pasa por la función de activacion , por defecto `tanh` y esta es es la salida de la capa.

Entonces como vamos a introducir 32 conjuntos de datos, cada uno con 10 secuencias de tamaño 8 y esperamos secuencias de tamaño 4, a la salida esperamos a la salida 32 secuencias de tamaño 4.

Vamos al código!!

In [3]:
# Creamos para la entrada un mini-lote de 32 ejemplos de tamaño 10 x 8
inputs = np.random.random([32, 10, 8]).astype(np.float32)

# creamos una capa recurrente oculta simple con cuatro unidades de salida.
simple_rnn = SimpleRNN(4) 

output = simple_rnn(inputs)  # la salida tiene tamaño [32,4]
output

In [None]:
help(simple_rnn)

In [None]:
simple_rnn.get_config()

### Extracción de las matrices de peso de la capa recurrente

In [8]:
W_x_h = simple_rnn.get_weights()[0]
W_x_h

array([[-0.25773692, -0.37057853, -0.6288117 , -0.06746429],
       [-0.07627904,  0.10132539,  0.5143829 , -0.3161408 ],
       [ 0.07873738, -0.4994464 , -0.6341361 ,  0.01751536],
       [-0.08485186,  0.2943967 , -0.15574878,  0.02918971],
       [ 0.6802049 ,  0.03849101, -0.1479801 ,  0.42080826],
       [ 0.6787345 ,  0.11882985,  0.16254926,  0.31508023],
       [-0.08014339, -0.06870526,  0.6325106 , -0.41527593],
       [ 0.6408685 , -0.19379896,  0.3370865 ,  0.44241053]],
      dtype=float32)

In [12]:
W_h_h = simple_rnn.get_weights()[1]
W_h_h

array([[-0.38325727, -0.41429952, -0.81510204, -0.13068363],
       [ 0.68143183,  0.06215988, -0.4446668 ,  0.57797766],
       [ 0.6015466 , -0.534525  ,  0.08308589, -0.5878107 ],
       [-0.16403064, -0.73401296,  0.36190706,  0.55076504]],
      dtype=float32)

In [13]:
b_h = simple_rnn.get_weights()[2]
b_h

array([0., 0., 0., 0.], dtype=float32)

In [16]:
print(inputs.shape)
print(output.shape)

(32, 10, 8)
(32, 4)


### Extracción del estado recurrente en cada  paso.

Es posible y conveniente para algunos problemas, extraer el estado recurrente en cada paso. Veámpos el ejemplo.

In [18]:
simple_rnn = tf.keras.layers.SimpleRNN(
    4, return_sequences=True, return_state=True)

# whole_sequence_output tiene forma `[32, 10, 4]`.
# final_state tiene forma `[32, 4]`.
whole_sequence_output, final_state = simple_rnn(inputs)