# <span style="color:green"><center>Diplomado en Inteligencia Artificial y Aprendizaje Profundo</center></span>

# <span style="color:red"><center>Redes Recurrentes Simples en Keras</center></span>

##   <span style="color:blue">Profesores</span>

1. Alvaro Mauricio Montenegro Díaz, ammontenegrod@unal.edu.co
2. Daniel Mauricio Montenegro Reyes, dextronomo@gmail.com 
3. Campo Elías Pardo Turriago, cepardot@unal.edu.co 

##   <span style="color:blue">Asesora Medios y Marketing digital</span>
 

4. Maria del Pilar Montenegro, pmontenegro88@gmail.com 

## <span style="color:blue">Asistentes</span>

5. Oleg Jarma, ojarmam@unal.edu.co 
6. Laura Lizarazo, ljlizarazore@unal.edu.co 

## <span style="color:blue">Referencias</span>

1. Adapatado parcialmente de [Miguel Sotaquirá](https://www.youtube.com/watch?v=aA9QaPu_QpA)
2. Ralf C. Staudemeyer and Eric Rothstein Morris, [Understanding LSTM a tutorial into Long Short-Term Memory Recurrent Neural Networks*, arxiv, September 2019](https://arxiv.org/pdf/1909.09586.pdf)
3. Karpathy, [The Unreasonable Effectiveness of Recurrent Neural Networks](http://karpathy.github.io/2015/05/21/rnn-effectiveness/)
4. [Time Series Forecasting with LSTMs using TensorFlow 2 and Keras in Python](https://towardsdatascience.com/time-series-forecasting-with-lstms-using-tensorflow-2-and-keras-in-python-6ceee9c6c651/)
5. [Dive into Deep Learnig](https://d2l.ai/)

## <span style="color:blue">Contenido</span>

* [Introducción](#Introducción)
* [Herramientas básicas de programación](#Herramientas-básicas-de-programación)
* [Herramientas estadísticas](#Herramientas-estadísticas)
* [Entrenamiento](#Entrenamiento)
* [Predicción](#Predicción)
* [Resumen](#Resumen)

## <span style="color:blue">Introducción</span>

En esta lección se introduce el modelo recurrente más simple, disponible en Keras. Hacemos un ejemplo para predecir nombres de personas. Consulte los detalles de la API [aquí](https://keras.io/api/layers/recurrent_layers/simple_rnn/).

## <span style="color:blue">RNR simple en Keras</span>

In [2]:
import tensorflow as tf

from tensorflow.keras.layers import SimpleRNN

import numpy as np

### Creación de una capa recurrente

Para ilustrar de manera muy simple vamos a crear un modelo muy simpe que recibe a la entrada secuencias de tamaño 8.

En concreto el ejemplo es construido de la siguiente forma:

1. Se construyen 32 conjuntos de datos. Por ejemplo 32 sentencias. Tamb ién pueden ser 32 ventanas de datos de uan serie de tiempo univariada.
2. Cada conjunto de datos consiste de 10 secuencias de tamaño 8
3. Se esperan secuencias de salida de tamaño 4. Por lo tanto la capa recurrente oculta tendrá tamaño 4

Como se presentó en la lección anterior de introducción a redes recurrentes el proceso que hace la capa recurrente es como sigue. Para cada uno de los 32 conjuntos de datos, se sigue el siguiente procedimiento. 

#### Matrices Wxh, Whh y bh

La capa inicializa los pesos por defecto de la sigiente forma

1. Inicializa el kernel $W_{xh}$ usando por ejemplo [glorot uniform](http://proceedings.mlr.press/v9/glorot10a.html). Este es el kerel usado para transformar las entradas. En el ejemplo será una matriz de tamaño 8 x 4.
2. Inicializa el kernel recurrente $W_{hh}$. Por defecto Keras usa el método llamado [orthogonal](https://smerity.com/articles/2016/orthogonal_init.html). En el ejemplo será una matriz 4 x 4, la cual transforma el estado recurrente.
3. Inicializa el bias en cero, por defecto. Este parámetro es opcional. Su tamaño en el ejemplo es 4. 

### Proceso recurrente de cada secuencia.

En el ejemplo, cada una de las 10 secuencias de cada conjunto de datos se procesa d ela sigueinte forma.

1. Inicializa le estado recurrente $h = x_0$. 
2. Cada elemento $i, i = 1,\ldots,9$ de la secuencia ingresa y transforma el estado recurrente de la siguiente forma $h = x_iW_{xh} + hW_{hh} + b$.
3. Al finalizar el último valor del estado recurrente es la salida de la capa.

Entonces como vamos a introducir 32 conjuntos de datos, cada uno con 10 secuencias de tamaño 8 y esperamos secuencias de tamaño 4, a la salida esperamos a la salida 32 secuencias de tamaño 4.

Vamos al código!!

In [3]:
# Creamos para la entrada un mini-lote de 32 ejemplos de tamaño 10 x 8
inputs = np.random.random([32, 10, 8]).astype(np.float32)

# creamos una capa recurrente oculta simple con cuatro unidades de salida.
simple_rnn = SimpleRNN(4) 

output = simple_rnn(inputs)  # la salida tiene tamaño [32,4]
output

In [None]:
help(simple_rnn)

In [None]:
simple_rnn.get_config()

### Extracción de las matrices de peso de la capa recurrente

In [8]:
W_x_h = simple_rnn.get_weights()[0]
W_x_h

array([[-0.25773692, -0.37057853, -0.6288117 , -0.06746429],
       [-0.07627904,  0.10132539,  0.5143829 , -0.3161408 ],
       [ 0.07873738, -0.4994464 , -0.6341361 ,  0.01751536],
       [-0.08485186,  0.2943967 , -0.15574878,  0.02918971],
       [ 0.6802049 ,  0.03849101, -0.1479801 ,  0.42080826],
       [ 0.6787345 ,  0.11882985,  0.16254926,  0.31508023],
       [-0.08014339, -0.06870526,  0.6325106 , -0.41527593],
       [ 0.6408685 , -0.19379896,  0.3370865 ,  0.44241053]],
      dtype=float32)

In [12]:
W_h_h = simple_rnn.get_weights()[1]
W_h_h

array([[-0.38325727, -0.41429952, -0.81510204, -0.13068363],
       [ 0.68143183,  0.06215988, -0.4446668 ,  0.57797766],
       [ 0.6015466 , -0.534525  ,  0.08308589, -0.5878107 ],
       [-0.16403064, -0.73401296,  0.36190706,  0.55076504]],
      dtype=float32)

In [13]:
b_h = simple_rnn.get_weights()[2]
b_h

array([0., 0., 0., 0.], dtype=float32)

In [16]:
print(inputs.shape)
print(output.shape)

(32, 10, 8)
(32, 4)


### Extracción del estado recurrente en cada  paso.

Es posible y conveniente para algunos problemas, extraer el estado recurrente en cada paso. Veámpos el ejemplo.

In [18]:
simple_rnn = tf.keras.layers.SimpleRNN(
    4, return_sequences=True, return_state=True)

# whole_sequence_output tiene forma `[32, 10, 4]`.
# final_state tiene forma `[32, 4]`.
whole_sequence_output, final_state = simple_rnn(inputs)

## <span style="color:blue">Ejemplo de una RNR Simple en Keras</span>

Para este ejercicio puede bajar el archivo de nombres de la República Argentina desde [aquí](https://data.amerigeoss.org/dataset/otros-nombres-personas-fisicas/resource/otros_2.1)

In [106]:
#
#imports
#import numpy as np
#np.random.seed(5)

from tensorflow.keras.layers import Input, Dense, SimpleRNN
from tensorflow.keras.models import Model
from tensorflow.keras.optimizers import Adam
from tensorflow.keras.utils import to_categorical
from tensorflow.keras import backend as K
import pandas as pd

### Lectura de datos

In [73]:
file = "../Datos/historico-nombres.csv"
nombres = pd.read_csv(file,encoding='utf8')
nombres.head()


Unnamed: 0,nombre,cantidad,anio
0,Maria,314,1922
1,Rosa,203,1922
2,Jose,163,1922
3,Maria Luisa,127,1922
4,Carmen,117,1922


In [74]:
len(nombres)

9761609

In [75]:
nombres.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9761609 entries, 0 to 9761608
Data columns (total 3 columns):
 #   Column    Dtype 
---  ------    ----- 
 0   nombre    object
 1   cantidad  int64 
 2   anio      int64 
dtypes: int64(2), object(1)
memory usage: 223.4+ MB


Elimina repeticiones

In [76]:
nombres = pd.unique(nombres['nombre'])
len(nombres)

3439832

In [77]:
nombres[:] = nombres.astype('str')

In [78]:
nombres

array(['Maria', 'Rosa', 'Jose', ..., 'Neylan Dilara', 'Laya Jazmín',
       'Fiorella Luz Mailén'], dtype=object)

### Preprocesamiento

In [79]:
# minúsculas
nombres[:] = [nombre.lower() for nombre in nombres]
nombres

array(['maria', 'rosa', 'jose', ..., 'neylan dilara', 'laya jazmín',
       'fiorella luz mailén'], dtype=object)

In [80]:
#alfabeto
alfabeto = []
for nombre in nombres:
    for char in nombre:
        if char not in alfabeto:
            alfabeto.append(char)


In [81]:
print(alfabeto)

['m', 'a', 'r', 'i', 'o', 's', 'j', 'e', ' ', 'l', 'u', 'c', 'n', 't', 'h', 'g', 'f', 'v', 'd', 'b', 'p', 'q', 'y', 'é', 'z', 'ú', 'ó', 'x', 'w', 'í', 'è', 'k', 'à', "'", 'á', '.', 'ò', 'ù', 'ä', 'ü', 'ñ', 'ì', 'ô', '-', 'ï', '`', 'ö', 'ç', '¤', '9', '0', '(', '2', '8', '4', '3', '6', ')', '°', '7', '5', '1', 'ã', ',', '|', '/', 'â', 'ë', 'î', 'ê', 'û', '´', '_', 'ý', 'º', 'µ', 'ấ', '+', '¡', 'ø', '\x82', '£', '¢', '\xa0', '\x93', '¨', 'å', 'ё', 'ỹ', ':', '\x90', 'ÿ', '\xad', '{', 'ϊ', '·', '"', '?', '\x87', 'ύ', 'ć', '\t', 'ẽ', '¿', 'õ', '\x9a', '~', 'ŷ', 'ϋ']


In [99]:
alfabeto.append('\n')

In [100]:
# Conversión de caracteres a índices y viceversa
car_a_ind = { car:ind for ind,car in enumerate(sorted(alfabeto))}
ind_a_car = { ind:car for ind,car in enumerate(sorted(alfabeto))}
print(car_a_ind)
print(ind_a_car)

{'\t': 0, '\n': 1, ' ': 2, '"': 3, "'": 4, '(': 5, ')': 6, '+': 7, ',': 8, '-': 9, '.': 10, '/': 11, '0': 12, '1': 13, '2': 14, '3': 15, '4': 16, '5': 17, '6': 18, '7': 19, '8': 20, '9': 21, ':': 22, '?': 23, '_': 24, '`': 25, 'a': 26, 'b': 27, 'c': 28, 'd': 29, 'e': 30, 'f': 31, 'g': 32, 'h': 33, 'i': 34, 'j': 35, 'k': 36, 'l': 37, 'm': 38, 'n': 39, 'o': 40, 'p': 41, 'q': 42, 'r': 43, 's': 44, 't': 45, 'u': 46, 'v': 47, 'w': 48, 'x': 49, 'y': 50, 'z': 51, '{': 52, '|': 53, '~': 54, '\x82': 55, '\x87': 56, '\x90': 57, '\x93': 58, '\x9a': 59, '\xa0': 60, '¡': 61, '¢': 62, '£': 63, '¤': 64, '¨': 65, '\xad': 66, '°': 67, '´': 68, 'µ': 69, '·': 70, 'º': 71, '¿': 72, 'à': 73, 'á': 74, 'â': 75, 'ã': 76, 'ä': 77, 'å': 78, 'ç': 79, 'è': 80, 'é': 81, 'ê': 82, 'ë': 83, 'ì': 84, 'í': 85, 'î': 86, 'ï': 87, 'ñ': 88, 'ò': 89, 'ó': 90, 'ô': 91, 'õ': 92, 'ö': 93, 'ø': 94, 'ù': 95, 'ú': 96, 'û': 97, 'ü': 98, 'ý': 99, 'ÿ': 100, 'ć': 101, 'ŷ': 102, 'ϊ': 103, 'ϋ': 104, 'ύ': 105, 'ё': 106, 'ấ': 107, 'ẽ': 1

### Modelo

In [87]:

n_a = 25    # Número de unidades en la capa oculta
tam_alfabeto = len(alfabeto)

entrada  = Input(shape=(None,tam_alfabeto))
a0 = Input(shape=(n_a,))

celda_recurrente = SimpleRNN(n_a, activation='tanh', return_state = True)
capa_salida = Dense(tam_alfabeto, activation='softmax')

salida = []
hs, _ = celda_recurrente(entrada, initial_state=a0)
salida.append(capa_salida(hs))

modelo = Model([entrada,a0],salida)
#modelo.summary()

opt = Adam
modelo.compile(optimizer='Adam', loss='categorical_crossentropy')

In [88]:
modelo.summary()

Model: "model_1"
__________________________________________________________________________________________________
Layer (type)                    Output Shape         Param #     Connected to                     
input_4 (InputLayer)            [(None, None, 109)]  0                                            
__________________________________________________________________________________________________
input_5 (InputLayer)            [(None, 25)]         0                                            
__________________________________________________________________________________________________
simple_rnn_4 (SimpleRNN)        [(None, 25), (None,  3375        input_4[0][0]                    
                                                                 input_5[0][0]                    
__________________________________________________________________________________________________
dense_1 (Dense)                 (None, 109)          2834        simple_rnn_4[0][0]         

### Ejemplos de entrenamiento

In [108]:
# Crear lista con ejemplos de entrenamiento y mezclarla aleatoriamente
np.random.shuffle(nombres)

size = np.round(len(nombres)*0.5).astype(int)
 
ejemplos = nombres[:size]
np.random.shuffle(ejemplos)

In [109]:
ejemplos

array(['herminda carolina del carmen', 'angela erina', 'rocio leonela',
       ..., 'zanilda', 'emanuel stefano sebastian', 'zoire karin'],
      dtype=object)

In [96]:
# Crear ejemplos de entrenamiento usando un generador
def train_generator():
    while True:
        # Tomar un ejemplo aleatorio
        ejemplo = ejemplos[np.random.randint(0,len(ejemplos))]

        # Convertir el ejemplo a representación numérica
        X = [None] + [car_a_ind[c] for c in ejemplo]

        # Crear "Y", resultado de desplazar "X" un caracter a la derecha
        Y = X[1:] + [car_a_ind['\n']]

        # Representar "X" y "Y" en formato one-hot
        x = np.zeros((len(X),1,tam_alfabeto))
        onehot = to_categorical(X[1:],tam_alfabeto).reshape(len(X)-1,1,tam_alfabeto)
        x[1:,:,:] = onehot
        y = to_categorical(Y,tam_alfabeto).reshape(len(X),tam_alfabeto)

        # Activación inicial (matriz de ceros)
        a = np.zeros((len(X), n_a))

        yield [x, a], y

### Entrenamiento

In [112]:
BATCH_SIZE = 32			# Número de ejemplos de entrenamiento a usar en cada iteración
epochs = 1000			# Número de iteraciones

for j in range(epochs):
    historia = modelo.fit_generator(train_generator(), steps_per_epoch=BATCH_SIZE, epochs=1, verbose=0)

    # Imprimir evolución del entrenamiento cada 1000 iteraciones
    if j%20 == 0:
        print('\nEpoch: %d, Error: %f' % (j, historia.history['loss'][0]), end ='...' )


Epoch: 0, Error: 2.320559...
Epoch: 20, Error: 2.443984...
Epoch: 40, Error: 2.452941...
Epoch: 60, Error: 2.417065...
Epoch: 80, Error: 2.403830...
Epoch: 100, Error: 2.452703...
Epoch: 120, Error: 2.364956...
Epoch: 140, Error: 2.407045...
Epoch: 160, Error: 2.390158...
Epoch: 180, Error: 2.384116...
Epoch: 200, Error: 2.377984...
Epoch: 220, Error: 2.366391...
Epoch: 240, Error: 2.345631...
Epoch: 260, Error: 2.354284...
Epoch: 280, Error: 2.418243...
Epoch: 300, Error: 2.413007...
Epoch: 320, Error: 2.413517...
Epoch: 340, Error: 2.375370...
Epoch: 360, Error: 2.490234...
Epoch: 380, Error: 2.398250...
Epoch: 400, Error: 2.393353...
Epoch: 420, Error: 2.454622...
Epoch: 440, Error: 2.414723...
Epoch: 460, Error: 2.396115...
Epoch: 480, Error: 2.370407...
Epoch: 500, Error: 2.395058...
Epoch: 520, Error: 2.405056...
Epoch: 540, Error: 2.468747...
Epoch: 560, Error: 2.307163...
Epoch: 580, Error: 2.370253...
Epoch: 600, Error: 2.437043...
Epoch: 620, Error: 2.417946...
Epoch: 640, E

### Generación de nombres usando el modelo entrenado

In [104]:
# ===========================================================
def generar_nombre(modelo,car_a_num,tam_alfabeto,n_a):
    # Inicializar x y a con ceros
    x = np.zeros((1,1,tam_alfabeto,))
    a = np.zeros((1, n_a))

    # Nombre generado y caracter de fin de linea
    nombre_generado = ''
    fin_linea = '\n'
    car = -1

    # Iterar sobre el modelo y generar predicción hasta tanto no se alcance
    # "fin_linea" o el nombre generado llegue a los 50 caracteres
    contador = 0
    while (car != fin_linea and contador != 50):
          # Generar predicción usando la celda RNN
          a, _ = celda_recurrente(K.constant(x), initial_state=K.constant(a))
          y = capa_salida(a)
          prediccion = K.eval(y)

          # Escoger aleatoriamente un elemento de la predicción (el elemento con
          # con probabilidad más alta tendrá más opciones de ser seleccionado)
          ix = np.random.choice(list(range(tam_alfabeto)),p=prediccion.ravel())

          # Convertir el elemento seleccionado a caracter y añadirlo al nombre generado
          car = ind_a_car[ix]
          nombre_generado += car

          # Crear x_(t+1) = y_t, y a_t = a_(t-1)
          x = to_categorical(ix,tam_alfabeto).reshape(1,1,tam_alfabeto)
          a = K.eval(a)

          # Actualizar contador y continuar
          contador += 1

          # Agregar fin de línea al nombre generado en caso de tener más de 50 caracteres
          if (contador == 50):
            nombre_generado += '\n'

    print(nombre_generado)

In [None]:
# Generar 100 ejemplos de nombres generados por el modelo ya entrenado
for i in range(100):
    generar_nombre(modelo,car_a_ind,tam_alfabeto,n_a)