<a href="https://colab.research.google.com/github/ayrna/ap2122/blob/main/redes_recurrentes/text_data.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## ¿Qué es esto?

Este cuaderno de Jupyter contiene código Python para construir una red recurrente LSTM  que proporciona alrededor de un 87-88% de precisión en el dataset *IMDB Movie Review Sentiment Analysis Dataset*. 

Para más información podéis consultar este [enlace](https://www.bouvet.no/bouvet-deler/explaining-recurrent-neural-networks).

## Pensado para Google Collaboratory

El código está preparado para funcionar en Google Collab. Si queréis ejecutarlo de forma local, tendréis que configurar todos los elementos (Cuda, Tensorflow...).

En Google Collab, para conseguir que la red se entrene más rápido deberíamos usar la GPU. En el menú **Entorno de ejecución** elige **Cambiar tipo de entorno de ejecución** y selecciona "GPU".

No olvides hacer los cambios efectivos pulsando sobre **Reiniciar entorno de ejecución**.


## Preparándolo todo

Al ejecutar este código, puede ser que recibas un *warning* pidiéndote que reinicies el *Entorno de ejecución*. Puedes ignorarlo o reiniciarlo con "Entorno de ejecución -> Reiniciar entorno de ejecución" si encuentras algún tipo de problema.

In [None]:
# Todos los import necesarios
import tensorflow as tf 
import numpy as np
from tensorflow.keras.preprocessing import sequence
from numpy import array

# Suprimir los warning de tensorflow
import logging
logging.getLogger('tensorflow').disabled = True

# Obtener los datos de "IMDB Movie Review", limitando las revisiones
# a las 10000 palabras más comunes
vocab_size = 10000
(x_train, y_train), (x_test, y_test) = tf.keras.datasets.imdb.load_data(num_words=vocab_size)

# Maping de las etiquetas
class_names = ["Negative", "Positive"]

## Crear un mapeo que nos permita convertir el dataset IMDB a revisiones que podamos leer

Las revisiones en el dataset IMDB están codificadas como una secuencia de enteros. Afortunadamente, el dataset también contiene un índice que nos permite volver a una representación tipo texto.

In [None]:
# Obtener el índice de palabras del dataset
word_index = tf.keras.datasets.imdb.get_word_index()

# Asegurarnos de que las palabras "especiales" pueden leerse correctamente 
word_index = {k:(v+3) for k,v in word_index.items()}
word_index["<PAD>"] = 0
word_index["<START>"] = 1
word_index["<UNKNOWN>"] = 2
word_index["<UNUSED>"] = 3

# Buscar las palabras en el índice y hacer una función que decodifique cada review
# Si la palabra no está devolverá '?'
reverse_word_index = dict([(value, key) for (key, value) in word_index.items()])
def decode_review(text):
    return ' '.join([reverse_word_index.get(i, '?') for i in text])

## Echemos un vistazo a los datos

Ahora vamos a ver más de cerca los datos. ¿Cuántas palabras contienen nuestras reviews?

¿Qué aspecto tiene una review codificada y decodificada?


In [None]:
# Concatenar los datasets de entrenamiento y de test
allreviews = np.concatenate((x_train, x_test), axis=0)

# Longitud de las revisiones a largo de los dos conjuntos
result = [len(x) for x in allreviews]
print("Máxima longitud de una revisión: {}".format(np.max(result)))
print("Mínima longitud de una revisión: {}".format(np.min(result)))
print("Longitud media de las revisiones: {}".format(np.mean(result)))

# Imprimir una revisión concreta y su etiqueta.
# Reemplaza el número si quieres ver otra.
review_to_print=60
print("")
print("Revisión en modo máquina (codificada)")
print("  Código de la revisión: " + str(x_train[review_to_print]))
print("  Sentimiento: " + str(y_train[review_to_print]))
print("")
print("Revisión en modo texto")
print("  Texto de la revisión: " + decode_review(x_train[review_to_print]))
print("  Sentimiento: " + class_names[y_train[review_to_print]])


## Pre-procesando los datos

Tenemos que asegurarnos de que nuestras revisiones tienen siempre la misma
longitud, ya que se necesita para establecer los parámetros de la LSTM.

Para algunas revisiones tendremos que truncar algunas palabras, mientras que para otras habrá que establecer palabras de relleno (`padding`).

In [None]:
# Longitud a la que vamos a dejar la ventana
review_length = 500

# Truncar o rellenar los conjuntos
x_train = sequence.pad_sequences(x_train, maxlen = review_length)
x_test = sequence.pad_sequences(x_test, maxlen = review_length)

# Comprobamos el tamaño de los conjuntos. Revisaremos los datos de entrenamiento
# y de test, comprobando que las 25000 revisiones tienen 500 enteros.
# Las etiquetas de clase deberían ser 25000, con valores de 0 o 1
print("Shape de los datos de entrenamiento: " + str(x_train.shape))
print("Shape de la etiqueta de entrenamiento " + str(y_train.shape))
print("Shape de los datos de test: " + str(x_test.shape))
print("Shape de la etiqueta de test: " + str(y_test.shape))

# Note padding is added to start of review, not the end
print("")
print("Texto de la revisión (post padding): " + decode_review(x_train[60]))

## Crear y construir una red LSTM recurrente

In [None]:
# Empezamos definiendo una pila vacía. Usaremos esta pila para ir construyendo
# la red, capa por capa
model = tf.keras.models.Sequential()

# La capa de tipo Embedding proporciona un mapeo (también llamado Word Embedding)
# para todas las palabras de nuestro conjunto de entrenamiento. En este embedding,
# las palabras que están cerca unas de otras comparten información de contexto 
# y/o de significado. Esta transformación es aprendida durante el entrenamiento
model.add(
    tf.keras.layers.Embedding(
        input_dim = vocab_size, # Tamaño del vocabulario
        output_dim = 32, # Dimensionalidad del embedding
        input_length = review_length # Longitud de las secuencias de entrada
    )
)

# Las capas de tipo Dropout combaten el sobre aprendizaje y fuerzan a que el 
# modelo aprenda múltiples representaciones de los mismos datos, ya que pone a 
# cero de forma aleatoria algunas de las neuronas durante la fase de 
# entrenamiento
model.add(
    tf.keras.layers.Dropout(
        rate=0.25 # Poner a cero aleatoriamente un 25% de las neuronas
    )
)

# Aquí es donde viene realmente la capa LSTM. Esta capa va a mirar cada 
# secuencia de palabras de la revisión junto con sus embeddings y utilizará 
# ambos elementos para determinar el sentimiento de la revisión
model.add(
    tf.keras.layers.LSTM(
        units=32 # La capa va a tener 32 neuronas de tipo LSTM
    )
)

# Añadir una segunda capa Dropout con el mismo objetivo que la primera
model.add(
    tf.keras.layers.Dropout(
        rate=0.25 # Poner a cero aleatoriamente un 25% de las neuronas
    )
)

# Todas las neuronas LSTM se conectan a un solo nodo en la capa densa. La 
# función sigmoide determina la salida de este nodo, con un valor entre 0 y 1.
# Cuanto más cercano sea a 1, más positiva es la revisión
model.add(
    tf.keras.layers.Dense(
        units=1, # Una única salida
        activation='sigmoid' # Función de activación sigmoide
    )
)

# Compilar el modelo
model.compile(
    loss=tf.keras.losses.binary_crossentropy, # Entropía cruzada
    optimizer=tf.keras.optimizers.Adam(), # Optimizador Adam
    metrics=['accuracy']) # Métrica de los informes

# Mostrar un resumen de la estructura del modelo
model.summary()

## Visualizar el modelo

In [None]:
tf.keras.utils.plot_model(model, to_file='model.png', show_shapes=True, show_layer_names=False)

## Entrenar la LSTM

In [None]:
# Entrenar la LSTM en los datos de entrenamiento
history = model.fit(

    # Datos de entrenamiento : características (revisiones) y clases (positivas o negativas)
    x_train, y_train,
                    
    # Número de ejemplos a examinar antes de actualizar los pesos en el 
    # backpropagation. Cuanto más grande sea el tamaño de batch, más memoria
    # necesitaremos
    batch_size=256, 

    # Una época hace tantos batches como sea necesario para agotar el conjunto
    # de entrenamiento
    epochs=3, 
    
    # Esta fracción de los datos será usada como conjunto de validación, con 
    # vistas a detener el algoritmo si se está produciendo sobre aprendizaje
    validation_split=0.2,
    
    verbose=1
) 

## Evaluar el modelo con los datos de test y ver el resultado

In [None]:
# Obtener las predicciones para los datos de test
from sklearn.metrics import classification_report
predicted_probabilities = model.predict(x_test)
predicted_classes = predicted_probabilities  > 0.5
print(classification_report(y_test, predicted_classes, target_names=class_names))
tf.math.confusion_matrix(y_test, predicted_classes)

## Ver algunas predicciones incorrectas

Vamos a echar un vistazo a algunas de las revisiones incorrectamente clasificadas. Eliminaremos el `padding`.



In [None]:
predicted_classes_reshaped = np.reshape(predicted_classes, 25000)

incorrect = np.nonzero(predicted_classes_reshaped!=y_test)[0]

# Nos vamos a centrar en las 20 primeras revisiones incorrectas
for j, incorrect in enumerate(incorrect[0:20]):
    
    predicted = class_names[predicted_classes_reshaped[incorrect].astype(int)]
    actual = class_names[y_test[incorrect]]
    human_readable_review = decode_review(x_test[incorrect])
    
    print("Revisión de test incorrectamente clasificada ["+ str(j+1) +"]") 
    print("Revisión de test #" + str(incorrect)  + ": Predicho ["+ predicted + "] Objetivo ["+ actual + "]")
    print("Texto de la revisión: " + human_readable_review.replace("<PAD> ", ""))
    print("")

## Prueba tu propio texto como conjunto de test

Esta es una forma divertida de comprobar los límites del modelo que hemos entrenado. Debes teclear todo en minúscula y no usar signos de puntuación.

Podrás comprobar la predicción del modelo, un valor entre 0 y 1


In [None]:
# Escribe tu propia revisión (EN INGLÉS)
#review = "this was a terrible film with too much sex and violence i walked out halfway through"
review = "this is the best film i have ever seen it is great and fantastic and i loved it"
#review = "this was an awful film that i will never see again"
#review = "absolutely wonderful movie i am sure i will repeat it really worth the money i am delighted with the actors and i think it is epic the best movie from this director it is really fantastic and super"

# Codificamos la revisión (reemplazamos las palabras por los enteros)
tmp = []
for word in review.split(" "):
    tmp.append(word_index[word])

# Nos aseguramos que la longitud de secuencia es 500
tmp_padded = sequence.pad_sequences([tmp], maxlen=review_length) 

# Introducimos la revisión ya procesada en el modelo
rawprediction = model.predict(array([tmp_padded][0]))[0][0]
prediction = int(round(rawprediction))

# Probamos el modelo y vemos los resultados
print("Revisión: " + review)
print("Predicción numérica: " + str(rawprediction))
print("Clase predicha: " + class_names[prediction])

## Redes GRU

Ahora vamos a repetir el entrenamiento pero con las redes GRU. Recuerda que las redes Gated Recurrent Unit (GRU) implementan una simplificación de la neurona LSTM basada en reducir el número de puertas, parámetros y estaddos de la misma.

In [None]:
# Pila vacía
model = tf.keras.models.Sequential()

# Embedding
model.add(
    tf.keras.layers.Embedding(
        input_dim = vocab_size, # Tamaño del vocabulario
        output_dim = 32, # Dimensionalidad del embedding
        input_length = review_length # Longitud de las secuencias de entrada
    )
)

# Primer Dropout
model.add(
    tf.keras.layers.Dropout(
        rate=0.25 # Poner a cero aleatoriamente un 25% de las neuronas
    )
)

# Capa GRU
model.add(
    tf.keras.layers.GRU(
        units=32 # La capa va a tener 32 neuronas de tipo LSTM
    )
)

# Segundo Dropout
model.add(
    tf.keras.layers.Dropout(
        rate=0.25 # Poner a cero aleatoriamente un 25% de las neuronas
    )
)

# Capa densa final
model.add(
    tf.keras.layers.Dense(
        units=1, # Una única salida
        activation='sigmoid' # Función de activación sigmoide
    )
)

# Compilar el modelo
model.compile(
    loss=tf.keras.losses.binary_crossentropy, # Entropía cruzada
    optimizer=tf.keras.optimizers.Adam(), # Optimizador Adam
    metrics=['accuracy']) # Métrica de los informes

# Mostrar un resumen de la estructura del modelo
model.summary()

In [None]:
# Representar el modelo
tf.keras.utils.plot_model(model, to_file='model.png', show_shapes=True, show_layer_names=False)

In [None]:
# Entrenar la GRU en los datos
history = model.fit(

    # Datos de entrenamiento
    x_train, y_train,
                    
    # Tamaño de batch
    batch_size=256, 

    # Número de épocas
    epochs=3, 
    
    # Porcentaje de validación
    validation_split=0.2,
    
    verbose=1
) 

In [None]:
# Obtener las predicciones para los datos de test
from sklearn.metrics import classification_report

predicted_probabilities = model.predict(x_test)
predicted_classes = predicted_probabilities  > 0.5
print(classification_report(y_test, predicted_classes, target_names=class_names))
tf.math.confusion_matrix(y_test, predicted_classes)

## Referencia

Este material ha sido elaborado a partir del [cuaderno](https://github.com/markwest1972/LSTM-Example-Google-Colaboratory) de Mark West