<center>
<p><img src="https://mcd.unison.mx/wp-content/themes/awaken/img/logo_mcd.png" width="150">
</p>



<h1>Curso Procesamiento de Lenguaje Natural</h1>

<h3>LSTM con Keras, un flujo básico pero completo</h3>


<p> Julio Waissman Vilanova </p>
<p>
<img src="https://identidadbuho.unison.mx/wp-content/uploads/2019/06/letragrama-cmyk-72.jpg" width="150">
</p>


<a target="_blank" href="https://colab.research.google.com/github/mcd-unison/pln/blob/main/labs/RNN/LSTM-IMdb.ipynb"><img src="https://i.ibb.co/2P3SLwK/colab.png"  style="padding-bottom:5px;"  width="30" /> Ejecuta en Colab</a>

<p>
Tomado parcialmente y adaptado de varias libretas de la documentación de Keras
</p>


</center>


In [None]:
import re
import string
import numpy as np
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers

# Obteniendo datos

Vamos a recuperar la base de datos globera de IMdb que se usa para probar casi todos los modelos. Vamos a recuperar los adatos de 

``https://ai.stanford.edu/~amaas/data/sentiment/aclImdb_v1.tar.gz``

In [None]:
!curl -O https://ai.stanford.edu/~amaas/data/sentiment/aclImdb_v1.tar.gz
!tar -xf aclImdb_v1.tar.gz

 y vamos a investigas la estructura y lo que hay...

In [None]:
!ls aclImdb

In [None]:
!ls aclImdb/test

In [None]:
!ls aclImdb/train

In [None]:
!cat aclImdb/train/pos/6248_7.txt

Solo nos interesan las evaluaciones positivas y negativas (para hacer una simple clasificación binaria y simplificar la aplicación), por lo que vamos a borrar el folder `unsup`:

In [None]:
!rm -r aclImdb/train/unsup

Ahora si, vamos a usar las librerías de `Keras` para leer los datos usando [`keras.utils.text_dataset_from_directory`](https://www.tensorflow.org/api_docs/python/tf/keras/utils/text_dataset_from_directory).

En este momento es donde tenemos que determinar el tamaño de los lotes.

In [None]:
batch_size = 32         # Tamaño de los minibatches

raw_train_ds = keras.utils.text_dataset_from_directory(
    "aclImdb/train",
    batch_size=batch_size,
    validation_split=0.2,
    subset="training",
    seed=1337,
)
raw_val_ds = tf.keras.utils.text_dataset_from_directory(
    "aclImdb/train",
    batch_size=batch_size,
    validation_split=0.2,
    subset="validation",
    seed=1337,
)
raw_test_ds = tf.keras.utils.text_dataset_from_directory(
    "aclImdb/test", batch_size=batch_size
)

In [None]:
print(f"Numero de batches en raw_train_ds: {raw_train_ds.cardinality()}")
print(f"Numero de batches en raw_val_ds: {raw_val_ds.cardinality()}")
print(f"Numero de batches en raw_test_ds: {raw_test_ds.cardinality()}")

Es importante revisar los datos crudos para tener una idea de como se recuperaron y cual es la forma que tienen.

Esto lo podemos hacer tomando algunos datos de cada batch e imprimiendolos:

In [None]:
import textwrap

for text_batch, label_batch in raw_train_ds.take(1):
    for i in range(5):
        print(textwrap.fill(text_batch.numpy()[i], 80, subsequent_indent='> '))
        print("\ntarget =", label_batch.numpy()[i])

## Preparando los datos

Vamos ahora a convertir cada string de datos en una serie de índices numéricos, los cuales puedan entrar en 
un modelo neuronal. Para esto, vamos a generar índices a partir de las palabras existentesd en el texto.

Este métdo puede ser no el mejor, ya que el vocabulario se fija en relación al vocabulario encontrado en el
conjunto de aprendizaje. Más adelante veremos mñetodos más sofisticados para hacer la indezación, o como
usar un vocabulario indexado ya preestablecido.

Por el momento vamos primero a especificar el proceso de limpieza de texto (preprocesamiento) el cual será muy sencillo para este ejemplo y consiste en:

1. Convertir a minúsculas todas las letras
2. Eliminar los saltos de linea en formato *html* ( `<br /> `) 
3. Eliminar los signos de puntuación

Igualmente, vamos a generar los minibatches con secuencias de `sequence_length` palabras. Esto es, si es insuficiente, se trunca el texto y si es 
demasiado, se completa el texto con 0's. De esa manera, todos los modelos aprenden con secuencias del mismo tamaño.

Se utilizan hasta `max_features` tokens diferentes. De haber más, estos se eliminan en función de su frecuencia.

Para esto vamos a utilizar la capa de `Keras` de [`layers.TextVectorization`](https://keras.io/api/layers/preprocessing_layers/text/text_vectorization/)

In [None]:
# Model constants.
max_features = 20000
sequence_length = 500

# Preprocesamiento
def custom_standardization(input_data):
    lowercase = tf.strings.lower(input_data)
    stripped_html = tf.strings.regex_replace(lowercase, "<br />", " ")
    return tf.strings.regex_replace(
        stripped_html, f"[{re.escape(string.punctuation)}]", ""
    )


# Capa de vectorización (encontrar los índices por palabra)
vectorize_layer = layers.TextVectorization(
    standardize=custom_standardization,
    max_tokens=max_features,
    output_mode="int",
    output_sequence_length=sequence_length,
)

# Now that the vectorize_layer has been created, call `adapt` on a text-only
# dataset to create the vocabulary. You don't have to batch, but for very large
# datasets this means you're not keeping spare copies of the dataset in memory.

# Let's make a text-only dataset (no labels):
text_ds = raw_train_ds.map(lambda x, y: x)

# Let's call `adapt`:
vectorize_layer.adapt(text_ds)

In [None]:
def vectorize_text(text, label):
    text = tf.expand_dims(text, -1)
    return vectorize_layer(text), label

In [None]:
# Vectorize the data.
train_ds = raw_train_ds.map(vectorize_text)
val_ds = raw_val_ds.map(vectorize_text)
test_ds = raw_test_ds.map(vectorize_text)

In [None]:
# Do async prefetching / buffering of the data for best performance on GPU.
train_ds = train_ds.cache().prefetch(buffer_size=10)
val_ds = val_ds.cache().prefetch(buffer_size=10)
test_ds = test_ds.cache().prefetch(buffer_size=10)

In [None]:
print("Donde se guardan los datos de entrenamiento")
print("train_ds.cardinality() = ", train_ds.cardinality())

ejemplo = train_ds.take(1)

print("\nY un minibatch se representa de esta manera: \n")
print(ejemplo.get_single_element())

## Modelo basado en LSTM multicapa

Vamos a hacer un modelo multicapa, el cual seguramente requerirá de ajustes de su parte.

Vamos a utilizar la forma funcional de definir un modelo neuronal:

In [None]:
emb = 128               # Embedding size
unidades = 64           # Hidden units per layer


# Input for variable-length sequences of integers
inputs = keras.Input(shape=(None,), dtype="int64")

# Embed each integer in a 128-dimensional vector
x = layers.Embedding(max_features, emb)(inputs)

# Add 2 LSTMs
x = layers.LSTM(unidades, return_sequences=True)(x)
x = layers.LSTM(unidades)(x)

# Add a classifier
outputs = layers.Dense(1, activation="sigmoid")(x)

model = keras.Model(inputs, outputs)
model.summary()

Compilamos y ponemos a aprender el modelo (usando BPTT en forma automñatica)

In [None]:
model.compile(
    "adam",
    "binary_crossentropy",
    metrics=["accuracy"]
)

model.fit(
    train_ds,
    validation_data=val_ds,
    epochs=2
)

Y probamos con los datos de test

In [None]:
model.evaluate(test_ds)

Y ahora vamos a probar con bi-LSTM, haciendo un poco más complicado (aunque no mucho) el código

In [None]:
emb = 128
unidades = 64


# Input for variable-length sequences of integers
inputs = keras.Input(shape=(None,), dtype="int32")

# Embed each integer in a 128-dimensional vector
x = layers.Embedding(max_features, emb)(inputs)

# Add 2 bi-LSTMs
x = layers.Bidirectional(layers.LSTM(unidades, return_sequences=True))(x)
x = layers.Bidirectional(layers.LSTM(unidades))(x)

# Add a classifier
outputs = layers.Dense(1, activation="sigmoid")(x)

model_bi = keras.Model(inputs, outputs)
model_bi.summary()

In [None]:
model_bi.compile(
    "adam",
    "binary_crossentropy",
    metrics=["accuracy"]
)

model_bi.fit(
    train_ds,
    validation_data=val_ds,
    epochs=2
)

In [None]:
model_bi.evaluate(test_ds)

## Modelo para producción

Si ya tenemos nuestro modelo funcionando, y nos gusta, y queremos dejarlo en un formato que permita aplicarlo a los datos en crudo, es necesario empaquetar todo nuestro procedimiento en un solo procedimiento de principio a fin. 

Agregamos aqui el truco para empaqetar todo, cuando ya no se espera reentrenar el modelo (al menos no en el corto plazo).

In [None]:
# A string input
inputs = tf.keras.Input(shape=(1,), dtype="string")

# Turn strings into vocab indices
indices = vectorize_layer(inputs)

# Turn vocab indices into predictions
outputs = model(indices)

# Our end to end model
end_to_end_model = tf.keras.Model(inputs, outputs)

end_to_end_model.compile(
    loss="binary_crossentropy",
    optimizer="adam",
    metrics=["accuracy"]
)

end_to_end_model.save('nombre_codigo.keras')

In [None]:
end_to_end_model = keras.saving.load_model("nombre_codigo.keras")

# Test it with `raw_test_ds`, which yields raw strings
end_to_end_model.evaluate(raw_test_ds)