# Implementación de LSTM y GRU

El objetivo es implementar y comparar modelos LSTM y GRU en una tarea de
clasificación de texto o de regresión de series temporales. Usaremos un conjunto de datos estóndar como IMDB para clasificación de texto. Para la implementación del modelo utilizaremos Keras en TensorFlow (extra: PyTorch).


In [17]:
# Usaremos el conjunto de datos IMDB disponible directamente en Keras
from keras.datasets import imdb
(train_data, train_labels), (test_data, test_labels) = imdb.load_data(num_words=1000)

from keras.preprocessing import sequence

maxlen = 1000
x_train = sequence.pad_sequences(train_data, maxlen)
x_test = sequence.pad_sequences(test_data, maxlen)

In [5]:
#LSTM

from keras.models import Sequential
from keras.layers import Embedding, LSTM, Dense

max_features = 128

model1 = Sequential()
model1.add(Embedding(max_features, 128))
model1.add(LSTM(128, dropout=0.2, recurrent_dropout=0.2))
model1.add(Dense(1, activation='sigmoid'))
model1.compile(loss='binary_crossentropy',
optimizer='adam',
metrics=['accuracy'])


In [3]:
hist1 = model1.fit(x_train, train_labels, epochs=10,
batch_size=15, validation_split=0.2) #para que tire la memoria RAM necesita de batch_size = 16 (tarda 16 horas, )
results = model1.evaluate(x_test, test_labels)
print(results)

Epoch 1/10


KeyboardInterrupt: 

In [18]:
#GRU

from keras.models import Sequential
from keras.layers import Embedding, GRU, Dense
from keras import optimizers

max_features = 1000
opt = optimizers.Adam(learning_rate=0.001)

model2 = Sequential()
model2.add(Embedding(max_features, 128))
model2.add(GRU(128, dropout=0.2, recurrent_dropout=0.2))
model2.add(Dense(1, activation='sigmoid'))
model2.compile(loss='binary_crossentropy',
optimizer=opt,
metrics=['accuracy'])


In [19]:

hist2 = model2.fit(x_train, train_labels, epochs=10,
batch_size=512, validation_split=0.2)
results = model2.evaluate(x_test, test_labels)
print(results)

Epoch 1/10
[1m 2/40[0m [32m━[0m[37m━━━━━━━━━━━━━━━━━━━[0m [1m4:24[0m 7s/step - accuracy: 0.4883 - loss: 0.6940  

KeyboardInterrupt: 

Para la segunda tarea de este entregable lo que haremos será elegir otro Dataset de Keras o TensorFlow (https://keras.io/api/datasets/, https://www.tensorflow.org/datasets/catalog/overview?hl=%20es#all_datasets). He elegido el conjunto de datos de MNIST ya que al haber trabajado anteriormente con él y conocerlo bastante bien será más sencillo crear una RNN que se ajuste a este conjunto. 

Cargamos el conjunto de datos:

In [None]:
from keras.datasets import mnist

(x_train, y_train), (x_test, y_test) = mnist.load_data()

Una vez cargado el conjunto de datos tendremos que arreglarlo para poder trabajar con él, lo que llamamos preprocesamiento de datos. En primer lugar normalizaremos los datos, y después remodelaremos la forma, para poder entrenar la red con este conjunto.

In [None]:
x_train = x_train.astype('float32') / 255.
x_test = x_test.astype('float32') / 255.
x_train = np.reshape(x_train, (len(x_train), 28, 28, 1))
x_test = np.reshape(x_test, (len(x_test), 28, 28, 1))

In [None]:
# Convertir las secuencias de enteros en tensores
import numpy as np
def vectorize_sequences(sequences, dimension=10000):
  results = np.zeros((len(sequences), dimension))
  for i, sequence in enumerate(sequences):
    results[i, sequence] = 1.
  return results
x_train = vectorize_sequences(train_data)
x_test = vectorize_sequences(test_data)

Al estar trabajando ahora con un conjunto diferente, entonces el objetivo que buscamos al crear la red es un poco diferente al anterior. En este caso tenemos un conjunto de imágenes en las que aparecen números del 0 al 9. Lo que buscamos es que consiga clasificar correctamente las imágenes al número que tienen escrito. Para el caso del conjunto de datos MNIST, donde se desea clasificar las imágenes en una de las 10 clases correspondientes a los dígitos del 0 al 9, se necesita que la capa de salida de Dense tenga 10 unidades. Cada unidad representará una clase posible. Esto significa que la capa de salida tendrá 10 neuronas, una para cada clase, y la salida de cada neurona corresponderá a la probabilidad de que la imagen pertenezca a esa clase específica. Podemos usar la función de activación softmax en esta capa para obtener probabilidades normalizadas.

Además, con el conjunto de datos MNIST en un modelo de aprendizaje profundo, normalmente se procesan las imágenes directamente como tensores. Por lo tanto, no se necesita una capa de Embedding para representar características discretas como palabras.

In [None]:
# LSTM

# Construir la RNN usando el API secuencial de Keras
from keras import models
from keras import layers
from keras import optimizers

opt = optimizers.Adam(learning_rate=0.001)

# Creamos un modelo secuencial
model3 = models.Sequential()
model3.add(LSTM(128, dropout=0.2, recurrent_dropout=0.2))
# Añadir una capa densa después de la capa de SimpleRNN
# model3.add(layers.Dense(64, activation='relu'))
# # Añadir otra capa densa después de la primera capa densa
# model3.add(layers.Dense(32, activation='relu'))
# Capa densa final para la clasificación binaria
model3.add(layers.Dense(10, activation='softmax'))
model3.compile(optimizer=opt, loss='binary_crossentropy', metrics=['acc'])

In [None]:
hist3 = model3.fit(x_train, train_labels, epochs=10,
batch_size=16, validation_split=0.2)
results = model3.evaluate(x_test, test_labels)
print(results)

In [None]:
# GRU

# Construir la RNN usando el API secuencial de Keras
from keras import models
from keras import layers
from keras import optimizers

opt = optimizers.Adam(learning_rate=0.001)

# Creamos un modelo secuencial
model4 = models.Sequential()
model4.add(GRU(128, dropout=0.2, recurrent_dropout=0.2))
# Añadir una capa densa después de la capa de SimpleRNN
# model3.add(layers.Dense(64, activation='relu'))
# # Añadir otra capa densa después de la primera capa densa
# model3.add(layers.Dense(32, activation='relu'))
# Capa densa final para la clasificación binaria
model4.add(layers.Dense(10, activation='softmax'))
model4.compile(optimizer=opt, loss='binary_crossentropy', metrics=['acc'])

In [None]:
hist4 = model4.fit(x_train, train_labels, epochs=10,
batch_size=16, validation_split=0.2)
results = model4.evaluate(x_test, test_labels)
print(results)

In [None]:
import matplotlib.pyplot as plt

fig, axs = plt.subplots(2, 1)

# Primer subgráfico: loss vs. epochs para el primer modelo
axs[0].plot(hist3.history['loss'], label='Train Loss Model 3')
axs[0].plot(hist4.history['loss'], label='Train Loss Model 4')
axs[0].set_title('Loss models 3 and 4')
axs[0].set_xlabel('Epoch')
axs[0].set_ylabel('Loss')
axs[0].legend()

# Segundo subgráfico: loss vs. epochs para el segundo modelo
axs[1].plot(hist3.history['acc'], label='Train Accuracy Model 3')
axs[1].plot(hist4.history['acc'], label='Train Accuracy Model 4')
axs[1].set_title('Accuracy models 3 and 4 and')
axs[1].set_xlabel('Epoch')
axs[1].set_ylabel('Accuracy')
axs[1].legend()

plt.tight_layout()
plt.show()