In [1]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, SimpleRNN, Dense
from tensorflow.keras.datasets import imdb
from tensorflow.keras.preprocessing.sequence import pad_sequences

# Cargar el conjunto de datos IMDB
max_features = 10000
(X_train, y_train), (X_test, y_test) = imdb.load_data(num_words=max_features)

# Padding de secuencias
maxlen = 500
X_train = pad_sequences(X_train, maxlen=maxlen)
X_test = pad_sequences(X_test, maxlen=maxlen)

# Crear el modelo RNN
model = Sequential([
    Embedding(max_features, 32),
    SimpleRNN(32),
    Dense(1, activation='sigmoid')
])

# Compilar el modelo
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/imdb.npz
[1m17464789/17464789[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m4s[0m 0us/step


In [2]:
# Entrenar el modelo
model.fit(X_train, y_train, epochs=10, batch_size=64, validation_split=0.2)

# Evaluar el modelo
test_loss, test_acc = model.evaluate(X_test, y_test)
print(f'Test accuracy: {test_acc:.4f}')

Epoch 1/10
[1m313/313[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m47s[0m 136ms/step - accuracy: 0.5697 - loss: 0.6652 - val_accuracy: 0.8120 - val_loss: 0.4375
Epoch 2/10
[1m313/313[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m50s[0m 158ms/step - accuracy: 0.7950 - loss: 0.4483 - val_accuracy: 0.7998 - val_loss: 0.4425
Epoch 3/10
[1m313/313[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m44s[0m 142ms/step - accuracy: 0.8997 - loss: 0.2575 - val_accuracy: 0.7970 - val_loss: 0.4445
Epoch 4/10
[1m313/313[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m42s[0m 134ms/step - accuracy: 0.8434 - loss: 0.3568 - val_accuracy: 0.7816 - val_loss: 0.4965
Epoch 5/10
[1m313/313[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m48s[0m 152ms/step - accuracy: 0.9641 - loss: 0.1174 - val_accuracy: 0.7908 - val_loss: 0.5540
Epoch 6/10
[1m313/313[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m58s[0m 183ms/step - accuracy: 0.9914 - loss: 0.0415 - val_accuracy: 0.8094 - val_loss: 0.6267
Epoch 7/10

Explicación del Código

1. Carga del Conjunto de Datos: Usamos `imdb.load_data()` para cargar las reseñas de películas y sus etiquetas en conjuntos de entrenamiento y prueba.
2. Padding de Secuencias: Las secuencias de texto se rellenan (padding) para que todas tengan la misma longitud, lo cual es necesario para procesarlas en una RNN.

Explicación del Código

1. Capa de Embedding: La capa de embedding convierte las palabras en vectores densos, lo que permite que la RNN procese secuencias de texto.
2. Capa RNN: La capa `SimpleRNN` procesa las secuencias de texto y mantiene un estado oculto que se actualiza con cada palabra.
3. Capa de Salida: La capa de salida utiliza una activación sigmoide para producir una probabilidad de clase, adecuada para la clasificación binaria.

Explicación del Proceso de Entrenamiento

1. Épocas: Entrenamos el modelo durante 10 épocas, donde cada época significa que el modelo verá todos los ejemplos de entrenamiento una vez.
2. Batch Size: Usamos un tamaño de lote de 64, lo que significa que el modelo actualizará sus pesos después de ver 64 ejemplos.

Interpretación de los Resultados

1. Precisión del Modelo: La precisión en el conjunto de prueba nos da una idea de cuán bien el modelo generaliza a nuevas reseñas de películas.
2. Pérdida en el Conjunto de Prueba: La pérdida en el conjunto de prueba es una métrica que indica qué tan bien el modelo está funcionando en términos de su función de pérdida.


Mejoras y Ajustes

Existen varias formas de mejorar y ajustar una RNN para obtener mejores resultados:

1. Ajuste de Hiperparámetros: Puedes experimentar con diferentes tamaños de embedding, unidades de la RNN, y el tamaño del lote.
2. Uso de LSTM o GRU: Considera el uso de LSTM o GRU en lugar de una SimpleRNN para manejar mejor dependencias a largo plazo.
3. Aumento de Datos: Si es posible, puedes aumentar el conjunto de datos para mejorar la capacidad del modelo para generalizar.