# Laboratorio 4: Mejorando el Análisis de Sentimientos con LSTM y Características Adicionales

## Preprocesamiento


### Cargar Datos

In [1]:
import tensorflow as tf
from tensorflow.keras.preprocessing import sequence
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Embedding
from tensorflow.keras.layers import LSTM
from tensorflow.keras.datasets import imdb

In [2]:
print('Cargando los datos...')
(X_train, y_train), (X_test, y_test) = imdb.load_data(num_words=50000)

Cargando los datos...
Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/imdb.npz


In [3]:
len(X_train)

25000

In [4]:
len(y_train)

25000

In [5]:
X_train[0]

[1,
 14,
 22,
 16,
 43,
 530,
 973,
 1622,
 1385,
 65,
 458,
 4468,
 66,
 3941,
 4,
 173,
 36,
 256,
 5,
 25,
 100,
 43,
 838,
 112,
 50,
 670,
 22665,
 9,
 35,
 480,
 284,
 5,
 150,
 4,
 172,
 112,
 167,
 21631,
 336,
 385,
 39,
 4,
 172,
 4536,
 1111,
 17,
 546,
 38,
 13,
 447,
 4,
 192,
 50,
 16,
 6,
 147,
 2025,
 19,
 14,
 22,
 4,
 1920,
 4613,
 469,
 4,
 22,
 71,
 87,
 12,
 16,
 43,
 530,
 38,
 76,
 15,
 13,
 1247,
 4,
 22,
 17,
 515,
 17,
 12,
 16,
 626,
 18,
 19193,
 5,
 62,
 386,
 12,
 8,
 316,
 8,
 106,
 5,
 4,
 2223,
 5244,
 16,
 480,
 66,
 3785,
 33,
 4,
 130,
 12,
 16,
 38,
 619,
 5,
 25,
 124,
 51,
 36,
 135,
 48,
 25,
 1415,
 33,
 6,
 22,
 12,
 215,
 28,
 77,
 52,
 5,
 14,
 407,
 16,
 82,
 10311,
 8,
 4,
 107,
 117,
 5952,
 15,
 256,
 4,
 31050,
 7,
 3766,
 5,
 723,
 36,
 71,
 43,
 530,
 476,
 26,
 400,
 317,
 46,
 7,
 4,
 12118,
 1029,
 13,
 104,
 88,
 4,
 381,
 15,
 297,
 98,
 32,
 2071,
 56,
 26,
 141,
 6,
 194,
 7486,
 18,
 4,
 226,
 22,
 21,
 134,
 476,
 26,
 480,
 5

In [6]:
y_train[0]

1

Añadir padding a las palabras o recortarlas en caso fuera el caso

In [7]:
X_train = sequence.pad_sequences(X_train, maxlen = 100)
X_test = sequence.pad_sequences(X_test, maxlen = 100)

## Configuración del modelo

In [8]:
modelo = Sequential()
modelo.add(Embedding(50000, 128))
modelo.add(LSTM(128, dropout=0.3, recurrent_dropout=0.3))
modelo.add(Dense(1, activation='sigmoid'))

In [9]:
modelo.compile(loss='binary_crossentropy',
              optimizer='adam',
              metrics=['accuracy'])

In [10]:
# Entrena el modelo
modelo.fit(X_train, y_train, batch_size=32, epochs=3, validation_data=(X_test, y_test))

Epoch 1/3
Epoch 2/3
Epoch 3/3


<keras.src.callbacks.History at 0x29b02f6a0>

In [11]:
# Evalúa el desempeño del modelo
score, accuracy = modelo.evaluate(X_test, y_test, batch_size=32)



In [12]:
print(f'Puntuación de la pérdida: {score}')
print(f'Precisión: {accuracy}')

Puntuación de la pérdida: 0.4640200734138489
Precisión: 0.8352000117301941


## Introducción

En este informe, se presenta un modelo de análisis de sentimientos desarrollado para clasificar reseñas de películas en positivas o negativas. Se utilizó un conjunto de datos de reseñas de películas del conjunto IMDb. El objetivo del laboratorioo fue desarrollar un modelo de clasificación binaria con un enfoque en mejorar el rendimiento en comparación con un modelo básico.

### 1. Características Adicionales Seleccionadas

Para mejorar el rendimiento del modelo, se implementaron las siguientes características adicionales:

- Capa de Dropout: Se añadió una capa de Dropout con una tasa del 30% después de la capa LSTM. Esta capa ayuda a prevenir el sobreajuste al apagar aleatoriamente neuronas durante el entrenamiento, lo que fomenta una representación más general del modelo.
- Tamaño de Embedding: Se mantuvo el tamaño del espacio de embedding en 128. Esto proporciona una representación densa de las palabras, lo que facilita al modelo aprender patrones semánticos más complejos.

### 2. Arquitectura del Modelo y Justificación

El modelo consta de tres capas principales:

- Capa de Embedding: Con 50,000 palabras en el vocabulario, se eligió un espacio de embedding de 128 para representar las palabras. Esto permite una representación densa y significativa de las palabras en el espacio vectorial.
- Capa LSTM: Se utilizó una capa LSTM con 128 unidades para capturar relaciones temporales y contextuales en las secuencias de texto. Esto es crucial para comprender el contexto y la dependencia a lo largo de las reseñas.
- Capa de Salida (Densa): Una capa densa con una unidad y activación sigmoide fue seleccionada para realizar la clasificación binaria. La activación sigmoide produce una probabilidad entre 0 y 1, lo que es adecuado para un problema de clasificación binaria.

### 3. Resultados Obtenidos y Comparación

Con el modelo entrenado se obtuvo los siguientes resultados:

- Pérdida: 0.4640
- Precisión: 83.52%
-- Este modelo mejorado logró una mejora significativa en la precisión, ya que una pérdida de 0.46 indica que el modelo está bastante bien ajustado a los datos. Cuanto más cercana a cero sea la pérdida, mejor es el rendimiento. Por otra parte, el acuraccy de 83.52% es bastante bueno, especialmente hablando para un modelo de lenguaje natural, pero no siempre significa que este no vaya a cometer errores. Esto indica que la inclusión de características adicionales, como la capa de Dropout y una capa LSTM, ha tenido un impacto positivo en el rendimiento del modelo.

## Conclusiones y Recomendaciones

El modelo mejorado demostró una notable mejora en la precisión en comparación con el modelo básico. Esto sugiere que la incorporación de capas adicionales y el ajuste de hiperparámetros pueden conducir a un mejor rendimiento. Se recomienda seguir experimentando con diferentes configuraciones de capas y parámetros para continuar optimizando el modelo. También es importante considerar la posibilidad de aumentar el tamaño del conjunto de datos o explorar técnicas de procesamiento de texto más avanzadas para futuras iteraciones del modelo.