# Ejercicio: Análisis de Sentimientos en Reseñas de Productos

## Objetivo
Crear un sistema de análisis de sentimientos utilizando una arquitectura LSTM para clasificar reseñas de productos como positivas o negativas.

## Descripción del Problema
Tienes un dataset de 5000 reseñas de productos con las siguientes características:
- Texto de la reseña
- Calificación (1-5 estrellas)
- Longitud variable de texto

## Tareas a Realizar

### 1. Preparación de Datos


In [6]:
# Cargar las bibliotecas necesarias
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

# Cargar datos (ejemplo)
data = pd.read_csv('/home/albaro/Documentos/data/reviews.csv')
#https://www.kaggle.com/code/chirag9073/amazon-fine-food-reviews-sentiment-analysis/notebook?select=Reviews.csv


# Convertir calificaciones a sentimiento binario
# 4-5 estrellas = positivo (1)
# 1-2 estrellas = negativo (0)
data['sentiment'] = (data['Score'] >= 4).astype(int)
data.head()

Unnamed: 0,Id,ProductId,UserId,ProfileName,HelpfulnessNumerator,HelpfulnessDenominator,Score,Time,Summary,Text,sentiment
0,1,B001E4KFG0,A3SGXH7AUHU8GW,delmartian,1,1,5,1303862400,Good Quality Dog Food,I have bought several of the Vitality canned d...,1
1,2,B00813GRG4,A1D87F6ZCVE5NK,dll pa,0,0,1,1346976000,Not as Advertised,Product arrived labeled as Jumbo Salted Peanut...,0
2,3,B000LQOCH0,ABXLMWJIXXAIN,"Natalia Corres ""Natalia Corres""",1,1,4,1219017600,"""Delight"" says it all",This is a confection that has been around a fe...,1
3,4,B000UA0QIQ,A395BORC6FGVXV,Karl,3,3,2,1307923200,Cough Medicine,If you are looking for the secret ingredient i...,0
4,5,B006K2ZZ7K,A1UQRSCLF8GW1T,"Michael D. Bigham ""M. Wassir""",0,0,5,1350777600,Great taffy,Great taffy at a great price. There was a wid...,1


### 2. Procesamiento de Texto


In [8]:
# Crear y ajustar el tokenizador
max_words = 5000  # Tamaño del vocabulario
max_len = 100     # Longitud máxima de cada reseña

tokenizer = Tokenizer(num_words=max_words)
tokenizer.fit_on_texts(data['Text'])

# Convertir texto a secuencias
sequences = tokenizer.texts_to_sequences(data['Text'])
X = pad_sequences(sequences, maxlen=max_len)
y = data['sentiment'].values

### 3. Implementación del Modelo LSTM


In [9]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, LSTM, Dense, Dropout

# Crear el modelo
model = Sequential([
    Embedding(max_words, 32, input_length=max_len),
    LSTM(64, return_sequences=True),
    LSTM(32),
    Dense(16, activation='relu'),
    Dropout(0.5),
    Dense(1, activation='sigmoid')
])

# Compilar el modelo
model.compile(optimizer='adam',
              loss='binary_crossentropy',
              metrics=['accuracy'])

2025-03-03 17:37:05.999924: E external/local_xla/xla/stream_executor/cuda/cuda_driver.cc:152] failed call to cuInit: INTERNAL: CUDA error: Failed call to cuInit: UNKNOWN ERROR (303)


## Ejercicios Prácticos

1. **Implementación Base:**
   - Implementa el código proporcionado
   - Entrena el modelo con los datos
   - Evalúa su rendimiento básico





In [10]:
# Entreamiento de los datos
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

In [11]:
# Fit
model.fit(X_train,y_train, epochs=5,batch_size=32)

Epoch 1/5
[1m12435/12435[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m535s[0m 43ms/step - accuracy: 0.8674 - loss: 0.3196
Epoch 2/5
[1m12435/12435[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m531s[0m 43ms/step - accuracy: 0.9142 - loss: 0.2204
Epoch 3/5
[1m12435/12435[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m530s[0m 43ms/step - accuracy: 0.9290 - loss: 0.1856
Epoch 4/5
[1m12435/12435[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m531s[0m 43ms/step - accuracy: 0.9420 - loss: 0.1622
Epoch 5/5
[1m12435/12435[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m529s[0m 43ms/step - accuracy: 0.9491 - loss: 0.1441


<keras.src.callbacks.history.History at 0x7b264ad4c880>

In [12]:
X_train

array([[   0,    0,    0, ...,   50,   39,   42],
       [   0,    0,    0, ...,  183,    3,  505],
       [   6,   21,  705, ..., 4707,  162,  267],
       ...,
       [   0,    0,    0, ...,  120,    9,  126],
       [   2,   67,  141, ...,   88,   61,  408],
       [ 939,  698, 1119, ...,  710,    1,  672]],
      shape=(397917, 100), dtype=int32)

2. **Mejoras Sugeridas:**
   - Añade regularización para evitar overfitting
   - Implementa early stopping
   - Prueba diferentes tamaños de embedding

3. **Análisis y Visualización:**
   - Grafica la curva de aprendizaje
   - Visualiza la matriz de confusión
   - Analiza ejemplos de predicciones


## Preguntas de Reflexión

1. ¿Por qué usamos una arquitectura LSTM en lugar de una RNN simple?
2. ¿Cómo afecta el tamaño del embedding al rendimiento del modelo?
3. ¿Qué papel juega el Dropout en este modelo?