# Ejercicio: Análisis de Sentimientos en Reseñas de Productos

## Objetivo
Crear un sistema de análisis de sentimientos utilizando una arquitectura LSTM para clasificar reseñas de productos como positivas o negativas.

## Descripción del Problema
Tienes un dataset de 5000 reseñas de productos con las siguientes características:
- Texto de la reseña
- Calificación (1-5 estrellas)
- Longitud variable de texto

## Tareas a Realizar

### 1. Preparación de Datos


In [1]:
# Cargar las bibliotecas necesarias
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

# Cargar datos (ejemplo)
data = pd.read_csv('reviews.csv')
#https://www.kaggle.com/code/chirag9073/amazon-fine-food-reviews-sentiment-analysis/notebook?select=Reviews.csv

# Convertir calificaciones a sentimiento binario
# 4-5 estrellas = positivo (1)
# 1-2 estrellas = negativo (0)
data['sentiment'] = (data['rating'] >= 4).astype(int)

ModuleNotFoundError: No module named 'pandas'

### 2. Procesamiento de Texto


In [None]:
# Crear y ajustar el tokenizador
max_words = 5000  # Tamaño del vocabulario
max_len = 100     # Longitud máxima de cada reseña

tokenizer = Tokenizer(num_words=max_words)
tokenizer.fit_on_texts(data['review'])

# Convertir texto a secuencias
sequences = tokenizer.texts_to_sequences(data['review'])
X = pad_sequences(sequences, maxlen=max_len)
y = data['sentiment'].values

### 3. Implementación del Modelo LSTM


In [None]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, LSTM, Dense, Dropout

# Crear el modelo
model = Sequential([
    Embedding(max_words, 32, input_length=max_len),
    LSTM(64, return_sequences=True),
    LSTM(32),
    Dense(16, activation='relu'),
    Dropout(0.5),
    Dense(1, activation='sigmoid')
])

# Compilar el modelo
model.compile(optimizer='adam',
              loss='binary_crossentropy',
              metrics=['accuracy'])

## Ejercicios Prácticos

1. **Implementación Base:**
   - Implementa el código proporcionado
   - Entrena el modelo con los datos
   - Evalúa su rendimiento básico

2. **Mejoras Sugeridas:**
   - Añade regularización para evitar overfitting
   - Implementa early stopping
   - Prueba diferentes tamaños de embedding

3. **Análisis y Visualización:**
   - Grafica la curva de aprendizaje
   - Visualiza la matriz de confusión
   - Analiza ejemplos de predicciones

## Preguntas de Reflexión

1. ¿Por qué usamos una arquitectura LSTM en lugar de una RNN simple?
2. ¿Cómo afecta el tamaño del embedding al rendimiento del modelo?
3. ¿Qué papel juega el Dropout en este modelo?