# 📊 Exploración de Datos - IMDB Dataset

## Objetivo
Este notebook realiza un análisis exploratorio del dataset IMDB de reseñas de películas para entender:
- Estructura y características del dataset
- Distribución de sentimientos (positivo/negativo)
- Longitud y patrones en los textos
- Palabras más frecuentes

**Dataset:** IMDB Movie Reviews Dataset
**Tareas:** Análisis de Sentimientos (Clasificación Binaria)

In [None]:
# Importaciones necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from collections import Counter
import sys
sys.path.append('..')

from src.preprocessing import load_imdb_dataset

# Configuración de visualización
plt.style.use('ggplot')
sns.set_palette('husl')
%matplotlib inline

print('✅ Librerías importadas correctamente')

In [None]:
# Cargar datos
df = load_imdb_dataset('../IMDB Dataset.csv')

print('\n📋 Primeras 5 filas del dataset:')
display(df.head())

print('\n📊 Información del dataset:')
df.info()

print(f'\n📏 Dimensiones: {df.shape[0]} filas x {df.shape[1]} columnas')

## 🔍 Análisis Básico

El dataset contiene:
- **review**: Texto de la reseña de la película
- **sentiment**: Etiqueta del sentimiento (positive/negative)

Estos datos nos permitirán entrenar modelos de clasificación para predecir si una reseña es positiva o negativa.

In [None]:
# Estadísticas descriptivas
print('📊 DISTRIBUCIÓN DE SENTIMIENTOS')
print('='*50)
sentiment_counts = df['sentiment'].value_counts()
print(sentiment_counts)
print(f'\n📈 Porcentajes:')
print(df['sentiment'].value_counts(normalize=True) * 100)

# Visualizar distribución
fig, ax = plt.subplots(figsize=(10, 6))
sentiment_counts.plot(kind='bar', color=['#e74c3c', '#2ecc71'], alpha=0.8, ax=ax)
ax.set_title('Distribución de Sentimientos en el Dataset', fontsize=14, fontweight='bold')
ax.set_xlabel('Sentimiento', fontsize=12)
ax.set_ylabel('Cantidad de Reseñas', fontsize=12)
ax.set_xticklabels(['Negative', 'Positive'], rotation=0)

# Agregar valores sobre barras
for i, v in enumerate(sentiment_counts):
    ax.text(i, v + 500, str(v), ha='center', fontweight='bold')

plt.tight_layout()
plt.show()

In [None]:
# Análisis de longitud de textos
print('📏 ANÁLISIS DE LONGITUD DE RESEÑAS')
print('='*50)

# Calcular longitudes
df['review_length'] = df['review'].str.len()
df['word_count'] = df['review'].str.split().str.len()

# Estadísticas
print('\nEstadísticas de CARACTERES:')
print(df['review_length'].describe())

print('\nEstadísticas de PALABRAS:')
print(df['word_count'].describe())

# Visualizar distribución de longitudes
fig, axes = plt.subplots(1, 2, figsize=(15, 5))

# Histograma de caracteres
axes[0].hist(df['review_length'], bins=50, color='steelblue', alpha=0.7, edgecolor='black')
axes[0].set_title('Distribución de Longitud (Caracteres)', fontsize=12, fontweight='bold')
axes[0].set_xlabel('Número de Caracteres')
axes[0].set_ylabel('Frecuencia')
axes[0].axvline(df['review_length'].mean(), color='red', linestyle='--', label=f'Media: {df["review_length"].mean():.0f}')
axes[0].legend()

# Histograma de palabras
axes[1].hist(df['word_count'], bins=50, color='coral', alpha=0.7, edgecolor='black')
axes[1].set_title('Distribución de Longitud (Palabras)', fontsize=12, fontweight='bold')
axes[1].set_xlabel('Número de Palabras')
axes[1].set_ylabel('Frecuencia')
axes[1].axvline(df['word_count'].mean(), color='red', linestyle='--', label=f'Media: {df["word_count"].mean():.0f}')
axes[1].legend()

plt.tight_layout()
plt.show()

In [None]:
# Análisis de palabras más frecuentes
print('📝 PALABRAS MÁS FRECUENTES')
print('='*50)

# Stopwords simples en inglés
stopwords = set(['the', 'a', 'an', 'and', 'or', 'but', 'in', 'on', 'at', 'to', 'for', 
                 'of', 'with', 'is', 'was', 'are', 'were', 'be', 'been', 'being',
                 'this', 'that', 'these', 'those', 'i', 'you', 'he', 'she', 'it',
                 'we', 'they', 'as', 'by', 'from', 'have', 'has', 'had'])

# Función para obtener palabras frecuentes
def get_top_words(texts, n=20):
    all_words = []
    for text in texts:
        words = text.lower().split()
        words = [w.strip('.,!?;:"()[]') for w in words if w.lower() not in stopwords and len(w) > 2]
        all_words.extend(words)
    return Counter(all_words).most_common(n)

# Top palabras en reseñas positivas
positive_words = get_top_words(df[df['sentiment'] == 'positive']['review'])
print('\n🟢 Top 20 palabras en reseñas POSITIVAS:')
for word, count in positive_words:
    print(f'  {word}: {count}')

# Top palabras en reseñas negativas
negative_words = get_top_words(df[df['sentiment'] == 'negative']['review'])
print('\n🔴 Top 20 palabras en reseñas NEGATIVAS:')
for word, count in negative_words:
    print(f'  {word}: {count}')

# Visualizar comparación
fig, axes = plt.subplots(1, 2, figsize=(16, 6))

# Palabras positivas
pos_words_df = pd.DataFrame(positive_words, columns=['word', 'count'])
axes[0].barh(pos_words_df['word'], pos_words_df['count'], color='green', alpha=0.7)
axes[0].set_title('Top 20 Palabras - Reseñas Positivas', fontsize=12, fontweight='bold')
axes[0].set_xlabel('Frecuencia')
axes[0].invert_yaxis()

# Palabras negativas
neg_words_df = pd.DataFrame(negative_words, columns=['word', 'count'])
axes[1].barh(neg_words_df['word'], neg_words_df['count'], color='red', alpha=0.7)
axes[1].set_title('Top 20 Palabras - Reseñas Negativas', fontsize=12, fontweight='bold')
axes[1].set_xlabel('Frecuencia')
axes[1].invert_yaxis()

plt.tight_layout()
plt.show()

## 📌 Observaciones Clave del Análisis Exploratorio

1. **Balance del Dataset**: El dataset está perfectamente balanceado con 50% de reseñas positivas y 50% negativas, lo cual es ideal para entrenamiento.

2. **Longitud de Reseñas**: Las reseñas tienen longitudes variables, con un promedio de ~1300 caracteres y ~230 palabras. Esto proporciona suficiente información para el análisis de sentimientos.

3. **Palabras Frecuentes**: Se observan palabras claramente asociadas con cada sentimiento:
   - **Positivas**: "great", "good", "best", "love", "excellent"
   - **Negativas**: "bad", "worst", "waste", "boring", "terrible"

4. **Calidad de Datos**: No se encontraron valores nulos, lo cual facilita el preprocesamiento.

5. **Próximos Pasos**: Es necesario aplicar preprocesamiento de texto (limpieza, normalización, eliminación de stopwords) antes del entrenamiento de modelos.

---
**Siguiente notebook:** `02_preprocessing.ipynb`