# üìä Exploraci√≥n de Datos - IMDB Dataset

## Objetivo
Este notebook realiza un an√°lisis exploratorio del dataset IMDB de rese√±as de pel√≠culas para entender:
- Estructura y caracter√≠sticas del dataset
- Distribuci√≥n de sentimientos (positivo/negativo)
- Longitud y patrones en los textos
- Palabras m√°s frecuentes

**Dataset:** IMDB Movie Reviews Dataset
**Tareas:** An√°lisis de Sentimientos (Clasificaci√≥n Binaria)

In [None]:
# Importaciones necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from collections import Counter
import sys
sys.path.append('..')

from src.preprocessing import load_imdb_dataset

# Configuraci√≥n de visualizaci√≥n
plt.style.use('ggplot')
sns.set_palette('husl')
%matplotlib inline

print('‚úÖ Librer√≠as importadas correctamente')

In [None]:
# Cargar datos
df = load_imdb_dataset('../IMDB Dataset.csv')

print('\nüìã Primeras 5 filas del dataset:')
display(df.head())

print('\nüìä Informaci√≥n del dataset:')
df.info()

print(f'\nüìè Dimensiones: {df.shape[0]} filas x {df.shape[1]} columnas')

## üîç An√°lisis B√°sico

El dataset contiene:
- **review**: Texto de la rese√±a de la pel√≠cula
- **sentiment**: Etiqueta del sentimiento (positive/negative)

Estos datos nos permitir√°n entrenar modelos de clasificaci√≥n para predecir si una rese√±a es positiva o negativa.

In [None]:
# Estad√≠sticas descriptivas
print('üìä DISTRIBUCI√ìN DE SENTIMIENTOS')
print('='*50)
sentiment_counts = df['sentiment'].value_counts()
print(sentiment_counts)
print(f'\nüìà Porcentajes:')
print(df['sentiment'].value_counts(normalize=True) * 100)

# Visualizar distribuci√≥n
fig, ax = plt.subplots(figsize=(10, 6))
sentiment_counts.plot(kind='bar', color=['#e74c3c', '#2ecc71'], alpha=0.8, ax=ax)
ax.set_title('Distribuci√≥n de Sentimientos en el Dataset', fontsize=14, fontweight='bold')
ax.set_xlabel('Sentimiento', fontsize=12)
ax.set_ylabel('Cantidad de Rese√±as', fontsize=12)
ax.set_xticklabels(['Negative', 'Positive'], rotation=0)

# Agregar valores sobre barras
for i, v in enumerate(sentiment_counts):
    ax.text(i, v + 500, str(v), ha='center', fontweight='bold')

plt.tight_layout()
plt.show()

In [None]:
# An√°lisis de longitud de textos
print('üìè AN√ÅLISIS DE LONGITUD DE RESE√ëAS')
print('='*50)

# Calcular longitudes
df['review_length'] = df['review'].str.len()
df['word_count'] = df['review'].str.split().str.len()

# Estad√≠sticas
print('\nEstad√≠sticas de CARACTERES:')
print(df['review_length'].describe())

print('\nEstad√≠sticas de PALABRAS:')
print(df['word_count'].describe())

# Visualizar distribuci√≥n de longitudes
fig, axes = plt.subplots(1, 2, figsize=(15, 5))

# Histograma de caracteres
axes[0].hist(df['review_length'], bins=50, color='steelblue', alpha=0.7, edgecolor='black')
axes[0].set_title('Distribuci√≥n de Longitud (Caracteres)', fontsize=12, fontweight='bold')
axes[0].set_xlabel('N√∫mero de Caracteres')
axes[0].set_ylabel('Frecuencia')
axes[0].axvline(df['review_length'].mean(), color='red', linestyle='--', label=f'Media: {df["review_length"].mean():.0f}')
axes[0].legend()

# Histograma de palabras
axes[1].hist(df['word_count'], bins=50, color='coral', alpha=0.7, edgecolor='black')
axes[1].set_title('Distribuci√≥n de Longitud (Palabras)', fontsize=12, fontweight='bold')
axes[1].set_xlabel('N√∫mero de Palabras')
axes[1].set_ylabel('Frecuencia')
axes[1].axvline(df['word_count'].mean(), color='red', linestyle='--', label=f'Media: {df["word_count"].mean():.0f}')
axes[1].legend()

plt.tight_layout()
plt.show()

In [None]:
# An√°lisis de palabras m√°s frecuentes
print('üìù PALABRAS M√ÅS FRECUENTES')
print('='*50)

# Stopwords simples en ingl√©s
stopwords = set(['the', 'a', 'an', 'and', 'or', 'but', 'in', 'on', 'at', 'to', 'for', 
                 'of', 'with', 'is', 'was', 'are', 'were', 'be', 'been', 'being',
                 'this', 'that', 'these', 'those', 'i', 'you', 'he', 'she', 'it',
                 'we', 'they', 'as', 'by', 'from', 'have', 'has', 'had'])

# Funci√≥n para obtener palabras frecuentes
def get_top_words(texts, n=20):
    all_words = []
    for text in texts:
        words = text.lower().split()
        words = [w.strip('.,!?;:"()[]') for w in words if w.lower() not in stopwords and len(w) > 2]
        all_words.extend(words)
    return Counter(all_words).most_common(n)

# Top palabras en rese√±as positivas
positive_words = get_top_words(df[df['sentiment'] == 'positive']['review'])
print('\nüü¢ Top 20 palabras en rese√±as POSITIVAS:')
for word, count in positive_words:
    print(f'  {word}: {count}')

# Top palabras en rese√±as negativas
negative_words = get_top_words(df[df['sentiment'] == 'negative']['review'])
print('\nüî¥ Top 20 palabras en rese√±as NEGATIVAS:')
for word, count in negative_words:
    print(f'  {word}: {count}')

# Visualizar comparaci√≥n
fig, axes = plt.subplots(1, 2, figsize=(16, 6))

# Palabras positivas
pos_words_df = pd.DataFrame(positive_words, columns=['word', 'count'])
axes[0].barh(pos_words_df['word'], pos_words_df['count'], color='green', alpha=0.7)
axes[0].set_title('Top 20 Palabras - Rese√±as Positivas', fontsize=12, fontweight='bold')
axes[0].set_xlabel('Frecuencia')
axes[0].invert_yaxis()

# Palabras negativas
neg_words_df = pd.DataFrame(negative_words, columns=['word', 'count'])
axes[1].barh(neg_words_df['word'], neg_words_df['count'], color='red', alpha=0.7)
axes[1].set_title('Top 20 Palabras - Rese√±as Negativas', fontsize=12, fontweight='bold')
axes[1].set_xlabel('Frecuencia')
axes[1].invert_yaxis()

plt.tight_layout()
plt.show()

## üìå Observaciones Clave del An√°lisis Exploratorio

1. **Balance del Dataset**: El dataset est√° perfectamente balanceado con 50% de rese√±as positivas y 50% negativas, lo cual es ideal para entrenamiento.

2. **Longitud de Rese√±as**: Las rese√±as tienen longitudes variables, con un promedio de ~1300 caracteres y ~230 palabras. Esto proporciona suficiente informaci√≥n para el an√°lisis de sentimientos.

3. **Palabras Frecuentes**: Se observan palabras claramente asociadas con cada sentimiento:
   - **Positivas**: "great", "good", "best", "love", "excellent"
   - **Negativas**: "bad", "worst", "waste", "boring", "terrible"

4. **Calidad de Datos**: No se encontraron valores nulos, lo cual facilita el preprocesamiento.

5. **Pr√≥ximos Pasos**: Es necesario aplicar preprocesamiento de texto (limpieza, normalizaci√≥n, eliminaci√≥n de stopwords) antes del entrenamiento de modelos.

---
**Siguiente notebook:** `02_preprocessing.ipynb`