# 🧹 Preprocesamiento de Texto - IMDB Dataset

## Objetivo
Aplicar técnicas de preprocesamiento de texto para limpiar y normalizar las reseñas antes del entrenamiento de modelos.

**Pipeline de Preprocesamiento:**
1. Limpieza de HTML, URLs, caracteres especiales
2. Conversión a minúsculas
3. Eliminación de stopwords
4. Lematización
5. Conversión de sentimientos a valores numéricos

In [None]:
# Importaciones
import pandas as pd
import numpy as np
import time
import sys
sys.path.append('..')

from src.preprocessing import (
    load_imdb_dataset,
    clean_text_advanced,
    remove_stopwords,
    lemmatize_text,
    preprocess_pipeline,
    preprocess_dataframe
)

print('✅ Módulos importados correctamente')

In [None]:
# Cargar datos originales
df_raw = load_imdb_dataset('../IMDB Dataset.csv')
print(f'\n✅ Dataset cargado: {len(df_raw)} reseñas')
print(f'Columnas: {list(df_raw.columns)}')

## 📝 Pipeline de Limpieza de Texto

### Pasos del Preprocesamiento:

1. **Limpieza Avanzada (`clean_text_advanced`)**:
   - Eliminar tags HTML (`<br>`, `<p>`, etc.)
   - Eliminar URLs y emails
   - Eliminar menciones (@usuario)
   - Eliminar números
   - Eliminar caracteres especiales
   - Normalizar espacios

2. **Eliminación de Stopwords (`remove_stopwords`)**:
   - Eliminar palabras comunes sin valor semántico (the, a, an, is, etc.)

3. **Lematización (`lemmatize_text`)**:
   - Reducir palabras a su forma base (running → run, movies → movie)

In [None]:
# Ejemplo práctico: Texto raw vs procesado
print('🔍 EJEMPLO DE PREPROCESAMIENTO PASO A PASO')
print('='*70)

# Tomar una reseña de ejemplo
sample_review = df_raw['review'].iloc[0]

print('\n1️⃣ TEXTO ORIGINAL:')
print('-'*70)
print(sample_review[:500] + '...')  # Primeros 500 caracteres

# Paso 1: Limpieza avanzada
step1 = clean_text_advanced(sample_review)
print('\n2️⃣ DESPUÉS DE LIMPIEZA AVANZADA:')
print('-'*70)
print(step1[:500] + '...')

# Paso 2: Eliminación de stopwords
step2 = remove_stopwords(step1)
print('\n3️⃣ DESPUÉS DE ELIMINAR STOPWORDS:')
print('-'*70)
print(step2[:500] + '...')

# Paso 3: Lematización
step3 = lemmatize_text(step2)
print('\n4️⃣ DESPUÉS DE LEMATIZACIÓN (TEXTO FINAL):')
print('-'*70)
print(step3[:500] + '...')

# Mostrar reducción
print('\n📊 COMPARACIÓN DE LONGITUDES:')
print(f'Original: {len(sample_review)} caracteres')
print(f'Final: {len(step3)} caracteres')
print(f'Reducción: {((len(sample_review) - len(step3)) / len(sample_review) * 100):.1f}%')

In [None]:
# Aplicar preprocesamiento a todo el dataset
print('\n🚀 APLICANDO PREPROCESAMIENTO A TODO EL DATASET')
print('='*70)
print('⏳ Este proceso puede tomar varios minutos...')

start_time = time.time()
df_processed = preprocess_dataframe(df_raw)
elapsed_time = time.time() - start_time

print(f'\n⏱️ Tiempo total: {elapsed_time:.2f} segundos ({elapsed_time/60:.2f} minutos)')
print(f'⚡ Velocidad: {len(df_processed)/elapsed_time:.1f} reseñas/segundo')

In [None]:
# Comparar antes y después
print('\n📊 COMPARACIÓN ANTES Y DESPUÉS DEL PREPROCESAMIENTO')
print('='*70)

print('\n🔵 DATASET ORIGINAL:')
print(df_raw.head())
print(f'\nColumnas: {list(df_raw.columns)}')
print(f'Tipo de sentiment: {df_raw["sentiment"].dtype}')

print('\n🟢 DATASET PROCESADO:')
print(df_processed.head())
print(f'\nColumnas: {list(df_processed.columns)}')
print(f'Tipo de sentiment: {df_processed["sentiment"].dtype}')

print('\n✨ CAMBIOS APLICADOS:')
print(f'  • Nueva columna "review_clean" con texto preprocesado')
print(f'  • Columna "sentiment" convertida a numérica (0=negativo, 1=positivo)')
print(f'  • Reseñas vacías eliminadas')

In [None]:
# Verificar resultados con ejemplos aleatorios
print('\n🎲 EJEMPLOS ALEATORIOS DE TEXTOS PROCESADOS')
print('='*70)

sample_indices = np.random.choice(df_processed.index, 5, replace=False)

for i, idx in enumerate(sample_indices, 1):
    print(f'\n--- EJEMPLO {i} ---')
    print(f'Sentimiento: {"POSITIVO" if df_processed.loc[idx, "sentiment"] == 1 else "NEGATIVO"}')
    print(f'Original: {df_processed.loc[idx, "review"][:150]}...')
    print(f'Procesado: {df_processed.loc[idx, "review_clean"][:150]}...')

# Verificar valores nulos
print('\n\n✅ VERIFICACIÓN DE CALIDAD DE DATOS:')
print(f'Valores nulos en review_clean: {df_processed["review_clean"].isnull().sum()}')
print(f'Valores nulos en sentiment: {df_processed["sentiment"].isnull().sum()}')
print(f'Textos vacíos: {(df_processed["review_clean"].str.len() == 0).sum()}')

In [None]:
# Guardar dataset procesado
import os

output_path = '../data/imdb_preprocessed.csv'
os.makedirs('../data', exist_ok=True)

df_processed.to_csv(output_path, index=False)

print('\n💾 DATASET PROCESADO GUARDADO')
print('='*70)
print(f'Ruta: {output_path}')
print(f'Tamaño del archivo: {os.path.getsize(output_path) / (1024*1024):.2f} MB')
print(f'Filas guardadas: {len(df_processed)}')
print(f'Columnas: {list(df_processed.columns)}')

## 🎯 Conclusiones del Preprocesamiento

### ✅ Tareas Completadas:

1. **Limpieza Exitosa**: Se eliminaron tags HTML, URLs, caracteres especiales y elementos no deseados del texto.

2. **Normalización**: Todo el texto fue convertido a minúsculas y se normalizaron los espacios.

3. **Reducción de Ruido**: Se eliminaron stopwords que no aportan significado semántico.

4. **Lematización**: Las palabras fueron reducidas a su forma base para mejorar la generalización.

5. **Conversión Numérica**: Los sentimientos fueron convertidos a formato numérico (0/1) para el entrenamiento.

### 📈 Impacto del Preprocesamiento:

- **Reducción de dimensionalidad**: Los textos son más cortos y concisos
- **Mejor generalización**: La lematización ayuda a que palabras similares se traten como una sola
- **Menos ruido**: Se eliminó información irrelevante que podría confundir a los modelos
- **Datos listos**: El dataset está ahora listo para vectorización y entrenamiento

### 🔜 Próximos Pasos:

1. Dividir datos en train/test
2. Vectorizar textos (Bag of Words o TF-IDF)
3. Entrenar modelos de Machine Learning

---
**Siguiente notebook:** `03_model_training.ipynb`