# üßπ Preprocesamiento de Texto - IMDB Dataset

## Objetivo
Aplicar t√©cnicas de preprocesamiento de texto para limpiar y normalizar las rese√±as antes del entrenamiento de modelos.

**Pipeline de Preprocesamiento:**
1. Limpieza de HTML, URLs, caracteres especiales
2. Conversi√≥n a min√∫sculas
3. Eliminaci√≥n de stopwords
4. Lematizaci√≥n
5. Conversi√≥n de sentimientos a valores num√©ricos

In [None]:
# Importaciones
import pandas as pd
import numpy as np
import time
import sys
sys.path.append('..')

from src.preprocessing import (
    load_imdb_dataset,
    clean_text_advanced,
    remove_stopwords,
    lemmatize_text,
    preprocess_pipeline,
    preprocess_dataframe
)

print('‚úÖ M√≥dulos importados correctamente')

In [None]:
# Cargar datos originales
df_raw = load_imdb_dataset('../IMDB Dataset.csv')
print(f'\n‚úÖ Dataset cargado: {len(df_raw)} rese√±as')
print(f'Columnas: {list(df_raw.columns)}')

## üìù Pipeline de Limpieza de Texto

### Pasos del Preprocesamiento:

1. **Limpieza Avanzada (`clean_text_advanced`)**:
   - Eliminar tags HTML (`<br>`, `<p>`, etc.)
   - Eliminar URLs y emails
   - Eliminar menciones (@usuario)
   - Eliminar n√∫meros
   - Eliminar caracteres especiales
   - Normalizar espacios

2. **Eliminaci√≥n de Stopwords (`remove_stopwords`)**:
   - Eliminar palabras comunes sin valor sem√°ntico (the, a, an, is, etc.)

3. **Lematizaci√≥n (`lemmatize_text`)**:
   - Reducir palabras a su forma base (running ‚Üí run, movies ‚Üí movie)

In [None]:
# Ejemplo pr√°ctico: Texto raw vs procesado
print('üîç EJEMPLO DE PREPROCESAMIENTO PASO A PASO')
print('='*70)

# Tomar una rese√±a de ejemplo
sample_review = df_raw['review'].iloc[0]

print('\n1Ô∏è‚É£ TEXTO ORIGINAL:')
print('-'*70)
print(sample_review[:500] + '...')  # Primeros 500 caracteres

# Paso 1: Limpieza avanzada
step1 = clean_text_advanced(sample_review)
print('\n2Ô∏è‚É£ DESPU√âS DE LIMPIEZA AVANZADA:')
print('-'*70)
print(step1[:500] + '...')

# Paso 2: Eliminaci√≥n de stopwords
step2 = remove_stopwords(step1)
print('\n3Ô∏è‚É£ DESPU√âS DE ELIMINAR STOPWORDS:')
print('-'*70)
print(step2[:500] + '...')

# Paso 3: Lematizaci√≥n
step3 = lemmatize_text(step2)
print('\n4Ô∏è‚É£ DESPU√âS DE LEMATIZACI√ìN (TEXTO FINAL):')
print('-'*70)
print(step3[:500] + '...')

# Mostrar reducci√≥n
print('\nüìä COMPARACI√ìN DE LONGITUDES:')
print(f'Original: {len(sample_review)} caracteres')
print(f'Final: {len(step3)} caracteres')
print(f'Reducci√≥n: {((len(sample_review) - len(step3)) / len(sample_review) * 100):.1f}%')

In [None]:
# Aplicar preprocesamiento a todo el dataset
print('\nüöÄ APLICANDO PREPROCESAMIENTO A TODO EL DATASET')
print('='*70)
print('‚è≥ Este proceso puede tomar varios minutos...')

start_time = time.time()
df_processed = preprocess_dataframe(df_raw)
elapsed_time = time.time() - start_time

print(f'\n‚è±Ô∏è Tiempo total: {elapsed_time:.2f} segundos ({elapsed_time/60:.2f} minutos)')
print(f'‚ö° Velocidad: {len(df_processed)/elapsed_time:.1f} rese√±as/segundo')

In [None]:
# Comparar antes y despu√©s
print('\nüìä COMPARACI√ìN ANTES Y DESPU√âS DEL PREPROCESAMIENTO')
print('='*70)

print('\nüîµ DATASET ORIGINAL:')
print(df_raw.head())
print(f'\nColumnas: {list(df_raw.columns)}')
print(f'Tipo de sentiment: {df_raw["sentiment"].dtype}')

print('\nüü¢ DATASET PROCESADO:')
print(df_processed.head())
print(f'\nColumnas: {list(df_processed.columns)}')
print(f'Tipo de sentiment: {df_processed["sentiment"].dtype}')

print('\n‚ú® CAMBIOS APLICADOS:')
print(f'  ‚Ä¢ Nueva columna "review_clean" con texto preprocesado')
print(f'  ‚Ä¢ Columna "sentiment" convertida a num√©rica (0=negativo, 1=positivo)')
print(f'  ‚Ä¢ Rese√±as vac√≠as eliminadas')

In [None]:
# Verificar resultados con ejemplos aleatorios
print('\nüé≤ EJEMPLOS ALEATORIOS DE TEXTOS PROCESADOS')
print('='*70)

sample_indices = np.random.choice(df_processed.index, 5, replace=False)

for i, idx in enumerate(sample_indices, 1):
    print(f'\n--- EJEMPLO {i} ---')
    print(f'Sentimiento: {"POSITIVO" if df_processed.loc[idx, "sentiment"] == 1 else "NEGATIVO"}')
    print(f'Original: {df_processed.loc[idx, "review"][:150]}...')
    print(f'Procesado: {df_processed.loc[idx, "review_clean"][:150]}...')

# Verificar valores nulos
print('\n\n‚úÖ VERIFICACI√ìN DE CALIDAD DE DATOS:')
print(f'Valores nulos en review_clean: {df_processed["review_clean"].isnull().sum()}')
print(f'Valores nulos en sentiment: {df_processed["sentiment"].isnull().sum()}')
print(f'Textos vac√≠os: {(df_processed["review_clean"].str.len() == 0).sum()}')

In [None]:
# Guardar dataset procesado
import os

output_path = '../data/imdb_preprocessed.csv'
os.makedirs('../data', exist_ok=True)

df_processed.to_csv(output_path, index=False)

print('\nüíæ DATASET PROCESADO GUARDADO')
print('='*70)
print(f'Ruta: {output_path}')
print(f'Tama√±o del archivo: {os.path.getsize(output_path) / (1024*1024):.2f} MB')
print(f'Filas guardadas: {len(df_processed)}')
print(f'Columnas: {list(df_processed.columns)}')

## üéØ Conclusiones del Preprocesamiento

### ‚úÖ Tareas Completadas:

1. **Limpieza Exitosa**: Se eliminaron tags HTML, URLs, caracteres especiales y elementos no deseados del texto.

2. **Normalizaci√≥n**: Todo el texto fue convertido a min√∫sculas y se normalizaron los espacios.

3. **Reducci√≥n de Ruido**: Se eliminaron stopwords que no aportan significado sem√°ntico.

4. **Lematizaci√≥n**: Las palabras fueron reducidas a su forma base para mejorar la generalizaci√≥n.

5. **Conversi√≥n Num√©rica**: Los sentimientos fueron convertidos a formato num√©rico (0/1) para el entrenamiento.

### üìà Impacto del Preprocesamiento:

- **Reducci√≥n de dimensionalidad**: Los textos son m√°s cortos y concisos
- **Mejor generalizaci√≥n**: La lematizaci√≥n ayuda a que palabras similares se traten como una sola
- **Menos ruido**: Se elimin√≥ informaci√≥n irrelevante que podr√≠a confundir a los modelos
- **Datos listos**: El dataset est√° ahora listo para vectorizaci√≥n y entrenamiento

### üîú Pr√≥ximos Pasos:

1. Dividir datos en train/test
2. Vectorizar textos (Bag of Words o TF-IDF)
3. Entrenar modelos de Machine Learning

---
**Siguiente notebook:** `03_model_training.ipynb`