# üìä An√°lisis del Dataset Aumentado

Este notebook analiza la calidad y caracter√≠sticas del dataset aumentado para determinar si es √∫til para mejorar el modelo.

## Objetivos:
1. Analizar balance de clases
2. Verificar calidad del texto aumentado
3. Comparar estad√≠sticas original vs aumentado
4. Identificar problemas potenciales
5. Recomendar acciones


## 1. Importar librer√≠as y cargar datasets


In [None]:
import pandas as pd
import numpy as np
from pathlib import Path
import matplotlib.pyplot as plt
import seaborn as sns
from collections import Counter
import warnings
warnings.filterwarnings('ignore')

# Cargar datasets
df_original = pd.read_csv('../data/raw/youtoxic_english_1000.csv')
df_augmented = pd.read_csv('../data/processed/youtoxic_english_1000_augmented.csv')

print("‚úÖ Datasets cargados:")
print(f"   Original: {len(df_original)} ejemplos")
print(f"   Aumentado: {len(df_augmented)} ejemplos")
print(f"   Incremento: {len(df_augmented) - len(df_original)} ejemplos ({((len(df_augmented) - len(df_original))/len(df_original)*100):.1f}%)")


## 2. An√°lisis de Balance de Clases y Calidad


In [None]:
print("üìä AN√ÅLISIS COMPLETO DEL DATASET AUMENTADO:")
print("="*60)

# Balance de clases
orig_toxic = df_original['IsToxic'].sum()
orig_not_toxic = len(df_original) - orig_toxic
orig_toxic_pct = (orig_toxic / len(df_original)) * 100

aug_toxic = df_augmented['IsToxic'].sum()
aug_not_toxic = len(df_augmented) - aug_toxic
aug_toxic_pct = (aug_toxic / len(df_augmented)) * 100

aug_only = df_augmented[df_augmented['_augmented'] == True] if '_augmented' in df_augmented.columns else pd.DataFrame()

print(f"\nüìà Balance de Clases:")
print(f"   Original: {orig_toxic} t√≥xicos ({orig_toxic_pct:.1f}%), {orig_not_toxic} no t√≥xicos ({100-orig_toxic_pct:.1f}%)")
print(f"   Aumentado: {aug_toxic} t√≥xicos ({aug_toxic_pct:.1f}%), {aug_not_toxic} no t√≥xicos ({100-aug_toxic_pct:.1f}%)")

if len(aug_only) > 0:
    aug_only_toxic = aug_only['IsToxic'].sum()
    aug_only_pct = (aug_only_toxic / len(aug_only)) * 100
    print(f"   Solo aumentados: {aug_only_toxic} t√≥xicos ({aug_only_pct:.1f}%) de {len(aug_only)} ejemplos")

balance_change = abs(aug_toxic_pct - orig_toxic_pct)
print(f"\n   Cambio en balance: {balance_change:.1f}%")
if balance_change < 2:
    print("   ‚úÖ Balance se mantiene correctamente")
else:
    print("   ‚ö†Ô∏è  Balance cambi√≥ significativamente")

# Calidad del texto
print(f"\nüìè Calidad del Texto:")
orig_lengths = df_original['Text'].str.len()
aug_lengths = df_augmented['Text'].str.len()
print(f"   Longitud promedio - Original: {orig_lengths.mean():.1f}, Aumentado: {aug_lengths.mean():.1f}")

if len(aug_only) > 0:
    aug_only_lengths = aug_only['Text'].str.len()
    print(f"   Longitud promedio - Solo aumentados: {aug_only_lengths.mean():.1f}")

# Duplicados
duplicates = df_augmented.duplicated(subset=['Text'], keep=False)
print(f"\nüîç Duplicados: {duplicates.sum()} textos duplicados ({duplicates.sum()/len(df_augmented)*100:.1f}%)")
if duplicates.sum() < len(df_augmented) * 0.05:
    print("   ‚úÖ Pocos duplicados, dataset limpio")
else:
    print("   ‚ö†Ô∏è  Muchos duplicados, considerar limpiar")


## 3. Verificar Resultados del Modelo Aumentado


In [None]:
# Verificar si el modelo aumentado se guard√≥ (significa que mejor√≥)
import pickle
model_path = Path('../models/augmented/svm_augmented_model_info.pkl')

if model_path.exists():
    with open(model_path, 'rb') as f:
        model_info = pickle.load(f)
    
    print("‚úÖ MODELO AUMENTADO ENCONTRADO (Mejor√≥ el rendimiento):")
    print("="*60)
    print(f"   F1-Score (Test): {model_info.get('test_f1', 'N/A'):.4f}")
    print(f"   Accuracy: {model_info.get('test_accuracy', 'N/A'):.4f}")
    print(f"   Overfitting: {model_info.get('overfitting', 'N/A'):.2f}%")
    print(f"   Dataset size: {model_info.get('dataset_size', 'N/A')}")
    print(f"   M√©todo: {model_info.get('augmentation_method', 'N/A')}")
    
    print("\nüí° RECOMENDACI√ìN: Usar modelo aumentado en producci√≥n")
else:
    print("‚ÑπÔ∏è  Modelo aumentado no se guard√≥ (no mejor√≥ significativamente)")
    print("   El modelo original sigue siendo el mejor")


## 4. Decisi√≥n Final y Pr√≥ximos Pasos


In [None]:
print("="*60)
print("üìå DECISI√ìN Y PR√ìXIMOS PASOS:")
print("="*60)

if model_path.exists():
    print("\n‚úÖ EL DATASET AUMENTADO MEJOR√ì EL MODELO")
    print("\nüìã Acciones recomendadas:")
    print("   1. ‚úÖ Dataset aumentado es de buena calidad")
    print("   2. ‚úÖ Modelo aumentado tiene mejor rendimiento")
    print("   3. üîÑ OPCIONAL: Actualizar API para usar modelo aumentado")
    print("      - Cambiar ruta del modelo en backend/src/api/predict.py")
    print("      - De: models/optimized/best_optimized_model.pkl")
    print("      - A: models/augmented/svm_augmented_model.pkl")
    print("   4. üìù Documentar en README que se usa dataset aumentado")
    print("\n‚ö†Ô∏è  NOTA: Si actualizas el modelo en producci√≥n, verifica que:")
    print("   - El overfitting sigue siendo bajo (<5%)")
    print("   - Las m√©tricas mejoraron significativamente")
    print("   - El modelo funciona correctamente en la API")
else:
    print("\n‚ûñ EL DATASET AUMENTADO NO MEJOR√ì SIGNIFICATIVAMENTE")
    print("\nüìã Acciones recomendadas:")
    print("   1. ‚úÖ Mantener modelo original (mejor rendimiento)")
    print("   2. ‚ÑπÔ∏è  Dataset aumentado puede usarse para an√°lisis adicionales")
    print("   3. üîÑ OPCIONAL: Probar otras t√©cnicas de augmentation")
    print("      - Traducci√≥n y back-translation")
    print("      - Parafraseo")
    print("      - Aumentar solo clase minoritaria")
    print("\nüí° CONCLUSI√ìN: El dataset original es suficiente para este proyecto")
