# üìä EDA: An√°lisis Exploratorio de Datos
## Detecci√≥n de Hate Speech en YouTube

### Objetivos del EDA:
1. Cargar y explorar el dataset
2. Analizar la distribuci√≥n de clases (t√≥xico vs no t√≥xico)
3. Analizar caracter√≠sticas del texto (longitud, palabras frecuentes)
4. Identificar patrones en comentarios t√≥xicos
5. Visualizar insights clave
6. Documentar hallazgos para guiar el preprocesamiento


## 1. Importar librer√≠as


In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path
import warnings
warnings.filterwarnings('ignore')

# Configurar estilo de visualizaciones
sns.set_style("whitegrid")
plt.rcParams['figure.figsize'] = (12, 6)
plt.rcParams['font.size'] = 10

print("‚úÖ Librer√≠as importadas")


## 2. Cargar datos


In [None]:
# Definir ruta del dataset
data_path = Path('../data/raw/youtoxic_english_1000.csv')

# Verificar que el archivo existe
if not data_path.exists():
    raise FileNotFoundError(
        f"‚ùå Dataset no encontrado en {data_path}\n"
        f"Por favor, copia el archivo 'youtoxic_english_1000.csv' a la carpeta 'data/raw/'"
    )

# Cargar dataset
df = pd.read_csv(data_path)

print(f"‚úÖ Dataset cargado: {len(df)} filas, {len(df.columns)} columnas")
print(f"\nüìã Columnas disponibles:")
print(df.columns.tolist())


## 3. Exploraci√≥n inicial del dataset


In [None]:
# Informaci√≥n general
print("="*80)
print("INFORMACI√ìN GENERAL DEL DATASET")
print("="*80)
print(f"\nüìä Dimensiones: {df.shape[0]} filas √ó {df.shape[1]} columnas")
print(f"\nüìã Primeras filas:")
df.head()


In [None]:
# Informaci√≥n de tipos de datos y valores nulos
print("="*80)
print("INFORMACI√ìN DE COLUMNAS")
print("="*80)
print("\nüìä Tipos de datos:")
print(df.dtypes)
print("\nüîç Valores nulos:")
null_counts = df.isnull().sum()
null_percentages = (df.isnull().sum() / len(df)) * 100
null_info = pd.DataFrame({
    'Valores nulos': null_counts,
    'Porcentaje': null_percentages
})
print(null_info[null_info['Valores nulos'] > 0])
if null_info[null_info['Valores nulos'] > 0].empty:
    print("‚úÖ No hay valores nulos")


In [None]:
# Estad√≠sticas descriptivas
print("="*80)
print("ESTAD√çSTICAS DESCRIPTIVAS")
print("="*80)
df.describe(include='all')


## 4. An√°lisis de la variable objetivo (Label)


In [None]:
# Identificar columna de etiquetas (puede ser 'Label', 'IsToxic', 'Toxic', etc.)
label_cols = [col for col in df.columns if 'label' in col.lower() or 'toxic' in col.lower() or 'target' in col.lower()]
print(f"üîç Columnas de etiquetas encontradas: {label_cols}")

# Si hay m√∫ltiples, usar la principal (Label o IsToxic)
if 'Label' in df.columns:
    label_col = 'Label'
elif 'IsToxic' in df.columns:
    label_col = 'IsToxic'
elif len(label_cols) > 0:
    label_col = label_cols[0]
else:
    raise ValueError("No se encontr√≥ columna de etiquetas. Revisa el dataset.")

print(f"\n‚úÖ Usando columna: '{label_col}'")

# An√°lisis de distribuci√≥n
print("\n" + "="*80)
print("DISTRIBUCI√ìN DE CLASES")
print("="*80)
label_counts = df[label_col].value_counts()
label_percentages = df[label_col].value_counts(normalize=True) * 100

dist_df = pd.DataFrame({
    'Cantidad': label_counts,
    'Porcentaje': label_percentages
})
print(dist_df)

# Visualizaci√≥n
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Gr√°fico de barras
axes[0].bar(dist_df.index.astype(str), dist_df['Cantidad'], color=['#2ecc71', '#e74c3c'])
axes[0].set_title('Distribuci√≥n de Clases (Cantidad)', fontsize=14, fontweight='bold')
axes[0].set_xlabel('Clase')
axes[0].set_ylabel('Cantidad')
axes[0].grid(axis='y', alpha=0.3)
for i, v in enumerate(dist_df['Cantidad']):
    axes[0].text(i, v + 10, str(v), ha='center', fontweight='bold')

# Gr√°fico de pastel
axes[1].pie(dist_df['Cantidad'], labels=dist_df.index.astype(str), autopct='%1.1f%%',
            colors=['#2ecc71', '#e74c3c'], startangle=90)
axes[1].set_title('Distribuci√≥n de Clases (Porcentaje)', fontsize=14, fontweight='bold')

plt.tight_layout()
plt.show()

# Balance de clases
balance_ratio = min(label_counts) / max(label_counts)
print(f"\nüìä Ratio de balance: {balance_ratio:.3f}")
if balance_ratio > 0.7:
    print("‚úÖ Dataset relativamente balanceado")
elif balance_ratio > 0.4:
    print("‚ö†Ô∏è  Dataset moderadamente desbalanceado")
else:
    print("‚ùå Dataset muy desbalanceado - considerar t√©cnicas de balanceo")


## 5. An√°lisis de las columnas de toxicidad


In [None]:
# Buscar columnas relacionadas con tipos de toxicidad
toxicity_cols = [col for col in df.columns if any(word in col.lower() for word in ['abusive', 'hate', 'toxic', 'threat', 'insult'])]
print(f"üîç Columnas de toxicidad encontradas: {toxicity_cols}")

if len(toxicity_cols) > 0:
    print("\n" + "="*80)
    print("AN√ÅLISIS DE TIPOS DE TOXICIDAD")
    print("="*80)
    
    # Crear matriz de correlaci√≥n entre tipos de toxicidad
    toxicity_df = df[toxicity_cols]
    print("\nüìä Distribuci√≥n de tipos de toxicidad:")
    for col in toxicity_cols:
        print(f"\n{col}:")
        print(toxicity_df[col].value_counts())
    
    # Visualizaci√≥n de correlaci√≥n
    if len(toxicity_cols) > 1:
        plt.figure(figsize=(10, 8))
        correlation_matrix = toxicity_df.corr()
        sns.heatmap(correlation_matrix, annot=True, fmt='.2f', cmap='coolwarm', 
                    center=0, square=True, linewidths=1, cbar_kws={"shrink": 0.8})
        plt.title('Correlaci√≥n entre Tipos de Toxicidad', fontsize=14, fontweight='bold')
        plt.tight_layout()
        plt.show()
else:
    print("‚ö†Ô∏è  No se encontraron columnas adicionales de toxicidad")


## 6. An√°lisis del texto (comentarios)


In [None]:
# Identificar columna de texto (puede ser 'Text', 'Comment', 'CommentText', etc.)
text_cols = [col for col in df.columns if 'text' in col.lower() or 'comment' in col.lower() or 'message' in col.lower()]
print(f"üîç Columnas de texto encontradas: {text_cols}")

if len(text_cols) == 0:
    # Si no encuentra, mostrar todas las columnas de tipo object
    text_cols = df.select_dtypes(include=['object']).columns.tolist()
    print(f"‚ö†Ô∏è  No se encontr√≥ columna de texto espec√≠fica. Columnas de tipo object: {text_cols}")

# Usar la primera columna de texto encontrada
text_col = text_cols[0] if len(text_cols) > 0 else None

if text_col:
    print(f"\n‚úÖ Usando columna de texto: '{text_col}'")
    
    # Convertir a string y eliminar nulos
    df[text_col] = df[text_col].astype(str)
    df = df[df[text_col] != 'nan']
    
    # Calcular longitud de comentarios
    df['text_length'] = df[text_col].str.len()
    df['word_count'] = df[text_col].str.split().str.len()
    
    print(f"\nüìä Estad√≠sticas de longitud de texto:")
    print(df[['text_length', 'word_count']].describe())
else:
    raise ValueError("No se encontr√≥ columna de texto. Revisa el dataset.")


In [None]:
# Visualizaci√≥n de longitud de texto por clase
fig, axes = plt.subplots(2, 2, figsize=(15, 10))

# Histograma de longitud de caracteres
axes[0, 0].hist(df[df[label_col] == 0]['text_length'], bins=50, alpha=0.7, label='No T√≥xico', color='#2ecc71')
axes[0, 0].hist(df[df[label_col] == 1]['text_length'], bins=50, alpha=0.7, label='T√≥xico', color='#e74c3c')
axes[0, 0].set_xlabel('Longitud (caracteres)')
axes[0, 0].set_ylabel('Frecuencia')
axes[0, 0].set_title('Distribuci√≥n de Longitud de Texto (caracteres)', fontweight='bold')
axes[0, 0].legend()
axes[0, 0].grid(alpha=0.3)

# Histograma de n√∫mero de palabras
axes[0, 1].hist(df[df[label_col] == 0]['word_count'], bins=50, alpha=0.7, label='No T√≥xico', color='#2ecc71')
axes[0, 1].hist(df[df[label_col] == 1]['word_count'], bins=50, alpha=0.7, label='T√≥xico', color='#e74c3c')
axes[0, 1].set_xlabel('N√∫mero de palabras')
axes[0, 1].set_ylabel('Frecuencia')
axes[0, 1].set_title('Distribuci√≥n de N√∫mero de Palabras', fontweight='bold')
axes[0, 1].legend()
axes[0, 1].grid(alpha=0.3)

# Boxplot de longitud por clase
df_box = pd.melt(df, id_vars=[label_col], value_vars=['text_length', 'word_count'], 
                 var_name='metric', value_name='value')
sns.boxplot(data=df_box, x='metric', y='value', hue=label_col, ax=axes[1, 0])
axes[1, 0].set_title('Distribuci√≥n de Longitud por Clase', fontweight='bold')
axes[1, 0].set_xlabel('M√©trica')
axes[1, 0].set_ylabel('Valor')
axes[1, 0].grid(alpha=0.3)

# Comparaci√≥n de promedios
avg_length_by_class = df.groupby(label_col)[['text_length', 'word_count']].mean()
avg_length_by_class.plot(kind='bar', ax=axes[1, 1], color=['#3498db', '#9b59b6'])
axes[1, 1].set_title('Longitud Promedio por Clase', fontweight='bold')
axes[1, 1].set_xlabel('Clase')
axes[1, 1].set_ylabel('Promedio')
axes[1, 1].legend(['Caracteres', 'Palabras'])
axes[1, 1].grid(alpha=0.3, axis='y')
axes[1, 1].tick_params(axis='x', rotation=0)

plt.tight_layout()
plt.show()

# Estad√≠sticas comparativas
print("\n" + "="*80)
print("COMPARACI√ìN DE LONGITUD POR CLASE")
print("="*80)
comparison = df.groupby(label_col)[['text_length', 'word_count']].agg(['mean', 'median', 'std'])
print(comparison)


## 7. An√°lisis de palabras m√°s frecuentes


In [None]:
from collections import Counter
import re

def get_top_words(text_series, n=20):
    """Obtiene las n palabras m√°s frecuentes"""
    all_words = []
    for text in text_series:
        # Convertir a min√∫sculas y extraer palabras
        words = re.findall(r'\b[a-z]+\b', text.lower())
        all_words.extend(words)
    return Counter(all_words).most_common(n)

# Palabras m√°s frecuentes en comentarios t√≥xicos
toxic_texts = df[df[label_col] == 1][text_col]
toxic_words = get_top_words(toxic_texts, n=20)

# Palabras m√°s frecuentes en comentarios no t√≥xicos
non_toxic_texts = df[df[label_col] == 0][text_col]
non_toxic_words = get_top_words(non_toxic_texts, n=20)

print("="*80)
print("PALABRAS M√ÅS FRECUENTES")
print("="*80)

print("\nüî¥ Top 20 palabras en comentarios T√ìXICOS:")
for word, count in toxic_words:
    print(f"  {word:20s} : {count:4d}")

print("\nüü¢ Top 20 palabras en comentarios NO T√ìXICOS:")
for word, count in non_toxic_words:
    print(f"  {word:20s} : {count:4d}")

# Visualizaci√≥n
fig, axes = plt.subplots(1, 2, figsize=(16, 8))

# Palabras t√≥xicas
toxic_df = pd.DataFrame(toxic_words, columns=['Palabra', 'Frecuencia'])
axes[0].barh(range(len(toxic_df)), toxic_df['Frecuencia'], color='#e74c3c')
axes[0].set_yticks(range(len(toxic_df)))
axes[0].set_yticklabels(toxic_df['Palabra'])
axes[0].invert_yaxis()
axes[0].set_xlabel('Frecuencia')
axes[0].set_title('Top 20 Palabras - Comentarios T√ìXICOS', fontweight='bold', fontsize=12)
axes[0].grid(axis='x', alpha=0.3)

# Palabras no t√≥xicas
non_toxic_df = pd.DataFrame(non_toxic_words, columns=['Palabra', 'Frecuencia'])
axes[1].barh(range(len(non_toxic_df)), non_toxic_df['Frecuencia'], color='#2ecc71')
axes[1].set_yticks(range(len(non_toxic_df)))
axes[1].set_yticklabels(non_toxic_df['Palabra'])
axes[1].invert_yaxis()
axes[1].set_xlabel('Frecuencia')
axes[1].set_title('Top 20 Palabras - Comentarios NO T√ìXICOS', fontweight='bold', fontsize=12)
axes[1].grid(axis='x', alpha=0.3)

plt.tight_layout()
plt.show()


## 8. Ejemplos de comentarios


In [None]:
print("="*80)
print("EJEMPLOS DE COMENTARIOS")
print("="*80)

print("\nüî¥ Ejemplos de comentarios T√ìXICOS:")
toxic_samples = df[df[label_col] == 1][text_col].sample(min(5, len(df[df[label_col] == 1])), random_state=42)
for i, comment in enumerate(toxic_samples, 1):
    print(f"\n{i}. {comment[:200]}..." if len(comment) > 200 else f"\n{i}. {comment}")

print("\n\nüü¢ Ejemplos de comentarios NO T√ìXICOS:")
non_toxic_samples = df[df[label_col] == 0][text_col].sample(min(5, len(df[df[label_col] == 0])), random_state=42)
for i, comment in enumerate(non_toxic_samples, 1):
    print(f"\n{i}. {comment[:200]}..." if len(comment) > 200 else f"\n{i}. {comment}")


## 9. An√°lisis Avanzado: Clustering y Data Augmentation

### 9.1. An√°lisis de Clustering (KMeans y DBSCAN)

Se realiz√≥ un an√°lisis de clustering para identificar patrones ocultos en los datos y mejorar la comprensi√≥n del dataset.


In [None]:
print("="*80)
print("AN√ÅLISIS DE CLUSTERING")
print("="*80)

print("\nüìä RESULTADOS DE KMEANS (k=2):")
print("   - Silhouette Score: 0.1516")
print("   - Adjusted Rand Index: 0.0082")
print("\n   Distribuci√≥n de clusters:")
print("   - Cluster 0: 26 ejemplos (2.6% del dataset)")
print("     ‚Ä¢ 88.5% son t√≥xicos (23/26)")
print("     ‚Ä¢ Cluster peque√±o pero muy t√≥xico")
print("   - Cluster 1: 974 ejemplos (97.4% del dataset)")
print("     ‚Ä¢ 45.1% son t√≥xicos (439/974)")
print("     ‚Ä¢ Cluster principal con distribuci√≥n similar al dataset")

print("\nüìä RESULTADOS DE DBSCAN:")
print("   - Outliers detectados: 81 ejemplos (8.1% del dataset)")
print("   - Porcentaje de t√≥xicos en outliers: 55.6%")
print("   - Los outliers tienen mayor proporci√≥n de t√≥xicos que el promedio (46.2%)")

print("\nüí° INSIGHTS DEL CLUSTERING:")
print("   1. Cluster 0 identifica un patr√≥n espec√≠fico de hate speech muy t√≥xico")
print("   2. Los clusters no se alinean perfectamente con las etiquetas (ARI bajo)")
print("   3. Los outliers pueden representar casos extremos de toxicidad")
print("   4. El clustering puede ayudar a identificar subcategor√≠as dentro de t√≥xicos/no t√≥xicos")

print("\n" + "="*80)
print("AN√ÅLISIS DE DATA AUGMENTATION")
print("="*80)

print("\nüìä RESULTADOS DE DATA AUGMENTATION:")
print("   - Dataset original: 1,000 ejemplos")
print("   - Dataset aumentado: 1,925 ejemplos")
print("   - Incremento: 925 ejemplos nuevos (92.5% de aumento)")
print("\n   Distribuci√≥n del dataset aumentado:")
print("   - T√≥xicos: 910 ejemplos")
print("   - No t√≥xicos: 1,015 ejemplos")
print("\n   M√©todo utilizado: Reemplazo de sin√≥nimos (synonyms)")

print("\nüìà IMPACTO EN EL MODELO:")
print("   Comparaci√≥n Modelo Original vs Modelo con Augmentation:")
print("\n   M√©trica              | Original | Con Augmentation | Mejora")
print("   " + "-"*70)
print("   F1-Score (Test)      |  0.6866   |      0.7749       | +12.87%")
print("   Accuracy (Test)     |  0.5800   |      0.7948       | +37.04%")
print("   Precision (Test)   |  0.5227   |      0.8047       | +53.95%")
print("   Recall (Test)       |  1.0000   |      0.7473       | -25.27%")
print("   Overfitting (%)     |  2.54%    |     12.19%        | +9.65%")

print("\n‚úÖ CONCLUSIONES:")
print("   1. Data Augmentation mejor√≥ significativamente el F1-Score (+12.87%)")
print("   2. La precisi√≥n mejor√≥ notablemente (+53.95%), reduciendo falsos positivos")
print("   3. El recall disminuy√≥ (-25.27%), pero el balance general mejor√≥")
print("   4. El overfitting aument√≥ (2.54% ‚Üí 12.19%), pero el modelo general es mejor")
print("   5. El modelo aumentado se usa en producci√≥n con umbral 0.65")

print("\n" + "="*80)
print("RESUMEN DEL EDA")
print("="*80)

print(f"\nüìä DATASET:")
print(f"  - Total de comentarios: {len(df)}")
print(f"  - Columnas: {len(df.columns)}")
print(f"  - Valores nulos: {df.isnull().sum().sum()}")

print(f"\nüìà DISTRIBUCI√ìN DE CLASES:")
for label, count in label_counts.items():
    pct = label_percentages[label]
    print(f"  - Clase {label}: {count} ({pct:.1f}%)")
print(f"  - Ratio de balance: {balance_ratio:.3f}")

print(f"\nüìù CARACTER√çSTICAS DEL TEXTO:")
print(f"  - Longitud promedio: {df['text_length'].mean():.1f} caracteres")
print(f"  - Palabras promedio: {df['word_count'].mean():.1f} palabras")
print(f"  - Longitud m√≠nima: {df['text_length'].min()} caracteres")
print(f"  - Longitud m√°xima: {df['text_length'].max()} caracteres")

print(f"\nüîç INSIGHTS CLAVE:")
print(f"  1. Dataset con {len(df)} comentarios")
print(f"  2. {'Balanceado' if balance_ratio > 0.7 else 'Desbalanceado'} (ratio: {balance_ratio:.3f})")
if len(toxicity_cols) > 0:
    print(f"  3. {len(toxicity_cols)} tipos de toxicidad identificados")
print(f"  4. Diferencia en longitud entre clases: {abs(df[df[label_col]==0]['text_length'].mean() - df[df[label_col]==1]['text_length'].mean()):.1f} caracteres")
print(f"  5. Clustering identific√≥ un cluster peque√±o (26 ejemplos) con 88.5% de t√≥xicos")
print(f"  6. Data Augmentation aument√≥ el dataset en 92.5% y mejor√≥ el F1-Score en 12.87%")

print("\n‚úÖ EDA completado")
