# üìä An√°lisis Exploratorio de Datos (EDA) - Comentarios T√≥xicos de YouTube

Este notebook contiene el an√°lisis exploratorio de datos para el proyecto de detecci√≥n de comentarios de odio en YouTube.

## üìã Objetivos del EDA:
 - Explorar la estructura y calidad de los datos
 - Analizar la distribuci√≥n de las diferentes categor√≠as de toxicidad
 - Identificar patrones en los comentarios t√≥xicos vs no t√≥xicos
 - Detectar posibles desequilibrios en las clases
 - An√°lisis de texto: longitud, palabras m√°s frecuentes, etc.
 - Identificar insights para el preprocesamiento y modelado

In [None]:
# Importaci√≥n de librer√≠as
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import warnings
warnings.filterwarnings('ignore')

In [None]:
# Configuraci√≥n de visualizaci√≥n
plt.style.use('default')
sns.set_palette("husl")
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)

## 1. Carga y Exploraci√≥n Inicial de los Datos

In [None]:
df = pd.read_csv('../data/youtoxic_english_1000.csv')

print("üîç INFORMACI√ìN B√ÅSICA DEL DATASET")
print("="*50)
print(f"üìä Forma del dataset: {df.shape}")
print(f"üìù N√∫mero de comentarios: {df.shape[0]:,}")
print(f"üè∑Ô∏è N√∫mero de caracter√≠sticas: {df.shape[1]}")

In [None]:
print("\nüìã PRIMERAS 5 FILAS DEL DATASET:")
print("="*50)
df.head()

In [None]:
print("\nüìä INFORMACI√ìN GENERAL:")
print("="*50)
df.info()

In [None]:
print("\nüìà ESTAD√çSTICAS DESCRIPTIVAS:")
print("="*50)
df.describe()

## 2. An√°lisis de las Etiquetas de Toxicidad

In [None]:
# Identificar las columnas de etiquetas (excluyendo metadatos y columnas con informaci√≥n insuficiente)
label_columns = [col for col in df.columns if col not in ['CommentId', 'VideoId', 'Text', 'index']]

# Identificar etiquetas con datos insuficientes para an√°lisis
insufficient_labels = []
for col in label_columns:
    true_count = (df[col] == True).sum()
    if true_count <= 1:  # Menos de 2 casos positivos
        insufficient_labels.append(col)

# Filtrar etiquetas con datos suficientes para an√°lisis
analysis_labels = [col for col in label_columns if col not in insufficient_labels]

print(f"üîç Etiquetas identificadas: {label_columns}")
print(f"üîç Etiquetas con datos insuficientes (‚â§1 casos): {insufficient_labels}")
print(f"üîç Etiquetas para an√°lisis: {analysis_labels}")
print(f"üîç Total de etiquetas para an√°lisis: {len(analysis_labels)}")

In [None]:
# An√°lisis de distribuci√≥n de cada etiqueta
print("\nüìä DISTRIBUCI√ìN DE ETIQUETAS:")
print("="*50)

label_stats = {}
for col in label_columns:
    true_count = (df[col] == True).sum()
    false_count = (df[col] == False).sum()
    true_pct = (true_count / len(df)) * 100
    
    label_stats[col] = {
        'True': true_count,
        'False': false_count,
        'True_pct': true_pct
    }
    
    print(f"{col}:")
    print(f"  ‚úÖ True: {true_count:,} ({true_pct:.2f}%)")
    print(f"  ‚ùå False: {false_count:,} ({100-true_pct:.2f}%)")
    print()

if insufficient_labels:
    print("‚ö†Ô∏è ETIQUETAS EXCLUIDAS DEL AN√ÅLISIS:")
    print("="*50)
    for col in insufficient_labels:
        true_count = (df[col] == True).sum()
        print(f"{col}: Solo {true_count} caso(s) positivo(s) - Insuficiente para an√°lisis")


In [None]:
# Crear un gr√°fico de barras horizontal para mejor visualizaci√≥n
plt.figure(figsize=(12, 8))

# Preparar datos para el gr√°fico
labels = []
true_counts = []
percentages = []

for col in label_columns:
    labels.append(col.replace('Is', '').replace('is', ''))
    true_count = (df[col] == True).sum()
    true_counts.append(true_count)
    percentages.append((true_count / len(df)) * 100)

# Crear gr√°fico de barras horizontal
bars = plt.barh(labels, true_counts, color=plt.cm.Reds(np.linspace(0.3, 0.8, len(labels))))

# A√±adir etiquetas con porcentajes
for i, (count, pct) in enumerate(zip(true_counts, percentages)):
    plt.text(count + 5, i, f'{count} ({pct:.1f}%)', 
             va='center', fontweight='bold', fontsize=10)

plt.xlabel('N√∫mero de Comentarios T√≥xicos', fontsize=12, fontweight='bold')
plt.title('üìä Distribuci√≥n de Comentarios T√≥xicos por Categor√≠a', fontsize=14, fontweight='bold')
plt.grid(axis='x', alpha=0.3)
plt.tight_layout()
plt.show()

## 3. An√°lisis de Correlaciones entre Etiquetas

In [None]:
# Matriz de correlaci√≥n entre etiquetas
correlation_matrix = df[analysis_labels].corr()

# Visualizar matriz de correlaci√≥n
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', center=0)
plt.title("Correlaci√≥n entre tipos de toxicidad")
plt.show()

In [None]:
# Identificar correlaciones m√°s altas
print("üîó CORRELACIONES M√ÅS ALTAS:")
print("="*50)

# Obtener correlaciones sin la diagonal
corr_pairs = []
for i in range(len(correlation_matrix.columns)):
    for j in range(i+1, len(correlation_matrix.columns)):
        corr_pairs.append({
            'Label1': correlation_matrix.columns[i],
            'Label2': correlation_matrix.columns[j],
            'Correlation': correlation_matrix.iloc[i, j]
        })

# Ordenar por correlaci√≥n absoluta
corr_df = pd.DataFrame(corr_pairs)
corr_df['Abs_Correlation'] = corr_df['Correlation'].abs()
corr_df = corr_df.sort_values('Abs_Correlation', ascending=False)

print("Top 10 correlaciones m√°s fuertes:")
for _, row in corr_df.head(10).iterrows():
    print(f"  {row['Label1']} ‚Üî {row['Label2']}: {row['Correlation']:.3f}")

## 4. An√°lisis de Texto

In [None]:
# An√°lisis b√°sico de longitud de texto
print("üìù AN√ÅLISIS DE LONGITUD DE COMENTARIOS:")
print("="*50)

# Calcular estad√≠sticas de longitud
df['text_length'] = df['Text'].str.len()
df['word_count'] = df['Text'].str.split().str.len()

print("Estad√≠sticas de longitud de caracteres:")
print(df['text_length'].describe())
print("\nEstad√≠sticas de n√∫mero de palabras:")
print(df['word_count'].describe())

In [None]:
# Visualizaci√≥n de distribuci√≥n de longitudes
fig, axes = plt.subplots(2, 2, figsize=(15, 10))

# Distribuci√≥n de longitud de caracteres
axes[0,0].hist(df['text_length'], bins=50, alpha=0.7, color='skyblue', edgecolor='black')
axes[0,0].set_title('üìè Distribuci√≥n de Longitud de Caracteres')
axes[0,0].set_xlabel('N√∫mero de Caracteres')
axes[0,0].set_ylabel('Frecuencia')

# Distribuci√≥n de n√∫mero de palabras
axes[0,1].hist(df['word_count'], bins=50, alpha=0.7, color='lightgreen', edgecolor='black')
axes[0,1].set_title('üìù Distribuci√≥n de N√∫mero de Palabras')
axes[0,1].set_xlabel('N√∫mero de Palabras')
axes[0,1].set_ylabel('Frecuencia')

# Boxplot de longitud por toxicidad general
# Crear una columna de toxicidad general (si cualquier etiqueta es True)
df['is_toxic'] = df[analysis_labels].any(axis=1)

axes[1,0].boxplot([df[df['is_toxic'] == False]['text_length'], 
                   df[df['is_toxic'] == True]['text_length']], 
                  labels=['No T√≥xico', 'T√≥xico'])
axes[1,0].set_title('üìä Longitud de Caracteres: T√≥xico vs No T√≥xico')
axes[1,0].set_ylabel('N√∫mero de Caracteres')

# Boxplot de palabras por toxicidad general
axes[1,1].boxplot([df[df['is_toxic'] == False]['word_count'], 
                   df[df['is_toxic'] == True]['word_count']], 
                  labels=['No T√≥xico', 'T√≥xico'])
axes[1,1].set_title('üìä N√∫mero de Palabras: T√≥xico vs No T√≥xico')
axes[1,1].set_ylabel('N√∫mero de Palabras')

plt.tight_layout()
plt.show()

In [None]:
# An√°lisis de palabras m√°s frecuentes
from collections import Counter
import re

def clean_text_for_analysis(text):
    """Limpia el texto para an√°lisis de frecuencia"""
    # Convertir a min√∫sculas y eliminar caracteres especiales
    text = re.sub(r'[^a-zA-Z\s]', '', text.lower())
    return text

print("üî§ AN√ÅLISIS DE PALABRAS M√ÅS FRECUENTES:")
print("="*50)

# Palabras m√°s frecuentes en comentarios no t√≥xicos
non_toxic_texts = df[df['is_toxic'] == False]['Text'].fillna('')
non_toxic_words = []
for text in non_toxic_texts:
    non_toxic_words.extend(clean_text_for_analysis(text).split())

# Palabras m√°s frecuentes en comentarios t√≥xicos
toxic_texts = df[df['is_toxic'] == True]['Text'].fillna('')
toxic_words = []
for text in toxic_texts:
    toxic_words.extend(clean_text_for_analysis(text).split())

# Filtrar palabras vac√≠as comunes
common_stopwords = {'the', 'a', 'an', 'and', 'or', 'but', 'in', 'on', 'at', 'to', 'for', 'of', 'with', 'by', 'is', 'are', 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'do', 'does', 'did', 'will', 'would', 'could', 'should', 'may', 'might', 'must', 'can', 'i', 'you', 'he', 'she', 'it', 'we', 'they', 'me', 'him', 'her', 'us', 'them', 'my', 'your', 'his', 'her', 'its', 'our', 'their', 'this', 'that', 'these', 'those'}

non_toxic_words = [word for word in non_toxic_words if word not in common_stopwords and len(word) > 2]
toxic_words = [word for word in toxic_words if word not in common_stopwords and len(word) > 2]

print("Top 15 palabras en comentarios NO T√ìXICOS:")
non_toxic_freq = Counter(non_toxic_words).most_common(15)
for word, count in non_toxic_freq:
    print(f"  {word}: {count}")

print("\nTop 15 palabras en comentarios T√ìXICOS:")
toxic_freq = Counter(toxic_words).most_common(15)
for word, count in toxic_freq:
    print(f"  {word}: {count}")


## 5. An√°lisis de Desequilibrio de Clases

In [None]:
print("‚öñÔ∏è AN√ÅLISIS DE DESEQUILIBRIO DE CLASES:")
print("="*50)

# An√°lisis general de toxicidad
toxic_count = df['is_toxic'].sum()
non_toxic_count = len(df) - toxic_count
toxic_ratio = toxic_count / len(df)

print(f"üìä Comentarios t√≥xicos: {toxic_count:,} ({toxic_ratio:.2%})")
print(f"üìä Comentarios no t√≥xicos: {non_toxic_count:,} ({1-toxic_ratio:.2%})")
print(f"üìä Ratio de desequilibrio: {non_toxic_count/toxic_count:.2f}:1")

# An√°lisis por cada etiqueta (solo las que se van a usar)
print("\nüîç Desequilibrio por etiqueta (solo etiquetas v√°lidas para an√°lisis):")
for col in analysis_labels:
    positive_count = (df[col] == True).sum()
    negative_count = (df[col] == False).sum()
    ratio = negative_count / positive_count if positive_count > 0 else float('inf')
    print(f"  {col}: {ratio:.2f}:1 (False:True)")

## 6. üîç An√°lisis de Comentarios Multi-etiqueta

In [None]:
print("üè∑Ô∏è AN√ÅLISIS DE COMENTARIOS MULTI-ETIQUETA:")
print("="*50)

# Contar cu√°ntas etiquetas positivas tiene cada comentario
df['num_toxic_labels'] = df[analysis_labels].sum(axis=1)

# Distribuci√≥n de n√∫mero de etiquetas por comentario
label_distribution = df['num_toxic_labels'].value_counts().sort_index()
print("Distribuci√≥n de n√∫mero de etiquetas t√≥xicas por comentario:")
for num_labels, count in label_distribution.items():
    percentage = (count / len(df)) * 100
    print(f"  {num_labels} etiquetas: {count:,} comentarios ({percentage:.2f}%)")

In [None]:
# Visualizaci√≥n de comentarios multi-etiqueta
plt.figure(figsize=(12, 6))

# Gr√°fico de barras
bars = plt.bar(label_distribution.index, label_distribution.values, 
               color=plt.cm.Spectral(np.linspace(0, 1, len(label_distribution))))

# A√±adir etiquetas con porcentajes
for bar, count in zip(bars, label_distribution.values):
    height = bar.get_height()
    percentage = (count / len(df)) * 100
    plt.text(bar.get_x() + bar.get_width()/2., height + 5,
             f'{count}\n({percentage:.1f}%)', 
             ha='center', va='bottom', fontweight='bold')

plt.xlabel('N√∫mero de Etiquetas T√≥xicas por Comentario', fontsize=12, fontweight='bold')
plt.ylabel('N√∫mero de Comentarios', fontsize=12, fontweight='bold')
plt.title('üè∑Ô∏è Distribuci√≥n de Comentarios Multi-etiqueta', fontsize=14, fontweight='bold')
plt.grid(axis='y', alpha=0.3)
plt.tight_layout()
plt.show()

## 7. Resumen de Insights y Recomendaciones

In [None]:
print("üîç INSIGHTS PRINCIPALES DEL EDA:")
print("="*60)

print("\nüîç 1. ESTRUCTURA DE DATOS:")
print(f"   ‚Ä¢ Dataset con {len(df):,} comentarios y {len(analysis_labels)} etiquetas de toxicidad v√°lidas")
print(f"   ‚Ä¢ Etiquetas v√°lidas: {', '.join(analysis_labels)}")
if insufficient_labels:
    print(f"   ‚Ä¢ Etiquetas excluidas por datos insuficientes: {', '.join(insufficient_labels)}")

print("\n‚öñÔ∏è 2. DESEQUILIBRIO DE CLASES:")
print(f"   ‚Ä¢ {toxic_ratio:.1%} de comentarios son t√≥xicos en general")
print("   ‚Ä¢ Todas las etiquetas muestran fuerte desequilibrio (mayor√≠a de casos negativos)")
print("   ‚Ä¢ Esto requerir√° t√©cnicas de balanceamiento o m√©tricas especiales")

print("\nüîç 3. CORRELACIONES:")
if len(corr_df) > 0:
    strongest_corr = corr_df.iloc[0]
    print(f"   ‚Ä¢ Correlaci√≥n m√°s fuerte: {strongest_corr['Label1']} ‚Üî {strongest_corr['Label2']} ({strongest_corr['Correlation']:.3f})")
print("   ‚Ä¢ Algunas etiquetas est√°n correlacionadas, considerar esto en el modelado")

print("\nüîç 4. CARACTER√çSTICAS DEL TEXTO:")
print(f"   ‚Ä¢ Longitud promedio: {df['text_length'].mean():.0f} caracteres")
print(f"   ‚Ä¢ N√∫mero promedio de palabras: {df['word_count'].mean():.1f}")
multi_label_pct = (df['num_toxic_labels'] > 1).sum() / len(df) * 100
print(f"   ‚Ä¢ {multi_label_pct:.1f}% de comentarios t√≥xicos tienen m√∫ltiples etiquetas")

print("\nüîç 5. RECOMENDACIONES PARA EL MODELADO:")
print("   ‚Ä¢ Usar m√©tricas apropiadas para datos desequilibrados (F1, ROC-AUC, Precision-Recall)")
print("   ‚Ä¢ Considerar t√©cnicas de balanceamiento (SMOTE, class_weight, etc.)")
print("   ‚Ä¢ Implementar validaci√≥n estratificada")
print("   ‚Ä¢ Evaluar modelos multi-etiqueta vs binarios independientes")
print("   ‚Ä¢ Preprocesar texto: lowercasing, eliminaci√≥n de caracteres especiales, etc.")
print("   ‚Ä¢ Considerar features de longitud de texto como variables adicionales")
if insufficient_labels:
    print(f"   ‚Ä¢ Excluir del modelado las etiquetas: {', '.join(insufficient_labels)} por falta de datos")

# Guardar algunas estad√≠sticas clave para uso posterior
stats_summary = {
    'total_comments': len(df),
    'toxic_ratio': toxic_ratio,
    'valid_label_columns': analysis_labels,
    'excluded_labels': insufficient_labels,
    'avg_text_length': df['text_length'].mean(),
    'avg_word_count': df['word_count'].mean(),
    'multi_label_ratio': multi_label_pct / 100
}

print(f"\nüîç Estad√≠sticas guardadas para referencia futura:")
for key, value in stats_summary.items():
    print(f"   {key}: {value}")

print("\nüîç EDA COMPLETADO - Listo para la fase de preprocesamiento y modelado! üîç")