# Exploratory Data Analysis (EDA) - Hate Speech Detection

Este notebook contiene el análisis exploratorio de datos (EDA) para el proyecto de detección de mensajes de odio en comentarios de YouTube.

## Objetivos del EDA:
1. Cargar y explorar el dataset de comentarios
2. Analizar la distribución de clases (mensajes de odio vs. mensajes normales)
3. Explorar estadísticas de texto (longitud, palabras, caracteres)
4. Identificar patrones y características del texto
5. Detectar valores faltantes y problemas de calidad de datos
6. Visualizar las palabras más frecuentes
7. Analizar n-gramas
8. Identificar insights para el preprocesamiento

## 1. Importar Librerías

In [None]:
# Librerías básicas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
from pathlib import Path

# Configuración de visualización
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette('husl')
warnings.filterwarnings('ignore')
%matplotlib inline

# Tamaño de figuras por defecto
plt.rcParams['figure.figsize'] = (12, 6)

print("✓ Librerías importadas correctamente")

In [None]:
# Librerías de NLP
import re
from collections import Counter
from wordcloud import WordCloud

# NLTK (descomentar para descargar recursos necesarios)
# import nltk
# nltk.download('stopwords')
# nltk.download('punkt')

print("✓ Librerías NLP importadas correctamente")

## 2. Cargar Datos

**Nota:** Asegúrate de colocar tu dataset en la carpeta `data/raw/` con el nombre adecuado.

In [None]:
# Ruta al dataset
# Ajusta el nombre del archivo según tu dataset
DATA_PATH = Path('../data/raw/')

# Ejemplo de carga (ajustar según el formato real del dataset)
# df = pd.read_csv(DATA_PATH / 'youtube_comments.csv')

# Para este ejemplo, mostraremos cómo sería la estructura esperada
print(f"Ruta de datos: {DATA_PATH}")
print("\nEstructura esperada del dataset:")
print("- Columna 'text' o 'comment': texto del comentario")
print("- Columna 'label' o 'class': etiqueta (0: normal, 1: hate speech)")

# Descomenta y ajusta según tu dataset:
# df = pd.read_csv(DATA_PATH / 'tu_archivo.csv')
# print(f"\n✓ Dataset cargado: {len(df)} registros")

## 3. Exploración Inicial

In [None]:
# Primeras filas
# df.head(10)

In [None]:
# Información general del dataset
# print("=" * 50)
# print("INFORMACIÓN DEL DATASET")
# print("=" * 50)
# df.info()

In [None]:
# Estadísticas descriptivas
# df.describe(include='all')

In [None]:
# Dimensiones del dataset
# print(f"Número de filas: {df.shape[0]}")
# print(f"Número de columnas: {df.shape[1]}")
# print(f"\nColumnas: {df.columns.tolist()}")

## 4. Análisis de Valores Faltantes

In [None]:
# Valores faltantes
# print("=" * 50)
# print("VALORES FALTANTES")
# print("=" * 50)
# missing = df.isnull().sum()
# missing_pct = (missing / len(df)) * 100
# missing_df = pd.DataFrame({
#     'Missing_Count': missing,
#     'Missing_Percentage': missing_pct
# })
# print(missing_df[missing_df['Missing_Count'] > 0])

# Visualización de valores faltantes
# if missing.sum() > 0:
#     plt.figure(figsize=(10, 4))
#     sns.heatmap(df.isnull(), cbar=False, cmap='viridis')
#     plt.title('Mapa de Valores Faltantes')
#     plt.tight_layout()
#     plt.show()

## 5. Distribución de Clases

In [None]:
# Análisis de la distribución de clases
# print("=" * 50)
# print("DISTRIBUCIÓN DE CLASES")
# print("=" * 50)
# class_dist = df['label'].value_counts()
# print(class_dist)
# print(f"\nPorcentaje de cada clase:")
# print(df['label'].value_counts(normalize=True) * 100)

# Visualización
# fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# # Gráfico de barras
# class_dist.plot(kind='bar', ax=axes[0], color=['#2ecc71', '#e74c3c'])
# axes[0].set_title('Distribución de Clases', fontsize=14, fontweight='bold')
# axes[0].set_xlabel('Clase')
# axes[0].set_ylabel('Cantidad')
# axes[0].tick_params(axis='x', rotation=0)

# # Gráfico de pastel
# axes[1].pie(class_dist, labels=class_dist.index, autopct='%1.1f%%',
#             colors=['#2ecc71', '#e74c3c'], startangle=90)
# axes[1].set_title('Proporción de Clases', fontsize=14, fontweight='bold')

# plt.tight_layout()
# plt.show()

# # Balance de clases
# imbalance_ratio = class_dist.max() / class_dist.min()
# print(f"\n⚠️ Ratio de desbalance: {imbalance_ratio:.2f}")
# if imbalance_ratio > 2:
#     print("El dataset está desbalanceado. Considerar técnicas de balanceo.")

## 6. Análisis de Texto

### 6.1 Estadísticas Básicas del Texto

In [None]:
# Funciones auxiliares para análisis de texto
def get_text_stats(text):
    """Obtiene estadísticas básicas de un texto"""
    return {
        'char_count': len(str(text)),
        'word_count': len(str(text).split()),
        'avg_word_length': np.mean([len(word) for word in str(text).split()]),
        'sentence_count': len(str(text).split('.')),
        'uppercase_count': sum(1 for c in str(text) if c.isupper()),
        'special_char_count': sum(1 for c in str(text) if not c.isalnum() and not c.isspace())
    }

# # Aplicar funciones
# df['char_count'] = df['text'].apply(lambda x: len(str(x)))
# df['word_count'] = df['text'].apply(lambda x: len(str(x).split()))
# df['avg_word_length'] = df['text'].apply(lambda x: np.mean([len(word) for word in str(x).split()]))

# print("✓ Estadísticas de texto calculadas")

In [None]:
# Estadísticas descriptivas de las métricas de texto
# print("=" * 50)
# print("ESTADÍSTICAS DE TEXTO")
# print("=" * 50)
# text_stats = df[['char_count', 'word_count', 'avg_word_length']].describe()
# print(text_stats)

In [None]:
# Visualización de distribuciones de texto
# fig, axes = plt.subplots(2, 2, figsize=(15, 10))

# # Distribución de longitud de caracteres
# axes[0, 0].hist(df['char_count'], bins=50, edgecolor='black', alpha=0.7)
# axes[0, 0].set_title('Distribución de Longitud de Caracteres', fontweight='bold')
# axes[0, 0].set_xlabel('Número de Caracteres')
# axes[0, 0].set_ylabel('Frecuencia')

# # Distribución de cantidad de palabras
# axes[0, 1].hist(df['word_count'], bins=50, edgecolor='black', alpha=0.7, color='orange')
# axes[0, 1].set_title('Distribución de Cantidad de Palabras', fontweight='bold')
# axes[0, 1].set_xlabel('Número de Palabras')
# axes[0, 1].set_ylabel('Frecuencia')

# # Boxplot de longitud por clase
# df.boxplot(column='char_count', by='label', ax=axes[1, 0])
# axes[1, 0].set_title('Longitud de Caracteres por Clase', fontweight='bold')
# axes[1, 0].set_xlabel('Clase')
# axes[1, 0].set_ylabel('Número de Caracteres')
# plt.suptitle('')

# # Boxplot de palabras por clase
# df.boxplot(column='word_count', by='label', ax=axes[1, 1])
# axes[1, 1].set_title('Cantidad de Palabras por Clase', fontweight='bold')
# axes[1, 1].set_xlabel('Clase')
# axes[1, 1].set_ylabel('Número de Palabras')
# plt.suptitle('')

# plt.tight_layout()
# plt.show()

### 6.2 Análisis de Palabras Frecuentes

In [None]:
# Función para limpiar y tokenizar texto
def clean_text(text):
    """Limpia el texto para análisis básico"""
    text = str(text).lower()
    text = re.sub(r'[^a-záéíóúñ\s]', '', text)
    return text

def get_top_words(texts, n=20):
    """Obtiene las palabras más frecuentes"""
    words = ' '.join(texts).split()
    word_freq = Counter(words)
    return word_freq.most_common(n)

# # Aplicar limpieza
# df['text_clean'] = df['text'].apply(clean_text)
# print("✓ Texto limpiado")

In [None]:
# Top palabras generales
# print("=" * 50)
# print("TOP 20 PALABRAS MÁS FRECUENTES")
# print("=" * 50)
# top_words = get_top_words(df['text_clean'])
# for word, count in top_words:
#     print(f"{word:20s}: {count}")

In [None]:
# Visualización de palabras frecuentes
# top_words_df = pd.DataFrame(top_words, columns=['word', 'count'])

# plt.figure(figsize=(12, 6))
# sns.barplot(data=top_words_df, x='count', y='word', palette='viridis')
# plt.title('Top 20 Palabras Más Frecuentes', fontsize=14, fontweight='bold')
# plt.xlabel('Frecuencia')
# plt.ylabel('Palabra')
# plt.tight_layout()
# plt.show()

### 6.3 Análisis por Clase

In [None]:
# Palabras más frecuentes por clase
# for label in df['label'].unique():
#     print("\n" + "=" * 50)
#     print(f"TOP PALABRAS - CLASE {label}")
#     print("=" * 50)
#     class_texts = df[df['label'] == label]['text_clean']
#     top_words_class = get_top_words(class_texts, n=15)
#     for word, count in top_words_class:
#         print(f"{word:20s}: {count}")

### 6.4 Nubes de Palabras

In [None]:
# Función para generar WordCloud
def generate_wordcloud(texts, title):
    """Genera y muestra una nube de palabras"""
    text_combined = ' '.join(texts)
    wordcloud = WordCloud(width=800, height=400,
                         background_color='white',
                         max_words=100,
                         colormap='viridis').generate(text_combined)
    
    plt.figure(figsize=(15, 7))
    plt.imshow(wordcloud, interpolation='bilinear')
    plt.axis('off')
    plt.title(title, fontsize=16, fontweight='bold')
    plt.tight_layout()
    plt.show()

# # WordCloud general
# generate_wordcloud(df['text_clean'], 'Nube de Palabras - Todos los Comentarios')

# # WordCloud por clase
# for label in df['label'].unique():
#     class_texts = df[df['label'] == label]['text_clean']
#     generate_wordcloud(class_texts, f'Nube de Palabras - Clase {label}')

### 6.5 Análisis de N-gramas

In [None]:
# Función para obtener n-gramas
def get_ngrams(texts, n=2, top=20):
    """Obtiene los n-gramas más frecuentes"""
    ngrams_list = []
    for text in texts:
        words = str(text).split()
        ngrams = zip(*[words[i:] for i in range(n)])
        ngrams_list.extend([' '.join(ngram) for ngram in ngrams])
    
    ngram_freq = Counter(ngrams_list)
    return ngram_freq.most_common(top)

# # Bigramas
# print("=" * 50)
# print("TOP 15 BIGRAMAS")
# print("=" * 50)
# bigrams = get_ngrams(df['text_clean'], n=2, top=15)
# for bigram, count in bigrams:
#     print(f"{bigram:30s}: {count}")

In [None]:
# # Trigramas
# print("=" * 50)
# print("TOP 15 TRIGRAMAS")
# print("=" * 50)
# trigrams = get_ngrams(df['text_clean'], n=3, top=15)
# for trigram, count in trigrams:
#     print(f"{trigram:40s}: {count}")

In [None]:
# Visualización de n-gramas
# fig, axes = plt.subplots(1, 2, figsize=(16, 6))

# # Bigramas
# bigrams_df = pd.DataFrame(bigrams, columns=['ngram', 'count'])
# sns.barplot(data=bigrams_df, x='count', y='ngram', ax=axes[0], palette='mako')
# axes[0].set_title('Top 15 Bigramas', fontsize=14, fontweight='bold')
# axes[0].set_xlabel('Frecuencia')
# axes[0].set_ylabel('Bigrama')

# # Trigramas
# trigrams_df = pd.DataFrame(trigrams, columns=['ngram', 'count'])
# sns.barplot(data=trigrams_df, x='count', y='ngram', ax=axes[1], palette='rocket')
# axes[1].set_title('Top 15 Trigramas', fontsize=14, fontweight='bold')
# axes[1].set_xlabel('Frecuencia')
# axes[1].set_ylabel('Trigrama')

# plt.tight_layout()
# plt.show()

## 7. Análisis de Duplicados

In [None]:
# Detectar duplicados
# print("=" * 50)
# print("ANÁLISIS DE DUPLICADOS")
# print("=" * 50)
# duplicates = df.duplicated(subset=['text']).sum()
# print(f"Comentarios duplicados: {duplicates}")
# print(f"Porcentaje de duplicados: {(duplicates/len(df))*100:.2f}%")

# if duplicates > 0:
#     print("\nEjemplos de textos duplicados:")
#     dup_examples = df[df.duplicated(subset=['text'], keep=False)].sort_values('text').head(10)
#     print(dup_examples[['text', 'label']])

## 8. Conclusiones y Próximos Pasos

### Hallazgos Principales:
1. **Distribución de clases**: [Describir si está balanceado o desbalanceado]
2. **Calidad de datos**: [Comentar sobre valores faltantes, duplicados]
3. **Características del texto**: [Longitud promedio, palabras más comunes]
4. **Patrones identificados**: [Diferencias entre clases]

### Recomendaciones para Preprocesamiento:
1. Limpieza de texto (eliminar URLs, menciones, caracteres especiales)
2. Normalización (minúsculas, acentos)
3. Eliminación de stopwords
4. Tokenización
5. Lematización o stemming
6. Manejo de duplicados
7. Técnicas de balanceo si es necesario (oversampling/undersampling)

### Próximas Fases:
1. Preprocesamiento de texto
2. Feature engineering (TF-IDF, embeddings)
3. Entrenamiento de modelos baseline
4. Optimización y ajuste de hiperparámetros
5. Evaluación y selección del modelo final

## 9. Guardar Resultados del EDA

In [None]:
# Guardar dataset con nuevas features
# output_path = Path('../data/processed/data_with_features.csv')
# output_path.parent.mkdir(parents=True, exist_ok=True)
# df.to_csv(output_path, index=False)
# print(f"✓ Dataset con features guardado en: {output_path}")

In [None]:
# Guardar estadísticas clave
# stats_summary = {
#     'total_records': len(df),
#     'class_distribution': df['label'].value_counts().to_dict(),
#     'missing_values': df.isnull().sum().to_dict(),
#     'avg_char_count': df['char_count'].mean(),
#     'avg_word_count': df['word_count'].mean(),
#     'duplicates': duplicates
# }

# import json
# with open('../data/processed/eda_summary.json', 'w') as f:
#     json.dump(stats_summary, f, indent=4)
# print("✓ Resumen de EDA guardado")