In [None]:

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

df = pd.read_csv("../data/youtoxic_english_1000.csv")

print(f"Filas: {df.shape[0]}, Columnas: {df.shape[1]}")
df.head()


In [None]:
# 1. Revisar columnas con solo ceros o sin representaci√≥n significativa
etiquetas = [
    "IsToxic", "IsAbusive", "IsThreat", "IsProvocative", "IsObscene",
    "IsHatespeech", "IsRacist", "IsNationalist", "IsSexist", "IsHomophobic",
    "IsReligiousHate", "IsRadicalism"
]

# Mostrar cu√°ntas veces aparece "True" en cada etiqueta
print("Etiquetas activas:")
print(df[etiquetas].sum().sort_values())

# 2. Eliminar columnas sin representaci√≥n (sum == 0 o sum == 1)
etiquetas_utiles = [col for col in etiquetas if df[col].sum() > 1]
print("\nEtiquetas que conservaremos:", etiquetas_utiles)

# 3. Eliminar columnas irrelevantes para el modelado
columnas_irrelevantes = ["CommentId", "VideoId"]
df.drop(columns=columnas_irrelevantes, inplace=True)

# 4. (Opcional) Eliminar duplicados por texto
df.drop_duplicates(subset="Text", inplace=True)

# 5. Dejar el DataFrame con solo las columnas √∫tiles
columnas_utiles = ["Text"] + etiquetas_utiles
df = df[columnas_utiles]

# 6. Confirmar
print(f"\nDataset limpio ‚Üí Filas: {df.shape[0]}, Columnas: {df.shape[1]}")
df.head()


### Limpieza previa del dataset

Antes de aplicar el preprocesamiento textual, revisamos las columnas del dataset:

- Eliminamos etiquetas que **no tienen representaci√≥n suficiente** (por ejemplo, `IsHomophobic`, `IsRadicalism`) ya que no aportar√≠an valor al modelo.
- Quitamos columnas irrelevantes como `CommentId` y `VideoId`.
- Eliminamos posibles duplicados exactos en los comentarios (`Text`).

Esto nos permite trabajar sobre un dataset m√°s limpio, centrado en los comentarios y en las etiquetas que tienen informaci√≥n √∫til. De este modo, evitamos introducir ruido o clases vac√≠as en el modelo.


In [None]:
import spacy
import re

# Cargar modelo de ingl√©s
nlp = spacy.load("en_core_web_sm")

# Funci√≥n para limpiar y lematizar texto
def preprocesar_texto(texto):
    # 1. Eliminar URLs, s√≠mbolos especiales y n√∫meros
    texto = re.sub(r"http\S+|www\S+|[^a-zA-Z\s]", "", texto.lower())
    
    # 2. Procesar con SpaCy
    doc = nlp(texto)

    # 3. Eliminar stopwords y obtener lemas
    tokens_limpios = [token.lemma_ for token in doc if not token.is_stop and not token.is_punct]
    
    return " ".join(tokens_limpios)


In [None]:
# Aplicar limpieza sobre una copia del texto
df["CleanText"] = df["Text"].apply(preprocesar_texto)

# Ver resultado en 3 ejemplos
df[["Text", "CleanText"]].sample(3)


### Preprocesamiento del texto con SpaCy

En este paso limpiamos y normalizamos los comentarios para que puedan ser procesados por modelos de machine learning. Para ello utilizamos **SpaCy**, una librer√≠a especializada en procesamiento de lenguaje natural.

Nuestra funci√≥n `preprocesar_texto()` realiza las siguientes tareas:

1. **Elimina elementos innecesarios** del texto original:
   - URLs, s√≠mbolos, n√∫meros y puntuaci√≥n.
   - Convierte todo a min√∫sculas.

2. **Tokeniza** (divide en palabras) y procesa cada palabra con SpaCy:
   - Elimina las **palabras vac√≠as** (*stopwords*) como "the", "you", "and".
   - Obtiene la **forma base** (*lema*) de cada palabra, por ejemplo:
     - "running" ‚Üí "run"
     - "was" ‚Üí "be"
     - "better" ‚Üí "good"

3. **Reconstruye el texto limpio**, que usaremos como entrada para vectorizaci√≥n y modelado.

Este preprocesamiento mejora significativamente la calidad de las caracter√≠sticas que extraeremos del texto, ya que reduce el ruido y normaliza el lenguaje.


In [None]:
# Esto puede tardar unos segundos la primera vez (1.000 textos)
df["CleanText"] = df["Text"].apply(preprocesar_texto)

# Comprobar algunos ejemplos de texto original vs limpio
df[["Text", "CleanText"]].sample(5, random_state=42)


In [None]:
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer

# Crear los vectorizadores
vectorizer_bow = CountVectorizer(max_features=20)
vectorizer_tfidf = TfidfVectorizer(max_features=20)

# Aplicar sobre el texto limpio
X_bow = vectorizer_bow.fit_transform(df["CleanText"])
X_tfidf = vectorizer_tfidf.fit_transform(df["CleanText"])

# Convertir a DataFrames para verlos
df_bow = pd.DataFrame(X_bow.toarray(), columns=vectorizer_bow.get_feature_names_out())
df_tfidf = pd.DataFrame(X_tfidf.toarray(), columns=vectorizer_tfidf.get_feature_names_out())

# Mostrar las primeras filas de cada uno
print("üî¢ Bag of Words:")
display(df_bow.head())

print("‚ú® TF-IDF:")
display(df_tfidf.head())


### Comparaci√≥n entre Bag of Words y TF-IDF

Ambas t√©cnicas convierten texto en vectores num√©ricos, pero lo hacen de forma distinta:

- **Bag of Words** simplemente cuenta cu√°ntas veces aparece cada palabra.
- **TF-IDF** ajusta esos conteos seg√∫n la rareza de cada palabra en el conjunto total.

#### ¬øQu√© vemos?
- En BoW, los valores son enteros (frecuencias puras).
- En TF-IDF, los valores son decimales ‚Üí ajustados por importancia.
- Palabras comunes (como "people") tendr√°n menos peso en TF-IDF si aparecen en casi todos los comentarios.

Ambas representaciones son √∫tiles, pero **TF-IDF suele funcionar mejor en clasificaci√≥n** al eliminar ruido estad√≠stico y destacar las palabras que verdaderamente diferencian un texto de otro.
