In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

df = pd.read_csv("../data/youtoxic_english_1000.csv")

df.head()


In [None]:
# Dimensiones del dataset
print(f"Filas: {df.shape[0]}, Columnas: {df.shape[1]}")

df.info()

print("\nValores nulos por columna:")
print(df.isnull().sum())


In [None]:
# Distribuci√≥n del target IsToxic
sns.countplot(x="IsToxic", data=df)
plt.title("Distribuci√≥n de comentarios t√≥xicos vs no t√≥xicos")
plt.xlabel("¬øEs t√≥xico?")
plt.ylabel("N√∫mero de comentarios")
plt.show()

# Porcentaje de cada clase
toxicity_ratio = df["IsToxic"].value_counts(normalize=True) * 100
print("Distribuci√≥n porcentual:\n", toxicity_ratio)


In [None]:
# Crear columnas nuevas para an√°lisis de texto
df["text_length_chars"] = df["Text"].apply(len)
df["text_length_words"] = df["Text"].apply(lambda x: len(x.split()))

# Mostrar estad√≠sticos por tipo de comentario
df.groupby("IsToxic")[["text_length_chars", "text_length_words"]].describe()


In [None]:
# Boxplots para comparar longitud de texto por clase
fig, axes = plt.subplots(1, 2, figsize=(14, 6))

sns.boxplot(x="IsToxic", y="text_length_chars", data=df, ax=axes[0])
axes[0].set_title("Longitud en caracteres por tipo de comentario")

sns.boxplot(x="IsToxic", y="text_length_words", data=df, ax=axes[1])
axes[1].set_title("Longitud en palabras por tipo de comentario")

plt.tight_layout()
plt.show()


### Comparativa de longitud de los comentarios (Boxplot)

En esta visualizaci√≥n comparamos la **longitud de los comentarios t√≥xicos y no t√≥xicos**, tanto en n√∫mero de caracteres como de palabras.

#### ¬øQu√© es un boxplot?
Un **boxplot** (o diagrama de caja) es una representaci√≥n visual que nos permite ver:
- La **mediana** del conjunto de datos (l√≠nea central de la caja).
- El **rango intercuart√≠lico** (donde se concentra el 50% de los valores).
- Los **valores extremos o outliers** (representados como puntos).

#### ¬øQu√© vemos en estos gr√°ficos?
- La longitud de los comentarios **t√≥xicos y no t√≥xicos** es muy similar.
- Hay **muchos comentarios cortos** en ambos grupos.
- Aparecen **algunos comentarios muy largos** (outliers), especialmente en caracteres.
- No se observa una diferencia clara que nos permita decir que un tipo de comentario sea m√°s largo que otro de forma sistem√°tica.

#### ¬øQu√© concluimos?
Aunque puede haber peque√±as diferencias, **la longitud del comentario no parece ser un buen indicador por s√≠ solo de si un comentario es t√≥xico o no**. Aun as√≠, es √∫til conocer estas caracter√≠sticas para posibles decisiones de preprocesamiento, como filtrar comentarios excesivamente largos o cortos.


In [None]:
# Filtrar comentarios t√≥xicos y no t√≥xicos
toxic_comments = df[df["IsToxic"] == True]["Text"]
nontoxic_comments = df[df["IsToxic"] == False]["Text"]

# Juntarlos en dos grandes textos para analizarlos
toxic_text = " ".join(toxic_comments).lower()
nontoxic_text = " ".join(nontoxic_comments).lower()


### An√°lisis del contenido textual

Para entender mejor las diferencias entre los comentarios t√≥xicos y no t√≥xicos, hemos separado los textos en dos grupos:

- Comentarios etiquetados como **t√≥xicos**.
- Comentarios etiquetados como **no t√≥xicos**.

Hemos unido los comentarios de cada grupo en un √∫nico texto para poder analizar qu√© palabras aparecen con mayor frecuencia en cada uno. Este enfoque nos permitir√° visualizar patrones de lenguaje caracter√≠sticos, que luego pueden ser clave para entrenar un modelo predictivo.

En los pr√≥ximos pasos generaremos:
- Listados de palabras m√°s frecuentes.
- Nubes de palabras (*wordclouds*).
- N-gramas m√°s comunes (combinaciones t√≠picas de 2-3 palabras).


In [None]:
from collections import Counter
import re

# Funci√≥n para limpiar texto b√°sico (sin lematizar a√∫n)
def limpiar_texto(texto):
    texto = re.sub(r"[^\w\s]", "", texto)  # quitar signos de puntuaci√≥n
    texto = texto.lower()  # pasar a min√∫sculas
    return texto

# Aplicar limpieza y dividir en palabras
palabras_toxicas = limpiar_texto(toxic_text).split()
palabras_no_toxicas = limpiar_texto(nontoxic_text).split()

# Contar palabras m√°s comunes
frecuentes_toxicas = Counter(palabras_toxicas).most_common(10)
frecuentes_no_toxicas = Counter(palabras_no_toxicas).most_common(10)

# Mostrar resultados
print("üî¥ Palabras m√°s frecuentes en comentarios t√≥xicos:")
for palabra, freq in frecuentes_toxicas:
    print(f"{palabra}: {freq}")

print("\nüü¢ Palabras m√°s frecuentes en comentarios no t√≥xicos:")
for palabra, freq in frecuentes_no_toxicas:
    print(f"{palabra}: {freq}")


In [None]:
import nltk
from nltk.corpus import stopwords
nltk.download("stopwords")

# Lista de stopwords en ingl√©s
stop_words = set(stopwords.words("english"))

# Funci√≥n mejorada que filtra stopwords
def limpiar_y_filtrar(texto):
    texto = re.sub(r"[^\w\s]", "", texto.lower())
    palabras = texto.split()
    return [p for p in palabras if p not in stop_words]

# Aplicar funci√≥n mejorada
palabras_toxicas_filtradas = limpiar_y_filtrar(toxic_text)
palabras_no_toxicas_filtradas = limpiar_y_filtrar(nontoxic_text)

# Contar palabras m√°s frecuentes (filtradas)
frecuentes_toxicas_filtradas = Counter(palabras_toxicas_filtradas).most_common(10)
frecuentes_no_toxicas_filtradas = Counter(palabras_no_toxicas_filtradas).most_common(10)

# Mostrar resultados
print("üî¥ Palabras m√°s frecuentes (t√≥xicos, sin stopwords):")
for palabra, freq in frecuentes_toxicas_filtradas:
    print(f"{palabra}: {freq}")

print("\nüü¢ Palabras m√°s frecuentes (no t√≥xicos, sin stopwords):")
for palabra, freq in frecuentes_no_toxicas_filtradas:
    print(f"{palabra}: {freq}")


### An√°lisis con eliminaci√≥n de stopwords

Las palabras m√°s frecuentes que observamos inicialmente eran muy comunes y poco informativas. Por ello, hemos repetido el an√°lisis **eliminando las stopwords**, es decir, palabras muy frecuentes en ingl√©s que no aportan significado real (como "the", "and", "is", etc.).

Esta limpieza **no forma a√∫n parte del preprocesamiento oficial**, pero se introduce aqu√≠ como una forma de enriquecer el EDA y tomar decisiones m√°s informadas.

Ahora los resultados empiezan a revelar **patrones de contenido m√°s relevantes** para entender qu√© vocabulario podr√≠a distinguir los comentarios t√≥xicos de los no t√≥xicos.


In [None]:
from wordcloud import WordCloud
import matplotlib.pyplot as plt

# Unir las palabras ya filtradas
texto_toxico_filtrado = " ".join(palabras_toxicas_filtradas)
texto_nontoxico_filtrado = " ".join(palabras_no_toxicas_filtradas)

# Crear las nubes
wc_toxico = WordCloud(width=800, height=400, background_color="white").generate(texto_toxico_filtrado)
wc_nontoxico = WordCloud(width=800, height=400, background_color="white").generate(texto_nontoxico_filtrado)

# Mostrar
fig, axs = plt.subplots(1, 2, figsize=(18, 8))

axs[0].imshow(wc_toxico, interpolation="bilinear")
axs[0].axis("off")
axs[0].set_title("üî¥ Comentarios t√≥xicos (sin stopwords)")

axs[1].imshow(wc_nontoxico, interpolation="bilinear")
axs[1].axis("off")
axs[1].set_title("üü¢ Comentarios no t√≥xicos (sin stopwords)")

plt.tight_layout()
plt.show()


### WordClouds sin palabras vac√≠as (stopwords)

Las siguientes nubes de palabras muestran los t√©rminos m√°s repetidos en los comentarios **t√≥xicos** y **no t√≥xicos**, tras eliminar las palabras vac√≠as t√≠picas del ingl√©s (como ‚Äúthe‚Äù, ‚Äúand‚Äù, ‚Äúis‚Äù‚Ä¶).

#### ¬øQu√© observamos?
- En los comentarios t√≥xicos aparecen con m√°s frecuencia palabras como **‚Äúfuck‚Äù**, lo que indica un tono agresivo.
- Tambi√©n se observan t√©rminos raciales y relacionados con el orden p√∫blico (**black, white, police**) en ambos grupos, lo que sugiere que el contexto es similar, pero el uso del lenguaje es lo que cambia.

Esta visualizaci√≥n permite a cualquier lector, incluso sin formaci√≥n t√©cnica, entender mejor el tipo de lenguaje que caracteriza cada grupo de comentarios.


In [None]:
from sklearn.feature_extraction.text import CountVectorizer

# Utilizamos los textos ya filtrados de stopwords
def mostrar_ngrams(textos, n=2, top=10):
    vectorizer = CountVectorizer(ngram_range=(n, n))
    X = vectorizer.fit_transform(textos)
    suma = X.sum(axis=0)
    freqs = [(word, suma[0, idx]) for word, idx in vectorizer.vocabulary_.items()]
    freqs_sorted = sorted(freqs, key=lambda x: x[1], reverse=True)
    return freqs_sorted[:top]

# Crear listas de texto plano por grupo
comentarios_toxicos = df[df["IsToxic"] == True]["Text"].tolist()
comentarios_no_toxicos = df[df["IsToxic"] == False]["Text"].tolist()

# Obtener n-gramas
top_bigrams_toxicos = mostrar_ngrams(comentarios_toxicos, n=2)
top_bigrams_nontoxicos = mostrar_ngrams(comentarios_no_toxicos, n=2)

top_trigrams_toxicos = mostrar_ngrams(comentarios_toxicos, n=3)
top_trigrams_nontoxicos = mostrar_ngrams(comentarios_no_toxicos, n=3)

# Mostrar resultados
print("üî¥ Bigrams m√°s comunes en comentarios t√≥xicos:")
for frase, freq in top_bigrams_toxicos:
    print(f"{frase}: {freq}")

print("\nüü¢ Bigrams m√°s comunes en comentarios no t√≥xicos:")
for frase, freq in top_bigrams_nontoxicos:
    print(f"{frase}: {freq}")

print("\nüî¥ Trigrams m√°s comunes en comentarios t√≥xicos:")
for frase, freq in top_trigrams_toxicos:
    print(f"{frase}: {freq}")

print("\nüü¢ Trigrams m√°s comunes en comentarios no t√≥xicos:")
for frase, freq in top_trigrams_nontoxicos:
    print(f"{frase}: {freq}")


### üîó An√°lisis de n-gramas (bigrams y trigrams)

Los **n-gramas** son combinaciones de palabras consecutivas que nos permiten identificar expresiones t√≠picas o patrones de lenguaje. Son especialmente √∫tiles en tareas como detecci√≥n de discurso de odio, ya que muchas veces el contenido ofensivo se transmite en frases cortas y recurrentes.

#### ¬øQu√© buscamos aqu√≠?
- Expresiones como ‚Äúgo back‚Äù, ‚Äúshut up‚Äù, ‚Äúyou people‚Äù pueden tener fuerte carga ofensiva.
- Otras como ‚Äúthank you‚Äù o ‚Äúgreat video‚Äù pueden caracterizar comentarios positivos o neutrales.

Este an√°lisis nos acerca a una comprensi√≥n m√°s contextualizada del lenguaje usado, lo que ser√° de gran valor a la hora de entrenar modelos de clasificaci√≥n.


In [None]:
import matplotlib.pyplot as plt

# Extraer trigramas y frecuencias por separado
trigrams_tox, freqs_tox = zip(*top_trigrams_toxicos)
trigrams_notox, freqs_notox = zip(*top_trigrams_nontoxicos)

# Crear gr√°fico de barras horizontales
fig, axes = plt.subplots(1, 2, figsize=(18, 8))

# Trigramas t√≥xicos
axes[0].barh(trigrams_tox[::-1], freqs_tox[::-1], color="crimson")
axes[0].set_title("üî¥ Trigramas m√°s comunes en comentarios t√≥xicos")
axes[0].set_xlabel("Frecuencia")
axes[0].tick_params(axis='y', labelsize=10)

# Trigramas no t√≥xicos
axes[1].barh(trigrams_notox[::-1], freqs_notox[::-1], color="seagreen")
axes[1].set_title("üü¢ Trigramas m√°s comunes en comentarios no t√≥xicos")
axes[1].set_xlabel("Frecuencia")
axes[1].tick_params(axis='y', labelsize=10)

plt.tight_layout()
plt.show()


### Visualizaci√≥n de trigramas m√°s frecuentes

Los trigramas (combinaciones de tres palabras consecutivas) nos permiten observar expresiones completas y t√≠picas de cada tipo de comentario.

#### üî¥ En los comentarios t√≥xicos:
- Aparecen insultos expl√≠citos como **‚Äúpiece of shit‚Äù**.
- Expresiones violentas como **‚Äúrun them over‚Äù** o **‚Äúshoot to apprehend‚Äù**.
- T√©rminos relacionados con movimientos sociales cargados emocionalmente: **‚Äúblack lives matter‚Äù**.

#### üü¢ En los comentarios no t√≥xicos:
- Predominan expresiones de agradecimiento (**‚Äúthank you for‚Äù**) o frases explicativas/descriptivas.
- Se nota un tono m√°s **objetivo, civil o anal√≠tico**.

Este contraste deja ver claramente c√≥mo cambia la intenci√≥n del lenguaje entre ambos grupos y valida el uso de trigramas como posibles caracter√≠sticas valiosas para entrenar el modelo de detecci√≥n de toxicidad.


In [None]:
# Lista de etiquetas del dataset
etiquetas = [
    "IsToxic", "IsAbusive", "IsThreat", "IsProvocative", "IsObscene",
    "IsHatespeech", "IsRacist", "IsNationalist", "IsSexist", "IsHomophobic",
    "IsReligiousHate", "IsRadicalism"
]

# Calcular la correlaci√≥n entre etiquetas
correlaciones = df[etiquetas].corr()

# Calcular cu√°ntas etiquetas activas hay por comentario
df["TotalEtiquetas"] = df[etiquetas].sum(axis=1)
etiquetas_activas = df["TotalEtiquetas"].value_counts().sort_index()


In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Visualizaci√≥n de correlaci√≥n entre etiquetas
plt.figure(figsize=(10, 8))
sns.heatmap(correlaciones, annot=True, cmap="coolwarm", fmt=".2f", vmin=-1, vmax=1)
plt.title("üîó Correlaci√≥n entre etiquetas de toxicidad")
plt.show()

# Visualizaci√≥n de n√∫mero de etiquetas activas por comentario
etiquetas_activas.plot(kind="bar", color="steelblue", figsize=(8, 5))
plt.title("üéØ N√∫mero de etiquetas activas por comentario")
plt.xlabel("Cantidad de etiquetas")
plt.ylabel("N√∫mero de comentarios")
plt.xticks(rotation=0)
plt.grid(axis="y")
plt.show()


### An√°lisis cruzado de etiquetas

Adem√°s del an√°lisis textual, es importante entender c√≥mo se comportan las diferentes **subcategor√≠as de toxicidad** que aparecen en el dataset (como `IsAbusive`, `IsThreat`, `IsRacist`, etc.).

#### ¬øCu√°ntas etiquetas tiene cada comentario?

- M√°s de la mitad de los comentarios **no presentan ninguna etiqueta activa**.
- El resto puede tener m√∫ltiples etiquetas, lo que sugiere que **el problema podr√≠a ser tratado como multietiqueta** si quisi√©ramos predecir m√°s all√° de `IsToxic`.

#### ¬øQu√© etiquetas est√°n relacionadas?

- `IsToxic` tiene una fuerte correlaci√≥n con `IsAbusive` (**0.80**) y `IsProvocative`.
- `IsHatespeech` y `IsRacist` tienen una **correlaci√≥n alt√≠sima** (**0.94**), lo que indica que suelen ir juntas.

Este an√°lisis refuerza la idea de que la toxicidad **no es una dimensi√≥n √∫nica**, sino que puede tener varias expresiones combinadas. Si decidi√©ramos construir un modelo m√°s complejo en el futuro, podr√≠amos abordar este problema como una clasificaci√≥n **multietiqueta** en lugar de binaria.
