In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

df = pd.read_csv("../data/youtoxic_english_1000.csv")

df.head()


In [None]:
# Dimensiones del dataset
print(f"Filas: {df.shape[0]}, Columnas: {df.shape[1]}")

df.info()

print("\nValores nulos por columna:")
print(df.isnull().sum())


In [None]:
# Distribución del target IsToxic
sns.countplot(x="IsToxic", data=df)
plt.title("Distribución de comentarios tóxicos vs no tóxicos")
plt.xlabel("¿Es tóxico?")
plt.ylabel("Número de comentarios")
plt.show()

# Porcentaje de cada clase
toxicity_ratio = df["IsToxic"].value_counts(normalize=True) * 100
print("Distribución porcentual:\n", toxicity_ratio)


In [None]:
# Crear columnas nuevas para análisis de texto
df["text_length_chars"] = df["Text"].apply(len)
df["text_length_words"] = df["Text"].apply(lambda x: len(x.split()))

# Mostrar estadísticos por tipo de comentario
df.groupby("IsToxic")[["text_length_chars", "text_length_words"]].describe()


In [None]:
# Boxplots para comparar longitud de texto por clase
fig, axes = plt.subplots(1, 2, figsize=(14, 6))

sns.boxplot(x="IsToxic", y="text_length_chars", data=df, ax=axes[0])
axes[0].set_title("Longitud en caracteres por tipo de comentario")

sns.boxplot(x="IsToxic", y="text_length_words", data=df, ax=axes[1])
axes[1].set_title("Longitud en palabras por tipo de comentario")

plt.tight_layout()
plt.show()


### Comparativa de longitud de los comentarios (Boxplot)

En esta visualización comparamos la **longitud de los comentarios tóxicos y no tóxicos**, tanto en número de caracteres como de palabras.

#### ¿Qué es un boxplot?
Un **boxplot** (o diagrama de caja) es una representación visual que nos permite ver:
- La **mediana** del conjunto de datos (línea central de la caja).
- El **rango intercuartílico** (donde se concentra el 50% de los valores).
- Los **valores extremos o outliers** (representados como puntos).

#### ¿Qué vemos en estos gráficos?
- La longitud de los comentarios **tóxicos y no tóxicos** es muy similar.
- Hay **muchos comentarios cortos** en ambos grupos.
- Aparecen **algunos comentarios muy largos** (outliers), especialmente en caracteres.
- No se observa una diferencia clara que nos permita decir que un tipo de comentario sea más largo que otro de forma sistemática.

#### ¿Qué concluimos?
Aunque puede haber pequeñas diferencias, **la longitud del comentario no parece ser un buen indicador por sí solo de si un comentario es tóxico o no**. Aun así, es útil conocer estas características para posibles decisiones de preprocesamiento, como filtrar comentarios excesivamente largos o cortos.


In [None]:
# Filtrar comentarios tóxicos y no tóxicos
toxic_comments = df[df["IsToxic"] == True]["Text"]
nontoxic_comments = df[df["IsToxic"] == False]["Text"]

# Juntarlos en dos grandes textos para analizarlos
toxic_text = " ".join(toxic_comments).lower()
nontoxic_text = " ".join(nontoxic_comments).lower()


### Análisis del contenido textual

Para entender mejor las diferencias entre los comentarios tóxicos y no tóxicos, hemos separado los textos en dos grupos:

- Comentarios etiquetados como **tóxicos**.
- Comentarios etiquetados como **no tóxicos**.

Hemos unido los comentarios de cada grupo en un único texto para poder analizar qué palabras aparecen con mayor frecuencia en cada uno. Este enfoque nos permitirá visualizar patrones de lenguaje característicos, que luego pueden ser clave para entrenar un modelo predictivo.

En los próximos pasos generaremos:
- Listados de palabras más frecuentes.
- Nubes de palabras (*wordclouds*).
- N-gramas más comunes (combinaciones típicas de 2-3 palabras).
