Este notebook contiene todo el código necesario para la fase 1 del proyecto **youtube-hate-speech-detector**. Aquí se realiza la carga, exploración, preprocesamiento y codificación de etiquetas del dataset para prepararlo para el entrenamiento del modelo.

---

## 1. Cargar y Explorar el Dataset

En esta sección, cargamos el dataset desde la carpeta `data/raw/` y realizamos un análisis exploratorio inicial para entender su estructura, identificar posibles problemas (como valores nulos) y observar la distribución de las etiquetas.

### 1.1 Importar Bibliotecas Necesarias

In [5]:
import pandas as pd

### 1.2 Cargar el Dataset

In [6]:
# Cargar el dataset
df = pd.read_csv('../../data/raw/dataset.csv')

# Mostrar las primeras 5 filas
print("Primeras 5 filas del dataset:")
display(df.head())

Primeras 5 filas del dataset:


Unnamed: 0,CommentId,VideoId,Text,IsToxic,IsAbusive,IsThreat,IsProvocative,IsObscene,IsHatespeech,IsRacist,IsNationalist,IsSexist,IsHomophobic,IsReligiousHate,IsRadicalism
0,Ugg2KwwX0V8-aXgCoAEC,04kJtp6pVXI,If only people would just take a step back and...,False,False,False,False,False,False,False,False,False,False,False,False
1,Ugg2s5AzSPioEXgCoAEC,04kJtp6pVXI,Law enforcement is not trained to shoot to app...,True,True,False,False,False,False,False,False,False,False,False,False
2,Ugg3dWTOxryFfHgCoAEC,04kJtp6pVXI,\nDont you reckon them 'black lives matter' ba...,True,True,False,False,True,False,False,False,False,False,False,False
3,Ugg7Gd006w1MPngCoAEC,04kJtp6pVXI,There are a very large number of people who do...,False,False,False,False,False,False,False,False,False,False,False,False
4,Ugg8FfTbbNF8IngCoAEC,04kJtp6pVXI,"The Arab dude is absolutely right, he should h...",False,False,False,False,False,False,False,False,False,False,False,False


### 1.3 Información General del Dataset
Utilizamos `info()` para ver las columnas, tipos de datos y si hay valores nulos.

In [7]:
print("\nInformación del dataset:")
df.info()


Información del dataset:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 15 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   CommentId        1000 non-null   object
 1   VideoId          1000 non-null   object
 2   Text             1000 non-null   object
 3   IsToxic          1000 non-null   bool  
 4   IsAbusive        1000 non-null   bool  
 5   IsThreat         1000 non-null   bool  
 6   IsProvocative    1000 non-null   bool  
 7   IsObscene        1000 non-null   bool  
 8   IsHatespeech     1000 non-null   bool  
 9   IsRacist         1000 non-null   bool  
 10  IsNationalist    1000 non-null   bool  
 11  IsSexist         1000 non-null   bool  
 12  IsHomophobic     1000 non-null   bool  
 13  IsReligiousHate  1000 non-null   bool  
 14  IsRadicalism     1000 non-null   bool  
dtypes: bool(12), object(3)
memory usage: 35.3+ KB


### 1.4 Verificar Valores Nulos
Comprobamos si hay valores faltantes en alguna columna.

In [8]:
print("\nValores nulos por columna:")
print(df.isnull().sum())


Valores nulos por columna:
CommentId          0
VideoId            0
Text               0
IsToxic            0
IsAbusive          0
IsThreat           0
IsProvocative      0
IsObscene          0
IsHatespeech       0
IsRacist           0
IsNationalist      0
IsSexist           0
IsHomophobic       0
IsReligiousHate    0
IsRadicalism       0
dtype: int64


### 1.5 Estadísticas Descriptivas
Aunque las etiquetas son categóricas, `describe()` puede proporcionar información útil sobre columnas numéricas si las hubiera.

In [9]:
print("\nEstadísticas descriptivas:")
display(df.describe())


Estadísticas descriptivas:


Unnamed: 0,CommentId,VideoId,Text,IsToxic,IsAbusive,IsThreat,IsProvocative,IsObscene,IsHatespeech,IsRacist,IsNationalist,IsSexist,IsHomophobic,IsReligiousHate,IsRadicalism
count,1000,1000,1000,1000,1000,1000,1000,1000,1000,1000,1000,1000,1000,1000,1000
unique,1000,13,997,2,2,2,2,2,2,2,2,2,1,2,1
top,UgjBJKQSoQMQ6ngCoAEC,9pr1oE34bIM,run them over,False,False,False,False,False,False,False,False,False,False,False,False
freq,1,274,3,538,647,979,839,900,862,875,992,999,1000,988,1000


### 1.6 Distribución de las Etiquetas
Es importante entender cuántos comentarios están etiquetados como `TRUE` o `FALSE` para cada categoría, lo que nos ayudará a identificar posibles desbalances.

In [10]:
# Lista de columnas de etiquetas
label_columns = ['IsToxic', 'IsAbusive', 'IsThreat', 'IsProvocative', 'IsObscene', 
                 'IsHatespeech', 'IsRacist', 'IsNationalist', 'IsSexist', 
                 'IsHomophobic', 'IsReligiousHate', 'IsRadicalism']

# Mostrar la distribución de cada etiqueta
for col in label_columns:
    print(f"\nDistribución de {col}:")
    print(df[col].value_counts())


Distribución de IsToxic:
IsToxic
False    538
True     462
Name: count, dtype: int64

Distribución de IsAbusive:
IsAbusive
False    647
True     353
Name: count, dtype: int64

Distribución de IsThreat:
IsThreat
False    979
True      21
Name: count, dtype: int64

Distribución de IsProvocative:
IsProvocative
False    839
True     161
Name: count, dtype: int64

Distribución de IsObscene:
IsObscene
False    900
True     100
Name: count, dtype: int64

Distribución de IsHatespeech:
IsHatespeech
False    862
True     138
Name: count, dtype: int64

Distribución de IsRacist:
IsRacist
False    875
True     125
Name: count, dtype: int64

Distribución de IsNationalist:
IsNationalist
False    992
True       8
Name: count, dtype: int64

Distribución de IsSexist:
IsSexist
False    999
True       1
Name: count, dtype: int64

Distribución de IsHomophobic:
IsHomophobic
False    1000
Name: count, dtype: int64

Distribución de IsReligiousHate:
IsReligiousHate
False    988
True      12
Name: count, dtype

---

## 2. Preprocesar el Texto

En esta sección, limpiamos y preparamos el texto de la columna `Text` para el modelo. Utilizamos **SpaCy** para realizar tareas como convertir a minúsculas, eliminar caracteres especiales, lematizar y eliminar stopwords.

### 2.1 Importar Bibliotecas Necesarias

In [11]:
import spacy
import re

# Cargar el modelo de SpaCy para inglés
nlp = spacy.load('en_core_web_sm')

### 2.2 Definir Función de Preprocesamiento
Creamos una función que limpia y tokeniza el texto.

In [12]:
def preprocess_text(text):
    """
    Función para preprocesar el texto:
    - Convertir a minúsculas
    - Eliminar caracteres especiales y números
    - Lematizar y eliminar stopwords
    """
    # Convertir a minúsculas
    text = text.lower()
    # Eliminar caracteres especiales y números
    text = re.sub(r'[^a-z\s]', '', text)
    # Procesar con SpaCy
    doc = nlp(text)
    # Lematizar y eliminar stopwords
    tokens = [token.lemma_ for token in doc if not token.is_stop]
    return ' '.join(tokens)

### 2.3 Aplicar Preprocesamiento a la Columna `Text`
Aplicamos la función de preprocesamiento a cada comentario y almacenamos el resultado en una nueva columna `ProcessedText`.

In [13]:
df['ProcessedText'] = df['Text'].apply(preprocess_text)

# Mostrar resultados
print("Texto original vs. Texto preprocesado:")
display(df[['Text', 'ProcessedText']].head())

Texto original vs. Texto preprocesado:


Unnamed: 0,Text,ProcessedText
0,If only people would just take a step back and...,people step case not people situation lump ...
1,Law enforcement is not trained to shoot to app...,law enforcement train shoot apprehend train ...
2,\nDont you reckon them 'black lives matter' ba...,\n not reckon black life matter banner hold wh...
3,There are a very large number of people who do...,large number people like police officer call c...
4,"The Arab dude is absolutely right, he should h...",arab dude absolutely right shoot extra time ...


---

## 3. Codificar las Etiquetas

Convertimos las etiquetas booleanas (`TRUE`/`FALSE`) en valores numéricos (`1`/`0`) para que el modelo pueda procesarlas. Dado que es un problema de clasificación multi-etiqueta, cada etiqueta se mantiene como una columna binaria independiente.

### 3.1 Codificar Etiquetas a Numéricas

In [15]:
# Convertir TRUE/FALSE a 1/0 para cada columna de etiqueta
for col in label_columns:
    df[col] = df[col].astype(int)

# Verificar la conversión
print("Etiquetas convertidas a numéricas:")
display(df[label_columns].head())

Etiquetas convertidas a numéricas:


Unnamed: 0,IsToxic,IsAbusive,IsThreat,IsProvocative,IsObscene,IsHatespeech,IsRacist,IsNationalist,IsSexist,IsHomophobic,IsReligiousHate,IsRadicalism
0,0,0,0,0,0,0,0,0,0,0,0,0
1,1,1,0,0,0,0,0,0,0,0,0,0
2,1,1,0,0,1,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,0,0


### 3.2 Crear una Columna con Etiquetas Combinadas
Algunos frameworks requieren que las etiquetas estén en un formato de lista o array. Aquí creamos una columna `Labels` con las etiquetas combinadas.

In [16]:
df['Labels'] = df[label_columns].apply(lambda row: row.values.tolist(), axis=1)

# Mostrar resultado
print("\nTexto preprocesado y etiquetas combinadas:")
display(df[['ProcessedText', 'Labels']].head())


Texto preprocesado y etiquetas combinadas:


Unnamed: 0,ProcessedText,Labels
0,people step case not people situation lump ...,"[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]"
1,law enforcement train shoot apprehend train ...,"[1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]"
2,\n not reckon black life matter banner hold wh...,"[1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0]"
3,large number people like police officer call c...,"[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]"
4,arab dude absolutely right shoot extra time ...,"[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]"


---

## 4. Guardar el Dataset Preprocesado

Opcionalmente, guardamos el dataset preprocesado en un archivo CSV.

### 4.1 Exportar a CSV

In [18]:
# Guardar el dataset preprocesado
df.to_csv('../../data/processed/processed_dataset.csv', index=False)
print("Dataset preprocesado guardado en 'data/processed/processed_dataset.csv'")

Dataset preprocesado guardado en 'data/processed/processed_dataset.csv'
