# Exploración de datos

In [1]:
import pandas as pd

# Load the dataset to analyze its structure and contents
file_path = 'data/youtoxic_english_1000.csv'
data = pd.read_csv(file_path)

# Display the first few rows of the dataset and general info for further analysis
data.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 15 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   CommentId        1000 non-null   object
 1   VideoId          1000 non-null   object
 2   Text             1000 non-null   object
 3   IsToxic          1000 non-null   bool  
 4   IsAbusive        1000 non-null   bool  
 5   IsThreat         1000 non-null   bool  
 6   IsProvocative    1000 non-null   bool  
 7   IsObscene        1000 non-null   bool  
 8   IsHatespeech     1000 non-null   bool  
 9   IsRacist         1000 non-null   bool  
 10  IsNationalist    1000 non-null   bool  
 11  IsSexist         1000 non-null   bool  
 12  IsHomophobic     1000 non-null   bool  
 13  IsReligiousHate  1000 non-null   bool  
 14  IsRadicalism     1000 non-null   bool  
dtypes: bool(12), object(3)
memory usage: 35.3+ KB


In [2]:
data.head()

Unnamed: 0,CommentId,VideoId,Text,IsToxic,IsAbusive,IsThreat,IsProvocative,IsObscene,IsHatespeech,IsRacist,IsNationalist,IsSexist,IsHomophobic,IsReligiousHate,IsRadicalism
0,Ugg2KwwX0V8-aXgCoAEC,04kJtp6pVXI,If only people would just take a step back and...,False,False,False,False,False,False,False,False,False,False,False,False
1,Ugg2s5AzSPioEXgCoAEC,04kJtp6pVXI,Law enforcement is not trained to shoot to app...,True,True,False,False,False,False,False,False,False,False,False,False
2,Ugg3dWTOxryFfHgCoAEC,04kJtp6pVXI,\nDont you reckon them 'black lives matter' ba...,True,True,False,False,True,False,False,False,False,False,False,False
3,Ugg7Gd006w1MPngCoAEC,04kJtp6pVXI,There are a very large number of people who do...,False,False,False,False,False,False,False,False,False,False,False,False
4,Ugg8FfTbbNF8IngCoAEC,04kJtp6pVXI,"The Arab dude is absolutely right, he should h...",False,False,False,False,False,False,False,False,False,False,False,False


# Ingenieria de características

In [3]:
import nltk
import os

# Configura la ruta de nltk_data en tu entorno virtual
nltk_data_path = os.path.join(os.getcwd(), ".venv", "Lib", "site-packages", "nltk_data")
nltk.data.path.append(nltk_data_path)

# Inicializa y utiliza NLTK normalmente
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem import WordNetLemmatizer

# Ahora puedes utilizar nltk normalmente
lemmatizer = WordNetLemmatizer()
stop_words = set(stopwords.words('english'))


In [4]:

# Function to preprocess the text: tokenization, stopwords removal, and lemmatization
def preprocess_text(text):
    # Tokenize the text
    words = word_tokenize(text.lower())
    # Remove stopwords and lemmatize each word
    words = [lemmatizer.lemmatize(word) for word in words if word.isalnum() and word not in stop_words]
    print('words ', words)
    # Join words back into a single string
    join = ' '.join(words)
    print('joined', join)
    return join

# Apply preprocessing to the 'Text' column
data['Cleaned_Text'] = data['Text'].apply(preprocess_text)

# Display the cleaned data to verify preprocessing
data[['Text', 'Cleaned_Text']].head()

words  ['people', 'would', 'take', 'step', 'back', 'make', 'case', 'anyone', 'except', 'two', 'people', 'situation', 'lump', 'mess', 'take', 'matter', 'hand', 'make', 'kind', 'protest', 'selfish', 'without', 'rational', 'thought', 'investigation', 'guy', 'video', 'heavily', 'emotional', 'hyped', 'want', 'heard', 'get', 'heard', 'press', 'never', 'reasonable', 'discussion', 'kudos', 'smerconish', 'keeping', 'level', 'whole', 'time', 'letting', 'masri', 'make', 'fool', 'dare', 'tore', 'city', 'protest', 'make', 'dishonor', 'entire', 'incident', 'hate', 'way', 'since', 'police', 'brutality', 'become', 'epidemic', 'wish', 'everyone', 'would', 'stop', 'pretending', 'like', 'knew', 'exactly', 'going', 'measurable', 'amount', 'people', 'honestly', 'witnessed', 'incident', 'none', 'u', 'clue', 'way', 'whole', 'issue', 'swung', 'grand', 'jury', 'informed', 'trust', 'majority', 'rule', 'right', 'course', 'action', 'let', 'also', 'thank', 'police', 'officer', 'america', 'actually', 'serve', 'prot

Unnamed: 0,Text,Cleaned_Text
0,If only people would just take a step back and...,people would take step back make case anyone e...
1,Law enforcement is not trained to shoot to app...,law enforcement trained shoot apprehend traine...
2,\nDont you reckon them 'black lives matter' ba...,dont reckon life matter banner held white cunt...
3,There are a very large number of people who do...,large number people like police officer called...
4,"The Arab dude is absolutely right, he should h...",arab dude absolutely right shot 6 extra time s...


In [5]:
# Crear una nueva columna que sea True si alguna característica de odio es True en esa fila
# Filtramos las columnas que representan características de odio
hate_columns = ['IsToxic', 'IsAbusive', 'IsThreat', 'IsProvocative', 'IsObscene', 
                'IsHatespeech', 'IsRacist', 'IsNationalist', 'IsSexist', 'IsHomophobic', 
                'IsReligiousHate', 'IsRadicalism']

# Generamos la columna `Any_Hate` verificando si alguna de estas columnas es True
data['Any_Hate'] = data[hate_columns].any(axis=1)

# Mostrar algunas filas para verificar la nueva columna
data[['Text', 'Any_Hate'] + hate_columns].head()


Unnamed: 0,Text,Any_Hate,IsToxic,IsAbusive,IsThreat,IsProvocative,IsObscene,IsHatespeech,IsRacist,IsNationalist,IsSexist,IsHomophobic,IsReligiousHate,IsRadicalism
0,If only people would just take a step back and...,False,False,False,False,False,False,False,False,False,False,False,False,False
1,Law enforcement is not trained to shoot to app...,True,True,True,False,False,False,False,False,False,False,False,False,False
2,\nDont you reckon them 'black lives matter' ba...,True,True,True,False,False,True,False,False,False,False,False,False,False
3,There are a very large number of people who do...,False,False,False,False,False,False,False,False,False,False,False,False,False
4,"The Arab dude is absolutely right, he should h...",False,False,False,False,False,False,False,False,False,False,False,False,False


# Modelos

## 1. Regresión Logística

In [6]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report

# Dividir los datos en características (X) y etiqueta (y)
X = data['Cleaned_Text']
y = data['Any_Hate']

# Convertir el texto en características numéricas usando TF-IDF
tfidf = TfidfVectorizer(max_features=5000)  # Limitar el número de características para simplificar
X_tfidf = tfidf.fit_transform(X)

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X_tfidf, y, test_size=0.2, random_state=42)

# Entrenar un modelo básico de Regresión Logística
model = LogisticRegression(max_iter=1000, random_state=42)
model.fit(X_train, y_train)

# Realizar predicciones en el conjunto de prueba
y_pred = model.predict(X_test)

# Generar el informe de clasificación para evaluar el modelo
report = classification_report(y_test, y_pred, target_names=['No Hate', 'Hate'])
report


'              precision    recall  f1-score   support\n\n     No Hate       0.61      0.85      0.71        93\n        Hate       0.80      0.52      0.63       107\n\n    accuracy                           0.68       200\n   macro avg       0.70      0.69      0.67       200\nweighted avg       0.71      0.68      0.67       200\n'

Clase "No Hate" (sin odio):

Precisión: 0.61, lo que significa que el modelo identifica correctamente el 61% de los mensajes sin odio.
Recall: 0.85, indicando que el modelo es capaz de detectar el 85% de todos los mensajes realmente sin odio.
F1-score: 0.71, el equilibrio entre precisión y recall, muestra un desempeño sólido en esta clase.
Clase "Hate" (con odio):

Precisión: 0.80, bastante alta, lo que sugiere que la mayoría de los mensajes clasificados como odio son realmente de odio.
Recall: 0.52, indica que el modelo detecta el 52% de todos los mensajes de odio, lo que muestra una oportunidad de mejora en captar más de estos mensajes.
F1-score: 0.63, evidencia que el modelo es menos consistente en la identificación de mensajes de odio.
Exactitud general: 0.68, lo que significa que el modelo tiene un 68% de precisión en general al clasificar ambos tipos de mensajes.

In [7]:
from sklearn.model_selection import GridSearchCV
from sklearn.pipeline import Pipeline

# Configurar la pipeline con TF-IDF y Regresión Logística
pipeline = Pipeline([
    ('tfidf', TfidfVectorizer()),
    ('logreg', LogisticRegression(random_state=42))
])

# Definir los parámetros para la búsqueda en cuadrícula
param_grid = {
    'tfidf__max_features': [3000, 5000, 7000],  # Diferentes tamaños de vocabulario
    'tfidf__ngram_range': [(1, 1), (1, 2)],     # Unigramas y bigramas
    'logreg__C': [0.1, 1, 10],                  # Regularización de la regresión logística
    'logreg__max_iter': [500, 1000]             # Número de iteraciones
}

# Configurar la búsqueda en cuadrícula
grid_search = GridSearchCV(pipeline, param_grid, cv=3, scoring='f1_weighted', n_jobs=-1, verbose=1)

# Ejecutar la búsqueda en cuadrícula
grid_search.fit(X, y)

# Obtener los mejores parámetros y el rendimiento correspondiente
best_params = grid_search.best_params_
best_score = grid_search.best_score_

best_params, best_score


Fitting 3 folds for each of 36 candidates, totalling 108 fits


({'logreg__C': 1,
  'logreg__max_iter': 500,
  'tfidf__max_features': 3000,
  'tfidf__ngram_range': (1, 2)},
 np.float64(0.699587316455967))

In [8]:
# Evaluar el modelo optimizado en el conjunto de prueba
from sklearn.metrics import classification_report
from sklearn.model_selection import train_test_split

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Usar el mejor modelo encontrado en la búsqueda de cuadrícula
best_model = grid_search.best_estimator_
best_model.fit(X_train, y_train)

# Realizar predicciones en el conjunto de prueba
y_pred = best_model.predict(X_test)

# Generar el informe de clasificación para evaluar el modelo optimizado
report = classification_report(y_test, y_pred, target_names=['No Hate', 'Hate'])
report


'              precision    recall  f1-score   support\n\n     No Hate       0.62      0.85      0.72        93\n        Hate       0.81      0.55      0.66       107\n\n    accuracy                           0.69       200\n   macro avg       0.72      0.70      0.69       200\nweighted avg       0.72      0.69      0.68       200\n'

Clase "No Hate":

Precisión: 0.62
Recall: 0.85
F1-score: 0.72
Clase "Hate":

Precisión: 0.81
Recall: 0.55
F1-score: 0.66
Exactitud general: 0.69

## 2. Máquina de Soporte Vectorial (SVM)

## 3. Random Forest

## 4. Naive Bayes