In [2]:
# Data handlig & Exploratory Data Analysis (EDA):
import pandas as pd
import numpy as np
import sklearn
import os

# Saving objects
import joblib
import pickle
from joblib import dump, load

from sklearn.feature_extraction.text import TfidfVectorizer


In [9]:

# Cargar el dataset preprocesado
df = pd.read_csv('../data/cyberbullying_preprocessed.csv')

# Inicializar el vectorizador TF-IDF
# max_features: número máximo de términos a considerar
# min_df: eliminar palabras que aparezcan en menos de min_df documentos
tfidf_vectorizer = TfidfVectorizer(min_df=0.01, max_features=1000)

# Ajustar y transformar los datos
X = tfidf_vectorizer.fit_transform(df['text_preprocessed'])

# Guardar el vectorizador TF-IDF
dump(tfidf_vectorizer, '../models/tfidf_vectorizer.pkl')


['../models/tfidf_vectorizer.pkl']

# Bag of Words
Es la representación de un texto como un conjunto de palabras con su respectiva frecuencia.

In [10]:
bow = dict()

for doc in df['text_preprocessed']:
    for word in doc.split():
        if word in bow:
            bow[word] += 1
        else:
            bow[word] = 1
# Imprimir el BoW como un dataframe
df_bow = pd.DataFrame(bow.items(), columns=['word', 'frequency'])
df_bow = df_bow.sort_values(by='frequency', ascending=False)
df_bow

Unnamed: 0,word,frequency
44,bully,10427
42,school,9394
20,like,8883
181,fuck,8224
65,people,6469
...,...,...
20727,dunraven,1
20721,exponential,1
20720,poluution,1
20719,insecticides,1


# Características
X es una matriz dispersa donde cada fila corresponde a un documento y cada columna a una palabra del vocabulario.
Los valores son los pesos TF-IDF de cada palabra en cada documento.
El X.shape representa la cantidad de documentos y la cantidad de palabras en el vocabulario. Es decir, (n_documentos, n_palabras_vocabulario).

In [11]:
print(X.shape)

(80909, 35985)


# Calcular la métrica IDF para cada palabra del vocabulario
Este dataset de vocabulario es un diccionario donde la llave es la palabra y el valor es el valor de la métrica IDF. Es decir, (palabra, idf).

In [12]:
features = tfidf_vectorizer.get_feature_names_out()
idf = tfidf_vectorizer.idf_
for word, idf in zip(features, idf):
    print(word, idf)

aaaaaaaahhhhhhh 11.60794552424194
aaaaaanndgummy 11.60794552424194
aaaaah 11.202480416133776
aaaaargh 10.914798343681994
aaaagh 11.202480416133776
aaaah 11.60794552424194
aaaand 10.103868127465667
aaaawwwww 11.60794552424194
aaaawwwwwww 11.60794552424194
aaand 9.99850761180784
aaannndd 11.60794552424194
aaanyyywhoooooooo 11.202480416133776
aaargh 10.914798343681994
aaarhe 11.60794552424194
aaarrrg 10.691654792367785
aaawww 11.60794552424194
aab 11.60794552424194
aadat 11.60794552424194
aadhar 11.60794552424194
aah 9.662035375186626
aahhh 11.60794552424194
aaj 10.691654792367785
aajaatay 11.60794552424194
aajakia 11.60794552424194
aaka 11.60794552424194
aake 11.60794552424194
aalaameen 11.60794552424194
aalkayda 11.60794552424194
aalsi 11.60794552424194
aap 10.355182555746572
aapko 11.60794552424194
aapne 11.60794552424194
aapqtsu 11.60794552424194
aardvark 10.50933323557383
aargh 11.202480416133776
aaron 10.355182555746572
aas 11.60794552424194
aasmani 10.914798343681994
aatankwad 11.6