In [52]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
import joblib

In [58]:

# Cargar el dataset preprocesado
df = pd.read_csv('../data/cyberbullying_preprocessed.csv')

# Inicializar el vectorizador TF-IDF
# max_features: número máximo de términos a considerar
# min_df: eliminar palabras que aparezcan en menos de min_df documentos
tfidf_vectorizer = TfidfVectorizer(max_features=1000, min_df=5)

# Ajustar y transformar los datos
X = tfidf_vectorizer.fit_transform(df['text_preprocessed'])

# Guardar el vectorizador TF-IDF
joblib.dump(tfidf_vectorizer, '../models/tfidf_vectorizer.pkl')


['../models/tfidf_vectorizer.pkl']

# Bag of Words
Es la representación de un texto como un conjunto de palabras con su respectiva frecuencia.

In [54]:
bow = dict()

for doc in df['text_preprocessed']:
    for word in doc.split():
        if word in bow:
            bow[word] += 1
        else:
            bow[word] = 1
# Imprimir el BoW como un dataframe
df_bow = pd.DataFrame(bow.items(), columns=['word', 'frequency'])
df_bow = df_bow.sort_values(by='frequency', ascending=False)
df_bow

Unnamed: 0,word,frequency
55,bully,10235
53,school,9389
31,like,8866
192,fuck,8102
78,people,6451
...,...,...
25305,cuzzo,1
9034,wear#ugh,1
25303,limmy,1
25302,stopthehate,1


# Características
X es una matriz dispersa donde cada fila corresponde a un documento y cada columna a una palabra del vocabulario.
Los valores son los pesos TF-IDF de cada palabra en cada documento.
El X.shape representa la cantidad de documentos y la cantidad de palabras en el vocabulario. Es decir, (n_documentos, n_palabras_vocabulario).

In [56]:
print(X.shape)

(80984, 40109)


# Calcular la métrica IDF para cada palabra del vocabulario
Este dataset de vocabulario es un diccionario donde la llave es la palabra y el valor es el valor de la métrica IDF. Es decir, (palabra, idf).

In [57]:
for ele1, ele2 in zip(tfidf_vectorizer.get_feature_names_out(), tfidf_vectorizer.idf_):
    print(ele1, ':', ele2)

039 : 11.608872050760551
08 : 11.608872050760551
10 : 10.692581318886397
109 : 11.608872050760551
11 : 10.915724870200606
12 : 10.692581318886397
1266 : 11.608872050760551
128079 : 11.608872050760551
128514 : 10.915724870200606
13 : 10.356109082265183
14 : 11.608872050760551
1400 : 11.203406942652387
15 : 10.692581318886397
158 : 11.203406942652387
16 : 11.608872050760551
169 : 10.915724870200606
174 : 10.692581318886397
18 : 11.608872050760551
185 : 11.608872050760551
1867 : 11.608872050760551
19 : 9.411647473424333
1b : 11.608872050760551
1hr : 11.608872050760551
1million : 11.608872050760551
1one : 11.608872050760551
1st : 11.608872050760551
200 : 11.203406942652387
2000 : 10.915724870200606
2008 : 10.356109082265183
2013 : 11.608872050760551
2016 : 11.608872050760551
2017 : 11.608872050760551
21er : 11.608872050760551
228 : 11.203406942652387
229 : 11.203406942652387
233 : 11.203406942652387
24 : 11.608872050760551
26pd : 11.608872050760551
29 : 11.608872050760551
2f : 11.608872050