In [12]:
import pandas as pd

# from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
# from sklearn.impute import SimpleImputer
# from sklearn.preprocessing import OneHotEncoder, OrdinalEncoder, MinMaxScaler, StandardScaler
from sklearn.model_selection import cross_val_score, StratifiedKFold
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import GaussianNB, MultinomialNB, ComplementNB, BernoulliNB, CategoricalNB
import re
import nltk
from nltk.corpus import stopwords

SEED = 3

In [49]:
df = pd.read_excel('../data/Hatespeech-BR.xlsx')
df.drop(columns=['Unnamed: 0', 'docno', 'origin'], inplace=True)
df.fillna(0, inplace=True)
df['has_anger'] = df['has_anger'].replace('S', 1).astype(int)
df

  df['has_anger'] = df['has_anger'].replace('S', 1).astype(int)


Unnamed: 0,has_anger,txt
0,1,>>22994apóio o >>22995. um passo de cada vez. ...
1,0,eu ainda vou surtar com essa fic
2,0,@flopdani kkkkkkkkkkkk amei e fiquei com vonta...
3,1,>debater com luquistajá cansei de bater palma ...
4,0,hoje eu só tô minha irmã ali kkkkkkkkkkkkkk
...,...,...
7667,0,neozelandesas culias !!!!
7668,1,>2011>prosperidade é boa>2019>prosperidade é u...
7669,0,renovador: “seu sorriso derretia satélites e c...
7670,0,"fotos lindas que não podem ser postadas, lamen..."


In [50]:
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\laura\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [51]:
def preprocess_text(text):
    if not isinstance(text, str):
        text = str(text)
    # Remover IDs e padrões >>, mantendo expressões
    text = re.sub(r'>>\d+', '', text)
    # Remover menções como @usuário
    text = re.sub(r'@\w+', '', text)
    # Manter emojis, pontos de interrogação e exclamação
    text = re.sub(r'[^\w\s!?]', '', text)
    # Converter para minúsculas
    text = text.lower()
    return text

df['txt_clean'] = df['txt'].apply(preprocess_text)
df.drop(columns=['txt'], inplace=True)
display(df)

Unnamed: 0,has_anger,txt_clean
0,1,apóio o um passo de cada vez não tenha pressa...
1,0,eu ainda vou surtar com essa fic
2,0,kkkkkkkkkkkk amei e fiquei com vontade desse ...
3,1,debater com luquistajá cansei de bater palma p...
4,0,hoje eu só tô minha irmã ali kkkkkkkkkkkkkk
...,...,...
7667,0,neozelandesas culias !!!!
7668,1,2011prosperidade é boa2019prosperidade é uma m...
7669,0,renovador seu sorriso derretia satélites e cor...
7670,0,fotos lindas que não podem ser postadas lament...


### **Exploratory Data Analysis (EDA)**

In [52]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7672 entries, 0 to 7671
Data columns (total 2 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   has_anger  7672 non-null   int32 
 1   txt_clean  7672 non-null   object
dtypes: int32(1), object(1)
memory usage: 90.0+ KB
None


In [53]:
print(df['has_anger'].value_counts())

has_anger
1    3836
0    3836
Name: count, dtype: int64


In [54]:
df.describe()

Unnamed: 0,has_anger
count,7672.0
mean,0.5
std,0.500033
min,0.0
25%,0.0
50%,0.5
75%,1.0
max,1.0


In [55]:
df['txt_clean']

0       apóio o  um passo de cada vez não tenha pressa...
1                        eu ainda vou surtar com essa fic
2        kkkkkkkkkkkk amei e fiquei com vontade desse ...
3       debater com luquistajá cansei de bater palma p...
4            hoje eu só tô minha irmã ali kkkkkkkkkkkkkk 
                              ...                        
7667                            neozelandesas culias !!!!
7668    2011prosperidade é boa2019prosperidade é uma m...
7669    renovador seu sorriso derretia satélites e cor...
7670    fotos lindas que não podem ser postadas lament...
7671    só tô esperando uma oportunidade sua  senta se...
Name: txt_clean, Length: 7672, dtype: object

In [57]:
df_anger = df[df['has_anger'] == 1]
print(df_anger)

      has_anger                                          txt_clean
0             1  apóio o  um passo de cada vez não tenha pressa...
3             1  debater com luquistajá cansei de bater palma p...
5             1  ela me chamou pra dormir na casa dela pois est...
8             1  seu psiquiatra parece ter errado muito provave...
15            1  ah anão eu te invejo sei que tem o fator psico...
16            1  nenhum dos dois aquiuso metilfenidato por quas...
17            1  dependendo do objetivo e da sua periodização d...
19            1         seja homem e simplesmente raspe essa merda
27            1              porra queria essa merda para o firefa
28            1  todos os neets são comunistas enrustidosodeiam...
29            1  cansei anõesestou ficando com uma depósito há ...
31            1  vargas permitiu centros nazistas no sul animal...
32            1  vivemos no brasil os padrões são outros aqui n...
34            1  anões eu fico muito ansioso e nervoso na hora

In [58]:
df_anger = df[df['has_anger'] == 0]
print(df_anger['txt_clean'])

1                        eu ainda vou surtar com essa fic
2        kkkkkkkkkkkk amei e fiquei com vontade desse ...
4            hoje eu só tô minha irmã ali kkkkkkkkkkkkkk 
6                         a co delas ve volnem case?\nja 
7                                               obrigado 
9                                          bora assistir!
10                          hahahahhahahahhaha plmdds sim
11        claro que tem crime não tinha era equipe suf...
12      foi só eu cancelar a netflix que apareceu cois...
13                                              só agora?
14      boa tarde blinks é hora de votar!\ndeixem ness...
18      juro que não me importaria se você me acordass...
20             beijaria alguma menina ?  nop só homem kk 
21      eu sempre vou dar meu máximo por ela mas essas...
22                      aprendi da pior forma mas aprendi
23                    eric me convidando pra jogar sinuca
24      exame de história amanha e eu a jogar gta v si...
25            

In [64]:
print(df.iloc[0][0], f'Hate.speech: {df.iloc[0][1]}', sep='\n')
print('\n')
print(df.iloc[74][0], f'Hate.speech: {df.iloc[74][1]}', sep='\n')

1
Hate.speech: apóio o  um passo de cada vez não tenha pressa mas sempre movendo pra frente e não tenha medo de pedir ajuda a amigos parentes ou psicólogos não tem nada de maise outra faculdade nem sempre é a solução tem cursos técnicos que também contam como superior e que às vezes são mais curtos que faculdades e te pagam melhor


0
Hate.speech:  foi ela mesmo minha mãe olhou na geladeira dela porca ladra de comida


  print(df.iloc[0][0], f'Hate.speech: {df.iloc[0][1]}', sep='\n')
  print(df.iloc[74][0], f'Hate.speech: {df.iloc[74][1]}', sep='\n')


### **Model training**

#### **Preprocessing**

In [65]:
X = df['txt_clean']
y = df['has_anger']

In [66]:
print(f'X nulls: {X.isna().sum()}')
print(f'y nulls: {y.isna().sum()}')

X nulls: 0
y nulls: 0


In [67]:
def get_pipe(model, params: dict):
    return Pipeline(steps=[
        ('vectorizer', TfidfVectorizer()),
        ('model', model(**params)),
    ])

def validate_pipe(pipe, X, y):
    accuracy = cross_val_score(pipe, X, y, cv=StratifiedKFold(n_splits=5), scoring='accuracy')
    precision = cross_val_score(pipe, X, y, cv=StratifiedKFold(n_splits=5), scoring='precision')
    recall = cross_val_score(pipe, X, y, cv=StratifiedKFold(n_splits=5), scoring='recall')
    f1 = cross_val_score(pipe, X, y, cv=StratifiedKFold(n_splits=5), scoring='f1')

    result_matrix = pd.DataFrame.from_dict({
        'accuracy': accuracy,
        'precision': precision,
        'recall': recall,
        'f1': f1,
    })

    print(
        f'Accuracy: {result_matrix['accuracy'].mean():.1%}',
        f'Precision: {result_matrix['precision'].mean():.1%}',
        f'Recall: {result_matrix['recall'].mean():.1%}',
        f'F1: {result_matrix['f1'].mean():.1%}',
        sep='\n',
    )

    return result_matrix

In [68]:
multinomialnb_pipe = get_pipe(MultinomialNB, {})
validate_pipe(multinomialnb_pipe, X, y)

Accuracy: 72.2%
Precision: 64.4%
Recall: 99.7%
F1: 78.2%


Unnamed: 0,accuracy,precision,recall,f1
0,0.727687,0.648305,0.996094,0.785421
1,0.708795,0.632231,0.997392,0.7739
2,0.72425,0.645025,0.997392,0.78341
3,0.737288,0.656627,0.994785,0.791083
4,0.71382,0.636439,0.997392,0.777044


In [69]:
complementnb_pipe = get_pipe(ComplementNB, {})
validate_pipe(complementnb_pipe, X, y)

Accuracy: 72.5%
Precision: 64.6%
Recall: 99.7%
F1: 78.4%


Unnamed: 0,accuracy,precision,recall,f1
0,0.727687,0.648305,0.996094,0.785421
1,0.721173,0.642317,0.997392,0.78141
2,0.72425,0.645025,0.997392,0.78341
3,0.737288,0.656627,0.994785,0.791083
4,0.71382,0.636439,0.997392,0.777044


In [70]:
bernoullinb_pipe = get_pipe(BernoulliNB, {})
validate_pipe(bernoullinb_pipe, X, y)

Accuracy: 83.7%
Precision: 99.8%
Recall: 67.4%
F1: 80.5%


Unnamed: 0,accuracy,precision,recall,f1
0,0.846906,0.996276,0.696615,0.819923
1,0.842345,0.998102,0.685789,0.812983
2,0.828553,1.0,0.657106,0.793076
3,0.829205,0.998028,0.659713,0.794349
4,0.836375,1.0,0.672751,0.804365
