In [None]:
# Primeiramente, começamos importando as bibliotecas que iremos usar no
# restante do projeto
import pandas as pd
import numpy as np
import seaborn as sns
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import train_test_split
from sklearn.pipeline import make_pipeline
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics import classification_report

import nltk
from nltk.corpus import stopwords

In [None]:
# Fazemos o download das stopwords (palavras comuns em determinada língua)
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [None]:
# Carregamos o csv com os dados
df = pd.read_csv('https://raw.githubusercontent.com/Dssdiego/sad_prova1/master/dados.csv')
df.head()

Unnamed: 0,mensagem,classificacao
0,Nordeste poderia sair do mapa do Brasil... mor...,hate
1,Essa corrente negativa de pessoas desejando a ...,regular
2,Não maltrataram ela? Não a estruparam com viol...,hate
3,Encerrando o dia com o posicionamento da XboxB...,regular
4,Quero ir num aeroporto brasileiro só pra ver p...,hate


In [None]:
# Verificamos que os dados estão igualmente distribuídos
# (para não criar tendência na classificação)
df['classificacao'].value_counts()

regular    14
hate       14
Name: classificacao, dtype: int64

In [None]:
# Definimos os eixos X e Y
X = df['mensagem']
y = df['classificacao']

In [None]:
# Separamos os dados em conjuntos de *treino* e *teste* 
# (80% treino / 20% teste)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

In [None]:
# Verificamos os dados de treino e teste em uma tabela
pd.DataFrame({'mensagem': X_train, 'classificacao': y_train})

Unnamed: 0,mensagem,classificacao
24,"eu não tenho raiva, nem ódio, muito menos desp...",hate
13,"Nem queria namorar com você, queria casar só",regular
20,"Quem apoio Trum e Bolsonaro, é retardado... Fa...",hate
25,quando eu falo que quem me trouxe pro kpop foi...,regular
16,Deveria acontecer o que aconteceu na Argentina...,hate
1,Essa corrente negativa de pessoas desejando a ...,regular
10,O povo precisa providenciar o enforcamento de ...,hate
27,alias falano em gif eu imprimi um esses dia. n...,regular
26,A racismo começa apartir de que nuvens pretas ...,hate
8,o brasileiro esperando mais de 7 mes pra vacin...,hate


In [None]:
# Como máquinas não entendem textos, calculamos a frequência de palavras de cada 
# mensagem em uma medida chamada tf-idf (Term Frequency, Inverse Document 
# Frequency), que é uma medida estatística que tem o intuito de indicar a 
# importância de uma palavra de um documento em relação a uma coleção de 
# documentos em um corpus linguístico.

# Para a criação dessa medida, usamos alguns classificadores:

# "encoding" é UTF-8 para garantir o uso de acentos existentes na língua portuguesa
# "ngram_range" é (1,3) para indicar que consideraremos conjuntos de 1 a 3 palavras
# "stop_words" é "portuguese" para remover "palavras comuns" da língua portuguesa

tfidf = TfidfVectorizer(encoding='utf-8', ngram_range=(1,3), 
                                       stop_words=stopwords.words('portuguese'))

In [None]:
# Em seguida, criamos uma pipeline que "junta" a medida tf-idf com o modelo de 
# classificação Naive Bayes Multinomial
modelo = make_pipeline(tfidf, MultinomialNB())

In [None]:
# Realizamos o treinamento do modelo
modelo.fit(X_train, y_train)

Pipeline(memory=None,
         steps=[('tfidfvectorizer',
                 TfidfVectorizer(analyzer='word', binary=False,
                                 decode_error='strict',
                                 dtype=<class 'numpy.float64'>,
                                 encoding='utf-8', input='content',
                                 lowercase=True, max_df=1.0, max_features=None,
                                 min_df=1, ngram_range=(1, 3), norm='l2',
                                 preprocessor=None, smooth_idf=True,
                                 stop_words=['de', 'a', 'o', 'que', 'e', 'é',
                                             'do', 'da', 'em', 'um', 'para',
                                             'com', 'não', 'uma', 'os', 'no',
                                             'se', 'na', 'por', 'mais', 'as',
                                             'dos', 'como', 'mas', 'ao', 'ele',
                                             'das', 'à', 'seu', 'sua', ...],

In [None]:
# Confirmamos quais as saídas do modelo
print(modelo.classes_)

['hate' 'regular']


In [None]:
# Verificamos o vocabulário criado pela medida Tfidf e seus respectivos pesos
tfidf.vocabulary_

{'12h': 0,
 '12h pq': 1,
 '12h pq tá': 2,
 'acontecer': 3,
 'acontecer aconteceu': 4,
 'acontecer aconteceu argentina': 5,
 'aconteceu': 6,
 'aconteceu argentina': 7,
 'aconteceu argentina onde': 8,
 'acordar': 9,
 'acordar males': 10,
 'acordar males sofreu': 11,
 'aeroporto': 12,
 'aeroporto brasileiro': 13,
 'aeroporto brasileiro pra': 14,
 'agora': 15,
 'agora fazer': 16,
 'agora fazer choro': 17,
 'agora ficou': 18,
 'agora ficou impasse': 19,
 'agora né': 20,
 'agora né sonho': 21,
 'ahhaha': 22,
 'ainda': 23,
 'ainda bem': 24,
 'ainda bem moro': 25,
 'ajuda': 26,
 'ajuda volta': 27,
 'ajuda volta pra': 28,
 'alegria': 29,
 'alegria superação': 30,
 'alegria superação garra': 31,
 'alguem': 32,
 'alguem sabe': 33,
 'alguem sabe lugar': 34,
 'algum': 35,
 'algum lugar': 36,
 'algum lugar mundo': 37,
 'alguém': 38,
 'alguém dar': 39,
 'alguém dar tiro': 40,
 'alguém sabe': 41,
 'alguém sabe responder': 42,
 'alias': 43,
 'alias falano': 44,
 'alias falano gif': 45,
 'anda': 46,
 'a

In [None]:
# Por fim, realizamos as predições no conjunto de *teste*
y_pred = modelo.predict(X_test)

In [None]:
# Verificamos as predições em uma tabela
pd.DataFrame({'mensagem': X_test, 'classificacao': y_pred})

Unnamed: 0,mensagem,classificacao
2,Não maltrataram ela? Não a estruparam com viol...,hate
22,Bom dia negros fedidos :D,regular
14,"O Nordeste elege o PT e fode o país, quando qu...",hate
17,"Homem é foda né, a mina pode ter peitão, bundã...",regular
5,o curioso caso do sei do que eu to falando mas...,regular
11,Discurso de ódio mata sim. Não disfarce isso c...,hate


In [None]:
# Verificamos o desempenho do modelo
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

        hate       0.67      0.67      0.67         3
     regular       0.67      0.67      0.67         3

    accuracy                           0.67         6
   macro avg       0.67      0.67      0.67         6
weighted avg       0.67      0.67      0.67         6

