# Classificador utilizando Naive Bayes

Para Naive Bayes, podemos utilizar duas modalidades de algorítmo:
- Multinomial Naive Bayes
- Bernoulli Naive Bayes

É recomendado que testemos ambas as possibilidades para garantir o melhor encaixe.

In [1]:
# importe bibliotecas necessárias
import numpy as np
import pandas as pd
from sklearn.naive_bayes import MultinomialNB

# CRIANDO O DATAFRAME

Vamos criar um dataframe. É como se fosse uma tabela do bom e velho Excel e que vai nos dar mais facilidade na manipulação de dados.

In [2]:
df_n = pd.read_csv('GVArchive_N.csv')
df_p = pd.read_csv('GVArchive_P.csv')
df_pn = df_p.append(df_n)

In [23]:
# Exibe 10 amostras aleatórias do dataset.
#df_pn = df_pn.drop(columns=['Unnamed: 0'])
df_pn.sample(10)

Unnamed: 0,DATA,TITULO,KW,RESUMO,URL,TARGET
113,,SANTA LUZIA  BORRACHEIRO É ALVEJADO E MORTO C...,"['santa', 'alvejado', 'crime', 'disparos', 'tr...","De acordo com informações preliminares, dois h...",https://www.newsrondonia.com.br/noticias/santa...,1
47,2018-10-26 17:30:24-03:00,Diretor da Acadepol fez disparo que provocou a...,"['acadepol', 'severiano', 'provocou', 'capitão...",A perícia mostrou que a arma era de uso pessoa...,https://www.op9.com.br/pb/noticias/diretor-da-...,1
81,2019-02-16 00:00:00,Homem é morto a tiros de pistola na fronteira ...,"['fronteira', 'investiga', 'suspeito', 'morto'...",Homem é morto a tiros de pistola na fronteira ...,https://g1.globo.com/ms/mato-grosso-do-sul/not...,1
48,2019-02-28 17:18:39+00:00,Hellboy aparece com espada de fogo e arma em n...,"['viveu', 'usou', 'vilã', 'bruxas', 'of', 'mer...",Hellboy teve dois novos pôsteres divulgados.\r...,https://www.omelete.com.br/hellboy/hellboy-apa...,0
26,2019-03-08 15:09:00,Bolsonaro critica obrigatoriedade de curso do ...,"['bolsonaro', 'critica', 'sexual', 'brasil', '...","Veja mais opçõesNa avaliação do presidente, qu...",https://oglobo.globo.com/sociedade/bolsonaro-c...,0
18,2019-03-08 00:00:00,Witzel sanciona lei que impede nomeação de con...,"['witzel', 'cargos', 'lei', 'comissionados', '...",Witzel sancionou uma lei que impede a nomeação...,https://g1.globo.com/rj/rio-de-janeiro/noticia...,0
56,2018-11-07 00:00:00,Mulher que levou disparo de arma de choque de ...,"['vídeo', 'corregedoria', 'levou', 'paciente',...",O guarda que usou a arma de choque para conter...,https://g1.globo.com/sp/sorocaba-jundiai/notic...,1
19,2019-03-08 20:45:53,'Saúde absolutamente normal': promotores inter...,"['diferenciado', 'desmentem', 'atendimento', '...","Na sala de interrogatórios, o médium reclamava...",https://extra.globo.com/noticias/brasil/saude-...,0
58,2018-12-09 17:30:00-03:00,PM pai de adolescente que matou amiga diz que ...,"['casa', 'adolescente', 'matou', 'amiga', 'rev...","O policial militar reformado, pai da adolescen...",https://www.correio24horas.com.br/noticia/nid/...,1
8,2019-03-08 04:30:00,"‘Queria ajudar Bolsonaro a mudar o país, mas o...","['país', 'quis', 'assessor', 'álvaro', 'r', 't...",Veja mais opçõesLeia a entrevista com Adriana ...,https://oglobo.globo.com/brasil/queria-ajudar-...,0


Para utilizar o próprio conjunto de treinamento para testar a acurácia, utilizaremos a ferramenta train_test_split.

In [25]:
from sklearn.model_selection import train_test_split

# a coluna KW será nosso 'X' enquanto a coluna TARGET será nosso 'y'

X_train, X_test, y_train, y_test = train_test_split(
    df_pn['KW'], 
    df_pn['TARGET'], 
    random_state = 1 # este random state serve para caso desejemos reproduzir a mesma pseudoaleatoriedade em outro momento
)

print("Training dataset: ", X_train.shape[0]) # o dataset de treinos possui esta dimensão
print("Test dataset: ", X_test.shape[0]) # e o dataset de teste possui esta dimensão.

Training dataset:  129
Test dataset:  43


Creio que a parte mais importante é a vetorização das palavras-chave. O modelo NB não aceita a leitura de caracteres diretamente, sendo então necessária a conversão de uma string de palavras para um vetor.

In [26]:
from sklearn.feature_extraction.text import CountVectorizer

count_vector = CountVectorizer()
training_data = count_vector.fit_transform(X_train) # vetorizaremos tanto o train set
testing_data = count_vector.transform(X_test) # quanto o test set

print(training_data) # é assim que se parecerá o set vetorizado

  (0, 21)	1
  (0, 65)	1
  (0, 83)	1
  (0, 647)	1
  (0, 790)	1
  (0, 725)	1
  (0, 773)	1
  (0, 910)	1
  (0, 355)	1
  (0, 251)	1
  (0, 378)	1
  (0, 731)	1
  (0, 51)	1
  (0, 44)	1
  (0, 583)	1
  (0, 766)	1
  (1, 184)	1
  (1, 615)	1
  (1, 550)	1
  (1, 369)	1
  (1, 159)	1
  (1, 446)	1
  (1, 911)	1
  (1, 540)	1
  (1, 837)	1
  :	:
  (127, 202)	1
  (127, 817)	1
  (127, 672)	1
  (127, 113)	1
  (127, 116)	1
  (127, 541)	1
  (127, 941)	1
  (127, 540)	1
  (128, 605)	1
  (128, 74)	1
  (128, 345)	1
  (128, 102)	1
  (128, 875)	1
  (128, 869)	1
  (128, 755)	1
  (128, 358)	1
  (128, 541)	1
  (128, 645)	1
  (128, 642)	1
  (128, 348)	1
  (128, 507)	1
  (128, 878)	1
  (128, 65)	1
  (128, 647)	1
  (128, 251)	1


In [27]:
clf = MultinomialNB() # eis então o Multinomial Naive Bayes
clf.fit(training_data, y_train) # fit é o comando que recebe os dados de X e y para criar o classificador.

MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True)

In [28]:
# Após treinado o modelo, a predição é feita com o seguinte comando:

predictions = clf.predict(testing_data)
predictions # exibe o resultado das predições.

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 0, 0, 0, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1],
      dtype=int64)

# RESULTADOS

É observado que o resultado está impreciso/viciado pela falta de exemplos negativos. Será necessário voltar à coleta de dados e reaplicar o treinamento no modelo para que este possua mais parâmetros comparativos.

In [29]:
from sklearn.metrics import accuracy_score, recall_score, precision_score, f1_score

print("Accuracy score: ", accuracy_score(y_test, predictions))
print("Recall score: ", recall_score(y_test, predictions, average = 'weighted'))
print("Precision score: ", precision_score(y_test, predictions, average = 'weighted'))
print("F1 score: ", f1_score(y_test, predictions, average = 'weighted'))

Accuracy score:  0.9069767441860465
Recall score:  0.9069767441860465
Precision score:  0.9165175909361956
F1 score:  0.8939870102660802
