## **APLICANDO NAIVE BAYES**
---

#### **Import LIBS**

In [11]:
import numpy as np
import pandas as pd
from sklearn.naive_bayes import MultinomialNB
from sklearn.feature_extraction.text import CountVectorizer

#### **Import Data**

In [6]:
# Importar arquivo csv com as avaliações.

df = pd.read_csv('avaliacoesProduto.csv')
print(df)

                                                Frase  Classe
0                                  Serviço muito bom!       1
1                  Gostei, recomendo muito o serviço.       1
2                Nota 10,  me surpreendeu como é bom!       1
3               Muito ruim,  não recomendo a ninguém.       0
4       Péssimo,  não atendeu as minhas expectativas.       0
5   Muito lento,  muito caro e não atende o que cu...       0
6     Muito rápido,  gostei e recomendo a utilização!       1
7   Resposta muito rápida,  atendimento de qualida...       1
8                Horrível,  não comprem esse serviço.       0
9               Atendimento péssimo de mal qualidade.       0
10  Queria meu dinheiro de volta, sem qualidade, m...       0
11         Recomendo a todos!  Ótimo custo beneficio!       1


In [21]:
# Separando o conjunto de treinamento.

frase = df['Frase']
classe = df['Classe']

### **Treinando modelo**

#### **Processo de vetorização do texto**

#### https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html

In [299]:
# CountVectorizer converte uma coleção de documentos de texto em uma matriz de contagens de token.
# Utilizando o parâmetro "stop_words" do CountVectorizer para selecionar as palavras que devem ser retiradas do treinamento e das predições.
# Retiramos principalmente os conectores textuais que não possuem caracteristica de positivo ou negativo e só poluiriam nosso modelo.
vectorizer = CountVectorizer(stop_words=['o','a','os','as','e','é','com','ou', 'que','esse','de','da','me','muito','nota'])

# Aplicando os nossos dados ao vectorizer para que seja retirado as stop_words e que seja produzido uma matriz de contagem de token de acordo com as features obtidas.
vectorizer.fit(frase)

# Mostrando as características(features) da matriz que será usada na contagem de tokens.
print(vectorizer.get_feature_names())

['10', 'atende', 'atendeu', 'atendimento', 'beneficio', 'bom', 'caro', 'como', 'comprem', 'cumpre', 'custo', 'dinheiro', 'enganação', 'expectativas', 'gostei', 'horrível', 'lento', 'mal', 'meu', 'minhas', 'muita', 'ninguém', 'não', 'péssimo', 'qualidade', 'queria', 'recomendo', 'resposta', 'ruim', 'rápida', 'rápido', 'sem', 'serviço', 'surpreendeu', 'todos', 'utilização', 'volta', 'ótimo']


In [293]:
# Realizanto a transformação das frases em matriz de termo de documento.
X = vectorizer.transform(frase)

# Vetorizando a matriz de termo de documento.
X=X.toarray()

# Mostrando os vetores que serão utilizado para treinar o modelo, cada conjunto representa uma frase do dataset e a contagem das repetiçoes de acordo com as caracteristicas da matriz obtida no vectorizer.fit.
print(X)

[[0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0
  0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0
  0 0]
 [1 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0
  0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 1 0 1 0 0 0 0 0 0 0
  0 0]
 [0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0
  0 0]
 [0 1 0 0 0 0 1 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0
  0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 0 1
  0 0]
 [0 0 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 1 0 0 0 0 0 0
  0 0]
 [0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0
  0 0]
 [0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0
  0 0]
 [0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 1 0 1 0 0 0 1 1 0 0 0 0 0 1 0 0 0 0
  1 0]
 [0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0
  0 1]]


#### **Treinando modelo utilizando o Naive Bayes Multinomial**

#### https://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.MultinomialNB.html

In [259]:
# Treinando o modelo MultinomialNB com os dados da variavel X obtido após a vetorização.
# A variavél classe representa a classificação real das frases em 1(Positivo) e 0(Negativo).
mnb = MultinomialNB()
mnb.fit(X,classe)

MultinomialNB()

In [294]:
# Função que realiza as seguintes etapas:
# 1° Recebe uma string como dado e armazena em uma lista.
# 2° Realiza a transformação do dado em matriz de termo de documento realizando a contagem da repetição dos tokens de acordo com as caracteristicas obtidas no vectorizer.fit e transforma em vetor.
# 3° Aplica o produto no modelo de predição.
# 4° Realiza a analise da predição e retorna o resultado de acordo com os parametros obtidos. 

def classifica_mnb(x:str):
    x = [x]
    y = vectorizer.transform(x).toarray()
    pred = mnb.predict(y)
    pred_prob = mnb.predict_proba(y)
    
    print(x, "Predição:",pred[0],"\n")
    if pred == 1 and pred_prob[0][1]>0.5:print("A frase foi classificada como positiva!\nCom a probabilidade de ser %",round(pred_prob[0][1]*100,2),"positiva!")
    elif pred_prob[0][0] and pred_prob[0][1] == 0.5:print("Não é possivél determinar!")
    else:print("A frase foi classificada como negativa!\nCom a probabilidade de ser %",round(pred_prob[0][0]*100,2),"negativa!")

In [295]:
# Realizando uma predição utilizando a funcção classifica_mnb

classifica_mnb("Excelente serviço!")

['Excelente serviço!'] Predição: 1 

A frase foi classificada como positiva!
Com a probabilidade de ser % 62.58 positiva!


#### **Passo a passo da transformação em matriz de documento e vetorização de uma frase.**

In [297]:
# Realizando a matriz de documento de uma frase positiva fora do conjunto de treinamento.
test1 = ["O serviço atendeu minhas expectativas, recomendo! Nota 10 a todos!"]
Y = vectorizer.transform(test1)

# Vetorização.
Y = Y.toarray()

# Realizando a matriz de documento de uma frase negativa fora do conjunto de treinamento.
test2 = ["O serviço me decepcionou demais, horrivel, atendimento péssimo."]
Y2 = vectorizer.transform(test2)

# Vetorização.
Y2 = Y2.toarray()

# Frases em formato de matriz de documento e vetorizadas.
print(Y)
print(Y2)

[[1 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 1 0 1 0
  0 0]]
[[0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1 0 0 0
  0 0]]
