# Projeto 2 - Classificador Autom√°tico de Sentimento

Voc√™ foi contratado por uma empresa parar analisar como os clientes est√£o reagindo a um determinado produto no Twitter. A empresa deseja que voc√™ crie um programa que ir√° analisar as mensagens dispon√≠veis e classificar√° como "relevante" ou "irrelevante". Com isso ela deseja que mensagens negativas, que denigrem o nome do produto, ou que mere√ßam destaque, disparem um foco de aten√ß√£o da √°rea de marketing.<br /><br />
Como aluno de Ci√™ncia dos Dados, voc√™ lembrou do Teorema de Bayes, mais especificamente do Classificador Naive-Bayes, que √© largamente utilizado em filtros anti-spam de e-mails. O classificador permite calcular qual a probabilidade de uma mensagem ser relevante dadas as palavras em seu conte√∫do.<br /><br />
Para realizar o MVP (*minimum viable product*) do projeto, voc√™ precisa implementar uma vers√£o do classificador que "aprende" o que √© relevante com uma base de treinamento e compara a performance dos resultados com uma base de testes.<br /><br />
Ap√≥s validado, o seu prot√≥tipo poder√° tamb√©m capturar e classificar automaticamente as mensagens da plataforma.

## Informa√ß√µes do Projeto

Prazo: 13/Set at√© √†s 23:59.<br />
Grupo: 1 ou 2 pessoas.<br /><br />
Entreg√°veis via GitHub: 
* Arquivo notebook com o c√≥digo do classificador, seguindo as orienta√ß√µes abaixo.
* Arquivo Excel com as bases de treinamento e teste totalmente classificado.

**N√ÉO disponibilizar o arquivo com os *access keys/tokens* do Twitter.**


### Check 3: 

At√© o dia 06 de Setembro √†s 23:59, o notebook e o xlsx devem estar no Github com as seguintes evid√™ncias: 
    * Conta no twitter criada.
    * Produto escolhido.
    * Arquivo Excel contendo a base de treinamento e teste j√° classificado.

Sugest√£o de leitura:<br />
http://docs.tweepy.org/en/v3.5.0/index.html<br />
https://monkeylearn.com/blog/practical-explanation-naive-bayes-classifier/

___

## Preparando o ambiente

Instalando a biblioteca *tweepy* para realizar a conex√£o com o Twitter:

In [18]:
%%capture

#Instalando o tweepy
!pip install tweepy

Importando as Bibliotecas que ser√£o utilizadas. Esteja livre para adicionar outras.

In [19]:
import tweepy
import math
import os.path
import pandas as pd
import json
from random import shuffle


___
## Autenticando no  Twitter

Para realizar a captura dos dados √© necess√°rio ter uma conta cadastrada no twitter:

* Conta: ***@Giiovana_lemes***


1. Caso ainda n√£o tenha uma: https://twitter.com/signup
1. Depois √© necess√°rio registrar um app para usar a biblioteca: https://apps.twitter.com/
1. Dentro do registro do App, na aba Keys and Access Tokens, anotar os seguintes campos:
    1. Consumer Key (API Key)
    1. Consumer Secret (API Secret)
1. Mais abaixo, gere um Token e anote tamb√©m:
    1. Access Token
    1. Access Token Secret
    
1. Preencha os valores no arquivo "auth.pass"

**ATEN√á√ÉO**: Nunca divulgue os dados desse arquivo online (GitHub, etc). Ele cont√©m as chaves necess√°rias para realizar as opera√ß√µes no twitter de forma autom√°tica e portanto √© equivalente a ser "hackeado". De posse desses dados, pessoas mal intencionadas podem fazer todas as opera√ß√µes manuais (tweetar, seguir, bloquear/desbloquear, listar os seguidores, etc). Para efeito do projeto, esse arquivo n√£o precisa ser entregue!!!

In [20]:
#Dados de autentica√ß√£o do twitter:

#Coloque aqui o identificador da conta no twitter: @Giiovana_lemes

#leitura do arquivo no formato JSON
with open('auth.pass') as fp:    
    data = json.load(fp)

#Configurando a biblioteca. N√£o modificar
auth = tweepy.OAuthHandler(data['consumer_key'], data['consumer_secret'])
auth.set_access_token(data['access_token'], data['access_token_secret'])

___
## Coletando Dados

Agora vamos coletar os dados. Tenha em mente que dependendo do produto escolhido, n√£o haver√° uma quantidade significativa de mensagens, ou ainda poder haver muitos retweets.<br /><br /> 
Configurando:

In [21]:
#Produto escolhido:
produto = 'kit kat'

#Quantidade m√≠nima de mensagens capturadas:
n = 500
#Quantidade m√≠nima de mensagens para a base de treinamento:
t = 300

#Filtro de l√≠ngua, escolha uma na tabela ISO 639-1.
lang = 'pt'

Capturando os dados do twitter:

In [22]:
#Cria um objeto para a captura
api = tweepy.API(auth)

#Inicia a captura, para mais detalhes: ver a documenta√ß√£o do tweepy
i = 1
msgs = []
for msg in tweepy.Cursor(api.search, q=produto, lang=lang).items():    
    msgs.append(msg.text.lower())
    i += 1
    if i > n:
        break

#Embaralhando as mensagens para reduzir um poss√≠vel vi√©s
shuffle(msgs)

Salvando os dados em uma planilha Excel:

In [23]:
#Verifica se o arquivo n√£o existe para n√£o substituir um conjunto pronto
if not os.path.isfile('./{0}.xlsx'.format(produto)):
    
    #Abre o arquivo para escrita
    writer = pd.ExcelWriter('{0}.xlsx'.format(produto))

    #divide o conjunto de mensagens em duas planilhas
    dft = pd.DataFrame({'Treinamento' : pd.Series(msgs[:t])})
    dft.to_excel(excel_writer = writer, sheet_name = 'Treinamento', index = False)

    dfc = pd.DataFrame({'Teste' : pd.Series(msgs[t:])})
    dfc.to_excel(excel_writer = writer, sheet_name = 'Teste', index = False)

    #fecha o arquivo
    writer.save()

In [24]:
#se quiser abrir a pasta que est√° sendo usada
#! explorer .


___
## Classificando as Mensagens

Agora voc√™ deve abrir o arquivo Excel com as mensagens capturadas e classificar na Coluna B se a mensagem √© relevante ou n√£o.<br /> 
N√£o se esque√ßa de colocar um nome para a coluna na c√©lula **B1**.<br /><br />
Fazer o mesmo na planilha de Controle.

___
## Montando o Classificador Naive-Bayes

Com a base de treinamento montada, comece a desenvolver o classificador. Escreva o seu c√≥digo abaixo:

Opcionalmente: 
* Limpar as mensagens removendo os caracteres: enter, :, ", ', (, ), etc. N√£o remover emojis.<br />
* Corrigir separa√ß√£o de espa√ßos entre palavras e/ou emojis.
* Propor outras limpezas/transforma√ß√µes que n√£o afetem a qualidade da informa√ß√£o.



In [31]:
%matplotlib inline
from mpmath import mpf
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import os
plt.style.use('ggplot')
import mpmath

dados_treinamento = pd.read_excel('kit kat.xlsx', "Treinamento", sep=',')

In [32]:
#para pegar os dados da aba Treinamento
dados_treinamento = pd.read_excel('kit kat.xlsx', sheetname="Treinamento")
dados_treinamento = dados_treinamento.loc[:,["Treinamento", "Classifica√ß√£o"]]

In [33]:
#para fazer value counts ta aba Treinamento
vc_treinamento = dados_treinamento.Classifica√ß√£o.value_counts(True)

In [34]:
#Probabilidade do tweet ser relevante
prob_tweet_relevante = vc_treinamento.loc["relevante"]
prob_tweet_relevante

0.45666666666666667

In [35]:
#Probabilidade do tweet ser irrelevante
prob_tweet_irrelevante = vc_treinamento.loc["irrelevante"]
prob_tweet_irrelevante

0.54333333333333333

In [36]:
#para deixar todos os tweets como se fossem um √∫nico tweet "gigante"
tweet_gigante_treinamento = np.sum(dados_treinamento.Treinamento + " ") 

tweet_gigante_treinamento_irrel = np.sum(dados_treinamento[dados_treinamento.Classifica√ß√£o=="irrelevante"].Treinamento + " ")
tweet_gigante_treinamento_rel = np.sum(dados_treinamento[dados_treinamento.Classifica√ß√£o=="relevante"].Treinamento + " ")

#tweet_gigante_teste = np.sum(dados_teste.Teste + " ") 

qtd_relevante_treinamento = len(dados_treinamento[dados_treinamento.Classifica√ß√£o=="relevante"])
qtd_irrelevante_treinamento = len(dados_treinamento[dados_treinamento.Classifica√ß√£o=="irrelevante"])
qtd_total_tweets = qtd_relevante_treinamento + qtd_irrelevante_treinamento


In [37]:
#TIRAR A PONTUA√á√ÉO
import string

exclude = set(string.punctuation)  #pontuation pega todas as pontua√ßoes 
def SemPontuacao(tweet_gigante):
    tweet_gigante = tweet_gigante.split() #para cada palavra do tweet gigante virar um tweet de palavra √∫nica
    lista_cada_palavra = []
    for s in tweet_gigante:
        for i in s:
            if i in exclude:
                s = s.replace(i,'') 
        lista_cada_palavra.append(s) #volta a ser um tweet gigante
    return lista_cada_palavra   
    
gigante_irrelevante = SemPontuacao(tweet_gigante_treinamento_irrel)
gigante_relevante = SemPontuacao(tweet_gigante_treinamento_rel)

gigante = SemPontuacao(tweet_gigante_treinamento)




In [65]:
#gigante

In [66]:
#para o tweet gigante virar uma Series (tabela)
palavras_irrelevante = pd.Series(gigante_irrelevante)
palavras_relevante = pd.Series(gigante_relevante)

#todas as palavras que aparecem relevantes e irrelevantes
palavras_totais = pd.Series(gigante)


In [67]:
#cria um data frame com as probabilidades
prob_total = pd.DataFrame(dados_treinamento.Classifica√ß√£o.value_counts(True)) 
prob_tweet_irrelevante = prob_total.Classifica√ß√£o[0] #prob total irrelevantes
prob_tweet_relevante = prob_total.Classifica√ß√£o[1] #prob total relevante

prob_total

Unnamed: 0,Classifica√ß√£o
irrelevante,0.543333
relevante,0.456667


In [68]:
qtd_irrelevante = len(dados_treinamento[dados_treinamento.Classifica√ß√£o=="irrelevante"]) #Quantidade de tweets irrelevantes
qtd_relevante = len(dados_treinamento[dados_treinamento.Classifica√ß√£o=="relevante"]) #Quantidade de tweets relevantes
qtd_irrelevante

163

In [69]:
#para saber quantas palavras diferentes existem entre relevantes e irrelevantes no TREINAMENTO
palavras_diferentes = len(palavras_totais.value_counts())

palavras_diferentes_relevante = len(palavras_relevante.value_counts())
palavras_diferentes_irrelevante = len(palavras_irrelevante.value_counts())

PP_relevante  = palavras_relevante.value_counts() #propabilidade palavra ser relevante
PP_irrelevante = palavras_irrelevante.value_counts() #propabilidade palavra ser irrelevante
palavras_dif = len(palavras_totais.value_counts()) #quantas palavras diferentes existem

#cada palavra e quantas vezes essa paravra apareceu
palavras_diferentes_relevante_qtd = (palavras_relevante.value_counts())
palavras_diferentes_irrelevante_qtd = (palavras_irrelevante.value_counts())

In [70]:
palavras_diferentes_irrelevante_qtd["kat"]

157

In [44]:
#para mostrar a palavra e quantas vezes ela aparece
for palavra in palavras_diferentes_relevante_qtd.index:
    print("palavra ", palavra, " aparece ", palavras_diferentes_relevante_qtd[palavra], " vezes")

palavra  kit  aparece  139  vezes
palavra  kat  aparece  137  vezes
palavra  de  aparece  61  vezes
palavra  um  aparece  41  vezes
palavra  que  aparece  29  vezes
palavra  √©  aparece  27  vezes
palavra  e  aparece  26  vezes
palavra  eu  aparece  22  vezes
palavra  meu  aparece  19  vezes
palavra  chocolate  aparece  17  vezes
palavra  minha  aparece  16  vezes
palavra  com  aparece  16  vezes
palavra  branco  aparece  16  vezes
palavra  rt  aparece  15  vezes
palavra  me  aparece  14  vezes
palavra  comer  aparece  14  vezes
palavra  do  aparece  13  vezes
palavra  uma  aparece  13  vezes
palavra  a  aparece  13  vezes
palavra  queria  aparece  12  vezes
palavra  pra  aparece  12  vezes
palavra  melhor  aparece  12  vezes
palavra  o  aparece  11  vezes
palavra  vontade  aparece  11  vezes
palavra  da  aparece  10  vezes
palavra  m√£e  aparece  10  vezes
palavra  bom  aparece  10  vezes
palavra  q  aparece  10  vezes
palavra  por  aparece  9  vezes
palavra  muito  aparece  8  vezes


palavra  ou  aparece  1  vezes
palavra  yes  aparece  1  vezes
palavra  t√™m  aparece  1  vezes
palavra  dela  aparece  1  vezes
palavra  acabei  aparece  1  vezes
palavra  mm  aparece  1  vezes
palavra  bastiaalexandre  aparece  1  vezes
palavra  gnt  aparece  1  vezes
palavra  motivo  aparece  1  vezes
palavra  deuss  aparece  1  vezes
palavra  khaylaanacleto  aparece  1  vezes
palavra  liciaturola  aparece  1  vezes
palavra  9  aparece  1  vezes
palavra  grt  aparece  1  vezes
palavra  aosksols  aparece  1  vezes
palavra  recheio  aparece  1  vezes
palavra  geladeira  aparece  1  vezes
palavra  10  aparece  1  vezes
palavra  varios  aparece  1  vezes
palavra  aaaaa‚ù§  aparece  1  vezes
palavra  üëè  aparece  1  vezes
palavra  150  aparece  1  vezes
palavra  stress  aparece  1  vezes
palavra  meaturasim  aparece  1  vezes
palavra  churrasco  aparece  1  vezes
palavra  estiver  aparece  1  vezes
palavra  fui  aparece  1  vezes
palavra  seu  aparece  1  vezes
palavra  sexo  aparece  

## Criando classificador para o treinamento 

### Calculando a probabilidade de cada palavra aparecer (em relevante em irrelevante)

In [71]:
#para calcular a propabilidade de cada palavra aparecer em Relevante
P_palavra_relevante = (PP_relevante+1)/(qtd_relevante + palavras_dif) #lista com probabilidade das palavras quando tw relevante

#para calcular a propabilidade de cada palavra aparecer em Irrelevante
P_palavra_irrelevante = (PP_irrelevante+1)/(qtd_irrelevante + palavras_dif) #lista com probabilidade das palavras quando tw neutro

P_palavra_relevante

kit              0.107116
kat              0.105585
de               0.047437
um               0.032135
que              0.022953
√©                0.021423
e                0.020658
eu               0.017598
meu              0.015302
chocolate        0.013772
minha            0.013007
com              0.013007
branco           0.013007
rt               0.012242
me               0.011477
comer            0.011477
do               0.010712
uma              0.010712
a                0.010712
queria           0.009946
pra              0.009946
melhor           0.009946
o                0.009181
vontade          0.009181
da               0.008416
m√£e              0.008416
bom              0.008416
q                0.008416
por              0.007651
muito            0.006886
                   ...   
ela              0.001530
yakisoba         0.001530
sou              0.001530
pessoas          0.001530
ee               0.001530
pouco            0.001530
acabou           0.001530
mpn       

# Analisando Teste

In [53]:
#para pegar os dados da aba Teste
dados_teste = pd.read_excel('kit kat.xlsx', "Teste", sep=',')

dados_teste = pd.read_excel('kit kat.xlsx', sheetname="Teste")
dados_teste = dados_teste.loc[:,["Teste", "Classifica√ß√£o"]]

In [54]:
#para fazer value counts ta aba teste
vc_teste = dados_teste.Classifica√ß√£o.value_counts(True)

In [55]:
#Probabilidade do tweet ser relevante
vc_teste.loc["relevante"]

0.36683417085427134

In [56]:
#Probabilidade do tweet ser irrelevante
vc_teste.loc["irrelevante"]

0.63316582914572861

In [57]:
lista_teste = dados_teste.Teste

In [72]:
#Tirando e pontua√ß√£o e separando cada tweet em uma lista e depois, cada palavra desse tweet dentro dessa lista

exclude = set(string.punctuation) 

def SemPontuacao(tweet_gigante):
    lista_cada_palavra_do_tweet = []
    for g in range(len(tweet_gigante)):
        lista_tweets_splitados = tweet_gigante[g].split()
        lista_tweets = []

        for f in lista_tweets_splitados:
            for i in f:
                if i in exclude:
                    f = f.replace(i,'') 
                
            lista_tweets.append(f)
        lista_cada_palavra_do_tweet.append(lista_tweets)
                
    return lista_cada_palavra_do_tweet   


lista_palavras_tweet = SemPontuacao (lista_teste)

#cria lista sem pontua√ß√£o
teste_limpo = SemPontuacao(lista_teste)

#####

def Prob_cada_tweet(listafrase, p_palavra, p_tweet, qtd_tweet):
    listaP = []
    for frase in listafrase:
        P_frase = mpmath.mpf(1.000)
        for p in frase:
            if p in p_palavra:
                P_frase = P_frase * p_palavra[p] * p_tweet
            else:
                P_frase = mpmath.mpf(1)/(qtd_tweet + palavras_diferentes) * P_frase * p_tweet
        listaP.append(P_frase)
    return listaP



##C√°lculo da probabilidade do tweet ser irrelevante
teste_prob_irrelevante = Prob_cada_tweet(teste_limpo,P_palavra_irrelevante,prob_tweet_irrelevante,qtd_irrelevante)

#C√°lculo da probabilidade do tweet ser relevante
teste_prob_relevante = Prob_cada_tweet(teste_limpo,P_palavra_relevante,prob_tweet_relevante,qtd_relevante)


In [81]:
#agora temos que comparar a lista de probabilidade feita no teste, e ver qual prevalece, se √© neutro ou relevante
def Comparador(teste_prob_irrelevante,teste_prob_relevante):
    resultado = []
    for i in range(len(teste_prob_irrelevante)):
        if teste_prob_irrelevante[i] < teste_prob_relevante[i]:
            resultado.append('relevante')
        elif teste_prob_irrelevante[i] > teste_prob_relevante[i]:
            resultado.append('irrelevante')
    return resultado

#lista de respostas que esse codigo vai gerar
resultado_teste = Comparador(teste_prob_irrelevante, teste_prob_relevante)


In [82]:
resultado_teste

['irrelevante',
 'irrelevante',
 'irrelevante',
 'irrelevante',
 'irrelevante',
 'relevante',
 'irrelevante',
 'irrelevante',
 'irrelevante',
 'irrelevante',
 'irrelevante',
 'relevante',
 'irrelevante',
 'relevante',
 'irrelevante',
 'irrelevante',
 'irrelevante',
 'irrelevante',
 'irrelevante',
 'irrelevante',
 'irrelevante',
 'irrelevante',
 'irrelevante',
 'irrelevante',
 'irrelevante',
 'irrelevante',
 'irrelevante',
 'relevante',
 'irrelevante',
 'irrelevante',
 'irrelevante',
 'irrelevante',
 'irrelevante',
 'irrelevante',
 'irrelevante',
 'irrelevante',
 'irrelevante',
 'relevante',
 'irrelevante',
 'irrelevante',
 'irrelevante',
 'relevante',
 'irrelevante',
 'irrelevante',
 'irrelevante',
 'irrelevante',
 'irrelevante',
 'irrelevante',
 'irrelevante',
 'irrelevante',
 'irrelevante',
 'irrelevante',
 'relevante',
 'irrelevante',
 'irrelevante',
 'irrelevante',
 'irrelevante',
 'irrelevante',
 'irrelevante',
 'irrelevante',
 'irrelevante',
 'irrelevante',
 'relevante',
 'releva

In [83]:
#para criar uma tabela com os tweets, a classifica√ß√£o da base e a classifica√ß√£o feita pelo comparador
data = {'Tweets': teste_limpo, 'Classifica√ß√£o': dados_teste.Classifica√ß√£o, 'Respostas': resultado_teste}

tabelaT = pd.DataFrame(data, columns = ['Tweets','Classifica√ß√£o','Respostas'])
tabelaT

Unnamed: 0,Tweets,Classifica√ß√£o,Respostas
0,"[indo, p, big, s√≥, p, comprar, kit, kat]",relevante,irrelevante
1,"[kkkkkk, pior, que, j√°, aquele, kit, kat, mara...",irrelevante,irrelevante
2,"[t√¥, viciado, em, comer, kit, kat]",relevante,irrelevante
3,"[rt, xxalany, , 1941, alany, üíã, tocou, aqui, e...",irrelevante,irrelevante
4,"[minha, m√£e, quer, definitivamente, me, ver, c...",irrelevante,irrelevante
5,"[minha, m√£e, fez, sorvete, de, kit, kat, eu, a...",relevante,relevante
6,"[159, 1456, s√≥, fa√ßo, se, t√∫, comprar, um, kit...",irrelevante,irrelevante
7,"[gabeharmonizer, como, com, menos, frequ√™ncia,...",irrelevante,irrelevante
8,"[cheguei, da, rua, e, meu, pai, disse, tem, ki...",relevante,irrelevante
9,"[masoqmauricioo, n√£o, √©, bolo, mano, √©, uma, t...",irrelevante,irrelevante


___
## Verificando a performance

Agora voc√™ deve testar o seu Classificador com a base de Testes.<br /><br /> 

Voc√™ deve extrair as seguintes medidas:
* Porcentagem de positivos falsos (marcados como relevante mas n√£o s√£o relevantes)
* Porcentagem de positivos verdadeiros (marcado como relevante e s√£o relevantes)
* Porcentagem de negativos verdadeiros (marcado como n√£o relevante e n√£o s√£o relevantes)
* Porcentagem de negativos falsos (marcado como n√£o relevante e s√£o relevantes)

Opcionalmente:
* Criar categorias intermedi√°rias de relev√¢ncia baseado na diferen√ßa de probabilidades. Exemplo: muito relevante, relevante, neutro, irrelevante e muito irrelevante.

In [86]:
#verifica√ß√£o feita com base dos crit√©rios determinados acima 
verificacao = []
for i in range(len(resultado_teste)):
    if dados_teste.Classifica√ß√£o[i] == resultado_teste[i]:
        if resultado_teste[i] == 'relevante':
            verificacao.append('positivo verdadeiro')
        elif resultado_teste[i] == 'irrelevante':
            verificacao.append('negativo verdadeiro')
            
    elif dados_teste.Classifica√ß√£o[i] != resultado_teste[i]:
        if resultado_teste[i] == 'relevante':
            verificacao.append('positivo falso')
        elif resultado_teste[i] == 'irrelevante':
            verificacao.append('negativo falso')
    
    

In [87]:
verificacao_final = pd.Series(verificacao)
porcentagem = verificacao_final.value_counts(True)
porcentagem



negativo verdadeiro    0.615
negativo falso         0.290
positivo verdadeiro    0.080
positivo falso         0.015
dtype: float64

___
## Concluindo

Escreva aqui a sua conclus√£o.<br /> 
Fa√ßa um comparativo qualitativo sobre as medidas obtidas.<br />
Explique como s√£o tratadas as mensagens com dupla nega√ß√£o e sarcasmo.<br />
Proponha um plano de expans√£o. Por que eles devem continuar financiando o seu projeto?<br />

Opcionalmente: 
* Discorrer por que n√£o posso alimentar minha base de Treinamento automaticamente usando o pr√≥prio classificador, aplicado a novos tweets.
* Propor diferentes cen√°rios de uso para o classificador Naive-Bayes. Cen√°rios sem intersec√ß√£o com este projeto.
* Sugerir e explicar melhorias reais no classificador com indica√ß√µes concretas de como implementar (n√£o √© preciso codificar, mas indicar como fazer e material de pesquisa sobre o assunto).


### Conclus√£o:

   Na verifica√ß√£o do classificador, os dados negativos verdadeiros (treinamento e teste iguais e irrelevantes) se destacaram, isso ocorre pois os tweets com conte√∫do desprez√≠vel ou negativo sobre o chocolate Kit Kat eram mais percept√≠veis, de forma a sempre terem palavras relacionadas ao compartilhamento de algum video no Youtube ou simplismente a demonstra√ß√£o clara de desgosto pelo produto como, "odeio", "n√£o gosto" ou "ruim", termos esses que praticamente n√£o aparecem em tweets considerados positivos para a marca. Assim, a compatibilidade quanto aos coment√°rios do treinamento e teste pode ser explicada pela presen√ßa frequente das mesmas express√µes. 

   Os outros resultados apresentados quanto ao negativo falso, positivo verdadeiro e positivo falso, podem ser explicados pela dificuldade na classifica√ß√£o dos tweets relevantes, pois da mesma maneira que muitas pessoas expressam o seu apre√ßo pelo chocolate em si, muitas delas apenas comentam sobre receitas como, bolos, sorvetes, tortas, etc..., que cont√©m o produto como ingrediente principal. Dessa maneira, alguns posts que falavam sobre o preparo dos doces foram classificados como irrelevantes, por√©m, a maioria dos tweets relevantes eram sobre usu√°rios elogiando determinado doce feito com Kit Kat, o que n√£o pode ser desconsiderado, uma vez que os clientes da marca podem consumir seu produto de diferentes formas, mas por conta desse inconveniente, alguns coment√°rios positivos foram considerados negativos e vice-versa, devido a presen√ßa de palavras em comum.
   
   Outro problema que tamb√©m pode ser levado em conta √© o fato de que o classificador analisa a probabilidade das palavras aparecerem em determinado tweet, por√©m, alguns usu√°rios utilizam do sarcasmo para expressar a sua simpatia pelo produto e isso s√≥ pode ser compreendido quando a classifica√ß√£o √© feita por algu√©m que consiga compreender o significado de tal express√£o, o que no caso n√£o pode ser determinado pelo classificador atrav√©s das probabilidades, gerando divergencia entre os resultados.
   
   O classificador, no momento, n√£o pode ser considerado extremamente eficaz devido as explica√ß√µes citadas anteriormente, mas pode-se dizer que aumentando o direcionamento dos tweets considerados relevantes, os resultados obtidos ser√£o mais precisos e ajudar√£o a empresa na an√°lise dos dados sobre a satisfa√ß√£o de seus clientes. Portanto, as diverg√™ncias atuais podem ser consertadas com algumas pesquisas e categoriza√ß√µes minuciosas, por√©m, ap√≥s tal evolu√ß√£o o classificador ter√° um excelente desempenho servindo como base para qualquer explora√ß√£o. 