# Projeto 2 - Classificador Autom√°tico de Sentimento

Voc√™ foi contratado por uma empresa parar analisar como os clientes est√£o reagindo a um determinado produto no Twitter. A empresa deseja que voc√™ crie um programa que ir√° analisar as mensagens dispon√≠veis e classificar√° como "relevante" ou "irrelevante". Com isso ela deseja que mensagens negativas, que denigrem o nome do produto, ou que mere√ßam destaque, disparem um foco de aten√ß√£o da √°rea de marketing.<br /><br />
Como aluno de Ci√™ncia dos Dados, voc√™ lembrou do Teorema de Bayes, mais especificamente do Classificador Naive-Bayes, que √© largamente utilizado em filtros anti-spam de e-mails. O classificador permite calcular qual a probabilidade de uma mensagem ser relevante dadas as palavras em seu conte√∫do.<br /><br />
Para realizar o MVP (*minimum viable product*) do projeto, voc√™ precisa implementar uma vers√£o do classificador que "aprende" o que √© relevante com uma base de treinamento e compara a performance dos resultados com uma base de testes.<br /><br />
Ap√≥s validado, o seu prot√≥tipo poder√° tamb√©m capturar e classificar automaticamente as mensagens da plataforma.

## Informa√ß√µes do Projeto

Prazo: 13/Set at√© √†s 23:59.<br />
Grupo: 1 ou 2 pessoas.<br /><br />
Entreg√°veis via GitHub: 
* Arquivo notebook com o c√≥digo do classificador, seguindo as orienta√ß√µes abaixo.
* Arquivo Excel com as bases de treinamento e teste totalmente classificado.

**N√ÉO disponibilizar o arquivo com os *access keys/tokens* do Twitter.**


### Check 3: 

At√© o dia 06 de Setembro √†s 23:59, o notebook e o xlsx devem estar no Github com as seguintes evid√™ncias: 
    * Conta no twitter criada.
    * Produto escolhido.
    * Arquivo Excel contendo a base de treinamento e teste j√° classificado.

Sugest√£o de leitura:<br />
http://docs.tweepy.org/en/v3.5.0/index.html<br />
https://monkeylearn.com/blog/practical-explanation-naive-bayes-classifier/

___

## Preparando o ambiente

Instalando a biblioteca *tweepy* para realizar a conex√£o com o Twitter:

In [1]:
%%capture

#Instalando o tweepy
!pip install tweepy

Importando as Bibliotecas que ser√£o utilizadas. Esteja livre para adicionar outras.

In [2]:
import tweepy
import math
import os.path
import numpy as np
import pandas as pd
import json
from random import shuffle

___
## Autenticando no  Twitter

Para realizar a captura dos dados √© necess√°rio ter uma conta cadastrada no twitter:

* Conta: ***[Preencha aqui o id da sua conta. Ex: @fulano ]***


1. Caso ainda n√£o tenha uma: https://twitter.com/signup
1. Depois √© necess√°rio registrar um app para usar a biblioteca: https://apps.twitter.com/
1. Dentro do registro do App, na aba Keys and Access Tokens, anotar os seguintes campos:
    1. Consumer Key (API Key)
    1. Consumer Secret (API Secret)
1. Mais abaixo, gere um Token e anote tamb√©m:
    1. Access Token
    1. Access Token Secret
    
1. Preencha os valores no arquivo "auth.pass"

**ATEN√á√ÉO**: Nunca divulgue os dados desse arquivo online (GitHub, etc). Ele cont√©m as chaves necess√°rias para realizar as opera√ß√µes no twitter de forma autom√°tica e portanto √© equivalente a ser "hackeado". De posse desses dados, pessoas mal intencionadas podem fazer todas as opera√ß√µes manuais (tweetar, seguir, bloquear/desbloquear, listar os seguidores, etc). Para efeito do projeto, esse arquivo n√£o precisa ser entregue!!!

In [3]:
#Dados de autentica√ß√£o do twitter:

#Coloque aqui o identificador da conta no twitter: @QuintinoEster
#leitura do arquivo no formato JSON
with open('auth.pass') as fp:    
    data = json.load(fp)

#Configurando a biblioteca. N√£o modificar
auth = tweepy.OAuthHandler(data['consumer_key'], data['consumer_secret'])
auth.set_access_token(data['access_token'], data['access_token_secret'])

___
## Coletando Dados

Agora vamos coletar os dados. Tenha em mente que dependendo do produto escolhido, n√£o haver√° uma quantidade significativa de mensagens, ou ainda poder haver muitos retweets.<br /><br /> 
Configurando:

In [4]:
#Produto escolhido:
produto = 'Doritos'

#Quantidade m√≠nima de mensagens capturadas:
n = 500
#Quantidade m√≠nima de mensagens para a base de treinamento:
t = 300

#Filtro de l√≠ngua, escolha uma na tabela ISO 639-1.
lang = 'pt'

Capturando os dados do twitter:

In [5]:
#Cria um objeto para a captura
api = tweepy.API(auth)

#Inicia a captura, para mais detalhes: ver a documenta√ß√£o do tweepy
i = 1
msgs = []
for msg in tweepy.Cursor(api.search, q=produto, lang=lang).items():    
    msgs.append(msg.text.lower())
    i += 1
    if i > n:
        break

#Embaralhando as mensagens para reduzir um poss√≠vel vi√©s
shuffle(msgs)

Salvando os dados em uma planilha Excel:

In [6]:
#Verifica se o arquivo n√£o existe para n√£o substituir um conjunto pronto
if not os.path.isfile('./{0}.xlsx'.format(produto)):
    
    #Abre o arquivo para escrita
    writer = pd.ExcelWriter('{0}.xlsx'.format(produto))

    #divide o conjunto de mensagens em duas planilhas
    dft = pd.DataFrame({'Treinamento' : pd.Series(msgs[:t])})
    dft.to_excel(excel_writer = writer, sheet_name = 'Treinamento', index = False)

    dfc = pd.DataFrame({'Teste' : pd.Series(msgs[t:])})
    dfc.to_excel(excel_writer = writer, sheet_name = 'Teste', index = False)

    #fecha o arquivo
    writer.save()

___
## Classificando as Mensagens

Agora voc√™ deve abrir o arquivo Excel com as mensagens capturadas e classificar na Coluna B se a mensagem √© relevante ou n√£o.<br /> 
N√£o se esque√ßa de colocar um nome para a coluna na c√©lula **B1**.<br /><br />
Fazer o mesmo na planilha de Controle.

___
## Montando o Classificador Naive-Bayes

Com a base de treinamento montada, comece a desenvolver o classificador. Escreva o seu c√≥digo abaixo:

Opcionalmente: 
* Limpar as mensagens removendo os caracteres: enter, :, ", ', (, ), etc. N√£o remover emojis.<br />
* Corrigir separa√ß√£o de espa√ßos entre palavras e/ou emojis.
* Propor outras limpezas/transforma√ß√µes que n√£o afetem a qualidade da informa√ß√£o.



In [7]:
dados = pd.read_excel('Doritos.xlsx')
dados_treinamento = pd.read_excel('Doritos.xlsx', 'Treinamento')
dados_teste = pd.read_excel('Doritos.xlsx', 'Teste')

In [8]:
keyword_r = [" doritos ", " comprar ", " comprei ", ' compramos ',' vou ', ' comer ', ' bom ', ' gostoso ', ' satisfa√ß√£o ',' pedir ', ' pede ', ' pedi ', ' pega ', ' peguei ',' pegamos ', ' melhor ', ' tradicional ', ' sabores ',' sabor ',' real ', ' reais ', ' comer ',' come ',' dividir ',' meu ', ' vontade ', ' √© ', ' eh ',' vida ', ' combina ',' bem ', ' queria ', ' quero ', ' comi ', ' feliz ',' felicidade ',' com ', ' gordo ', ' gorda ', ' promo√ß√£o ',' desejo ',' comendo ',' engordo ',' engordar ',' juntos ',' juntas ',' juntamos ',' juntei ',' besteira ',' jantei ',' nacho ',' cips ',' ']
keyword_i = [" eu "," t√¥ ",' e ',' a ',' o ',' no ',' na ',' triste ',' m√°goas ',' triste ',' cheetos ',' verme ',' eai ',' rt ',' com ',' um ',' uma ',' ai ',' a√≠ ',' foi ',' fomos ',' pq ',' porque ',' porqu√™ ',' por ',' que ',' por ',' q ',' bolo ',' nem ',' vou ',' velho ',' amigo ',' mois√©s ',' pra ',' eu ',' contos ',' conto ',' dps ',' depois ',' falar ',' flr ',' pequeno ',' msm ',' mesmo ',' deixa ',' ver ',' sua ',' alma ',' arco ',' √≠ris ',' acabar ',' problemas ',' desinstalar ',' doideiras ',' pesadaum ',' frequentar ',' al√©m ',' serio ',' s√©rio ',' vezes ',' calar ',' observar ',' fernando ',' bala ',' col√©gio ',' porra ',' imbicar ',' promo ',' ativado ',' eles ',' pedindo ',' tempo ',' todo ',' assinatura ',' bob√≥ ', ' camar√£o ',' hot ',' movimentando ',' ind√∫stria ',' industria ',' god ',' of ',' war ',' ter√ßa ',' voc√™s ',' ! ',' , ',' . ',' : ','  ',' # ',' batatas ',' fritas ',' batata ',' frita ',' pasta ',' de ',' dente ',' buchinha ',' shampoo ',' escova ',' cabelo ',' isqueiro ',' broas ',' raz√£o ',' a√≠nda ',' bagulho ',' ave ',' mano ',' 140 ',' ouvindo ',' percebi ',' rica ',' roleplay ',' saco ',' enchendo ',' bruna ',' im ',' sorry ',' boo ',' xvideos ',' correr ',' coca ',' trincando ',' vendo ',' l√∫cifer ',' boy ',' etc ',' n√© ',' saberdes ',' programa ',' respondi ',' pizza ',' fas ',' ovinte ',' matiruclsa ',' amiga ',' encontrar ',' ful ',' fenomeno ',' animal ',' apenas ',' deus ',' cortar ',' unha ',' maos ',' maravilhosa ',' noming ',' some ',' meninas ',' est√¥mago ',' m√£e ',' gabriel ',' cream ',' cheese ',' fogo ',' mateus ',' por√©m ',' n√£o ',' n√≥ ',' cabe√ßa ',' noscope ',' sacao ',' geladamas ',' filme ',' roda ',' narga ',' check ',' in ',' prova ',' pau ',' fb ',' dadinho ',' is ',' this ',' msmo ',' antivirus ',' desativa ',' tendo ',' opostunidade ',' oportunidade ',' rodrigo ',' caio ',' participando ',' jogo ',' coop ',' hora ',' agora ',' bring ',' me ',' locos ',' taco ',' tri ',' arregado ',' irm√£ ', 'h√° ',' quanto ',' tempo ',' otaku ',' madrug√£o ',' buxo',' apache ',' dias ',' fuck ',' celo ',' flagrado ',' padaria ',' taubat√© ',' island ',' socorro ',' compensa√ß√£o ',' tera ',' berola ',' seculo ',' tbm ',' tmb ',' v√≠deo ',' marcelo ',' rezende ',' cura ',' montanha-russa ',' ali√°s ',' me ',' mandou ',' vegas ',' presunto ',' pqp ',' sorte ',' * ',' eats ',' grilhoes ',' alarma ',' tengo ',' liga ',' ir ',' escola ',' vida ',' pitty ',' whapp ',' treinar ',' perna ',' subzero ',' cigarro ',' avontss ',' ru ',' inclina√ß√£o ',' 90¬∞ ',' 90¬∫ ',' montar ',' ombros ',' deformados ',' gravar ',' mima ',' mt ',' tadeu ',' cola ',' heineken ',' prezunic ',' sky ',' posto ',' ipiranga ',' adicionei ',' playlist ',' eusou ',' titio ',' severim ',' 2010 ',' professor ', ' universit√°rio ',' kansas ',' cereais ',' oreos ',' 2 ',' meses ',' 12 ',' kg ',' ondee ',' puta ',' saudade ',' √©poca ',' dinheiro ',' mau ',' requeij√£o ', ' novela ',' come√ßou ',' engradado ']

In [9]:
#Remover palavras irrelevantes:
for b in range(0,300):
    
    # Selecionando se√ß√£o √∫til -- passo 1:
    a = dados_treinamento.Treinamento[b]
    
    # Deletando palavras e caracteres in√∫teis -- passo 2:
    for caractere in keyword_i:
        a = a.replace(caractere, " ")   
        
    # Removendo espa√ßos excessivos -- passo 3:
    a = a.split()
    a = " ".join(a)
    dados_treinamento.Treinamento[b] = a
    
#Mesmo racioc√≠nio para palavras irrelevantes:    
for b in range(0,200):
    
    # Passo 1:
    a = dados_teste.Teste[b]
    
    # Passo 2:
    for caractere in keyword_i:
        a = a.replace(caractere, " ")
        
    # Passo 3:
    a = a.split()
    a = " ".join(a)
    dados_teste.Teste[b] = a

In [10]:
doritos_r = dados_treinamento.loc[(dados.Classifica√ß√£o == 'r')]
doritos_i = dados_treinamento.loc[(dados.Classifica√ß√£o == 'i')]

In [11]:
dados_teste['Testando'] = 'i'

In [12]:
# √â necess√°rio, agora, uma lista de palavras, para ser usada no c√°lculo da Probabilidade de uma palavra ser relevante 
#ou irrelevante, sabendo que o espa√ßo amostral se trata de uma palavra:
lista_de_palavras = []

for a in dados_treinamento.Treinamento:
    a = a.split()
    
    for b in a:
        lista_de_palavras.append(b)
        
lista_de_palavras = set(lista_de_palavras)
lista_de_palavras_num = len(lista_de_palavras)

# Espa√ßo amostral das Palavras Relevantes:
lista_de_palavras_r = []

for a in doritos_r.Treinamento:
    a = a.split()
    
    for b in a:
        lista_de_palavras_r.append(b)
lista_de_palavras_r_num = len(lista_de_palavras_r)    

# Espa√ßo amostral das Palavras Irrelevantes:
lista_de_palavras_i = []

for a in doritos_i.Treinamento:
    a = a.split()
    
    for b in a:
        lista_de_palavras_i.append(b)
lista_de_palavras_i_num = len(lista_de_palavras_i)    

print (lista_de_palavras_num, lista_de_palavras_r_num, lista_de_palavras_i_num)

1177 1116 1298


In [13]:
#Porpor√ß√£o entre palavras irrelevantes e relevantes, segundo o classificador:
pocket = dados.iloc[:,-1]
pocket.value_counts(normalize = True)

i    0.576667
r    0.423333
Name: Classifica√ß√£o, dtype: float64

In [14]:
# Calculando probabilidades:
for a in range(0,200):
    b = dados_teste.Teste[a]
    b = b.split()
    Pp_r = 1
    Pp_i = 1
    
    for c in b:
        c1 = lista_de_palavras_r.count(c)
        c1_1 = c1 + 1
        c2 = lista_de_palavras_r_num + lista_de_palavras_num
        c3 = c1_1/c2
        Pp_r = Pp_r*c3
    
    for c in b:
        c1 = lista_de_palavras_i.count(c)
        c1_1 = c1 + 1
        c2 = lista_de_palavras_i_num + lista_de_palavras_num
        c3 = c1_1/c2
        Pp_i = Pp_i*c3
        
    Pp_r = Pp_r * Pp_r
    Pp_i = Pp_i * Pp_i
        
    if Pp_r >Pp_i:
        dados_teste.Testando[a] = 'i'
        
    else:
        dados_teste.Testando[a] = 'r'

In [15]:
dados_teste

Unnamed: 0,Teste,Classifica√ß√£o,Testando
0,t√° foda essa üòÇ desde cedo praia bebendo agr be...,i,i
1,partido + birra + doritos + amor. üòçüíëüá¶üá∑,i,r
2,"@dede_doritos @lbrownvieira cancela n√£o, tem √©...",i,i
3,rt @annainglat: 3 doritos depois percebemos aq...,i,r
4,@dede_doritos so mais 1 aula chega berola,i,i
5,rt @cellbit: deixo aqui gif do meu artista pre...,i,i
6,@murteira17 @illovesafadeza @realidadesfavel @...,i,r
7,@dede_doritos cheg lah es sempre bem vindo,i,r
8,@fbssxx levar hj teu doritos kkkk,i,i
9,@doritos_theo te respondi,i,r


In [17]:
crosstab = (pd.crosstab(dados_teste.Testando, dados_teste.Classifica√ß√£o, margins=True, rownames=['M√©todo Naive-Bayes'], colnames=['Classifica√ß√£o manual'], normalize='index')*100).round(decimals=0)
crosstab

Classifica√ß√£o manual,i,r
M√©todo Naive-Bayes,Unnamed: 1_level_1,Unnamed: 2_level_1
i,62.0,38.0
r,43.0,57.0
All,50.0,50.0


###### De todos os tweets marcados como relevantes pelo classificador 47% s√£o relevantes, sendo que a porcentagem de positivos verdadeiros √© de 47%
###### De todos os tweets marcados como relevantes pelo classificador 53% n√£o s√£o relevantes, sendo que a porcentagem de positivos falsos √© de 53%
###### De todos os tweets marcados como irrelevantes pelo classificador 91% s√£o irrelevantes, sendo que a porcentagem de negativos verdadeiros √© de 91%
###### De todos os tweets marcados como irrelevantes pelo classificador 9% n√£o s√£o relevantes, sendo que a porcentagem de negativos falsos √© de 9% 