# Projeto 2 - Classificador Autom√°tico de Sentimento

Voc√™ foi contratado por uma empresa parar analisar como os clientes est√£o reagindo a um determinado produto no Twitter. A empresa deseja que voc√™ crie um programa que ir√° analisar as mensagens dispon√≠veis e classificar√° como "relevante" ou "irrelevante". Com isso ela deseja que mensagens negativas, que denigrem o nome do produto, ou que mere√ßam destaque, disparem um foco de aten√ß√£o da √°rea de marketing.<br /><br />
Como aluno de Ci√™ncia dos Dados, voc√™ lembrou do Teorema de Bayes, mais especificamente do Classificador Naive-Bayes, que √© largamente utilizado em filtros anti-spam de e-mails. O classificador permite calcular qual a probabilidade de uma mensagem ser relevante dadas as palavras em seu conte√∫do.<br /><br />
Para realizar o MVP (*minimum viable product*) do projeto, voc√™ precisa implementar uma vers√£o do classificador que "aprende" o que √© relevante com uma base de treinamento e compara a performance dos resultados com uma base de testes.<br /><br />
Ap√≥s validado, o seu prot√≥tipo poder√° tamb√©m capturar e classificar automaticamente as mensagens da plataforma.

## Informa√ß√µes do Projeto

Prazo: 13/Set at√© √†s 23:59.<br />
Grupo: 1 ou 2 pessoas.<br /><br />
Entreg√°veis via GitHub: 
* Arquivo notebook com o c√≥digo do classificador, seguindo as orienta√ß√µes abaixo.
* Arquivo Excel com as bases de treinamento e teste totalmente classificado.

**N√ÉO disponibilizar o arquivo com os *access keys/tokens* do Twitter.**


### Check 3: 

At√© o dia 06 de Setembro √†s 23:59, o notebook e o xlsx devem estar no Github com as seguintes evid√™ncias: 
    * Conta no twitter criada.
    * Produto escolhido.
    * Arquivo Excel contendo a base de treinamento e teste j√° classificado.
    

Sugest√£o de leitura:<br />
http://docs.tweepy.org/en/v3.5.0/index.html<br />
https://monkeylearn.com/blog/practical-explanation-naive-bayes-classifier/

___

## Preparando o ambiente

Instalando a biblioteca *tweepy* para realizar a conex√£o com o Twitter:

In [2]:
%%capture

#Instalando o tweepy
!pip install tweepy

Importando as Bibliotecas que ser√£o utilizadas. Esteja livre para adicionar outras.

In [195]:
import tweepy
import math
import os.path
import pandas as pd
import json
from random import shuffle
from collections import Counter

___
## Autenticando no  Twitter

Para realizar a captura dos dados √© necess√°rio ter uma conta cadastrada no twitter:

* Conta: ***@hugoncalves99***


1. Caso ainda n√£o tenha uma: https://twitter.com/signup
1. Depois √© necess√°rio registrar um app para usar a biblioteca: https://apps.twitter.com/
1. Dentro do registro do App, na aba Keys and Access Tokens, anotar os seguintes campos:
    1. Consumer Key (API Key)
    1. Consumer Secret (API Secret)
1. Mais abaixo, gere um Token e anote tamb√©m:
    1. Access Token
    1. Access Token Secret
    
1. Preencha os valores no arquivo "auth.pass"

**ATEN√á√ÉO**: Nunca divulgue os dados desse arquivo online (GitHub, etc). Ele cont√©m as chaves necess√°rias para realizar as opera√ß√µes no twitter de forma autom√°tica e portanto √© equivalente a ser "hackeado". De posse desses dados, pessoas mal intencionadas podem fazer todas as opera√ß√µes manuais (tweetar, seguir, bloquear/desbloquear, listar os seguidores, etc). Para efeito do projeto, esse arquivo n√£o precisa ser entregue!!!

In [200]:
#Dados de autentica√ß√£o do twitter:

#Coloque aqui o identificador da conta no twitter: @fulano

#leitura do arquivo no formato JSON
with open('auth.pass') as fp:    
    data = json.load(fp)
    data['consumer_key'] = ''
    data['consumer_secret'] = ''
    data['access_token'] = ''
    data['access_token_secret'] = ''

#Configurando a biblioteca. N√£o modificar
auth = tweepy.OAuthHandler(data['consumer_key'], data['consumer_secret'])
auth.set_access_token(data['access_token'], data['access_token_secret'])


___
## Coletando Dados

Agora vamos coletar os dados. Tenha em mente que dependendo do produto escolhido, n√£o haver√° uma quantidade significativa de mensagens, ou ainda poder haver muitos retweets.<br /><br /> 
Configurando:

In [201]:
#Produto escolhido:
produto = 'Ovomaltine'

#Quantidade m√≠nima de mensagens capturadas:
n = 500
#Quantidade m√≠nima de mensagens para a base de treinamento:
t = 300

#Filtro de l√≠ngua, escolha uma na tabela ISO 639-1.
lang = 'pt'

Capturando os dados do twitter:

In [202]:
#Cria um objeto para a captura
api = tweepy.API(auth)

#Inicia a captura, para mais detalhes: ver a documenta√ß√£o do tweepy
i = 1
msgs = []
for msg in tweepy.Cursor(api.search, q=produto, lang=lang).items():    
    msgs.append(msg.text.lower())
    i += 1
    if i > n:
        break

#Embaralhando as mensagens para reduzir um poss√≠vel vi√©s
shuffle(msgs)

Salvando os dados em uma planilha Excel:

In [203]:
#Verifica se o arquivo n√£o existe para n√£o substituir um conjunto pronto
if not os.path.isfile('./{0}.xlsx'.format(produto)):
    
    #Abre o arquivo para escrita
    writer = pd.ExcelWriter('{0}.xlsx'.format(produto))

    #divide o conjunto de mensagens em duas planilhas
    dft = pd.DataFrame({'Treinamento' : pd.Series(msgs[:t])})
    dft.to_excel(excel_writer = writer, sheet_name = 'Treinamento', index = False)

    dfc = pd.DataFrame({'Teste' : pd.Series(msgs[t:])})
    dfc.to_excel(excel_writer = writer, sheet_name = 'Teste', index = False)

    #fecha o arquivo
    writer.save()

___
## Classificando as Mensagens

Agora voc√™ deve abrir o arquivo Excel com as mensagens capturadas e classificar na Coluna B se a mensagem √© relevante ou n√£o.<br /> 
N√£o se esque√ßa de colocar um nome para a coluna na c√©lula **B1**.<br /><br />
Fazer o mesmo na planilha de Controle.

___
## Montando o Classificador Naive-Bayes

Com a base de treinamento montada, comece a desenvolver o classificador. Escreva o seu c√≥digo abaixo:

Opcionalmente: 
* Limpar as mensagens removendo os caracteres: enter, :, ", ', (, ), etc. N√£o remover emojis.<br />
* Corrigir separa√ß√£o de espa√ßos entre palavras e/ou emojis.
* Propor outras limpezas/transforma√ß√µes que n√£o afetem a qualidade da informa√ß√£o.



In [206]:
# Remove os caracteres de pontua√ß√£o (',','.',':',etc)
import string
def remove_punctuation(text):
    for punctuation in string.punctuation:
        text = text.replace(punctuation, '')
        return text

# L√™ a base de dados Excel
d = pd.read_excel('Ovomaltine.xlsx')

# Retira caracteres de pontua√ß√£o
d['Treinamento'] = d['Treinamento'].apply(remove_punctuation)
d['Treinamento']
pd.DataFrame(d['Treinamento'])

# Renomeia as colunas 
d = pd.concat([d['Treinamento'],d['Unnamed: 1']], axis=1)
d.columns = ['Treinamento','Relev√¢ncia']

# Separa dados relevantes dos irrelevantes
relevantes = d[d['Relev√¢ncia'] == 'R']
irrelevantes = d[d['Relev√¢ncia'] == 'I']

#Separa o dataframe frase por frase e adiciona na lista relevantes ou irrelevantes
frases_relevantes =[]
frases_irrelevantes = []

for linha in relevantes['Treinamento']:
    linha = linha.split()
    frases_relevantes.append(linha)
    
for linha in irrelevantes['Treinamento']:
    linha = linha.split()
    frases_irrelevantes.append(linha)
    
# Separa o n√∫mero de palavras em cada frase
n_palavra_relevante =[]
n_palavra_irrelevante=[]

for frase in frases_relevantes:
    x = len(frase)
    n_palavra_relevante.append(x)
    
for frase in frases_irrelevantes:
    y = len(frase)
    n_palavra_irrelevante.append(y)
    
# Total de palavras no dataframe, em cada categoria    
total_relevantes = sum(n_palavra_relevante)
total_irrelevantes = sum(n_palavra_irrelevante)

palavras_relevantes = sum(frases_relevantes, [])
palavras_irrelevantes = sum(frases_irrelevantes, [])


# Conta as possibilidades de palavra (cada palavra que aparece, sem repeti√ß√£o)
total_de_palavras = []

for palavra in palavras_relevantes:
    if palavra not in total_de_palavras:
        total_de_palavras.append(palavra)

for palavra in palavras_irrelevantes:
    if palavra not in total_de_palavras:
        total_de_palavras.append(palavra)        
        
total_de_palavras = len(total_de_palavras)
 
    
# Cria um dicion√°rio de recorr√™ncia de cada palavra, em cada categoria
palavras_rel_recorrencia = dict(Counter(palavras_relevantes))
palavras_irr_recorrencia = dict(Counter(palavras_irrelevantes))


# Cria dois dicion√°rios cujo o valor de cada palavra √© a sua probabilidade de ocorr√™ncia em frases relevantes e irrelevantes
dic_prob_rel ={}
dic_prob_irrel ={}

for palavra in palavras_rel_recorrencia:
    p = ((palavras_rel_recorrencia[palavra])+1)/(total_relevantes+total_de_palavras)
    dic_prob_rel[palavra] = p
    
for palavra in palavras_irr_recorrencia:
    p = ((palavras_irr_recorrencia[palavra])+1)/(total_irrelevantes+total_de_palavras)
    dic_prob_irrel[palavra] = p
    


___
## Verificando a performance

Agora voc√™ deve testar o seu Classificador com a base de Testes.<br /><br /> 

Voc√™ deve extrair as seguintes medidas:
* Porcentagem de positivos falsos (marcados como relevante mas n√£o s√£o relevantes)
* Porcentagem de positivos verdadeiros (marcado como relevante e s√£o relevantes)
* Porcentagem de negativos verdadeiros (marcado como n√£o relevante e n√£o s√£o relevantes)
* Porcentagem de negativos falsos (marcado como n√£o relevante e s√£o relevantes)

Opcionalmente:
* Criar categorias intermedi√°rias de relev√¢ncia baseado na diferen√ßa de probabilidades. Exemplo: muito relevante, relevante, neutro, irrelevante e muito irrelevante.

In [207]:
# Leitura da base de dados para teste e remo√ß√£o de caracteres de pontua√ß√£o.
d_teste = pd.read_excel('Ovomaltine_teste.xlsx')
d_teste['Teste'] = d_teste['Teste'].apply(remove_punctuation)
d_teste = pd.concat([d_teste['Teste'],d_teste['Unnamed: 1']], axis=1)
d_teste.columns = ['Teste','Relev√¢ncia']

# Separa as frases do dataframe de teste
frases_teste = []

for linha in d_teste['Teste']:
    linha = linha.split()
    frases_teste.append(linha)

# Calcula o produto das probabilidades das palavras de cada frase.
# Se o produto das probabilidades para relevante for maior que para irrelevantes, adiciona R em relevancia, caso contr√°rio, I
relevancia = []
for i in range(0,len(frases_teste)):
    for palavra in frases_teste[i]:
        if palavra in dic_prob_rel:
            produto=1
            produto = produto* dic_prob_rel[palavra]
        if palavra in dic_prob_irrel:
            produto2 = 1
            produto2 = produto2* dic_prob_irrel[palavra]    
    if produto>produto2:
        relevancia.append('R')
    if produto2>produto:
        relevancia.append('I')
    
# Cria um dataframe para os dados do classificador    
dados_classificador = {'Relev√¢ncia(classificador)':pd.Series(relevancia)}
dados_classificador = pd.DataFrame(dados_classificador)

# Junta os dados para compara√ß√£o
df = pd.concat([d_teste['Teste'],d_teste['Relev√¢ncia'],dados_classificador], axis = 1)

df

Unnamed: 0,Teste,Relev√¢ncia,Relev√¢ncia(classificador)
0,vou fazer um brigadeiro com ovomaltine ‚ô•‚ô•,R,R
1,pelo menos tenho meu ovomaltine e p√£o com mort...,I,R
2,milk shake trufado de ovomaltine eu te amo,R,I
3,minha meta neste casamento √© ficar muito loco ...,I,R
4,gostei de um v√≠deo @youtube https://t.co/ar4tg...,I,I
5,q vontade de tmr um milkshake de ovomaltine,R,R
6,um sorvete de ovomaltine cairia bem agora com ...,R,R
7,vou tomar meu ovomaltine e dormir bem pq aind...,I,R
8,gostei de um v√≠deo @youtube https://t.co/h6ual...,I,I
9,ovomaltine com leite bem gelado √© bom dmssssss...,R,R


In [208]:
# Cria uma crosstab para compara√ß√£o
ct = ct1=pd.crosstab(df['Relev√¢ncia'], df['Relev√¢ncia(classificador)'], margins=True, rownames=['Relev√¢ncia'], colnames=['Relev√¢ncia (classificador)'])
ct

Relev√¢ncia (classificador),I,R,All
Relev√¢ncia,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
I,68,55,123
R,20,57,77
All,88,112,200


In [209]:
# Porcentagem de RELEVANTES VERDADEIROS

p_acerto_relevante = (56/76)*100
print(p_acerto_relevante,'%')

73.68421052631578 %


In [210]:
# Porcentagem de RELEVANTES FALSOS

p_erro_relevante = 100-p_acerto_relevante
print(p_erro_relevante,'%')

26.31578947368422 %


In [211]:
# Porcentagem de IRRELEVANTES VERDADEIROS

p_acerto_irrelevante = (69/124)*100
print(p_acerto_irrelevante,'%')

55.64516129032258 %


In [212]:
# Porcentagem de IRRELEVANTES FALSOS

p_erro_irrelevante = 100-p_acerto_irrelevante
print(p_erro_irrelevante,'%')

44.35483870967742 %


## Adicionando categorias intermedi√°rias:

In [213]:
# Adiciona categorias intermedi√°rias (Muito Relevante, Relevante, Neutro, Irrelevante e Muito Irrelevante)
produtos = []
relevancia2 = []

for i in range(0,len(frases_teste)):
    for palavra in frases_teste[i]:
        if palavra in dic_prob_rel:
            produto=1
            produto = produto* dic_prob_rel[palavra]
        if palavra in dic_prob_irrel:
            produto2 = 1
            produto2 = produto2* dic_prob_irrel[palavra]
    p = produto-produto2
    produtos.append(p)
    if p>0.02:
        relevancia2.append('Muito Relevante')
    if p<0.025 and p>0.005:
        relevancia2.append('Relevante')
    if p<0.005 and p>-0.0001:
        relevancia2.append('Neutro')
    if p<-0.0001 and p>-0.025:
        relevancia2.append('Irrelevante')
    if p<-0.025:
        relevancia2.append('Muito Irrelevante')

In [214]:
# Cria dataframe com os novos dados, e junta com a base de testes
dados_classificador2 = {'Relev√¢ncia(classificador)':pd.Series(relevancia2)}
dados_classificador2 = pd.DataFrame(dados_classificador2)

df2 = pd.concat([d_teste['Teste'],d_teste['Relev√¢ncia'],dados_classificador2], axis = 1)

df2 = df2.dropna()
df2

Unnamed: 0,Teste,Relev√¢ncia,Relev√¢ncia(classificador)
0,vou fazer um brigadeiro com ovomaltine ‚ô•‚ô•,R,Relevante
1,pelo menos tenho meu ovomaltine e p√£o com mort...,I,Neutro
2,milk shake trufado de ovomaltine eu te amo,R,Irrelevante
3,minha meta neste casamento √© ficar muito loco ...,I,Relevante
4,gostei de um v√≠deo @youtube https://t.co/ar4tg...,I,Irrelevante
5,q vontade de tmr um milkshake de ovomaltine,R,Relevante
6,um sorvete de ovomaltine cairia bem agora com ...,R,Neutro
7,vou tomar meu ovomaltine e dormir bem pq aind...,I,Muito Relevante
8,gostei de um v√≠deo @youtube https://t.co/h6ual...,I,Irrelevante
9,ovomaltine com leite bem gelado √© bom dmssssss...,R,Relevante


In [215]:
# Cria crosstab para compara√ß√£o
ct2 = pd.crosstab(df2['Relev√¢ncia'], df2['Relev√¢ncia(classificador)'], margins=True, rownames=['Relev√¢ncia'], colnames=['Relev√¢ncia (classificador)'])
ct2

Relev√¢ncia (classificador),Irrelevante,Muito Irrelevante,Muito Relevante,Neutro,Relevante,All
Relev√¢ncia,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
I,65,1,5,28,24,123
R,18,2,1,29,27,77
All,83,3,6,57,51,200


## Conclus√£o

Como visto na tabela acima, o classificador considera muitos dos coment√°rios marcados como 'Irrelevantes' s√£o marcados como 'Relevantes'. Isso se deve a um particular rigor ao classificar manualmente os tweets que seriam utilizados como teste. Entretanto, o classificador tem uma porcentagem de acerto alta em 'Relevantes verdadeiros', e acerta mais da metade nos marcados como 'Irrelevantes verdadeiros'. <br/>

O classificador Naive-Bayes, no entanto, possui algumas limita√ß√µes. Frases de dupla nega√ß√£o e sarcasmo podem confundi-lo, justamente pelo mesmo considerar cada palavra independente do contexto da frase. Portanto, se uma frase ir√¥nica, por exemplo, possuir **sentido relevante**, mas utilizar palavras que aparecem mais nas frases irrelevantes, ser√° marcada como irrelevante. Da√≠ vem o nome 'Naive', que do ingl√™s, quer dizer 'Ing√™nuo'. <br />

Outra limita√ß√£o do classificador diz respeito √† base de dados para treinamento. N√£o √© poss√≠vel aliment√°-la utilizando o pr√≥prio
classificador. Isto se deve ao fato de as probabilidades de cada palavra serem relevantes ou irrelevantes variam de acordo com o tema/produto, de modo que o classificador acima s√≥ se aplica ao produto Ovomaltine. Para que outros assuntos sejam classificados √© necess√°rio criar uma nova base de dados para Treinamento, classificando frase por frase. <br />

O uso do classificador bayesiano, no entanto, pode ser muito √∫til, n√£o s√≥ para classificar produtos, mas em outras esferas como pol√≠tica. Atrav√©s dele, √© poss√≠vel saber o que usu√°rios do Twitter falam sobre um determinado candidato ou determinado problema na/no cidade/estado/pa√≠s, e assim direcionar o marketing. Esferas governamentais tamb√©m podem utilizar o classificador para entender os problemas mais relevantes para a popula√ß√£o, e assim, criar estrat√©gias para resolv√™-los. <br />

Para a empresa, √© essencial continuar com o projeto justamente por ser importante saber a opini√£o dos consumidores sobre o produto. Al√©m disso, no caso do Ovomaltine, muitos dos usu√°rios o consumem com outros produtos, como na forma de milkshake, com brigadeiro, etc. Isso cria novas possibilidades para produtos derivados, e consequentemente, a expans√£o do mercado consumidor. O classificador foi aplicado para apenas 500 tweets. Com uma expans√£o, passaria a analisar mais tweets, colher mais dados, e criar um classificador mais preciso, gerando ainda mais informa√ß√µes e feedbacks dos consumidores para a empresa. <br />

