# Projeto 2 - Classificador Automático de Sentimento

Você foi contratado por uma empresa parar analisar como os clientes estão reagindo a um determinado produto no Twitter. A empresa deseja que você crie um programa que irá analisar as mensagens disponíveis e classificará como "relevante" ou "irrelevante". Com isso ela deseja que mensagens negativas, que denigrem o nome do produto, ou que mereçam destaque, disparem um foco de atenção da área de marketing.<br /><br />
Como aluno de Ciência dos Dados, você lembrou do Teorema de Bayes, mais especificamente do Classificador Naive-Bayes, que é largamente utilizado em filtros anti-spam de e-mails. O classificador permite calcular qual a probabilidade de uma mensagem ser relevante dadas as palavras em seu conteúdo.<br /><br />
Para realizar o MVP (*minimum viable product*) do projeto, você precisa implementar uma versão do classificador que "aprende" o que é relevante com uma base de treinamento e compara a performance dos resultados com uma base de testes.<br /><br />
Após validado, o seu protótipo poderá também capturar e classificar automaticamente as mensagens da plataforma.

## Informações do Projeto

Prazo: 13/Set até às 23:59.<br />
Grupo: 1 ou 2 pessoas.<br /><br />
Entregáveis via GitHub: 
* Arquivo notebook com o código do classificador, seguindo as orientações abaixo.
* Arquivo Excel com as bases de treinamento e teste totalmente classificado.

**NÃO disponibilizar o arquivo com os *access keys/tokens* do Twitter.**


### Check 3: 

Até o dia 06 de Setembro às 23:59, o notebook e o xlsx devem estar no Github com as seguintes evidências: 
    * Conta no twitter criada.
    * Produto escolhido.
    * Arquivo Excel contendo a base de treinamento e teste já classificado.
    

Sugestão de leitura:<br />
http://docs.tweepy.org/en/v3.5.0/index.html<br />
https://monkeylearn.com/blog/practical-explanation-naive-bayes-classifier/

___

## Preparando o ambiente

Instalando a biblioteca *tweepy* para realizar a conexão com o Twitter:

In [3]:
%%capture

#Instalando o tweepy
!pip install tweepy

Importando as Bibliotecas que serão utilizadas. Esteja livre para adicionar outras.

In [4]:
import tweepy
import math
import os.path
import pandas as pd
import json
from random import shuffle

___
## Autenticando no  Twitter

Para realizar a captura dos dados é necessário ter uma conta cadastrada no twitter:

* Conta: ***[Preencha aqui o id da sua conta. Ex: @fulano ]***


1. Caso ainda não tenha uma: https://twitter.com/signup
1. Depois é necessário registrar um app para usar a biblioteca: https://apps.twitter.com/
1. Dentro do registro do App, na aba Keys and Access Tokens, anotar os seguintes campos:
    1. Consumer Key (API Key)
    1. Consumer Secret (API Secret)
1. Mais abaixo, gere um Token e anote também:
    1. Access Token
    1. Access Token Secret
    
1. Preencha os valores no arquivo "auth.pass"

**ATENÇÃO**: Nunca divulgue os dados desse arquivo online (GitHub, etc). Ele contém as chaves necessárias para realizar as operações no twitter de forma automática e portanto é equivalente a ser "hackeado". De posse desses dados, pessoas mal intencionadas podem fazer todas as operações manuais (tweetar, seguir, bloquear/desbloquear, listar os seguidores, etc). Para efeito do projeto, esse arquivo não precisa ser entregue!!!

In [5]:
#Dados de autenticação do twitter:

#Coloque aqui o identificador da conta no twitter: @dudabicalhocd

#leitura do arquivo no formato JSON
with open('auth.pass') as fp:    
    data = json.load(fp)

#Configurando a biblioteca. Não modificar
auth = tweepy.OAuthHandler(data['consumer_key'], data['consumer_secret'])
auth.set_access_token(data['access_token'], data['access_token_secret'])

___
## Coletando Dados

Agora vamos coletar os dados. Tenha em mente que dependendo do produto escolhido, não haverá uma quantidade significativa de mensagens, ou ainda poder haver muitos retweets.<br /><br /> 
Configurando:

In [6]:
#Produto escolhido:
produto = 'Bradesco'

#Quantidade mínima de mensagens capturadas:
n = 500
#Quantidade mínima de mensagens para a base de treinamento:
t = 300

#Filtro de língua, escolha uma na tabela ISO 639-1.
lang = 'pt'

Capturando os dados do twitter:

In [7]:
#Cria um objeto para a captura
api = tweepy.API(auth)

#Inicia a captura, para mais detalhes: ver a documentação do tweepy
i = 1
msgs = []
for msg in tweepy.Cursor(api.search, q=produto, lang=lang).items():    
    msgs.append(msg.text.lower())
    i += 1
    if i > n:
        break

#Embaralhando as mensagens para reduzir um possível viés
shuffle(msgs)

TweepError: Twitter error response: status code = 400

Salvando os dados em uma planilha Excel:

In [None]:
#Verifica se o arquivo não existe para não substituir um conjunto pronto
if not os.path.isfile('./{0}.xlsx'.format(produto)):
    
    #Abre o arquivo para escrita
    writer = pd.ExcelWriter('{0}.xlsx'.format(produto))

    #divide o conjunto de mensagens em duas planilhas
    dft = pd.DataFrame({'Treinamento' : pd.Series(msgs[:t])})
    dft.to_excel(excel_writer = writer, sheet_name = 'Treinamento', index = False)

    dfc = pd.DataFrame({'Teste' : pd.Series(msgs[t:])})
    dfc.to_excel(excel_writer = writer, sheet_name = 'Teste', index = False)

    #fecha o arquivo
    writer.save()

___
## Classificando as Mensagens

Agora você deve abrir o arquivo Excel com as mensagens capturadas e classificar na Coluna B se a mensagem é relevante ou não.<br /> 
Não se esqueça de colocar um nome para a coluna na célula **B1**.<br /><br />
Fazer o mesmo na planilha de Controle.

___
## Montando o Classificador Naive-Bayes

Com a base de treinamento montada, comece a desenvolver o classificador. Escreva o seu código abaixo:

Opcionalmente: 
* Limpar as mensagens removendo os caracteres: enter, :, ", ', (, ), etc. Não remover emojis.<br />
* Corrigir separação de espaços entre palavras e/ou emojis.
* Propor outras limpezas/transformações que não afetem a qualidade da informação.



In [167]:
print(os.getcwd())
dados = pd.read_excel('Bradesco.xlsx')

C:\Users\milen\OneDrive\Documentos\2o SEMESTRE\CDD\Projeto2-CD


In [168]:
#dados


In [169]:
#pegando os dados interessantes para nos
dr= dados.Respostas[dados.Relevancia=='r']
print(len(dr))
probder= 91/300

91


In [170]:
di= dados.Respostas[dados.Relevancia=='i']
print(len(di))
probdei=209/300

209


In [171]:
dicior={}
palavras=[]
Desconsiderar=0
# limpando
for x in dr:
    nomes=x.split()
    for y in nomes:
        p2=[]
        if y[0]=='h' and y[1]=='t':
            y='.'
            Desconsiderar+=1
        if y[0]== '@':
            y='.'
            Desconsiderar+=1
        for i in y : 
            if i!= ":" and i!="'" and i!='"' and i!=' ' and i!= "," and i!= "." and i!='?'and i!='!' and i!='(' and i!=')' :
                p2.append(i)
        a="".join(p2)
        palavras.append(a)
        if x in dicior:
            dicior[y]+=1
        else:
            dicior[y]=1
        
            
#print(dicior)
tr=sum(dicior.values())-Desconsiderar
print(tr)     
print(palavras)

606
['já', 'estou', 'cansado', 'de', 'entrar', 'em', 'contato', 'com', 'a', 'ouvidoria', 'do', '', 'para', 'solução', 'do', 'meu', 'problema', 'causado', 'pela', 'ineficiência', 'do', 'banco', 'bradesco', 'me', 'ligou', 'oferecendo', 'cartão', 'de', 'crédito', 'e', 'falei', 'que', 'estava', 'desempregado', 'e', 'sem', 'receber', 'renda', 'a', 'atendente', 'desligou', '', 'me', 'pedem', 'comprovação', 'alta', 'de', 'renda', 'p/', 'ter', 'o', 'amex', 'tpc', 'p/', 'o', 'cartão', 'negar', 'compras', 'de', 'r$100', 'sugiro', 'por', '1', 'limite', 'visivel', 'pq', 'ta', 'dificil', '', 'ja', 'rodei', 'esse', 'app', 'e', 'nao', 'encontro', 'o', 'saldo', 'que', 'investiu', 'se', 'for', 'pra', 'nao', 'ter', 'quero', 'cancelar', 'ne', 'eu', 'dou', 'mas', 'quero', 'receber', 'de', 'volta', 'rs', '', '', 'não', 'demora', 'muito', 'e', 'o', 'bradesco', 'vai', 'falir', 'desse', 'jeito', 'tô', 'tão', 'tisti', 'alguém', 'paga', 'o', 'meu', 'nubank', 'e', 'caduca', 'minha', 'dívida', 'com', 'o', 'brades

In [172]:
dicioi={}
palavrasi=[]
Desconsiderari=0
for x in di:
    nomes=x.split()
    for y in nomes:
        p2=[]
        if y[0]=='h' and y[1]=='t':
            y='.'
            Desconsiderari+=1
        if y[0]== '@':
            y='.'
            Desconsiderari+=1  
        for i in y:
            if i!= ":" and i!="'" and i!='"' and i!=' ' and i!= "," and i!= "." and i!='?'and i!='!' and i!='(' and i!=')' and i!='…' :
                p2.append(i)
        a="".join(p2)
        palavrasi.append(a)
        if y in dicioi:
            dicioi[y]+=1
        else:
            dicioi[y]=1

print(dicioi)
ti=sum(dicioi.values())-Desconsiderari
print(ti)
#print(palavrasi)

{'bandidos': 8, 'explodem': 8, 'caixas': 6, 'do': 65, 'bradesco': 102, 'em': 50, 'prédio': 6, 'da': 31, 'prefeitura': 10, 'de': 80, 'campina': 8, 'grande,': 4, 'no': 33, 'centro': 4, 'cidade:…': 2, '.': 279, 'rt': 60, 'cidade:': 2, 'h…': 1, "i'm": 14, 'at': 14, 'in': 17, 'são': 9, 'paulo,': 4, 'sp': 3, 'noooosssa,': 1, 'pode': 3, 'colocar': 1, 'nessa': 3, 'lista': 1, 'também!': 1, 'acho': 2, 'que': 55, 'nenhum': 1, 'presta': 2, 'mesmo': 2, ':(': 1, 'não,': 1, 'caso': 1, 'o': 55, 'banco': 12, 'tenha': 1, 'enviado': 1, 'foi': 7, 'para': 10, 'meu': 6, 'antigo': 1, 'endereço.': 1, 'e': 45, 'até': 21, 'quem': 21, 'me': 26, 'vê': 21, 'na': 32, 'fila': 21, 'sabe': 21, 'eu': 36, 'te': 21, 'encontrei': 21, 'infelizmente': 1, 'sim,': 2, 'recebi': 1, 'um': 15, 'email': 1, 'hj': 1, 'q': 1, 'só': 3, 'bandeira': 2, 'visa': 1, 'ou': 5, 'seja': 1, 'cartão': 7, 'momento': 1, 'estamos': 1, 'trabalhando': 1, 'com': 25, 'ambos!': 1, 'se': 8, 'seu': 8, 'boleto': 3, 'agora': 2, 'está': 2, 'vindo': 1, 'como'

In [173]:
soma=len(dicioi)
for i in dicior:
    if i in dicioi:
        soma+=0
    else:
        soma+=1

t=soma 
print(t)

1295


In [174]:
#probabilidade da frase ser relavante e relevante=
#(vezes q a palavra aparece+1)/(palavras relevantes+total de palavras) x a probab da outra palavra em relevante x ....
#qual eh maior
frase="ruim"
def probabr(frase,dicior,tr,t):
    nomes=frase.split()
    pfr=1
    for i in nomes:
        if i in dicior:
            pa=(dicior[i]+1)/(tr+t)
            pfr*=pa
        else:
            pa=1/(tr+t)
            pfr*=pa
    return pfr
    
print(probabr(frase,dicior,tr,t))

0.0005260389268805891


In [175]:

frase="ruim"
def probabi(frase,dicioi,ti,t):
    nomes=frase.split()
    pfi=1
    for i in nomes:
        if i in dicioi:
            pa= (dicioi[i]+1)/(ti+t)
            pfi*=pa
        else:
            pa=1/(ti+t)
            pfi*=pa
    return pfi
print(probabi(frase,dicioi,ti,t))

0.00025113008538422905


In [176]:
if probabi(frase,dicioi,ti,t)<probabr(frase,dicior,tr,t):
    print('É relevante')
else:
    print('É irrelevante')

É relevante


___
## Verificando a performance

Agora você deve testar o seu Classificador com a base de Testes.<br /><br /> 

Você deve extrair as seguintes medidas:
* Porcentagem de positivos falsos (marcados como relevante mas não são relevantes)
* Porcentagem de positivos verdadeiros (marcado como relevante e são relevantes)
* Porcentagem de negativos verdadeiros (marcado como não relevante e não são relevantes)
* Porcentagem de negativos falsos (marcado como não relevante e são relevantes)

Opcionalmente:
* Criar categorias intermediárias de relevância baseado na diferença de probabilidades. Exemplo: muito relevante, relevante, neutro, irrelevante e muito irrelevante.

In [177]:
#fazer uma nov coluna e comparar as colunas
print(os.getcwd())
dados2 = pd.read_excel('Bradesco.xlsx', 1)

C:\Users\milen\OneDrive\Documentos\2o SEMESTRE\CDD\Projeto2-CD


In [178]:
dados2.head()
d2= dados2.Tweets
dad2=dados2.Relevancia
print(d2)

0          só o bradesco que n vai ter feriadão, q bosta
1      novidades bradesco saúde. https://t.co/ndk1na7vag
2      são 84 cursos grátis e com certificado da fund...
3      @bradesco cheguei 12:05h agência cachambi em f...
4      rt @bradesco: a história de orgulho dos gaúcho...
5      eu oficialmente detesto o bradesco e essa agên...
6      humilhada na chuva na porta do bradesco com um...
7      @marcosrebello01 olá! por favor, nos passe ess...
8      rt @bradesco: a história de orgulho dos gaúcho...
9      meninas que confundem santander com bradesco s...
10     vontade de tomar um chima pqp https://t.co/5g3...
11     o banco do br ia voltar essa semana, aí explod...
12     rt @marcelomassaobr: i'm at banco bradesco in ...
13     salgueiro-pe: bandidos sequestram gerente admi...
14     rt @bradesco: a história de orgulho dos gaúcho...
15                      @oiayres olá! o que foi cobrado?
16     rt @bradesco: a história de orgulho dos gaúcho...
17     @bradesco bloquear e ped

In [179]:
Relevancia2=[]
ii=0
ir=0
rr=0
ri=0

for i in d2:
    pi= probabi(i,dicioi,ti,t)
    pr= probabr(i,dicior,tr,t)
    if pi<pr:
        Relevancia2.append('r')
    else:
        Relevancia2.append('i')

Relevancia=[]
for i in dad2:
    Relevancia.append(i)
    
    
for x in range(len(Relevancia2)):
    if Relevancia[x]=='i' and Relevancia2[x]=='i':
        ii+=1
    if Relevancia[x]=='i' and Relevancia2[x]=='r':
        ir+=1
    if Relevancia[x]=='r' and Relevancia2[x]=='r':
        rr+=1
    if Relevancia[x]=='r' and Relevancia2[x]=='i':
        ri+=1
            

print(ii)
print(ir)
print(rr)
print(ri)

print('-----')
print(ii+ir+rr+ri)



137
18
3
42
-----
200


In [186]:
#Porcentagem de positivos falsos (marcados como relevante mas não são relevantes)
pri=ri/45 *100
print('pri =')
print(pri)
#Porcentagem de positivos verdadeiros (marcado como relevante e são relevantes)
prr=rr/45*100
print('prr =')
print(prr)
#Porcentagem de negativos verdadeiros (marcado como não relevante e não são relevantes)
pii=ii/155*100
print('pii =')
print(pii)
#Porcentagem de negativos falsos (marcado como não relevante e são relevantes)
pir=ir/155*100
print('pir =')
print(pir)

pri =
93.33333333333333
prr =
6.666666666666667
pii =
88.38709677419355
pir =
11.612903225806452


___
## Concluindo

Escreva aqui a sua conclusão.<br /> 
Faça um comparativo qualitativo sobre as medidas obtidas.<br />
Explique como são tratadas as mensagens com dupla negação e sarcasmo.<br />
Proponha um plano de expansão. Por que eles devem continuar financiando o seu projeto?<br />

Opcionalmente: 
* Discorrer por que não posso alimentar minha base de Treinamento automaticamente usando o próprio classificador, aplicado a novos tweets.
* Propor diferentes cenários de uso para o classificador Naive-Bayes. Cenários sem intersecção com este projeto.
* Sugerir e explicar melhorias reais no classificador com indicações concretas de como implementar (não é preciso codificar, mas indicar como fazer e material de pesquisa sobre o assunto).
