# Projeto 2 - Classificador Automático de Sentimento

Você foi contratado por uma empresa parar analisar como os clientes estão reagindo a um determinado produto no Twitter. A empresa deseja que você crie um programa que irá analisar as mensagens disponíveis e classificará como "relevante" ou "irrelevante". Com isso ela deseja que mensagens negativas, que denigrem o nome do produto, ou que mereçam destaque, disparem um foco de atenção da área de marketing.<br /><br />
Como aluno de Ciência dos Dados, você lembrou do Teorema de Bayes, mais especificamente do Classificador Naive-Bayes, que é largamente utilizado em filtros anti-spam de e-mails. O classificador permite calcular qual a probabilidade de uma mensagem ser relevante dadas as palavras em seu conteúdo.<br /><br />
Para realizar o MVP (*minimum viable product*) do projeto, você precisa implementar uma versão do classificador que "aprende" o que é relevante com uma base de treinamento e compara a performance dos resultados com uma base de testes.<br /><br />
Após validado, o seu protótipo poderá também capturar e classificar automaticamente as mensagens da plataforma.

## Informações do Projeto

Prazo: 13/Set até às 23:59.<br />
Grupo: 2 pessoas.<br /><br />
Entregáveis via GitHub: 
* Arquivo notebook com o código do classificador, seguindo as orientações abaixo.
* Arquivo Excel com as bases de treinamento e teste totalmente classificado.

**NÃO disponibilizar o arquivo com os *access keys/tokens* do Twitter.**


### Check 3: 

Até o dia 06 de Setembro às 23:59, o notebook e o xlsx devem estar no Github com as seguintes evidências: 
    * Conta no twitter criada.
    * Produto escolhido.
    * Arquivo Excel contendo a base de treinamento e teste já classificado.
    

Sugestão de leitura:<br />
http://docs.tweepy.org/en/v3.5.0/index.html<br />
https://monkeylearn.com/blog/practical-explanation-naive-bayes-classifier/

In [38]:

import math
import os.path
import pandas as pd
import json
from random import shuffle

___
## Classificando as Mensagens

Agora você deve abrir o arquivo Excel com as mensagens capturadas e classificar na Coluna B se a mensagem é relevante ou não.<br /> 
Não se esqueça de colocar um nome para a coluna na célula **B1**.<br /><br />
Fazer o mesmo na planilha de Controle.

___
## Montando o Classificador Naive-Bayes

Com a base de treinamento montada, comece a desenvolver o classificador. Escreva o seu código abaixo:

Opcionalmente: 
* Limpar as mensagens removendo os caracteres: enter, :, ", ', (, ), etc. Não remover emojis.<br />
* Corrigir separação de espaços entre palavras e/ou emojis.
* Propor outras limpezas/transformações que não afetem a qualidade da informação.



In [39]:
#dados = pd.read_excel('bobs.xlsx')
tudo = pd.ExcelFile('bobs.xlsx')
dados = pd.read_excel(tudo, 'Treinamento')
teste = pd.read_excel(tudo, 'Teste')

In [40]:
for i in range(len(dados)):
    caract=[',',';','.','!','?',"(",")", ':', '"', "'"]
    palavras = dados.Treinamento[i].split()
    palavrascerto=[]
    final=[]
    for x in palavras:
        lista=[]
        for a in range(len(x)):
            lista.append(x[a])
            
        palavrascerto.append(lista)
    for z in palavrascerto:
        for w in z:
            if w in caract:

                d=z.index(w)
                z[d] = ' '
    for q in range(len(palavrascerto)):
        junto = ''.join(palavrascerto[q])
        if len(junto)!=0:
            if junto[0] !='@' and junto[0:5]!='https' and junto!= 'rt' and junto[0:3]!='kkk':
                final.append(junto)
    deletar=[]            
    for a in range(len(final)):
        if final[a]=='de'and final[a+1]=='bobs':
            deletar.append(a)
    for m in deletar:
        del final[m]
        final[m]='debobs'    
    
            
            
            
    dados.Treinamento[i] = ' '.join(final)


dados.head(36)

Unnamed: 0,Treinamento,relevancia
0,bobs é mt ruim mc&gt,r
1,sonhei com a namorada ideal rolê kunk bobs...,r
2,peguei vários cupuns do bobs no jornal metro,i
3,trabalhei no bobs e carrefour quando mlk e foi...,i
4,tô matando por um milkshake do bobs,r
5,a gnt toma um cafézin vai no bobs compra 770ml...,r
6,vem me buscar hj q te dou um bobs 😍,r
7,oxe é só marcar presença lá em alguma festinh...,i
8,eu queria um milkshake de ovomaltine do bobs,r
9,fui no bobs secão quando cheguei lá tava fechado,i


In [41]:
relevante = dados[dados.relevancia=='r'].Treinamento
irrelevante = dados[dados.relevancia=='i'].Treinamento
relevante

0                                 bobs é mt ruim  mc&gt 
1      sonhei com a namorada ideal   rolê  kunk  bobs...
4                    tô matando por um milkshake do bobs
5      a gnt toma um cafézin vai no bobs compra 770ml...
6                    vem me buscar hj q te dou um bobs 😍
8           eu queria um milkshake de ovomaltine do bobs
10     fica a dúvida  comprar um milkshake no bobs ou...
11     as vezes tudo que uma pessoa precisa eh de um ...
12            esse milkshake do bobs é o melhor do mundo
14                                      tô aki no bobs 😍
15                              to afim de comer no bobs
17                      comprei aquele milkshake do bobs
20                                      lanchei no bobs😋
25     se a bobs fosse um pouco maos perto do trabalh...
33     pronto  pedi um lanche do bobs só assim pra ag...
35     se for por lanche serei eu ne laís   so pelos ...
36                eu querendo uns bobs um cineminha afff
38            eu e marcelo tamo

In [42]:
rel = []
for msg in relevante:
    palavras = msg.split()
    for x in palavras:
        rel.append(x)
r = pd.DataFrame({"Treinamento":rel}).Treinamento.value_counts()/len(rel)*100


irrel = []
for msg in irrelevante:
    palavras = msg.split()
    for x in palavras:
        irrel.append(x)
ir = pd.DataFrame({"Treinamento":irrel}).Treinamento.value_counts()/len(irrel)*100

In [43]:
j=0
k=0
for i in dados.relevancia:
    if i=='r':
        k+=1
    if i=='i':
        j+=1
        
k=(k/len(dados.relevancia)) *100
j=(j/len(dados.relevancia))*100

k


40.666666666666664

In [44]:
palav=[]
for a in rel:
    for b in irrel:
        if a!= b:
            if a not in palav:
                palav.append(a)
            if b not in palav:
                palav.append(b)
                


In [45]:
rele = []
for msg in relevante:
    palavras = msg.split()
    for x in palavras:
        rele.append(x)
re = pd.DataFrame({"Treinamento":rele}).Treinamento.value_counts()

relevan={}
x=[]
for a in rele:
    if a not in x:
        t=(re[a]+1)/(len(rele)+len(palav))
        relevan[a]=t*100
        x.append(a)        


irrele = []
for msg in irrelevante:
    palavras = msg.split()
    for x in palavras:
        irrele.append(x)
irre = pd.DataFrame({"Treinamento":irrele}).Treinamento.value_counts()
irrelevan={}
x=[]
for a in irrele:
    if a not in x:
        t=(irre[a]+1)/(len(irrele)+len(palav))
        irrelevan[a]=t*100
        x.append(a)      

In [53]:
for i in range(len(teste)):
    caract=[',',';','.','!','?',"(",")", ':', '"', "'"]
    palavras = teste.Teste[i].split()
    palavrascerto=[]
    final=[]
    for x in palavras:
        lista=[]
        for a in range(len(x)):
            lista.append(x[a])
            
        palavrascerto.append(lista)

    for z in palavrascerto:
        for w in z:
            if w in caract:

                d=z.index(w)
                z[d] = ' '
    for q in range(len(palavrascerto)):
        junto = ''.join(palavrascerto[q])
        if len(junto)!=0:
            if junto[0] !='@' and junto[0:5]!='https' and junto!= 'rt' and junto[0:3]!='kkk':
                final.append(junto)
    deletar=[]            
    for a in range(len(final)):
        if final[a]=='de'and final[a+1]=='bobs':
            deletar.append(a)
    for m in deletar:
        del final[m]
        final[m]='debobs'             
            
    teste.Teste[i] = ' '.join(final)
teste.head(36)

Unnamed: 0,Teste,Manual,EspManual,dif,Digital,Especifico
0,só um lanche do bobs ric ou coelho na minha vida,i,n,-6.5104e-10,i,mi
1,nos foi no bobs e ainda comemos uma pizza 🍕👫,i,i,-2.50141e-10,i,mi
2,minha mãe foi pro shopping e trouxe um lanche ...,r,r,-2.85271e-14,i,i
3,eu e neandro deixando cair o bglh de julia no ...,i,mi,-6.5504e-18,i,i
4,que victor que vc vai no bobs — santos ❤ amigo,i,mi,8.61026e-15,r,r
5,criando forças p levantar e ir no bobs comer a...,i,i,-5.28779e-11,i,i
6,boa tarde ☉,i,mi,0.000225574,r,mr
7,minha mae ficou com pena de mim e mandou eu cm...,i,n,-1.542e-11,i,i
8,acabei de ver q o big cascão tá 2 50 pelo bobs...,i,n,-2.25953e-16,i,i
9,cheguei no topo do pinheirinho tava tudo sujo ...,i,i,7.81726e-29,r,n


In [52]:
teste.loc[: , 'dif']='x'
teste.loc[: , 'Digital']='z'
for i in range(len(teste)):
    palavras = teste.Teste[i].split()
    probr =k
    probir=j
    x='sim'
    for l in palavras:
        if l not in r:
            x='nao'
        if l not in ir:
            x='nao'
    if x =='sim':
        for q in palavras:
            probr*=r[q]
            probir*=ir[q]
    else: 
        for q in palavras:
            if q in relevan:
                probr*=relevan[q]
            else:
                probr*=1/(len(rele)+len(palav))
            if q in irrelevan:    
                probir*= irrelevan[q]
            else:
                probir*= 1/(len(irrele)+len(palav))
    if probr> probir:
        teste.Digital[i]='r'
    else:
        teste.Digital[i]='i'       
    probdifR=probr-probir
    
    teste.dif[i]=probdifR
teste.loc[teste.dif < - (10**(-10)), 'Especifico']='mi'
teste.loc[teste.dif > - (10**(-10)), 'Especifico']='i'
teste.loc[teste.dif > - (10**(-20)), 'Especifico']='n'
teste.loc[teste.dif >  (10**(-20)), 'Especifico']='r'
teste.loc[teste.dif >  (10**(-10)), 'Especifico']='mr'
teste.head(36)        

Unnamed: 0,Teste,Manual,EspManual,dif,Digital,Especifico
0,só um lanche do bobs ric ou coelho na minha vida,i,n,-6.5104e-10,i,mi
1,nos foi no bobs e ainda comemos uma pizza 🍕👫,i,i,-2.50141e-10,i,mi
2,minha mãe foi pro shopping e trouxe um lanche ...,r,r,-2.85271e-14,i,i
3,eu e neandro deixando cair o bglh de julia no ...,i,mi,-6.5504e-18,i,i
4,que victor que vc vai no bobs — santos ❤ amigo,i,mi,8.61026e-15,r,r
5,criando forças p levantar e ir no bobs comer a...,i,i,-5.28779e-11,i,i
6,boa tarde ☉,i,mi,0.000225574,r,mr
7,minha mae ficou com pena de mim e mandou eu cm...,i,n,-1.542e-11,i,i
8,acabei de ver q o big cascão tá 2 50 pelo bobs...,i,n,-2.25953e-16,i,i
9,cheguei no topo do pinheirinho tava tudo sujo ...,i,i,7.81726e-29,r,n


___
## Verificando a performance

Agora você deve testar o seu Classificador com a base de Testes.<br /><br /> 

Você deve extrair as seguintes medidas:
* Porcentagem de positivos falsos (marcados como relevante mas não são relevantes)
* Porcentagem de positivos verdadeiros (marcado como relevante e são relevantes)
* Porcentagem de negativos verdadeiros (marcado como não relevante e não são relevantes)
* Porcentagem de negativos falsos (marcado como não relevante e são relevantes)

Opcionalmente:
* Criar categorias intermediárias de relevância baseado na diferença de probabilidades. Exemplo: muito relevante, relevante, neutro, irrelevante e muito irrelevante.

In [48]:
pf=0
pv=0
nv=0
nf=0
for i in range(len(teste.Digital)):
    if teste.Digital[i] == 'i':
        if teste.Manual[i] == 'i':
            nv+=1
            
        else:
            nf+=1
    if teste.Digital[i] == 'r':
        if teste.Manual[i] == 'r':
            pv+=1
        else:
            pf+=1
pf=(pf/len(teste.Digital))*100
pv=(pv/len(teste.Digital))*100
nv=(nv/len(teste.Digital))*100
nf=(nf/len(teste.Digital))*100



print(pf,pv,nv,nf)


18.5 18.0 52.0 11.5


In [49]:

lista=['mr','mi','n','r','i']
dic={}

for o in lista:
    dic[o]=0
for o in lista:
    for j in range(len(lista)):
        dic[o+lista[j]]=0
        
for i in range(len(teste.EspManual)):
        if teste.Especifico[i] == teste.EspManual[i]:
            dic[teste.Especifico[i]]=dic[teste.Especifico[i]]+1
        else:
            dic[teste.EspManual[i]+teste.Especifico[i]]=dic[teste.Especifico[i]+teste.EspManual[i]]+1
deletar=[]
for i in dic:
    if dic[i]==0:
        deletar.append(i)
for i in deletar:
    del(dic[i])
print(dic)
for i in dic:
    dic[i]=(dic[i]/len(teste.Especifico))*100
print()
print(dic)



{'mr': 15, 'mi': 14, 'n': 5, 'i': 6, 'mrmi': 2, 'mrn': 2, 'mrr': 5, 'mri': 9, 'mimr': 3, 'min': 20, 'mir': 4, 'mii': 18, 'nmr': 1, 'nmi': 19, 'nr': 5, 'ni': 11, 'rmr': 6, 'rmi': 5, 'rn': 4, 'ri': 3, 'imr': 10, 'imi': 19, 'in': 10, 'ir': 4}

{'mr': 7.5, 'mi': 7.000000000000001, 'n': 2.5, 'i': 3.0, 'mrmi': 1.0, 'mrn': 1.0, 'mrr': 2.5, 'mri': 4.5, 'mimr': 1.5, 'min': 10.0, 'mir': 2.0, 'mii': 9.0, 'nmr': 0.5, 'nmi': 9.5, 'nr': 2.5, 'ni': 5.5, 'rmr': 3.0, 'rmi': 2.5, 'rn': 2.0, 'ri': 1.5, 'imr': 5.0, 'imi': 9.5, 'in': 5.0, 'ir': 2.0}


In [50]:
p = teste.Especifico.value_counts(True)*100
p

mi    26.5
mr    24.0
i     23.5
n     19.0
r      7.0
Name: Especifico, dtype: float64

___
## Concluindo

Escreva aqui a sua conclusão.<br /> 
Faça um comparativo qualitativo sobre as medidas obtidas.<br />
Explique como são tratadas as mensagens com dupla negação e sarcasmo.<br />
Proponha um plano de expansão. Por que eles devem continuar financiando o seu projeto?<br />

Opcionalmente: 
* Discorrer por que não posso alimentar minha base de Treinamento automaticamente usando o próprio classificador, aplicado a novos tweets.
* Propor diferentes cenários de uso para o classificador Naive-Bayes. Cenários sem intersecção com este projeto.
* Sugerir e explicar melhorias reais no classificador com indicações concretas de como implementar (não é preciso codificar, mas indicar como fazer e material de pesquisa sobre o assunto).
