# Projeto 2 - Classificador Automático de Sentimento

Você foi contratado por uma empresa parar analisar como os clientes estão reagindo a um determinado produto no Twitter. A empresa deseja que você crie um programa que irá analisar as mensagens disponíveis e classificará como "relevante" ou "irrelevante". Com isso ela deseja que mensagens negativas, que denigrem o nome do produto, ou que mereçam destaque, disparem um foco de atenção da área de marketing.<br /><br />
Como aluno de Ciência dos Dados, você lembrou do Teorema de Bayes, mais especificamente do Classificador Naive-Bayes, que é largamente utilizado em filtros anti-spam de e-mails. O classificador permite calcular qual a probabilidade de uma mensagem ser relevante dadas as palavras em seu conteúdo.<br /><br />
Para realizar o MVP (*minimum viable product*) do projeto, você precisa implementar uma versão do classificador que "aprende" o que é relevante com uma base de treinamento e compara a performance dos resultados com uma base de testes.<br /><br />
Após validado, o seu protótipo poderá também capturar e classificar automaticamente as mensagens da plataforma.

## Informações do Projeto

Prazo: 13/Set até às 23:59.<br />
Grupo: 2 pessoas.<br /><br />
Entregáveis via GitHub: 
* Arquivo notebook com o código do classificador, seguindo as orientações abaixo.
* Arquivo Excel com as bases de treinamento e teste totalmente classificado.

**NÃO disponibilizar o arquivo com os *access keys/tokens* do Twitter.**


### Check 3: 

Até o dia 06 de Setembro às 23:59, o notebook e o xlsx devem estar no Github com as seguintes evidências: 
    * Conta no twitter criada.
    * Produto escolhido.
    * Arquivo Excel contendo a base de treinamento e teste já classificado.
    

Sugestão de leitura:<br />
http://docs.tweepy.org/en/v3.5.0/index.html<br />
https://monkeylearn.com/blog/practical-explanation-naive-bayes-classifier/

In [1]:

import math
import os.path
import pandas as pd
import json
from random import shuffle

___
## Classificando as Mensagens

Agora você deve abrir o arquivo Excel com as mensagens capturadas e classificar na Coluna B se a mensagem é relevante ou não.<br /> 
Não se esqueça de colocar um nome para a coluna na célula **B1**.<br /><br />
Fazer o mesmo na planilha de Controle.

___
## Montando o Classificador Naive-Bayes

Com a base de treinamento montada, comece a desenvolver o classificador. Escreva o seu código abaixo:

Opcionalmente: 
* Limpar as mensagens removendo os caracteres: enter, :, ", ', (, ), etc. Não remover emojis.<br />
* Corrigir separação de espaços entre palavras e/ou emojis.
* Propor outras limpezas/transformações que não afetem a qualidade da informação.



In [2]:
dados = pd.read_excel('bobs.xlsx')


In [3]:
for i in range(len(dados)):
    caract=[',',';','.','!','?',"(",")", ':', '"', "'"]
    palavras = dados.Treinamento[i].split()
    palavrascerto=[]
    final=[]
    for x in palavras:
        lista=[]
        for a in range(len(x)):
            lista.append(x[a])
            
        palavrascerto.append(lista)

    for z in palavrascerto:
        for w in z:
            if w in caract:

                d=z.index(w)
                z[d] = ' '
    for q in range(len(palavrascerto)):
        junto = ''.join(palavrascerto[q])
        if len(junto)!=0:
            if junto[0] !='@' and junto[0:5]!='https' and junto!= 'rt' and junto[0:3]!='kkk':
                final.append(junto)
                
            
    dados.Treinamento[i] = ' '.join(final)
dados

Unnamed: 0,Treinamento,relevancia
0,bobs é mt ruim mc&gt,r
1,sonhei com a namorada ideal rolê kunk bobs...,r
2,peguei vários cupuns do bobs no jornal metro,i
3,trabalhei no bobs e carrefour quando mlk e foi...,i
4,tô matando por um milkshake do bobs,r
5,a gnt toma um cafézin vai no bobs compra 770ml...,r
6,vem me buscar hj q te dou um bobs 😍,r
7,oxe é só marcar presença lá em alguma festinh...,i
8,eu queria um milkshake de ovomaltine do bobs,r
9,fui no bobs secão quando cheguei lá tava fechado,i


In [4]:
relevante = dados[dados.relevancia=='r'].Treinamento
irrelevante = dados[dados.relevancia=='i'].Treinamento
relevante

0                                 bobs é mt ruim  mc&gt 
1      sonhei com a namorada ideal   rolê  kunk  bobs...
4                    tô matando por um milkshake do bobs
5      a gnt toma um cafézin vai no bobs compra 770ml...
6                    vem me buscar hj q te dou um bobs 😍
8           eu queria um milkshake de ovomaltine do bobs
10     fica a dúvida  comprar um milkshake no bobs ou...
11     as vezes tudo que uma pessoa precisa eh de um ...
12            esse milkshake do bobs é o melhor do mundo
14                                      tô aki no bobs 😍
15                              to afim de comer no bobs
17                      comprei aquele milkshake do bobs
20                                      lanchei no bobs😋
25     se a bobs fosse um pouco maos perto do trabalh...
33     pronto  pedi um lanche do bobs só assim pra ag...
35     se for por lanche serei eu ne laís   so pelos ...
36                eu querendo uns bobs um cineminha afff
38            eu e marcelo tamo

In [5]:
rel = []
for msg in relevante:
    palavras = msg.split()
    for x in palavras:
        rel.append(x)
novo = pd.DataFrame({"Treinamento":rel}).Treinamento.value_counts()/len(rel)*100

novo

irrel = []
for msg in irrelevante:
    palavras = msg.split()
    for x in palavras:
        irrel.append(x)
novo2 = pd.DataFrame({"Treinamento":irrel}).Treinamento.value_counts()/len(irrel)*100

novo2


bobs          7.945071
no            3.040706
de            2.354095
do            2.206964
a             2.010790
e             2.010790
eu            1.814615
o             1.716528
um            1.618440
que           1.471309
com           1.128004
na            0.980873
q             0.931829
me            0.882786
pra           0.882786
em            0.735655
é             0.686611
da            0.686611
vou           0.637567
só            0.588524
to            0.539480
uma           0.539480
se            0.490436
não           0.490436
minha         0.490436
mas           0.490436
aqui          0.490436
n             0.441393
tem           0.441393
tava          0.392349
                ...   
real          0.049044
#mikarol      0.049044
pelo          0.049044
atrás         0.049044
cine          0.049044
porção        0.049044
dnª           0.049044
futebol       0.049044
tomamos       0.049044
tou           0.049044
risada        0.049044
🌪️            0.049044
alana      

___
## Verificando a performance

Agora você deve testar o seu Classificador com a base de Testes.<br /><br /> 

Você deve extrair as seguintes medidas:
* Porcentagem de positivos falsos (marcados como relevante mas não são relevantes)
* Porcentagem de positivos verdadeiros (marcado como relevante e são relevantes)
* Porcentagem de negativos verdadeiros (marcado como não relevante e não são relevantes)
* Porcentagem de negativos falsos (marcado como não relevante e são relevantes)

Opcionalmente:
* Criar categorias intermediárias de relevância baseado na diferença de probabilidades. Exemplo: muito relevante, relevante, neutro, irrelevante e muito irrelevante.

___
## Concluindo

Escreva aqui a sua conclusão.<br /> 
Faça um comparativo qualitativo sobre as medidas obtidas.<br />
Explique como são tratadas as mensagens com dupla negação e sarcasmo.<br />
Proponha um plano de expansão. Por que eles devem continuar financiando o seu projeto?<br />

Opcionalmente: 
* Discorrer por que não posso alimentar minha base de Treinamento automaticamente usando o próprio classificador, aplicado a novos tweets.
* Propor diferentes cenários de uso para o classificador Naive-Bayes. Cenários sem intersecção com este projeto.
* Sugerir e explicar melhorias reais no classificador com indicações concretas de como implementar (não é preciso codificar, mas indicar como fazer e material de pesquisa sobre o assunto).
