# Projeto 2 - Classificador Automático de Sentimento

Você foi contratado por uma empresa parar analisar como os clientes estão reagindo a um determinado produto no Twitter. A empresa deseja que você crie um programa que irá analisar as mensagens disponíveis e classificará como "relevante" ou "irrelevante". Com isso ela deseja que mensagens negativas, que denigrem o nome do produto, ou que mereçam destaque, disparem um foco de atenção da área de marketing.<br /><br />
Como aluno de Ciência dos Dados, você lembrou do Teorema de Bayes, mais especificamente do Classificador Naive-Bayes, que é largamente utilizado em filtros anti-spam de e-mails. O classificador permite calcular qual a probabilidade de uma mensagem ser relevante dadas as palavras em seu conteúdo.<br /><br />
Para realizar o MVP (*minimum viable product*) do projeto, você precisa implementar uma versão do classificador que "aprende" o que é relevante com uma base de treinamento e compara a performance dos resultados com uma base de testes.<br /><br />
Após validado, o seu protótipo poderá também capturar e classificar automaticamente as mensagens da plataforma.

## Informações do Projeto

Prazo: 13/Set até às 23:59.<br />
Grupo: 1 ou 2 pessoas.<br /><br />
Entregáveis via GitHub: 
* Arquivo notebook com o código do classificador, seguindo as orientações abaixo.
* Arquivo Excel com as bases de treinamento e teste totalmente classificado.

**NÃO disponibilizar o arquivo com os *access keys/tokens* do Twitter.**


### Check 3: 

Até o dia 06 de Setembro às 23:59, o notebook e o xlsx devem estar no Github com as seguintes evidências: 
    * Conta no twitter criada.
    * Produto escolhido.
    * Arquivo Excel contendo a base de treinamento e teste já classificado.

Sugestão de leitura:<br />
http://docs.tweepy.org/en/v3.5.0/index.html<br />
https://monkeylearn.com/blog/practical-explanation-naive-bayes-classifier/

___

## Preparando o ambiente

Instalando a biblioteca *tweepy* para realizar a conexão com o Twitter:

In [1]:
%%capture

#Instalando o tweepy
!pip install tweepy

Importando as Bibliotecas que serão utilizadas. Esteja livre para adicionar outras.

In [2]:
import tweepy
import math
import os.path
import pandas as pd
import json
import numpy as np
from random import shuffle

___
## Autenticando no  Twitter

Para realizar a captura dos dados é necessário ter uma conta cadastrada no twitter:

* Conta: ***[Preencha aqui o id da sua conta. Ex: @fulano ]***


1. Caso ainda não tenha uma: https://twitter.com/signup
1. Depois é necessário registrar um app para usar a biblioteca: https://apps.twitter.com/
1. Dentro do registro do App, na aba Keys and Access Tokens, anotar os seguintes campos:
    1. Consumer Key (API Key)
    1. Consumer Secret (API Secret)
1. Mais abaixo, gere um Token e anote também:
    1. Access Token
    1. Access Token Secret
    
1. Preencha os valores no arquivo "auth.pass"

**ATENÇÃO**: Nunca divulgue os dados desse arquivo online (GitHub, etc). Ele contém as chaves necessárias para realizar as operações no twitter de forma automática e portanto é equivalente a ser "hackeado". De posse desses dados, pessoas mal intencionadas podem fazer todas as operações manuais (tweetar, seguir, bloquear/desbloquear, listar os seguidores, etc). Para efeito do projeto, esse arquivo não precisa ser entregue!!!

In [3]:
#Dados de autenticação do twitter:

#Coloque aqui o identificador da conta no twitter: @gpizzigh

#leitura do arquivo no formato JSON
with open('auth.pass') as fp:    
    data = json.load(fp)

#Configurando a biblioteca. Não modificar
auth = tweepy.OAuthHandler(data['consumer_key'], data['consumer_secret'])
auth.set_access_token(data['access_token'], data['access_token_secret'])

___
## Coletando Dados

Agora vamos coletar os dados. Tenha em mente que dependendo do produto escolhido, não haverá uma quantidade significativa de mensagens, ou ainda poder haver muitos retweets.<br /><br /> 
Configurando:

In [4]:
#Produto escolhido:
produto = 'asus'

#Quantidade mínima de mensagens capturadas:
n = 500
#Quantidade mínima de mensagens para a base de treinamento:
t = 300

#Filtro de língua, escolha uma na tabela ISO 639-1.
lang = 'pt'

Capturando os dados do twitter:

In [5]:
#Cria um objeto para a captura
api = tweepy.API(auth)

#Inicia a captura, para mais detalhes: ver a documentação do tweepy
i = 1
msgs = []
for msg in tweepy.Cursor(api.search, q=produto, lang=lang).items():    
    msgs.append(msg.text.lower())
    i += 1
    if i > n:
        break

#Embaralhando as mensagens para reduzir um possível viés
shuffle(msgs)

Salvando os dados em uma planilha Excel:

In [6]:
#Verifica se o arquivo não existe para não substituir um conjunto pronto
if not os.path.isfile('./{0}.xlsx'.format(produto)):
    
    #Abre o arquivo para escrita
    writer = pd.ExcelWriter('{0}.xlsx'.format(produto))

    #divide o conjunto de mensagens em duas planilhas
    dft = pd.DataFrame({'Treinamento' : pd.Series(msgs[:t])})
    dft.to_excel(excel_writer = writer, sheet_name = 'Treinamento', index = False)

    dfc = pd.DataFrame({'Teste' : pd.Series(msgs[t:])})
    dfc.to_excel(excel_writer = writer, sheet_name = 'Teste', index = False)

    #fecha o arquivo
    writer.save()

___
## Classificando as Mensagens

Agora você deve abrir o arquivo Excel com as mensagens capturadas e classificar na Coluna B se a mensagem é relevante ou não.<br /> 
Não se esqueça de colocar um nome para a coluna na célula **B1**.<br /><br />
Fazer o mesmo na planilha de Controle.

___
## Montando o Classificador Naive-Bayes

Com a base de treinamento montada, comece a desenvolver o classificador. Escreva o seu código abaixo:

Opcionalmente: 
* Limpar as mensagens removendo os caracteres: enter, :, ", ', (, ), etc. Não remover emojis.<br />
* Corrigir separação de espaços entre palavras e/ou emojis.
* Propor outras limpezas/transformações que não afetem a qualidade da informação.



In [7]:
print('Esperamos trabalhar no diretório')
print(os.getcwd())

Esperamos trabalhar no diretório
C:\Users\Faculdade\Documents\2º Semestre\Ciência dos Dados\GitHub\CD-Projeto-2\ciencia-dos-dados


In [8]:
dt = pd.read_excel('asus.xlsx',sep = ',')
#dt = dt.Treinamento.str.strip(',')
dt.Treinamento = dt.Treinamento.replace(',','',regex=True)
dt.Treinamento = dt.Treinamento.replace('@','',regex=True)
dt.Treinamento = dt.Treinamento.replace(';','',regex=True)
dt.Treinamento = dt.Treinamento.replace('  ','',regex=True)
dt.Treinamento = dt.Treinamento.replace(':','',regex=True)
dt.Treinamento = dt.Treinamento.replace('"','',regex=True)
dt.Treinamento = dt.Treinamento.replace('\\*','',regex=True)
dt.Treinamento = dt.Treinamento.replace('\*','',regex=True)
dt.Treinamento = dt.Treinamento.replace('_','',regex=True)
dt.Treinamento = dt.Treinamento.replace('\$','',regex=True)
dt.Treinamento = dt.Treinamento.replace('rt','',regex=True)
dt.Treinamento = dt.Treinamento.replace('//','',regex=True)
dt.Treinamento = dt.Treinamento.replace('/','',regex=True)
dt.Treinamento = dt.Treinamento.replace('https','',regex=True)
dt.Treinamento = dt.Treinamento.replace('#','',regex=True)
dt.Treinamento = dt.Treinamento.replace('\(','',regex=True)
dt.Treinamento = dt.Treinamento.replace('\)','',regex=True)
dt.Treinamento = dt.Treinamento.replace('\'','',regex=True)
dt.Treinamento = dt.Treinamento.replace('\?','',regex=True)
dt.Treinamento = dt.Treinamento.replace('\-','',regex=True)
dt.Treinamento = dt.Treinamento.replace('!','',regex=True)
dt.Treinamento = dt.Treinamento.replace('\n','',regex=True) #pode dar erro 
dt

Unnamed: 0,Treinamento,Relevancia
0,ahórrate 6330€ comprando asus vg248qe 24 negro...,N
1,meidzzow cara eu iria de asusbenq. mas dizem q...,S
2,que saudade das foto quadradinha asus por favo...,S
3,me acabo de comprar esta maravilla. asus 239vx...,S
4,brigado asus pelo celular acabei de adquiri um...,S
5,se ainda não conheces as novidades asus aprese...,N
6,gleisonjsilva os seguintes dispositivos estão ...,N
7,logggaming inscreva agora soeio placa de víde...,N
8,asus lança os novos notebooks para jogos rog s...,N
9,placa de vídeo asus geforce ... apenas r2099.0...,N


In [9]:
coluna_tre = pd.Series(np.sum(dt.Treinamento + " ").split())
coluna_rel = pd.Series(np.sum(dt.Relevancia + " ").split())

In [10]:
coluna_tre.value_counts()


asus                     277
de                       152
vídeo                     96
e                         72
um                        64
a                         60
o                         60
agora                     58
4gb                       56
que                       54
gtx                       53
placa                     53
128bits                   52
1050                      52
ti                        52
gddr5                     51
soeio                     50
inscrevase                49
inscreva                  49
logggaming                49
t.…                       49
t.cowmx1gxcbfa            49
youtube                   47
do                        46
da                        45
zenfone                   43
gostei                    40
é                         38
com                       36
flip                      32
                        ... 
cover                      1
tablet                     1
nossa                      1
pode          

In [11]:
prob = coluna_rel.value_counts('S')
coluna_rel

0      N
1      S
2      S
3      S
4      S
5      N
6      N
7      N
8      N
9      N
10     S
11     N
12     N
13     S
14     N
15     N
16     N
17     N
18     N
19     N
20     N
21     N
22     S
23     N
24     N
25     N
26     N
27     N
28     N
29     N
      ..
270    N
271    N
272    N
273    N
274    S
275    S
276    N
277    N
278    N
279    S
280    N
281    N
282    S
283    N
284    S
285    N
286    N
287    N
288    N
289    N
290    N
291    N
292    N
293    S
294    S
295    N
296    S
297    N
298    N
299    N
Length: 300, dtype: object

In [12]:
# probabilidade de relevantes do total 
p_S = prob.iloc[1]
p_N = prob.iloc[0]
print('probabilidade de relevantes do total : {0}'.format(p_S))
print('probabilidade de irrelevantes do total : {0}'.format(p_N))

probabilidade de relevantes do total : 0.26
probabilidade de irrelevantes do total : 0.74


In [13]:
dt_rele = dt[dt.Relevancia == 'S']
dt_rele


Unnamed: 0,Treinamento,Relevancia
1,meidzzow cara eu iria de asusbenq. mas dizem q...,S
2,que saudade das foto quadradinha asus por favo...,S
3,me acabo de comprar esta maravilla. asus 239vx...,S
4,brigado asus pelo celular acabei de adquiri um...,S
10,cada vez mais decepcionada com a asus asusbr,S
13,submarino comprei com vcs um not asus que de b...,S
22,saudades do meu asus,S
30,tô ligando pra asus e espero resolver meu prob...,S
31,enfim asusbb novo,S
35,adrieldutra asus tão potente q não aguentou a ...,S


In [14]:
dt_irrele = dt[dt.Relevancia == 'N']
dt_irrele

Unnamed: 0,Treinamento,Relevancia
0,ahórrate 6330€ comprando asus vg248qe 24 negro...,N
5,se ainda não conheces as novidades asus aprese...,N
6,gleisonjsilva os seguintes dispositivos estão ...,N
7,logggaming inscreva agora soeio placa de víde...,N
8,asus lança os novos notebooks para jogos rog s...,N
9,placa de vídeo asus geforce ... apenas r2099.0...,N
11,logggaming inscreva agora soeio placa de víde...,N
12,gostei de um vídeo youtube t.cojjnall6nzj send...,N
14,poátil asus x555qgxo052 1.780.000 en compunota...,N
15,asus revela roteador com a nova geração do wif...,N


In [15]:
# total de relevantes
lista_rel = np.sum(dt_rele.Treinamento + " ").split()
coluna_r = pd.Series(lista_rel)
coluna_r.value_counts()

asus                 69
o                    38
de                   38
que                  28
da                   26
a                    25
e                    24
um                   20
não                  16
celular              15
é                    15
eu                   12
do                   12
q                    11
pra                  10
meu                   9
tem                   9
mais                  8
uma                   8
zenfone               8
asusbr                8
com                   8
se                    7
comprar               7
me                    6
marcelcampos          6
muito                 6
mas                   6
os                    6
vou                   5
                     ..
começo                1
vi                    1
selfie                1
tambem                1
relaciona             1
arrependimento        1
merda                 1
apena                 1
sugestão              1
berlin                1
contrano        

In [16]:
total_rel = len(lista_rel)
total_rel

1190

In [17]:
#total de irrelevantes
lista_ir = np.sum(dt_irrele.Treinamento + " ").split()
coluna_ir = pd.Series(lista_ir)
coluna_ir.value_counts()
lista_ir.count('asus')

208

In [18]:
total_irre = len(lista_ir)
total_irre

3193

In [45]:
b = '@marcelcampos @asusbr pela quantidade de aparelhos q vi c esse problema,(todos z3z q pude testar),só falta alguém a… https://t.co/nwh4q24ddu'
a = 'rt @logggaming: inscreva agora!! sorteio placa de vídeo asus gtx 1050 ti 4gb 128bits gddr5 inscreva-se'
def function(a):
    f = a.split(' ')
    prob_r = []
    prob_i = []
    for i in range(len(f)):    
        prob_r.append((lista_rel.count(f[i])+1)/(total_rel+1))
        prob_i.append((lista_ir.count(f[i])+1)/(total_irre+1))
    P_r = np.prod(prob_r)
    P_i = np.prod(prob_i)
    if P_r > P_i:
        return "S"
    else:
        return "N"
#function(a)
function(b)

'S'

### Teste Para Machine Learning  

In [65]:
dte = pd.read_excel('asus.xlsx',sheetname = 'Teste',sep = ',')
dte['Machine'] = ''
dte.Teste = dte.Teste.replace(',','',regex=True)
dte.Teste = dte.Teste.replace('@','',regex=True)
dte.Teste = dte.Teste.replace(';','',regex=True)
dte.Teste = dte.Teste.replace('  ','',regex=True)
dte.Teste = dte.Teste.replace(':','',regex=True)
dte.Teste = dte.Teste.replace('"','',regex=True)
dte.Teste = dte.Teste.replace('\\*','',regex=True)
dte.Teste = dte.Teste.replace('\*','',regex=True)
dte.Teste = dte.Teste.replace('_','',regex=True)
dte.Teste = dte.Teste.replace('\$','',regex=True)
dte.Teste = dte.Teste.replace('rt','',regex=True)
dte.Teste = dte.Teste.replace('//','',regex=True)
dte.Teste = dte.Teste.replace('/','',regex=True)
dte.Teste = dte.Teste.replace('https','',regex=True)
dte.Teste = dte.Teste.replace('#','',regex=True)
dte.Teste = dte.Teste.replace('\(','',regex=True)
dte.Teste = dte.Teste.replace('\)','',regex=True)
dte.Teste = dte.Teste.replace('\'','',regex=True)
dte.Teste = dte.Teste.replace('\?','',regex=True)
dte.Teste = dte.Teste.replace('\-','',regex=True)
dte.Teste = dte.Teste.replace('!','',regex=True)
dte.Teste = dte.Teste.replace('\n','',regex=True)
dte

Unnamed: 0,Teste,Relevancia,Machine
0,logggaming inscreva agora soeio placa de víde...,N,
1,incrível relógio asus zenwatch3 preto ótimo pr...,N,
2,gostei de um vídeo youtube t.coe1fugnqonz hist...,N,
3,asus full hd negro 24 pulgadas gamer t.cozpmz...,N,
4,[bios]asus x401a rev. 2.0acesse agora t.coen6w...,N,
5,logggaming inscreva agora soeio placa de víde...,N,
6,gostei de um vídeo youtube t.covvjqtzzohg de p...,N,
7,asus revela roteador com a nova geração do wif...,N,
8,novos asus zenbook flip 14 flip15 e flip s os ...,N,
9,flawalyss um da asus mas não sei o modelo kkkkkkk,N,


In [66]:
# isolando frases
pal = []
for f in range(len(dte.Teste)):
    #lendo cada frase e retornado se é Relevante ou Não
    pal.append(function(dt.Teste[f]))
    print(function(dt.Teste[f]))



N
S
N
S
S
N
S
N
N
S
S
S
S
N
S
S
S
N
S
S
S
S
S
S
S
S
S
S
N
N
S
S
S
S
S
S
N
S
S
S
N
S
N
S
S
S
S
N
S
S
N
S
N
S
S
S
N
N
S
S
N
S
N
S
S
S
S
S
S
N
S
S
S
N
N
N
N
S
S
N
S
S
S
S
S
N
S
S
S
S
S
S
S
N
N
S
S
S
N
S
S
S
N
S
S
S
N
S
N
S
N
S
S
N
N
N
S
S
N
S
N
S
S
S
S
S
S
S
S
S
S
N
S
N
N
N
N
N
N
S
S
S
N
S
S
S
S
N
N
S
S
N
S
S
N
S
N
N
N
S
S
S
N
S
S
S
N
S
N
S
S
N
S
N
S
N
N
S
N
N
N
N
N
N
S
S
S
N
S
S
S
S
N
N
N
S
N
N
S
S


In [68]:
#adicionando ao DataFrame
dte["Machine"] = pd.Series(pal)
#dte = dte.add(pal) # ERRO
dte

Unnamed: 0,Teste,Relevancia,Machine
0,logggaming inscreva agora soeio placa de víde...,N,N
1,incrível relógio asus zenwatch3 preto ótimo pr...,N,S
2,gostei de um vídeo youtube t.coe1fugnqonz hist...,N,N
3,asus full hd negro 24 pulgadas gamer t.cozpmz...,N,S
4,[bios]asus x401a rev. 2.0acesse agora t.coen6w...,N,S
5,logggaming inscreva agora soeio placa de víde...,N,N
6,gostei de um vídeo youtube t.covvjqtzzohg de p...,N,S
7,asus revela roteador com a nova geração do wif...,N,N
8,novos asus zenbook flip 14 flip15 e flip s os ...,N,N
9,flawalyss um da asus mas não sei o modelo kkkkkkk,N,S


___
## Verificando a performance

Agora você deve testar o seu Classificador com a base de Testes.<br /><br /> 

Você deve extrair as seguintes medidas:
* Porcentagem de positivos falsos (marcados como relevante mas não são relevantes)
* Porcentagem de positivos verdadeiros (marcado como relevante e são relevantes)
* Porcentagem de negativos verdadeiros (marcado como não relevante e não são relevantes)
* Porcentagem de negativos falsos (marcado como não relevante e são relevantes)

Opcionalmente:
* Criar categorias intermediárias de relevância baseado na diferença de probabilidades. Exemplo: muito relevante, relevante, neutro, irrelevante e muito irrelevante.

In [90]:
#Testes ignorar
a = 100
b = 100
#print(dte.Relevancia[a])
#print(dte.Machine[b])
#if dte.Relevancia[a] == dte.Machine[b]:
    #print('True')
#else:
    #print('False')
#--------------------------------------------
#Criando laços For
for g in range(len(dte.Teste)):
    if dte.Relevancia[g] == dte.Machine[g]:
        print('True')
    else:
        print('False')
 
    

True
False
True
False
False
True
False
True
True
False
True
False
False
True
False
True
False
True
True
False
False
False
True
False
False
False
False
False
True
True
False
False
True
False
False
True
True
True
False
False
True
False
True
True
False
False
False
True
False
False
True
False
True
False
False
False
True
True
False
True
True
True
True
False
False
False
True
False
False
True
True
False
True
True
True
True
True
False
False
True
False
False
False
False
True
True
False
False
True
False
False
False
False
True
True
True
False
False
True
False
False
True
True
False
True
False
True
False
True
False
True
False
False
True
True
True
False
False
True
False
True
False
True
False
True
False
False
False
False
True
False
True
True
True
True
True
True
True
True
False
False
False
True
True
True
False
True
True
True
True
False
True
False
False
True
False
True
True
True
False
False
False
True
False
True
True
True
False
True
True
False
True
False
True
False
True
True
True
True
True
True
True
Tr

In [None]:
#criaçao de variaveis
p_pf = 
p_pv =
p_nf =
p_nv = 

___
## Concluindo

Escreva aqui a sua conclusão.<br /> 
Faça um comparativo qualitativo sobre as medidas obtidas.<br />
Explique como são tratadas as mensagens com dupla negação e sarcasmo.<br />
Proponha um plano de expansão. Por que eles devem continuar financiando o seu projeto?<br />

Opcionalmente: 
* Discorrer por que não posso alimentar minha base de Treinamento automaticamente usando o próprio classificador, aplicado a novos tweets.
* Propor diferentes cenários de uso para o classificador Naive-Bayes. Cenários sem intersecção com este projeto.
* Sugerir e explicar melhorias reais no classificador com indicações concretas de como implementar (não é preciso codificar, mas indicar como fazer e material de pesquisa sobre o assunto).
