# Projeto 2 - Classificador Automático de Sentimento

Você foi contratado por uma empresa parar analisar como os clientes estão reagindo a um determinado produto no Twitter. A empresa deseja que você crie um programa que irá analisar as mensagens disponíveis e classificará como "relevante" ou "irrelevante". Com isso ela deseja que mensagens negativas, que denigrem o nome do produto, ou que mereçam destaque, disparem um foco de atenção da área de marketing.<br /><br />
Como aluno de Ciência dos Dados, você lembrou do Teorema de Bayes, mais especificamente do Classificador Naive-Bayes, que é largamente utilizado em filtros anti-spam de e-mails. O classificador permite calcular qual a probabilidade de uma mensagem ser relevante dadas as palavras em seu conteúdo.<br /><br />
Para realizar o MVP (*minimum viable product*) do projeto, você precisa implementar uma versão do classificador que "aprende" o que é relevante com uma base de treinamento e compara a performance dos resultados com uma base de testes.<br /><br />
Após validado, o seu protótipo poderá também capturar e classificar automaticamente as mensagens da plataforma.

## Informações do Projeto

Prazo: 13/Set até às 23:59.<br />
Grupo: 1 ou 2 pessoas.<br /><br />
Entregáveis via GitHub: 
* Arquivo notebook com o código do classificador, seguindo as orientações abaixo.
* Arquivo Excel com as bases de treinamento e teste totalmente classificado.

**NÃO disponibilizar o arquivo com os *access keys/tokens* do Twitter.**


### Check 3: 

Até o dia 06 de Setembro às 23:59, o notebook e o xlsx devem estar no Github com as seguintes evidências: 
    * Conta no twitter criada.
    * Produto escolhido.
    * Arquivo Excel contendo a base de treinamento e teste já classificado.

Sugestão de leitura:<br />
http://docs.tweepy.org/en/v3.5.0/index.html<br />
https://monkeylearn.com/blog/practical-explanation-naive-bayes-classifier/

___

## Preparando o ambiente

Instalando a biblioteca *tweepy* para realizar a conexão com o Twitter:

In [1]:
%%capture

#Instalando o tweepy
!pip install tweepy

Importando as Bibliotecas que serão utilizadas. Esteja livre para adicionar outras.

In [2]:
import tweepy
import math
import os.path
import pandas as pd
import json
from random import shuffle

___
## Autenticando no  Twitter

Para realizar a captura dos dados é necessário ter uma conta cadastrada no twitter:

* Conta: ***@arthur_juan***


1. Caso ainda não tenha uma: https://twitter.com/signup
1. Depois é necessário registrar um app para usar a biblioteca: https://apps.twitter.com/
1. Dentro do registro do App, na aba Keys and Access Tokens, anotar os seguintes campos:
    1. Consumer Key (API Key)
    1. Consumer Secret (API Secret)
1. Mais abaixo, gere um Token e anote também:
    1. Access Token
    1. Access Token Secret
    
1. Preencha os valores no arquivo "auth.pass"

**ATENÇÃO**: Nunca divulgue os dados desse arquivo online (GitHub, etc). Ele contém as chaves necessárias para realizar as operações no twitter de forma automática e portanto é equivalente a ser "hackeado". De posse desses dados, pessoas mal intencionadas podem fazer todas as operações manuais (tweetar, seguir, bloquear/desbloquear, listar os seguidores, etc). Para efeito do projeto, esse arquivo não precisa ser entregue!!!

___
## Coletando Dados

Agora vamos coletar os dados. Tenha em mente que dependendo do produto escolhido, não haverá uma quantidade significativa de mensagens, ou ainda poder haver muitos retweets.<br /><br /> 
Configurando:

Capturando os dados do twitter:

Salvando os dados em uma planilha Excel:

___
## Classificando as Mensagens

Agora você deve abrir o arquivo Excel com as mensagens capturadas e classificar na Coluna B se a mensagem é relevante ou não.<br /> 
Não se esqueça de colocar um nome para a coluna na célula **B1**.<br /><br />
Fazer o mesmo na planilha de Controle.

___
## Montando o Classificador Naive-Bayes

Com a base de treinamento montada, comece a desenvolver o classificador. Escreva o seu código abaixo:

Opcionalmente: 
* Limpar as mensagens removendo os caracteres: enter, :, ", ', (, ), etc. Não remover emojis.<br />
* Corrigir separação de espaços entre palavras e/ou emojis.
* Propor outras limpezas/transformações que não afetem a qualidade da informação.



In [1]:
import pandas as pd

dados = pd.read_excel('Planilha-Teste.xlsx')




dados['Treinamento'] = dados['Treinamento'].map(lambda x: x.lstrip('rt'))


#dados['Treinamento'].str.replace('[":",";","[","]"]', '')



df = pd.DataFrame({"Treinamento":[]})
formatado=[]
formatado2=[]

for i in range(len(dados)):
    formatado.append(dados['Treinamento'][i].translate({ord(c): None for c in "@:;,[]“/{}()+=-_*"}))
    formatado2.append(dados['Relevância'][i])
df["Treinamento"]=formatado
df["Relevância"]=formatado2




#df['range'] = df['range'].str.replace(',','-')

df

Unnamed: 0,Treinamento,Relevância
0,A A A,1
1,A A,1
2,A,1
3,A C,1
4,A A C,1
5,B,0
6,B B,0
7,B B B,0
8,B C,0
9,B B C,0


In [10]:
pR = []
pIR = []


for i in range(len(dados)):
    if df["Relevância"][i] == 0:
        pIR.append(df['Treinamento'][i])
    else:
        pR.append(df['Treinamento'][i])


lpr = []
lpir = []


PR = (7/18)
PIR = (18 - 7)/18





for i in range(len(pR)):
    lpr += pR[i].split()

for i in range(len(pIR)):
    lpir += pIR[i].split()
    
#palaras_delete = ["a","i","o","on","who","has","in","it","now","as","me","same","day","too"]
#stopwords = ["htc",'vive','']




    
#print(lpr)
from collections import Counter

fr  = Counter(lpr)
fir = Counter(lpir)
print(fr)
#print(fir)

dicta = {}

dfqr = {}

for k,v in fr.items():
    dfqr[k] = v

    

dfqir = {}

for k,v in fir.items():
    dfqir[k] = v

    
#x = len(lpr)
#print(x)

#dfpr = pd.DataFrame()
#dfpi = pd.DataFrame()
#dfpr["R"]=lpr
#dfpi["IR"]=lpir

#dfpr.describe()



#for i in range(3):
#    print(fr[i]/250)
#print(len(lpir))
#print(fir) 
#print(dfqir)







Counter({'A': 12, 'C': 4, 'B': 1})


In [11]:
#dfqr = {}

#for k,v in fr.items():
#    dfqr[k] = v

    

#dfqir = {}
#
#for k,v in fir.items():
#    dfqir[k] = v



print(fr)
print(fr[1])


Counter({'A': 12, 'C': 4, 'B': 1})
0


In [12]:
palavrasR = len(lpr)
palavrasIR = len(lpir)
listu = Counter(lpr + lpir)

print(palavrasR)
print(1/(len(listu)+palavrasIR))

17
0.03571428571428571


In [18]:

listu = Counter(lpr + lpir)
total = len(listu)
palavrasR = len(lpr)
palavrasIR = len(lpir)

stringy = "A A A A D D D "


listp = stringy.split()

x = PR
y = PIR


listR = [x]
listIR = [y]


for i in range(len(listp)):
    if listp[i] in lpr:
        listR.append((fr[listp[i]]+1)/(total+palavrasR))
        print(listp[i] + " Ser relevante")
        print(listR[i+1])
        print("   ")
    else:
        listR.append(1/(total+palavrasR))
        
        
for i in range(len(listp)):
    if listp[i] in lpir:
        
        
        listIR.append((fir[listp[i]]+1)/(total+palavrasIR))
        print(listp[i] + " Ser Irelevante")
        print(listIR[i+1])
        print("   ")
    else:
        listIR.append(1/(total+palavrasIR))
        #print("N TEM")
        #print(listIR[i])
        
x = PR
y = PIR

print(listR)
print(listIR)        
for i in range(len(listR)):
    x*=listR[i]
    y*=listIR[i]
    #print(x,"{}".format(i))
    #print(y)

    
#print(PRP)
#print(PIRP)

if x > y:
    print("Relevante")
else:
    print("Irrelevante")
print(x,y)

A Ser relevante
0.65
   
A Ser relevante
0.65
   
A Ser relevante
0.65
   
A Ser relevante
0.65
   
A Ser Irelevante
0.10714285714285714
   
A Ser Irelevante
0.10714285714285714
   
A Ser Irelevante
0.10714285714285714
   
A Ser Irelevante
0.10714285714285714
   
[0.3888888888888889, 0.65, 0.65, 0.65, 0.65, 0.05, 0.05, 0.05]
[0.6111111111111112, 0.10714285714285714, 0.10714285714285714, 0.10714285714285714, 0.10714285714285714, 0.03571428571428571, 0.03571428571428571, 0.03571428571428571]
Relevante
3.37453944830247e-06 2.241915087084098e-09


___
## Verificando a performance

Agora você deve testar o seu Classificador com a base de Testes.<br /><br /> 

Você deve extrair as seguintes medidas:
* Porcentagem de positivos falsos (marcados como relevante mas não são relevantes)
* Porcentagem de positivos verdadeiros (marcado como relevante e são relevantes)
* Porcentagem de negativos verdadeiros (marcado como não relevante e não são relevantes)
* Porcentagem de negativos falsos (marcado como não relevante e são relevantes)

Opcionalmente:
* Criar categorias intermediárias de relevância baseado na diferença de probabilidades. Exemplo: muito relevante, relevante, neutro, irrelevante e muito irrelevante.

___
## Concluindo

Escreva aqui a sua conclusão.<br /> 
Faça um comparativo qualitativo sobre as medidas obtidas.<br />
Explique como são tratadas as mensagens com dupla negação e sarcasmo.<br />
Proponha um plano de expansão. Por que eles devem continuar financiando o seu projeto?<br />

Opcionalmente: 
* Discorrer por que não posso alimentar minha base de Treinamento automaticamente usando o próprio classificador, aplicado a novos tweets.
* Propor diferentes cenários de uso para o classificador Naive-Bayes. Cenários sem intersecção com este projeto.
* Sugerir e explicar melhorias reais no classificador com indicações concretas de como implementar (não é preciso codificar, mas indicar como fazer e material de pesquisa sobre o assunto).
