# Projeto 2 - Classificador Automático de Sentimento

Você foi contratado por uma empresa parar analisar como os clientes estão reagindo a um determinado produto no Twitter. A empresa deseja que você crie um programa que irá analisar as mensagens disponíveis e classificará como "relevante" ou "irrelevante". Com isso ela deseja que mensagens negativas, que denigrem o nome do produto, ou que mereçam destaque, disparem um foco de atenção da área de marketing.<br /><br />
Como aluno de Ciência dos Dados, você lembrou do Teorema de Bayes, mais especificamente do Classificador Naive-Bayes, que é largamente utilizado em filtros anti-spam de e-mails. O classificador permite calcular qual a probabilidade de uma mensagem ser relevante dadas as palavras em seu conteúdo.<br /><br />
Para realizar o MVP (*minimum viable product*) do projeto, você precisa implementar uma versão do classificador que "aprende" o que é relevante com uma base de treinamento e compara a performance dos resultados com uma base de testes.<br /><br />
Após validado, o seu protótipo poderá também capturar e classificar automaticamente as mensagens da plataforma.

## Informações do Projeto

Prazo: 13/Set até às 23:59.<br />
Grupo: 1 ou 2 pessoas.<br /><br />
Entregáveis via GitHub: 
* Arquivo notebook com o código do classificador, seguindo as orientações abaixo.
* Arquivo Excel com as bases de treinamento e teste totalmente classificado.

**NÃO disponibilizar o arquivo com os *access keys/tokens* do Twitter.**


### Check 3: 

Até o dia 06 de Setembro às 23:59, o notebook e o xlsx devem estar no Github com as seguintes evidências: 
    * Conta no twitter criada.
    * Produto escolhido.
    * Arquivo Excel contendo a base de treinamento e teste já classificado.

Sugestão de leitura:<br />
http://docs.tweepy.org/en/v3.5.0/index.html<br />
https://monkeylearn.com/blog/practical-explanation-naive-bayes-classifier/

___

## Preparando o ambiente

Instalando a biblioteca *tweepy* para realizar a conexão com o Twitter:

In [274]:
#capture

#Instalando o tweepy
#!pip install tweepy

Importando as Bibliotecas que serão utilizadas. Esteja livre para adicionar outras.

In [275]:
import tweepy
import math
import os.path
import pandas as pd
import json
from random import shuffle

___
## Autenticando no  Twitter

Para realizar a captura dos dados é necessário ter uma conta cadastrada no twitter:

* Conta: ***[Preencha aqui o id da sua conta. Ex: @fulano ]***


1. Caso ainda não tenha uma: https://twitter.com/signup
1. Depois é necessário registrar um app para usar a biblioteca: https://apps.twitter.com/
1. Dentro do registro do App, na aba Keys and Access Tokens, anotar os seguintes campos:
    1. Consumer Key (API Key)
    1. Consumer Secret (API Secret)
1. Mais abaixo, gere um Token e anote também:
    1. Access Token
    1. Access Token Secret
    
1. Preencha os valores no arquivo "auth.pass"

**ATENÇÃO**: Nunca divulgue os dados desse arquivo online (GitHub, etc). Ele contém as chaves necessárias para realizar as operações no twitter de forma automática e portanto é equivalente a ser "hackeado". De posse desses dados, pessoas mal intencionadas podem fazer todas as operações manuais (tweetar, seguir, bloquear/desbloquear, listar os seguidores, etc). Para efeito do projeto, esse arquivo não precisa ser entregue!!!

In [276]:
#Dados de autenticação do twitter:

#Coloque aqui o identificador da conta no twitter: @MathDuarth

#leitura do arquivo no formato JSON
with open('auth.pass') as fp:    
    data = json.load(fp)

#Configurando a biblioteca. Não modificar
auth = tweepy.OAuthHandler(data['consumer_key'], data['consumer_secret'])
auth.set_access_token(data['access_token'], data['access_token_secret'])

___
## Coletando Dados

Agora vamos coletar os dados. Tenha em mente que dependendo do produto escolhido, não haverá uma quantidade significativa de mensagens, ou ainda poder haver muitos retweets.<br /><br /> 
Configurando:

In [277]:
#Produto escolhido:
produto = 'Annabelle_2'

#Quantidade mínima de mensagens capturadas:
n = 500
#Quantidade mínima de mensagens para a base de treinamento:
t = 300

#Filtro de língua, escolha uma na tabela ISO 639-1.
lang = 'pt'

Capturando os dados do twitter:

In [278]:
#Cria um objeto para a captura
api = tweepy.API(auth)

#Inicia a captura, para mais detalhes: ver a documentação do tweepy
i = 1
msgs = []
for msg in tweepy.Cursor(api.search, q=produto, lang=lang).items():    
    msgs.append(msg.text.lower())
    i += 1
    if i > n:
        break

#Embaralhando as mensagens para reduzir um possível viés
shuffle(msgs)

Salvando os dados em uma planilha Excel:

In [279]:
#Verifica se o arquivo não existe para não substituir um conjunto pronto
if not os.path.isfile('./{0}.xlsx'.format(produto)):
    
    #Abre o arquivo para escrita
    writer = pd.ExcelWriter('{0}.xlsx'.format(produto))

    #divide o conjunto de mensagens em duas planilhas
    dft = pd.DataFrame({'Treinamento' : pd.Series(msgs[:t])})
    dft.to_excel(excel_writer = writer, sheet_name = 'Treinamento', index = False)

    dfc = pd.DataFrame({'Teste' : pd.Series(msgs[t:])})
    dfc.to_excel(excel_writer = writer, sheet_name = 'Teste', index = False)

    #fecha o arquivo
    writer.save()

___
## Classificando as Mensagens

Agora você deve abrir o arquivo Excel com as mensagens capturadas e classificar na Coluna B se a mensagem é relevante ou não.<br /> 
Não se esqueça de colocar um nome para a coluna na célula **B1**.<br /><br />
Fazer o mesmo na planilha de Controle.

___
## Montando o Classificador Naive-Bayes

Com a base de treinamento montada, comece a desenvolver o classificador. Escreva o seu código abaixo:

Opcionalmente: 
* Limpar as mensagens removendo os caracteres: enter, :, ", ', (, ), etc. Não remover emojis.<br />
* Corrigir separação de espaços entre palavras e/ou emojis.
* Propor outras limpezas/transformações que não afetem a qualidade da informação.



In [280]:
import math
import os.path
import pandas as pd
import json
from random import shuffle
from operator import mul
from functools import reduce

In [281]:
print('Esperamos trabalhar no diretório')
print(os.getcwd())

Esperamos trabalhar no diretório
C:\Users\vf_ga\OneDrive\Documentos\2º Semestre Eng\Ciencia dos Dados\GIT\CienciaDosDados\Projeto 2


In [282]:
dadosTreinamento = pd.read_excel('Annabelle_2.xlsx', sheetname="Treinamento")
dadosTreinamento.head()

Unnamed: 0,Treinamento,Relevancia
0,rt @omelete: emoji - o filme ultrapassa annabe...,Não
1,acho que vou ver annabelle 2 quinta \no cu já ...,Sim
2,"@raffaimp annabelle 2, quinta-feira 18:40. fec...",Sim
3,"nunca tive tanta vontade de ir ao cinema, quan...",Sim
4,"annabelle 2 deixou mt desejar, está mt sletzinho",Sim


In [283]:
dadosTreinamento.Treinamento.head()

0    rt @omelete: emoji - o filme ultrapassa annabe...
1    acho que vou ver annabelle 2 quinta \no cu já ...
2    @raffaimp annabelle 2, quinta-feira 18:40. fec...
3    nunca tive tanta vontade de ir ao cinema, quan...
4     annabelle 2 deixou mt desejar, está mt sletzinho
Name: Treinamento, dtype: object

In [284]:
dadosTreinamento['Treinamento'] = dadosTreinamento['Treinamento'].str.replace(",","")
dadosTreinamento['Treinamento'] = dadosTreinamento['Treinamento'].str.replace(".","")
dadosTreinamento['Treinamento'] = dadosTreinamento['Treinamento'].str.replace("'","")
dadosTreinamento['Treinamento'] = dadosTreinamento['Treinamento'].str.replace('"',"")
dadosTreinamento['Treinamento'] = dadosTreinamento['Treinamento'].str.replace("-","")
dadosTreinamento['Treinamento'] = dadosTreinamento['Treinamento'].str.replace("!","")
dadosTreinamento['Treinamento'] = dadosTreinamento['Treinamento'].str.replace("?","")
dadosTreinamento['Treinamento'] = dadosTreinamento['Treinamento'].str.replace(")","")
dadosTreinamento['Treinamento'] = dadosTreinamento['Treinamento'].str.replace("(","")
dadosTreinamento['Treinamento'] = dadosTreinamento['Treinamento'].str.replace(" a "," ")
dadosTreinamento['Treinamento'] = dadosTreinamento['Treinamento'].str.replace(" as "," ")
dadosTreinamento['Treinamento'] = dadosTreinamento['Treinamento'].str.replace(" o "," ")
dadosTreinamento['Treinamento'] = dadosTreinamento['Treinamento'].str.replace(" os "," ")
dadosTreinamento['Treinamento'] = dadosTreinamento['Treinamento'].str.lower()

dadosTreinamento.Treinamento.head()

0    rt @omelete: emoji  filme ultrapassa annabelle...
1    acho que vou ver annabelle 2 quinta \no cu já ...
2      @raffaimp annabelle 2 quintafeira 18:40 fechou 
3    nunca tive tanta vontade de ir ao cinema quant...
4      annabelle 2 deixou mt desejar está mt sletzinho
Name: Treinamento, dtype: object

In [285]:
naoRelevante=[]
relevante=[]
naoRelevanteSplit=[]
relevanteSplit=[]
listaTodasIrrelevantes=[]
listaTodasRelevantes=[]
listaTodasIrrelevantes=[]
universoGeral=[]
universoRelevanteSemRepeticao=[]
universoIrrelevanteSemRepeticao=[]
contandoCadaRelevante = {}
contandoCadaIrrelevante = {}
contantoProbabilidadeCadaPalavraRelevante = {}
contantoProbabilidadeCadaPalavraIrrelevante = {}

for i in range(len(dadosTreinamento.Treinamento)):
    if dadosTreinamento.Relevancia[i] == "Não":
        naoRelevante.append(dadosTreinamento.Treinamento[i])
    if dadosTreinamento.Relevancia[i] == "Sim":
        relevante.append(dadosTreinamento.Treinamento[i])

for i in naoRelevante:
    split = i.split()
    naoRelevanteSplit.append(split)

for i in relevante:
    split = i.split()
    relevanteSplit.append(split)
    
for i in relevanteSplit:
    for u in i:
        listaTodasRelevantes.append(u)

for i in naoRelevanteSplit:
    for u in i:
        listaTodasIrrelevantes.append(u)
        
for i in listaTodasRelevantes:
    total=listaTodasRelevantes.count(i)
    contandoCadaRelevante[i] = total

for i in listaTodasIrrelevantes:
    total=listaTodasIrrelevantes.count(i)
    contandoCadaIrrelevante[i] = total
    
universoGeral.extend(listaTodasIrrelevantes)
universoGeral.extend(listaTodasRelevantes)

In [286]:
#Geral
universoGeralSemRepeticao = set(universoGeral)
numeroGeralSemRepeticao = len(universoGeralSemRepeticao)

#Relevante
numeroRelevantesComRepeticao = len(listaTodasRelevantes)
universoRelevanteSemRepeticao = set(listaTodasRelevantes)
numeroRelevanteSemRepeticao = len(universoRelevanteSemRepeticao)

#Irrelevante
numeroIrrelevanteComRepeticao = len(listaTodasIrrelevantes)
universoIrrelevanteSemRepeticao = set(listaTodasIrrelevantes)
numeroIrrelevanteSemRepeticao = len(universoIrrelevanteSemRepeticao)

In [287]:
#serie_todas = pd.Series(universoGeral)
print(numeroGeralSemRepeticao)
print(numeroRelevanteSemRepeticao)
print(numeroIrrelevanteSemRepeticao)
print(univerRelevantesComRepetiçao)
print(universoIrrelevanteComRepeticao)

863
547
453
1640
2334


In [288]:
for i in universoRelevanteSemRepeticao:
    contantoProbabilidadeCadaPalavraRelevante[i] = (contandoCadaRelevante[i] + 1) / (numeroRelevantesComRepeticao + numeroGeralSemRepeticao)

for i in universoIrrelevanteSemRepeticao:
    contantoProbabilidadeCadaPalavraIrrelevante[i] = (contandoCadaIrrelevante[i] + 1) / (numeroIrrelevanteComRepeticao + numeroGeralSemRepeticao)


In [289]:
dadosTeste = pd.read_excel('Annabelle_2.xlsx', sheetname="Teste")
dadosTeste.head()

Unnamed: 0,Teste,Relevancia
0,"fui ver annabelle 2, e os sustos veio a tona k...",Sim
1,annabelle 2 tinha de tudo pra ser bom\nfinal ruim,Sim
2,rt @omelete: emoji - o filme ultrapassa annabe...,Não
3,"annabelle 2 é pesado, meu deus",Sim
4,rt @vemprovictor: vocês acharam annabelle 2 as...,Não


In [290]:
dadosTeste['Teste'] = dadosTeste['Teste'].str.replace(",","")
dadosTeste['Teste'] = dadosTeste['Teste'].str.replace(".","")
dadosTeste['Teste'] = dadosTeste['Teste'].str.replace("'","")
dadosTeste['Teste'] = dadosTeste['Teste'].str.replace('"',"")
dadosTeste['Teste'] = dadosTeste['Teste'].str.replace("-","")
dadosTeste['Teste'] = dadosTeste['Teste'].str.replace("!","")
dadosTeste['Teste'] = dadosTeste['Teste'].str.replace("?","")
dadosTeste['Teste'] = dadosTeste['Teste'].str.replace(")","")
dadosTeste['Teste'] = dadosTeste['Teste'].str.replace("(","")
dadosTeste['Teste'] = dadosTeste['Teste'].str.replace(" a "," ")
dadosTeste['Teste'] = dadosTeste['Teste'].str.replace(" as "," ")
dadosTeste['Teste'] = dadosTeste['Teste'].str.replace(" o "," ")
dadosTeste['Teste'] = dadosTeste['Teste'].str.replace(" os "," ")
dadosTeste['Teste'] = dadosTeste['Teste'].str.lower()

dadosTeste.Teste.head()

0       fui ver annabelle 2 e sustos veio tona kkkkkkk
1    annabelle 2 tinha de tudo pra ser bom\nfinal ruim
2    rt @omelete: emoji  filme ultrapassa annabelle...
3                        annabelle 2 é pesado meu deus
4    rt @vemprovictor: vocês acharam annabelle 2 as...
Name: Teste, dtype: object

In [291]:
listaTeste = []
tweetEmProbabilidade = []
listaProbabilidadeRevelanteTweet = []
listaProbabilidadeIrrevelanteTweet = []

for i in dadosTeste.Teste:
    splitTeste= i.split()
    listaTeste.append(splitTeste)


for tweet in listaTeste:
    for palavra in tweet:
        if palavra in universoRelevanteSemRepeticao:
            tweetEmProbabilidade.append(contantoProbabilidadeCadaPalavraRelevante[palavra])
        else:
            valor = 1 / (numeroRelevanteSemRepeticao + numeroGeralSemRepeticao)
            tweetEmProbabilidade.append(valor)
    listaProbabilidadeRevelanteTweet.append(reduce(mul,tweetEmProbabilidade))
    del tweetEmProbabilidade [:]

for tweet in listaTeste:
    for palavra in tweet:
        if palavra in universoIrrelevanteSemRepeticao:
            tweetEmProbabilidade.append(contantoProbabilidadeCadaPalavraIrrelevante[palavra])
        else:
            valor = 1 / (numeroIrrelevanteSemRepeticao + numeroGeralSemRepeticao)
            tweetEmProbabilidade.append(valor)
    listaProbabilidadeIrrevelanteTweet.append(reduce(mul,tweetEmProbabilidade))
    del tweetEmProbabilidade [:]      

In [292]:
listaFinalRelevancia = []
for i in range(len(listaTeste)):
    if listaProbabilidadeRevelanteTweet[i] > listaProbabilidadeIrrevelanteTweet[i]:
        listaFinalRelevancia.append('Sim')
    if listaProbabilidadeRevelanteTweet[i] < listaProbabilidadeIrrevelanteTweet[i]:
        listaFinalRelevancia.append('Não')
    if listaProbabilidadeRevelanteTweet[i] == listaProbabilidadeIrrevelanteTweet[i]:
        listaFinalRelevancia.append('Neutro')

In [293]:
dadosTeste["Respostas"] = pd.Series(listaFinalRelevancia)

___
## Verificando a performance

Agora você deve testar o seu Classificador com a base de Testes.<br /><br /> 

Você deve extrair as seguintes medidas:
* Porcentagem de positivos falsos (marcados como relevante mas não são relevantes)
* Porcentagem de positivos verdadeiros (marcado como relevante e são relevantes)
* Porcentagem de negativos verdadeiros (marcado como não relevante e não são relevantes)
* Porcentagem de negativos falsos (marcado como não relevante e são relevantes)

Opcionalmente:
* Criar categorias intermediárias de relevância baseado na diferença de probabilidades. Exemplo: muito relevante, relevante, neutro, irrelevante e muito irrelevante.

In [299]:
listaResultados = []
for i in range(len(listaFinalRelevancia)):
    if dadosTeste.Respostas[i] == "Sim"  and dadosTeste.Relevancia[i] == "Sim":
        listaResultados.append("Positivo")
    if dadosTeste.Respostas[i] == "Não"  and dadosTeste.Relevancia[i] == "Sim":
        listaResultados.append("Falso Negativo")
    if dadosTeste.Respostas[i] == "Sim"  and dadosTeste.Relevancia[i] == "Não":
        listaResultados.append("Falso Positivo")
    if dadosTeste.Respostas[i] == "Não"  and dadosTeste.Relevancia[i] == "Não":
        listaResultados.append("Negativo")
        
dadosTeste["Analise"] = pd.Series(listaResultados)

In [300]:
#Porcentagem de Negativos, Positivos, Falsos Postivos e Falsos Negativos
(dadosTeste.Analise.value_counts(normalize=True)*100).round(decimals=1).reindex(['Negativo', 'Positivo', 'Falso Positivo', 'Falso Negativo'])

Negativo          41.5
Positivo          40.5
Falso Positivo    11.5
Falso Negativo     6.5
Name: Analise, dtype: float64

In [302]:
writer = pd.ExcelWriter('Testanto Robo.xlsx', engine='xlsxwriter')
dadosTeste.to_excel(writer, sheet_name='Robo e Comparação')
worksheet = writer.sheets['Robo e Comparação']
worksheet.set_column('A:A', None)
worksheet.set_column('B:B', 120)
worksheet.set_column('C:C', 15)
worksheet.set_column('D:D', 15)
worksheet.set_column('E:E', 15)
writer.save()

___
## Concluindo

Escreva aqui a sua conclusão.<br /> 
Faça um comparativo qualitativo sobre as medidas obtidas.<br />
Explique como são tratadas as mensagens com dupla negação e sarcasmo.<br />
Proponha um plano de expansão. Por que eles devem continuar financiando o seu projeto?<br />

Opcionalmente: 
* Discorrer por que não posso alimentar minha base de Treinamento automaticamente usando o próprio classificador, aplicado a novos tweets.
* Propor diferentes cenários de uso para o classificador Naive-Bayes. Cenários sem intersecção com este projeto.
* Sugerir e explicar melhorias reais no classificador com indicações concretas de como implementar (não é preciso codificar, mas indicar como fazer e material de pesquisa sobre o assunto).


Após vários testes com os twitters de usuários foi possível ensinar ao computador como dizer se um certo twitter seria relevante ou não ao produto escolhido. Escolhemos o filme Annabelle 2, que como foi recém lançado estava em alta no twitter, e queríamos saber se as pessoas estavam indo ao cinema, e quando iam o que achavam do filme (se era melhor que o primeiro, se valia a pena ver, etc...), esses seriam os nossos twitter relevantes; enquanto twitter que não remetiam diretamente ao fato de uma pessoa ter ido ver o filme seriam considerados irrelevantes. Após essa separação fizemos a contagem de palavras de cada uma dessas listas (relevantes e irrelevantes) e aplicamos o Teorema de Bayes para criar o nosso Classificador Naive-Bayes. Com esse classificador pronto foi possível rodar novas listas teste sobre o filme e deixar que a máquina dissesse se os twitters recebidos eram relativos ou não, e assim foi possível comparar a saída dela com nosso conceito de relevância.

Vamos à comparação dos dados. De todos os twitters passados para o máquina; ela retornou 41,5% como negativos verdadeiros (que batem com o conceito pré-definido de irrelevância), 40,5% como positivos verdadeiros (que batem com o conceito pré-definido de relevância), 11,5% como positivos falsos (que são twitters considerados relevantes para a máquina mas não para nosso conceito) e 6,5% de negativos falsos (que são twitters considerados irrelevantes para a máquina mas são relevantes para nosso conceito). A máquina não teve 100% de acerto, mas ela também não foi 100% errada, teve exatamente 82% de acerto em relação ao conceito pré-definido de relevância e de irrelevância. Os 18% de erro podem ser considerados esperados, já que através do contador nós mostramos para a máquina a relevância de certas palavras, e muitas vezes elas podem ser intercaladas entre twitters relevantes e irrelevantes, assim "confundindo" a máquina e fazendo com que ela caracterize erroneamente alguns twitters.

Esses erros podem ser observados em twitters sarcásticos ou com dupla negação, como por exemplo: "ia assistir annabelle 2 hj mas pensei não vou gastar dinheiro". Esse twitter tem várias palavras que caem mais na parte da relevância do que da irrelevância, como: "assistir", "Annabelle", "hj", "2". Isso faz que com o contador acuse essa frase como relevante, o que para nós não é, pois queremos saber o que as pessoas estão achando do filme. Essas frases "confundem" o contador, pois ele não foi treinado para detectar sarcasmo ou dupla negação. Por isso também que fazemos uma primeira deifinição dos twitters à mão, para que seja possível comparar com as saídas feitas pela máquina, e assim acusar os positivos falsos e os negativos falsos, para que seja possível tirá-los do possível resultado, e assim apenas analisar os dados que batem com a definição.

Bem, como expansão podemos fazer algumas mudanças no projeto. Primeiro podemos começar aumentando o número de twitters recebidos e mandandos para a máquina, assim aumetando o número de palavras conhecidas no contador de Bayes (quanto mais palavras menos Laplace Smoothing será utilizado) para que ele seja cada vez mais preciso. Também podemos criar uma nova parte do projeto apenas do primeiro filme, para que possamos comparar diretamente os twitters antigos sobre o primeiro filme com os novos, tendo mais precisão na hora de saber sobre qual ficou melhor, e o que ainda há de melhorar. O financiamento deve continuar para o projeto para que seja possível continuar a pesquisa sobre a satisfação que o filme está trazendo as pessoas, e sobre formas de melhorar uma possível sequência. Financiar esse projeto pode trazer um grande lucro para uma sequência do filme (para que acertem no que colocar ou não no filme), ou salvar a empresa de um grande prejuízo se lançarem uma sequência que ninguém pediu.