Nome: Beatriz Lourenço

Nome: Gabriel Yamashita

___
# Classificador automático de sentimento


## Preparando o ambiente no jupyter:

In [1]:
%%capture

#Instalando o tweepy
!pip install tweepy

In [2]:
import tweepy
import math
import os.path
import pandas as pd
import json
import numpy as np
import re 
from random import shuffle

___
## Autenticando no  Twitter

* Conta: ***@Reme72277305***

In [3]:
#Dados de autenticação do twitter:

#Coloque aqui o identificador da conta no twitter: @fulano

#leitura do arquivo no formato JSON
with open('auth.pass') as fp:    
    data = json.load(fp)

#Configurando a biblioteca. Não modificar
auth = tweepy.OAuthHandler(data['consumer_key'], data['consumer_secret'])
auth.set_access_token(data['access_token'], data['access_token_secret'])

___
## Etapas do projeto:

### Escolha de um produto e coleta das mensagens


Neste projeto buscamos fazer um classificador capaz de detectar os tweets relevantes, ou seja, aqueles que continham opniões negativas da marca escolhida.

In [4]:
#Produto escolhido:
produto = "McDonalds"

#Quantidade mínima de mensagens capturadas:
n = 500
#Quantidade mínima de mensagens para a base de treinamento:
t = 300

#Filtro de língua, escolha uma na tabela ISO 639-1.
lang = 'pt'

Capturando os dados do twitter:

In [5]:
#Cria um objeto para a captura
api = tweepy.API(auth)

#Inicia a captura, para mais detalhes: ver a documentação do tweepy
i = 1
msgs = []
for msg in tweepy.Cursor(api.search, q=produto, lang=lang, tweet_mode="extended").items():    
    msgs.append(msg.full_text.lower())
    i += 1
    if i > n:
        break
# shuffle(msgs)

Salvando os dados em uma planilha Excel:

In [6]:
#Verifica se o arquivo não existe para não substituir um conjunto pronto
if not os.path.isfile('./{0}.xlsx'.format(produto)):
    
    #Abre o arquivo para escrita
    writer = pd.ExcelWriter('{0}.xlsx'.format(produto))

    #divide o conjunto de mensagens em duas planilhas
    dft = pd.DataFrame({'Treinamento' : pd.Series(msgs[:t])})
    dft.to_excel(excel_writer = writer, sheet_name = 'Treinamento', index = False)

    dfc = pd.DataFrame({'Teste' : pd.Series(msgs[t:])})
    dfc.to_excel(excel_writer = writer, sheet_name = 'Teste', index = False)

    #fecha o arquivo
    writer.save()

___
### Montando o Classificador Naive-Bayes

Considerando apenas as mensagens da planilha Treinamento, ensine  seu classificador.

In [7]:
# Abrindo o Treinamento

data = pd.read_excel("McDonalds.xlsx",sheet_name = "Treinamento")
colunas = ["Treinamento", "relevancia"]
data = data.loc[:,colunas]

def cleanup(text):
    punctuation = "[!\-.:?;,'#-@]"
    pattern = re.compile(punctuation)
    text_subbed = re.sub(pattern, ' ', text)
    return text_subbed    

In [8]:
# Separando em relevantes e irrelevantes e limpando os caracteres irrelevantes

rel = " ".join(data[data["relevancia"] == 1].Treinamento)
irrel = " ".join(data[data["relevancia"] == 0].Treinamento)

rel = cleanup(rel)
irrel = cleanup(irrel)

rel = pd.Series(rel.split())
irrel = pd.Series(irrel.split())

In [9]:
# Valores relativos
rel_value = rel.value_counts(True)
irrel_value = irrel.value_counts(True)

In [10]:
# Valores absolutos
rel_value = rel.value_counts()
irrel_value = irrel.value_counts()

In [11]:
# Probabilidade de ser relevante e de ser irrelevante

n_rel = data[data['relevancia'] == 1].count()
n_irrel = data[data['relevancia'] == 0].count()
n_total = n_rel + n_irrel
prob_rel = n_rel/(n_total)
prob_irrel = n_irrel/(n_total)

In [12]:
#Laplace Smoothing

alpha = 1
V = 1e6

rel_value_number = rel.value_counts()
sum_rel_value_number = rel_value_number.sum()

irrel_value_number = irrel.value_counts()
sum_irrel_value_number = irrel_value_number.sum()

prob_p_rel = (rel_value_number + 1)/(sum_rel_value_number + alpha*V)
prob_p_irrel = (irrel_value_number + 1)/(sum_irrel_value_number + alpha*V)

prob_p_desc_rel = alpha / (sum_rel_value_number + alpha*V)
prob_p_desc_irrel = alpha / (sum_irrel_value_number + alpha*V)

prob_p_rel = prob_p_rel.sort_values(ascending=False)
prob_p_irrel = prob_p_irrel.sort_values(ascending=False)

___

In [13]:
# Abrindo o Teste

data = pd.read_excel("McDonalds.xlsx",sheet_name = "Teste")
colunas = ["Teste", "relevancia"]
data = data.loc[:,colunas]

In [17]:
# Função para calcular a chance de ser relevante e irrelevante

def classifica_relevante (tweet):
    w = cleanup(tweet).split()
    prob = np.log(prob_p_rel.reindex(w).fillna(prob_p_desc_rel)).sum()
    prob = prob + np.log(prob_rel[0])
    return prob
data["probabilidade relevante"]=data.Teste.apply(classifica_relevante)
data_rel = data["probabilidade relevante"]

def classifica_irrelevante (tweet):
    w = cleanup(tweet).split()
    prob = np.log(prob_p_irrel.reindex(w).fillna(prob_p_desc_irrel)).sum()
    prob = prob + np.log(prob_irrel[0])
    return prob
data["probabilidade irrelevante"]=data.Teste.apply(classifica_irrelevante)
data_irrel = data["probabilidade irrelevante"]
data

Unnamed: 0,Teste,relevancia,probabilidade relevante,probabilidade irrelevante
0,rt @malevolazx: te assusta @mcdonalds_br https...,0,-128.350211,-110.130987
1,rt @btsnotice: [💛👌🏼] - @bts_twt \n\n▪hey hey h...,0,-278.660927,-234.126028
2,"como vocês conseguem comer mcdonalds 3, 4 veze...",0,-103.952601,-94.291101
3,burguer king é melhor que mcdonalds,1,-75.138451,-67.840104
4,se odiar é facil. quero ver parar de comer mcd...,0,-191.296272,-174.305694
5,"i'm at @mcdonalds_br in rio de janeiro, rj htt...",0,-194.322776,-176.924420
6,@davidamente @pobleminha1 @mcdonalds_br vergon...,0,-181.151225,-162.038369
7,@mcdonalds_br tá difícil... 3x que compro a p...,1,-443.941382,-412.015108
8,@mailitaaa @mcdonalds_br alaaaa mano acho q mu...,0,-106.085287,-98.852813
9,@mcdonalds_br queria saber pq tiraram uma carn...,1,-143.375380,-133.999901


___
### Verificando a performance

Agora você deve testar o seu classificador com a base de Testes.

In [15]:
# Rel = {}
# Irrel = {}

# i=0

# while i <= n-t:
#     if i['probabilidade_relevante']>i['probabilidade_irrlevante']:
#         Rel[i['Teste']]=i['probabilidade_relevante']
#         i+=1
#     else:
#         Rel[i['Teste']]=i['probabilidade_irrelevante']
#         i+=1
# Rel        

# classificados = []
# tweet = 0

# for tweet in data['Teste']:
#     tweet = cleanup(tweet).split()
#     for i in tweet:
        

# def testa(tweet):
#     i = cleanup(tweet).split()
#     maior = prop_p_irrel[i]
#     if maior < prob_p_rel[i]:
#         classificados.append(maior)
#     return classificados
        
# data["Resultados Teste"] = classificados

classificados = []
j = 0
while j <= (n-t):
    if data_rel[j]>=data_irrel[j]:
        classificados.append(data_rel[j])
        i+=1
    else:
        i+=1
data["Resultados Teste"] = classificados
print(data)

In [16]:
Rel = 0
nao_rel = 0
Irrel = 0
nao_irrel = 0

i = 0
while i < len(data['relevancia']):
    if data['relevancia'][i] == 'Rel':
        if data['Resultados Teste'][i] == 'Rel':
            Rel += 1
        else:
            nao_rel += 1
        
    if data['relevancia'][i] == 'Irrel':
        if data['Resultados Teste'][i] == 'Irrel':
            Irrel += 1
        else:
            nao_irrel += 1
    i += 1

In [None]:
vp = Rel
fp = nao_rel
vn = Irrel
fn = nao_irrel

Porcentagem de verdadeiros positivos (mensagens relevantes e que são classificadas como relevantes): 0%

Porcentagem de falsos positivos (mensagens irrelevantes e que são classificadas como relevantes): 0%

Porcentagem de verdadeiros negativos (mensagens irrelevantes e que são classificadas como irrelevantes):100%

Porcentagem de falsos negativos (mensagens relevantes e que são classificadas como irrelevantes): 100%

___
### Concluindo

A partir da comparação entre a classificação feita manualmemte na base de testes e a realizada pelo programa, foi possivel perceber que não houve uma taxa de sucesso razoável. Isto pode ter ocorrido pela baixa quantidade de tweets analisados, que, consequentemente resultaram em um pequeno número de tweets relevantes ao objetivo do projeto, apenas 13% aproximadamente. Portanto não foi possível encontrar um padrão nas palavras usadas pelo clientes analizados por este motivo e pelo fato de muitas palavras serem usados tanto para opniões positivas quanto negativas, como no caso de comparação com outras marcas ou em ironias.

Porém seria possível aperfeiçoar o código ao aumentar o número de tweets analizados, evitar retweets e criar mais do que duas classificações. Por exemplo, em ves de relevantes e irrelevantes, poderiamos utilizar positico, negativo e neutro.

Por que não pode utilizar o próprio classificador para gerar mais amostras de treinamento?

Porque o classificador pode ficar "viciado", portanto ao fazer isso os seus resultados serão ainsa mais prejudicados.

Exemplos de Naïve Bayes: o sistema de spam do email e qualquer outro tipo de previsões como fenômenos climáticos.

## Aperfeiçoamento:

Os trabalhos vão evoluir em conceito dependendo da quantidade de itens avançados:

* Limpar: \n, :, ", ', (, ), etc SEM remover emojis
* Corrigir separação de espaços entre palavras e emojis ou emojis e emojis
* Propor outras limpezas e transformações que não afetem a qualidade da informação ou classificação
* Criar categorias intermediárias de relevância baseadas na probabilidade: ex.: muito relevante, relevante, neutro, irrelevante, muito irrelevante (3 categorias: C, mais categorias conta para B)
* Explicar por que não posso usar o próprio classificador para gerar mais amostras de treinamento
* Propor diferentes cenários para Naïve Bayes fora do contexto do projeto
* Sugerir e explicar melhorias reais com indicações concretas de como implementar (indicar como fazer e indicar material de pesquisa)
* Montar um dashboard que periodicamente realiza análise de sentimento e visualiza estes dados

# Referências

[Naive Bayes and Text Classification](https://arxiv.org/pdf/1410.5329.pdf)  **Mais completo**

[A practical explanation of a Naive Bayes Classifier](https://monkeylearn.com/blog/practical-explanation-naive-bayes-classifier/) **Mais simples**