# Projeto 2 - Ciência dos Dados

Nome: Thomas Bekhor

Nome: Luca Machado

___
# Classificador automático de sentimento


## Preparando o ambiente no jupyter:

In [1]:
%%capture

#Instalando o tweepy
!pip install tweepy

In [2]:
import tweepy
import math
import os.path
import pandas as pd
import json
from random import shuffle
from IPython.display import display
pd.options.display.max_rows = 13

___
## Autenticando no  Twitter

* Conta: ***[Preencha aqui o id da sua conta. Ex: @fulano ]***

In [3]:
#Dados de autenticação do twitter:

#Coloque aqui o identificador da conta no twitter: @fulano

#leitura do arquivo no formato JSON
with open('auth.pass') as fp:    
    data = json.load(fp)

#Configurando a biblioteca. Não modificar
auth = tweepy.OAuthHandler(data['consumer_key'], data['consumer_secret'])
auth.set_access_token(data['access_token'], data['access_token_secret'])

___
## Etapas do projeto:

### Escolha de um produto e coleta das mensagens


In [32]:
#Produto escolhido:
produto = "Uber"

#Quantidade mínima de mensagens capturadas:
n = 590
#Quantidade mínima de mensagens para a base de treinamento:
t = 300

#Filtro de língua, escolha uma na tabela ISO 639-1.
lang = 'pt'

Capturando os dados do twitter:

In [33]:
#Cria um objeto para a captura
api = tweepy.API(auth)

#Inicia a captura, para mais detalhes: ver a documentação do tweepy
i = 1
msgs = []
for msg in tweepy.Cursor(api.search, q=produto, lang=lang, tweet_mode="extended").items():    
    msgs.append(msg.full_text.lower())
    i += 1
    if i > n:
        break

#Embaralhando as mensagens para reduzir um possível viés
msgs = list(dict.fromkeys(msgs))
shuffle(msgs)


Salvando os dados em uma planilha Excel:

In [34]:
#Verifica se o arquivo não existe para não substituir um conjunto pronto
if not os.path.isfile('./{0}.xlsx'.format(produto)):
    
    #Abre o arquivo para escrita
    writer = pd.ExcelWriter('{0}.xlsx'.format(produto))

    #divide o conjunto de mensagens em duas planilhas
    dft = pd.DataFrame({'Treinamento' : pd.Series(msgs[:t])})
    dft.to_excel(excel_writer = writer, sheet_name = 'Treinamento', index = False)

    dfc = pd.DataFrame({'Teste' : pd.Series(msgs[t:])})
    dfc.to_excel(excel_writer = writer, sheet_name = 'Teste', index = False)
    
    #fecha o arquivo
    writer.save()
    

___
### Classificando as mensagens na coragem

Esta etapa é manual. Faça a mesma pelo Excel.

# 1=RELEVANTE
# 2=IRRELEVANTE

___
### Montando o Classificador Naive-Bayes

Considerando apenas as mensagens da planilha Treinamento, ensine  seu classificador.

In [4]:
import re 


def cleanup(text):
    """
        Função de limpeza muito simples que troca alguns sinais básicos por espaços
    """
    import string
    punctuation = '[!-.:?;]' # Note que os sinais [] são delimitadores de um conjunto.
    pattern = re.compile(punctuation)
    text_subbed = re.sub(pattern, ' ', text)
    return text_subbed

In [24]:
#lendo cada planilha separadamente do excel
twitter_treinamento = pd.read_excel(io="./Uber.xlsx",sheet_name="Treinamento")
twitter_teste = pd.read_excel(io="./Uber.xlsx",sheet_name="Teste")

#aplicando a função cleanup no "Teste" e tirando as maiúsculas
twitter_teste["Teste s/ pont."] = twitter_teste["Teste"].apply(cleanup)
twitter_teste=twitter_teste.drop(columns="Teste")
twitter_teste=twitter_teste[["Teste s/ pont.", "Relevância"]]
twitter_teste["Teste s/ pont."]=twitter_teste["Teste s/ pont."].str.lower()

#aplicando a função cleanup no "Treinamento"  e tirando as maiúsculas
twitter_treinamento["Treinamento s/ pont."] = twitter_treinamento["Treinamento"].apply(cleanup)
twitter_treinamento=twitter_treinamento.drop(columns="Treinamento")
twitter_treinamento=twitter_treinamento[["Treinamento s/ pont.", "Relevância"]]
twitter_treinamento["Treinamento s/ pont."]=twitter_treinamento["Treinamento s/ pont."].str.lower()



In [25]:
#separando as palaras numa lista só
series_treinamento=[]
for i in twitter_treinamento["Treinamento s/ pont."]:
    for n in i.split():
        series_treinamento.append(n)
series_treinamento

#separando as palavras para os relevantes
series_treinamento_rel=[]
for i in twitter_treinamento[twitter_treinamento["Relevância"]==1]["Treinamento s/ pont."]:
    for n in i.split():
        series_treinamento_rel.append(n)

#separando as palavras para os não relevantes
series_treinamento_nrel=[]
for i in twitter_treinamento[twitter_treinamento["Relevância"]==0]["Treinamento s/ pont."]:
    for n in i.split():
        series_treinamento_nrel.append(n)


In [26]:
#frequencia relativa nao relevantes
frame_rel=pd.Series(series_treinamento_rel)
frame_rel_relativo=frame_rel.value_counts(True)

#frequencia relativa relevantes
frame_nrel=pd.Series(series_treinamento_nrel)
frame_nrel_relativo=frame_nrel.value_counts(True)

#frequencia relativa total
frame_total=pd.Series(series_treinamento)
frame_total_relativo=frame_total.value_counts(True)

frame_nrel_relativo

uber          0.053293
o             0.030539
e             0.028743
eu            0.023952
de            0.022754
que           0.022754
                ...   
casaa         0.000299
aplicativo    0.000299
2min          0.000299
branco        0.000299
terminou      0.000299
z             0.000299
Length: 1266, dtype: float64

___
### Verificando a performance

Agora você deve testar o seu classificador com a base de Testes.

$P(relevante|frase) > P(irrelevante|frase)$

$P(relevante|frase) = \frac{P(palavra1|relevante).P(palavra2|relevante).P(palavra3|relevante).P(relevante)}{P(frase)}$

$P(irrelevante|frase) = \frac{P(palavra1|irrelevante).P(palavra2|irrelevante).P(palavra3|irrelevante).P(irrelevante)}{P(frase)}$

# logo
$P(relevante|frase)> P(irrelevante|frase)$ =
$\frac{P(palavra1|relevante).P(palavra2|relevante).P(palavra3|relevante).P(relevante)}{P(frase)}$ > $\frac{P(palavra1|irrelevante).P(palavra2|irrelevante).P(palavra3|irrelevante).P(irrelevante)}{P(frase)}$

In [27]:

lista_prob_rel=[]
lista_prob_nrel=[]

laplace1=
laplace2=

for i in range(0,200):
    prf=0.39
    pif=0.61
    for x in twitter_teste["Teste s/ pont."][i].split():
        if x in series_treinamento_rel:
            prf=prf*frame_rel_relativo[x]
        if x in series_treinamento_nrel:    
            pif=pif*frame_nrel_relativo[x]         
        else:
            prf=prf*laplace1
            pif=pif*laplace2
            
    lista_prob_rel.append(prf)
    lista_prob_nrel.append(pif)
    
twitter_teste["Verificação"]=-1
for x in range(0,200):
    if lista_prob_rel[x]>lista_prob_nrel[x]:
        twitter_teste.iloc[x,2]=1
    else:
        twitter_teste.iloc[x,2]=0


In [28]:
twitter_teste

Unnamed: 0,Teste s/ pont.,Relevância,Verificação
0,tava tão doida p ir embora daquele lugar q ent...,0,1
1,inclusive quando vi o da campus party quase fa...,0,1
2,status cantando sertanejo com o uber,1,1
3,uber bom é uber que bate o carro no cara de trás,1,0
4,e eu q pedi um uber aí tava nome de um homem l...,1,1
5,trêm//metrô 4 30\nuber 16 90\n\neu quase o ...,1,1
...,...,...,...
194,decidi pegar uber,0,0
195,uber sem ar condicionado é sacanagi,1,0
196,tô muito mau acostumada c uber esse fim de s...,0,1


___
### Concluindo

## Por que não podemos usar o próprio classificador para gerar mais amostras de treinamento?

O classificador Naïve Bayes foi criado a partir de uma avaliação pessoal subjetiva de relevância para tweets com um tema em específico, no nosso caso o produto Uber. Isso leva a pensarmos que uma vez que o classificador foi montado ele não se atualiza e mantém sempre a mesma base de informação conforme a classificação de relevância que definimos anteriormente, assim o usuário que escolhesse usar nosso classificador Naïve Bayes estaria restrito à um tema específico, somente Uber e ainda sim estaria desatualizado.

## Propondo diferentes cenários de uso para o classificador Naïve Bayes.

Com a vasta variedade de temas e cenários disponíveis por aí, podemos aplicar a proposta do classificador Naïve Bayes para vários cenários que podem ajudar as pessoas no dia-a-dia, simplificar trabalhos, melhorar performance, entre outros. 


####  - Spam nos e-mails

Um grande exemplo que temos é a classificação para as mensagens de spam no e-mail, por exemplo: sua função daria em ler e-mails novos que uma conta recebe e de acordo com sua programação identificar se aquele e-mail é spam ou não e consequentemente mandar diretamente aquele e-mail para a lixeira para o usuário não se preocupar ou perder seu tempo lendo aquele e-mail inútil. Lógico que há uma porcentagem de erro de o classificador classificar errôneamente, por isso é melhor guardar os e-mails em uma caixa de spams!

#### - Transações bancárias

Já pensou se repentinamente recebemos uma notificação da nossa agência bancária nos informando que uma certa transação de 100 mil reais foi aprovada no meio do dia? Que desespero! Outra utilidade em um cenário financeiro para nosso classificador Bayes é saber identificar se o valor de uma transação bancária corresponde ao perfil do nosso cliente. No sistema o classificador teria um perfil traçado do nosso cliente com base em suas transações antigas (evidência) e depois dado uma nova transação ele iria dizer se aquela transação bate com o perfil ou não, se não bater ela é automáticamente bloqueada e enviada uma solicitação ou notificação para o cliente.

#### - Previsão de trânsito

Imagine ter que sair de casa todo dia e pegar aquele trânsito infernal que só causa estresse e ainda atrasa as pessoas para chegar em seus trabalhos e os estudantes nas faculdades, é decepcionante. Se análisarmos nesse cenário 

### Como melhorar nosso classificador Naïve Bayes?

## Aperfeiçoamento:

Os trabalhos vão evoluir em conceito dependendo da quantidade de itens avançados:

* Limpar: \n, :, ", ', (, ), etc SEM remover emojis
* Corrigir separação de espaços entre palavras e emojis ou emojis e emojis
* Propor outras limpezas e transformações que não afetem a qualidade da informação ou classificação
* Criar categorias intermediárias de relevância baseadas na probabilidade: ex.: muito relevante, relevante, neutro, irrelevante, muito irrelevante (3 categorias: C, mais categorias conta para B)
* Explicar por que não posso usar o próprio classificador para gerar mais amostras de treinamento
* Propor diferentes cenários para Naïve Bayes fora do contexto do projeto
* Sugerir e explicar melhorias reais com indicações concretas de como implementar (indicar como fazer e indicar material de pesquisa)
* Montar um dashboard que periodicamente realiza análise de sentimento e visualiza estes dados

# Referências

[Naive Bayes and Text Classification](https://arxiv.org/pdf/1410.5329.pdf)  **Mais completo**

[A practical explanation of a Naive Bayes Classifier](https://monkeylearn.com/blog/practical-explanation-naive-bayes-classifier/) **Mais simples**