# Projeto 2 - Ci√™ncia dos Dados

Beatriz Muniz de Castro e Silva

Nicole Sarvasi Alves da Costa

___
## Classificador autom√°tico de sentimento


Com o intuito de destacar mensagens que designem o nome do produto, primeiro baixamos os *tweets* com o nome do filme Bacurau. Ap√≥s, classificamos um por um entre "relevante" e "irrelevantes", tal classifica√ß√£o ser√° explicitada mais adiante.

Para fazer isso, utilizaremos o algoritmo "Naive Bayes", criado no s√©culo XVIII. Atualmente, esse classificador probabil√≠stico tem sido utilizado na √°rea de *Machine Learning* principalmente para a categoriza√ß√£o de textos, determina√ß√£o de e-mails SPAM, e at√© para medicina diagn√≥stica.

Para o treinamento do c√≥gigo, utilizamos uma base de 300 *tweets* para podermos implementar o classificador Naive-Bayes. Isso possibilitar√° verificarmos sua efici√™ncia, uma vez que poderemos comparar as classifica√ß√µes feitas, com as previamente estabelecidas por n√≥s.

**Classifica√ß√£o dos *tweets*:**

**-Relevante**: mensagens que passem uma imagem positiva sobre o filme                    
    **ex.:** "Bacurau √© um filme excelente!"

**-Irrelevante**: mensagens que passem uma imagem negativa sobre o filme ou que n√£o o caracterizem                   
        **ex.:** "O filme bacurau √© p√©ssimo" ; "Bacurau j√° est√° em cartaz"

## Preparando o ambiente no jupyter:

In [105]:
%%capture

#Instalando o tweepy
!pip install tweepy
#Instalando o pacote emoji para limpar mensagens
!pip install emoji

In [106]:
#importando os pacotes necess√°rios
import tweepy
import math
import os.path
import pandas as pd
import json
from random import shuffle
import functools
import operator
import numpy as np
import emoji
import re

___
## Autenticando no  Twitter

* Conta: @nicknennis

In [107]:
#Dados de autentica√ß√£o do twitter:

#Identificador da conta no twitter: @nickcnennis

#leitura do arquivo no formato JSON
with open('auth.pass') as fp:    
    data = json.load(fp)

#Configurando a biblioteca. N√£o modificar
auth = tweepy.OAuthHandler(data['consumer_key'], data['consumer_secret'])
auth.set_access_token(data['access_token'], data['access_token_secret'])

FileNotFoundError: [Errno 2] No such file or directory: 'auth.pass'

___
## Etapas do projeto:

### Escolha de um produto e coleta das mensagens


In [None]:
#Produto escolhido:
produto = 'bacurau'

#Quantidade m√≠nima de mensagens capturadas:
n = 700
#Quantidade m√≠nima de mensagens para a base de treinamento:
t = 500

#Filtro de l√≠ngua, escolha uma na tabela ISO 639-1.
lang = 'pt'

Capturando os dados do twitter:

In [None]:
#Cria um objeto para a captura
api = tweepy.API(auth, wait_on_rate_limit=True)

#Inicia a captura
i = 1
msgs = []

#retira os retweets
for msg in tweepy.Cursor(api.search, q=produto, lang=lang, tweet_mode='extended').items():  
    if (not msg.retweeted) and ('RT' not in msg.full_text): 
        msgs.append(msg.full_text.lower())
        i += 1
    if i > n:
        break

#Embaralhando as mensagens para reduzir um poss√≠vel vi√©s
shuffle(msgs)

Salvando os dados em uma planilha Excel:

In [108]:
#Verifica se o arquivo n√£o existe para n√£o substituir um conjunto pronto
if not os.path.isfile('./{0}.xlsx'.format(produto)):
    
    #Abre o arquivo para escrita
    writer = pd.ExcelWriter('{0}.xlsx'.format(produto))

    #divide o conjunto de mensagens em duas planilhas
    dft = pd.DataFrame({'Treinamento' : pd.Series(msgs[:t])})
    dft.to_excel(excel_writer = writer, sheet_name = 'Treinamento', index = False)

    dfc = pd.DataFrame({'Teste' : pd.Series(msgs[t:])})
    dfc.to_excel(excel_writer = writer, sheet_name = 'Teste', index = False)

    #fecha o arquivo
    writer.save()

___
### Classificando as mensagens na coragem

Classificamos os *tweets* de treinamento individualmente no Excel, atribuindo 0 para "irrelevante" e 1 para "relevante".

In [109]:
#leitura do arquivo excel
treino = pd.read_excel("bacurau.xlsx", "Treinamento") #tabela da parte de treinamento do excel
teste = pd.read_excel("bacurau.xlsx", "Teste") #tabela da parte de teste do excel

___
### Montando o Classificador Naive-Bayes


Para a montagem do classificador Naive-Bayes, primeiramente limpamos os dados. Ou seja, corrigimos os espa√ßos entre as palavras e tiramos as pontua√ß√µes, tendo o cuidado de manter os emojis, os quais podem ser cruciais para determinar algum tipo de sentimento.

In [110]:
def cleanup(text):
    """
        Fun√ß√£o de limpeza muito simples que troca alguns sinais b√°sicos por espa√ßos
    """
    import string
    
    text = ' '.join(word for word in text.split() if not word.startswith('https'))
    
    text_split_emoji = emoji.get_emoji_regexp().split(text)
    text_split_whitespace = [substr.split() for substr in text_split_emoji]
    text_split = functools.reduce(operator.concat, text_split_whitespace)
    text = ' '.join(word for word in text_split)
    
    punctuation = '[!-/.:?;@]' # Note que os sinais [] s√£o delimitadores de um conjunto.
    pattern = re.compile(punctuation)
    nova_linha = '[\n]'
    text_subbed = re.sub(pattern, ' ', text)
    text_subbed = re.sub(nova_linha, " ", text_subbed)
    return text_subbed

Abaixo, criamos uma lista com os *tweets* de teste limpos e aproveitamos para deixar todas as palavras em letra min√∫scula, o que nos ajudar√° no momento de identificar as frequ√™ncias das palavras.

In [111]:
#criar uma lista com os tweets de teste limpos
teste_t = pd.Series(teste["Teste"])
teste_limpo = []
for i in teste_t:
    teste_limpo.append(cleanup(i.lower()))
# teste_limpo

In [112]:
#criar uma lista com os tweets de treinamento limpos
treino_s = pd.Series(treino["Treinamento"])
treino_limpo = []
for i in treino_s:
    treino_limpo.append(cleanup(str(i).lower()))
# treino_limpo

Outra limpeza que poderia ser feita para o melhor rendimento do nosso classificador seria a retirada de artigos, que n√£o se mostram cruciais para a classifica√ß√£o de sentimento de cada *tweet*. Para isso, seria eficaz uma fun√ß√£o a qual retirasse palavras de at√© duas letras, este processo serviria tamb√©m para a retirada de erros possivelmente feitos no momento de escrita nos textos.

**Frequ√™ncia relativa total das palavras**

In [113]:
treino_t = (" ").join(treino_limpo) #junta todos os tweets de treinamento em uma string s√≥
lista_relativa = treino_t.split() #divide a string pra fazer uma lista com cada palavra separadamente
frequencia_absoluta = pd.Series(lista_relativa).value_counts()
frequencia_relativa = pd.Series(lista_relativa).value_counts(True)
frequencia_relativa #frequencia relativa total das palavras

bacurau            0.059806
de                 0.044272
rt                 0.021100
e                  0.021100
a                  0.019288
√©                  0.017864
que                0.017735
tirei              0.015534
o                  0.015146
eu                 0.012816
voc√™               0.011133
do                 0.009968
ver                0.009191
pra                0.008932
no                 0.008026
um                 0.007896
assistir           0.007896
filme              0.007249
n√£o                0.007120
uma                0.006861
com                0.006731
para               0.006731
em                 0.006084
da                 0.005955
tem                0.005696
gente              0.005437
mas                0.005437
qual               0.004919
lunga              0.004531
domingas           0.004531
                     ...   
lucasnunnes97      0.000129
tem√°tica           0.000129
cl√°ssico           0.000129
üòü                  0.000129
cair        

**Frequ√™ncia relativa dos *tweets* relevantes**

In [114]:
rel = treino.index[treino.Relev√¢ncia == 1] #crit√©rio para selecionar s√≥ os tweets relevantes
treino_r = treino.loc[rel, "Treinamento"]  #cria nova database com os tweets relevantes


#frequ√™ncia das palavras nos tweets relevantes
treino_rt = treino_r.str.cat()
treino_rt = cleanup(treino_rt.lower())
lista_relevante = treino_rt.split()
frequencia_absoluta = pd.Series(lista_relevante).value_counts()
frequencia_rel_relevantes = pd.Series(lista_relevante).value_counts(True)
frequencia_rel_relevantes #frequ√™ncia relativa dos tweets relevantes

bacurau           0.059778
de                0.034291
que               0.027340
e                 0.024096
o                 0.018999
pra               0.018536
ver               0.018072
a                 0.016682
assistir          0.014365
filme             0.013438
do                0.012975
√©                 0.012975
eu                0.012512
no                0.010658
n√£o               0.009268
um                0.007414
em                0.007414
com               0.006951
mas               0.006951
cinema            0.006951
me                0.006487
mais              0.006487
tem               0.005561
bom               0.005097
vou               0.005097
sobre             0.005097
uma               0.005097
da                0.004634
q                 0.004634
vai               0.004634
                    ...   
pararem           0.000463
sido              0.000463
silveropereira    0.000463
pre√ßo             0.000463
gostou            0.000463
exibidos          0.00046

**Frequ√™ncia relativa dos *tweets* irrelevantes**

In [115]:
irel = treino.index[treino.Relev√¢ncia == 0]
treino_ir = treino.loc[irel, "Treinamento"]  #tweets irrelevantes

#frequ√™ncia das palavras nos tweets irrelevantes
treino_irt = treino_ir.str.cat()
treino_irt = cleanup(treino_irt.lower())
lista_irrelevante = treino_irt.split()
frequencia_absoluta = pd.Series(lista_irrelevante).value_counts()
frequencia_rel_irrelevantes = pd.Series(lista_irrelevante).value_counts(True)
frequencia_rel_irrelevantes #frequ√™ncia relativa dos tweets irrelevantes

bacurau           0.054954
de                0.051858
√©                 0.021091
e                 0.020511
a                 0.020511
que               0.014899
tirei             0.014319
voc√™              0.014319
o                 0.014125
eu                0.011997
do                0.009481
para              0.009094
um                0.008707
uma               0.007933
no                0.007546
com               0.007159
da                0.006966
domingas          0.006772
qual              0.006772
lunga             0.006579
n√£o               0.006385
gente             0.006192
em                0.005998
tem               0.005998
personagem        0.005998
ver               0.005805
assistir          0.005805
pra               0.005611
se                0.005418
filme             0.005224
                    ...   
acionar           0.000193
j√∫ri              0.000193
f‚Ä¶rt              0.000193
high              0.000193
conta             0.000193
putz              0.00

Determinar as frequ√™ncias acima √© crucial para podermos calcular as probabilidades as quais ser√£o utilizadas no m√©todo de Naive Bayes.

**Quantidade de *tweets* relevantes e irrelevantes**

In [116]:
quantidade_relevancia = treino.Relev√¢ncia.value_counts()
quantidade_relevancia #quantidade de tweets relevantes e irrelevantes

0    354
1    147
Name: Relev√¢ncia, dtype: int64

**Porcentagem de *tweets* relevantes e irrelevantes**

In [117]:
quantidade_relevancia_pct = treino.Relev√¢ncia.value_counts(True)*100
quantidade_relevancia_pct #porcentagem dos tweets que s√£o relevantes e irrelevantes

0    70.658683
1    29.341317
Name: Relev√¢ncia, dtype: float64

**Lista com todas as palavras que aparecem nos *tweets* da nossa tabela de treinamento**

In [140]:
palavras_totais = [] #lista com todas as palavras sem duplicatas

for palavra in lista_relativa:
    if palavra not in palavras_totais:
        palavras_totais.append(palavra)
for palavra in lista_relevante:
    if palavra not in palavras_totais:
        palavras_totais.append(palavra)
for palavra in lista_irrelevante:
    if palavra not in palavras_totais:
        palavras_totais.append(palavra)    
print(palavras_totais)
    

['nossa', 'eu', 'desviei', 'muito', 'r√°pido', 'de', 'um', 'spoiler', 'bacurau', 'me', 'senti', 'ninja', 'rt', 'avokdoido', 'quem', 'nao', 'gostou', '√©', 'no', 'm√≠nimo', 'do', 'pouco', 'nazista', 'sim', 'vi', 'ontem', 'com', 'a', 'viviane_cardoso', 'o', 'filme', 'fant√°stico', 'vale', 'pena', 'ver', 'se', 'voc√™', 'tiver', 'mente', 'aberta', 'e', 'qualquer', 'coisa', 'que', 'fa√ßo', 'vivi', 'sempre', 'bom', 'companheira', 'filmes', 'vida', 'lutas', 'lt', '3', 'hoje', 'finalmente', 'vejo', 'ser√°', 'consigo', 'chegar', 'at√©', 'sala', 'livre', 't√°', 'dif√≠cil', 'lzanin', 'texto', 'marcelo', 'coelho', 'chama', '‚Äòbolsonarisno', 'sinal', 'trocado‚Äô', 'lembra', 'ideia', 'alguns', 'jornalistas', 'na', '√©‚Ä¶', 'diretor', 'jo√£o', 'kleber', 'mendon√ßa', 'filho', 'n', 'vou', 'conseguir', 'qual', 'desse', 'q', 'galera', 'ta', 'doida', 'achei', 'era', 'peixe', 'isso', 'vai', 'assistir', 'sai', 'maluco', 'todo', 'dia', 'bora', 'galeres', 'aproveitando', 'pra', 'divulgar', 'melhor', '2019', 

In [141]:
freq_irr={}
freq_rel={}

for palavra in palavras_totais:
    freq_irr[palavra]=1
    freq_rel[palavra]=1

In [142]:
for palavra in lista_relevante:
    freq_rel[palavra]+=1
freq_rel

{'nossa': 3,
 'eu': 28,
 'desviei': 1,
 'muito': 6,
 'r√°pido': 1,
 'de': 75,
 'um': 17,
 'spoiler': 2,
 'bacurau': 130,
 'me': 15,
 'senti': 1,
 'ninja': 1,
 'rt': 6,
 'avokdoido': 2,
 'quem': 8,
 'nao': 5,
 'gostou': 2,
 '√©': 29,
 'no': 24,
 'm√≠nimo': 3,
 'do': 29,
 'pouco': 2,
 'nazista': 2,
 'sim': 5,
 'vi': 5,
 'ontem': 6,
 'com': 16,
 'a': 37,
 'viviane_cardoso': 2,
 'o': 42,
 'filme': 30,
 'fant√°stico': 2,
 'vale': 2,
 'pena': 3,
 'ver': 40,
 'se': 6,
 'voc√™': 7,
 'tiver': 2,
 'mente': 2,
 'aberta': 2,
 'e': 53,
 'qualquer': 3,
 'coisa': 8,
 'que': 60,
 'fa√ßo': 2,
 'vivi': 2,
 'sempre': 3,
 'bom': 12,
 'companheira': 2,
 'filmes': 7,
 'vida': 4,
 'lutas': 2,
 'lt': 2,
 '3': 1,
 'hoje': 8,
 'finalmente': 3,
 'vejo': 2,
 'ser√°': 2,
 'consigo': 2,
 'chegar': 2,
 'at√©': 4,
 'sala': 3,
 'livre': 2,
 't√°': 9,
 'dif√≠cil': 2,
 'lzanin': 2,
 'texto': 2,
 'marcelo': 2,
 'coelho': 2,
 'chama': 2,
 '‚Äòbolsonarisno': 2,
 'sinal': 2,
 'trocado‚Äô': 2,
 'lembra': 2,
 'ideia': 2,
 'al

In [143]:
for palavra in lista_irrelevante:
    freq_irr[palavra]+=1
freq_irr

{'nossa': 5,
 'eu': 63,
 'desviei': 2,
 'muito': 17,
 'r√°pido': 2,
 'de': 269,
 'um': 46,
 'spoiler': 5,
 'bacurau': 285,
 'me': 21,
 'senti': 2,
 'ninja': 2,
 'rt': 17,
 'avokdoido': 4,
 'quem': 8,
 'nao': 9,
 'gostou': 5,
 '√©': 110,
 'no': 40,
 'm√≠nimo': 7,
 'do': 50,
 'pouco': 5,
 'nazista': 4,
 'sim': 5,
 'vi': 4,
 'ontem': 1,
 'com': 38,
 'a': 107,
 'viviane_cardoso': 1,
 'o': 74,
 'filme': 28,
 'fant√°stico': 1,
 'vale': 2,
 'pena': 3,
 'ver': 31,
 'se': 29,
 'voc√™': 75,
 'tiver': 1,
 'mente': 1,
 'aberta': 1,
 'e': 107,
 'qualquer': 3,
 'coisa': 5,
 'que': 78,
 'fa√ßo': 1,
 'vivi': 1,
 'sempre': 14,
 'bom': 5,
 'companheira': 5,
 'filmes': 2,
 'vida': 23,
 'lutas': 1,
 'lt': 3,
 '3': 4,
 'hoje': 8,
 'finalmente': 2,
 'vejo': 2,
 'ser√°': 1,
 'consigo': 2,
 'chegar': 1,
 'at√©': 7,
 'sala': 13,
 'livre': 1,
 't√°': 11,
 'dif√≠cil': 1,
 'lzanin': 2,
 'texto': 2,
 'marcelo': 3,
 'coelho': 2,
 'chama': 2,
 '‚Äòbolsonarisno': 2,
 'sinal': 2,
 'trocado‚Äô': 2,
 'lembra': 2,
 'idei

## Implementa√ß√£o do Naive Bayes


Para isso foi utilizado o teorema de Bayes:



$$
P(relev√¢ncia|palavra) = \frac{P(palavra|relev√¢ncia)P(relev√¢ncia)}{P(palavra)}
$$

In [144]:
prob_irr = {}
prob_rel = {}

for palavra in palavras_totais:
    prob_rel[palavra]= freq_rel[palavra]/(len(palavras_totais)+quantidade_relevancia[1])
    prob_irr[palavra]= freq_irr[palavra]/(len(palavras_totais)+quantidade_relevancia[0])
    

#probabilidade da relev√¢ncia em rela√ß√£o √†s palavras do tweet


___
### Verificando a performance

Agora vamos testar o classificador com a base de Testes.

In [145]:
teste_df = pd.DataFrame()
teste_df["Tweets"] = teste_limpo
teste_df["Relev√¢ncia"] = teste["Relev√¢ncia"]

teste_df.head()

Unnamed: 0,Tweets,Relev√¢ncia
0,algu√©m me convida pra assistir bacurau amanh√£,1
1,kmendoncafilho as duas sessoes de bacurau hj ...,1
2,cinearteuff bacurau tem entranhas,1
3,n√£o √© poss√≠vel que bacurau j√° esteja dispon√≠ve...,0
4,s√≥ vou ver bacurau domingo boe alguma gay pod...,0


In [149]:
chutes = [] #lista com chutes baseados nas probabilidades
for tweet in teste_limpo:
    pI = 1
    pR = 1
    palavras = tweet.split(" ")
    
    for palavra in palavras:
        if palavra in prob_rel:
            pR*= prob_rel[palavra]
        else:
            pR *= 1/(len(palavras_totais)+quantidade_relevancia[1])
        if palavra in prob_irr:
            pI*= prob_irr[palavra]
        else:
            pI *= 1/(len(palavras_totais)+quantidade_relevancia[0])
    
    Prob_Rel = quantidade_relevancia[1]*pR
    Prob_Irr = quantidade_relevancia[0]*pI
    
    if Prob_Rel>= Prob_Irr:
        chutes.append(1)
    else:
        chutes.append(0)
#     print (Prob_Irr)
        

teste_df["Chutes"]=chutes
teste_df.head()

Unnamed: 0,Tweets,Relev√¢ncia,Chutes
0,algu√©m me convida pra assistir bacurau amanh√£,1,0
1,kmendoncafilho as duas sessoes de bacurau hj ...,1,0
2,cinearteuff bacurau tem entranhas,1,0
3,n√£o √© poss√≠vel que bacurau j√° esteja dispon√≠ve...,0,0
4,s√≥ vou ver bacurau domingo boe alguma gay pod...,0,0


In [150]:
rel_certo = teste_df.loc[(teste_df['Relev√¢ncia']==1)&(teste_df['Chutes']==1), ['Relev√¢ncia','Chutes']]
rel_err = teste_df.loc[(teste_df['Relev√¢ncia']!=1)&(teste_df['Chutes']==1), ['Relev√¢ncia','Chutes']]
irr_certo = teste_df.loc[(teste_df['Relev√¢ncia']==0)&(teste_df['Chutes']==0), ['Relev√¢ncia','Chutes']]
irr_err = teste_df.loc[(teste_df['Relev√¢ncia']!=0)&(teste_df['Chutes']==0), ['Relev√¢ncia','Chutes']]

**Fizemos um *crosstab* para comparar os resultados dados com os resultados previstos pelo treinamento**

In [161]:
tabela_sudoku = pd.crosstab(teste_df["Relev√¢ncia"], teste_df["Chutes"], rownames=["Classifica√ß√£o"], colnames=["Treinamento"], margins=True, normalize=True)
tabela_sudoku

Treinamento,0,1,All
Classifica√ß√£o,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,0.38,0.0,0.38
1,0.58,0.04,0.62
All,0.96,0.04,1.0


In [165]:
print("Relevantes corretos: {0}%".format((tabela_sudoku.loc[1,1])*100))
print("Irrelevantes corretos: {0}%".format((tabela_sudoku.loc[0,0])*100))

Relevantes corretos: 4.0%
Irrelevantes corretos: 38.0%


___
### Concluindo

Percebe-se que nosso classificador marcou 4% dos *tweets* como relevantes quando eles realmente eram relevantes e 38% como irrelevantes corretamente. Esses valores representam que nosso classificador ainda precisa de ajustes e melhorias para que se torne mais preciso. 


### Aperfei√ßoamento:


Como o Naive Bayes n√£o considera a correla√ß√£o entre as palavras, poderiamos fazer um programa que fizesse a combina√ß√£o entre elas para desenvolver um classificador ainda mais preciso. Por exemplo, poderiamos combinar as palavras "n√£o" e "melhor", para que o computador n√£o classifique erroneamente um *tweet* que esteja dizendo: "Bacurau n√£o √© o melhor filme que eu j√° assisti" como relevante, apenas porque apresenta a palavra "melhor" nele.

# Refer√™ncias

[Naive Bayes and Text Classification](https://arxiv.org/pdf/1410.5329.pdf)  

[A practical explanation of a Naive Bayes Classifier](https://monkeylearn.com/blog/practical-explanation-naive-bayes-classifier/) 

[Techniques for Improving the Performance
of Naive Bayes for Text Classification](http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.59.2085&rep=rep1&type=pdf)
