# Projeto 2 - Classificador Autom√°tico de Sentimento

Voc√™ foi contratado por uma empresa parar analisar como os clientes est√£o reagindo a um determinado produto no Twitter. A empresa deseja que voc√™ crie um programa que ir√° analisar as mensagens dispon√≠veis e classificar√° como "relevante" ou "irrelevante". Com isso ela deseja que mensagens negativas, que denigrem o nome do produto, ou que mere√ßam destaque, disparem um foco de aten√ß√£o da √°rea de marketing.<br /><br />
Como aluno de Ci√™ncia dos Dados, voc√™ lembrou do Teorema de Bayes, mais especificamente do Classificador Naive-Bayes, que √© largamente utilizado em filtros anti-spam de e-mails. O classificador permite calcular qual a probabilidade de uma mensagem ser relevante dadas as palavras em seu conte√∫do.<br /><br />
Para realizar o MVP (*minimum viable product*) do projeto, voc√™ precisa implementar uma vers√£o do classificador que "aprende" o que √© relevante com uma base de treinamento e compara a performance dos resultados com uma base de testes.<br /><br />
Ap√≥s validado, o seu prot√≥tipo poder√° tamb√©m capturar e classificar automaticamente as mensagens da plataforma.

## Informa√ß√µes do Projeto

Prazo: 19/Set at√© √†s 23:59.<br />
Grupo: 2 ou 3 pessoas - grupos com 3 pessoas ter√° uma rubrica diferenciada.<br /><br />
Entreg√°veis via GitHub: 
* Arquivo notebook com o c√≥digo do classificador, seguindo as orienta√ß√µes abaixo.
* Arquivo Excel com as bases de treinamento e teste totalmente classificado.

**N√ÉO gravar a key do professor no arquivo**


### Entrega Intermedi√°ria: Check 1 - APS 2

At√© o dia 10/Set √†s 23:59, xlsx deve estar no Github com as seguintes evid√™ncias: 

  * Produto escolhido.
  * Arquivo Excel contendo a base de treinamento e a base de testes j√° classificadas.

Sugest√£o de leitura:<br />
https://monkeylearn.com/blog/practical-explanation-naive-bayes-classifier/

In [144]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt


___

## Parte I - Adquirindo a Base de Dados

Acessar o notebook **Projeto-2-Planilha** para realizar a coleta dos dados. O grupo deve classificar os dados coletados manualmente.

___
## Parte II - Montando o Classificador Naive-Bayes

Com a base de treinamento montada, comece a desenvolver o classificador. N√£o se esque√ßa de implementar o Laplace Smoothing (https://en.wikipedia.org/wiki/Laplace_smoothing).

Opcionalmente: 
* Limpar as mensagens removendo os caracteres: enter, :, ", ', (, ), etc. N√£o remover emojis.<br />
* Corrigir separa√ß√£o de espa√ßos entre palavras e/ou emojis.
* Propor outras limpezas/transforma√ß√µes que n√£o afetem a qualidade da informa√ß√£o.

Escreva o seu c√≥digo abaixo:

In [145]:
data = pd.read_excel("mcdonalds_tweets.xlsx",sheet_name = "Treinamento")
colunas = ["Treinamento", "Classifica√ß√£o"]
data = data.loc[:,colunas]


#Limpando caracteres irrelevantes:
#https://pt.stackoverflow.com/questions/217832/como-retirar-caractere-especial-e-ponto-de-coluna-string-de-um-data-frame

def deletar_caracteres(coluna):
    coluna = coluna.replace("."," ").replace(":"," ").replace(","," ").replace("'","").replace('"', " ").replace("#"," ")\
    .replace("-","")
    return coluna



    

data['Treinamento'] = data['Treinamento'].apply(deletar_caracteres)




                                           Treinamento  Classifica√ß√£o
0    rt @bbcbrasil: jovens colam p√¥ster 'publicit√°r...              0
1    mo√ßo no metr√¥ com um saco do mcdonald's. e ago...              1
2    rt @awannable: younghoon tentando falar "mcdon...              0
3    rt @joshhduh: essa hora o mcdonald's ainda n√£o...              1
4    rt @mais_beea: era s√≥ um lanche do mcdonald's ...              1
5    rt @awannable: younghoon tentando falar "mcdon...              0
6    rt @mcdonalds_br: sete dias, sete oportunidade...              1
7    rt @bbcbrasil: estudantes de origem asi√°tica f...              0
8    nossa queria comprar todas as batatas do mcdon...              1
9     pelo menos vou passar no mcdonald's de novo kkkk              1
10   rt @bbcbrasil: jovens colam p√¥ster 'publicit√°r...              0
11   meu deus do c√©u algu√©m quer me comprar um ched...              1
12                @rbmps prazer promo√ß√£o do mcdonald's              0
13   

In [146]:
#Dividindo entre relevante e irrelevante
Relevante = data[data["Classifica√ß√£o"] == 1]
irrel = data[data["Classifica√ß√£o"] == 0] 

dic_palavras_rel = {}
dic_palavras_irrel = {}

for i in Relevante["Treinamento"]:
    x = i.split()
    for e in x:
        if e not in dic_palavras_rel:
            dic_palavras_rel[e] = 1
        
        elif e in dic_palavras_rel:
            dic_palavras_rel[e] += 1



            
for i in irrel["Treinamento"]:
    x = i.split()
    for e in x:
        if e not in dic_palavras_irrel:
            dic_palavras_irrel[e] = 1
        
        elif e in dic_palavras_irrel:
            dic_palavras_irrel[e] += 1
            

dic_palavras_re = pd.DataFrame.from_dict(dic_palavras_rel, orient='index')
dic_palavras_irre =  pd.DataFrame.from_dict(dic_palavras_irrel,  orient='index')


dic_palavras_re.columns = ["Relevante"]
dic_palavras_irre.columns = ["Irrelevante"]


Dataframe =  dic_palavras_re.join(dic_palavras_irre, how='outer')


Dataframe = Dataframe.fillna(0)
Dataframe.reset_index(level=0, inplace=True)
Dataframe.rename(columns = {"index":'Palavras'}, inplace=True)

Dataframe['Relevante'] = Dataframe['Relevante'].astype(int)
Dataframe['Irrelevante'] = Dataframe['Irrelevante'].astype(int)
Dataframe.head(10)






Unnamed: 0,Palavras,Relevante,Irrelevante
0,&amp;,0,1
1,&gt;,0,8
2,(@,2,0
3,(sabado,1,0
4,//t,37,65
5,000,1,0
6,01,1,0
7,1,1,0
8,10,1,1
9,123m,0,1


In [147]:
# Total de palavras relevantes e irrelevantes

quantidade_rel = Dataframe.Relevante.sum()

quantidade_irrel = Dataframe.Irrelevante.sum() 



        
print(quantidade_rel)    

print(quantidade_irrel)  


2576
2077


In [148]:
#Probabilidade de palavra/relevante e palavra/irrelevante
Dataframe = Dataframe.copy()

Dataframe['prob_rel'] = (df.Relevante + 1) / (quantidade_rel+ total_palavras)
Dataframe['prob_irrel'] = (df.Irrelevante + 1) / (quantidade_irrel+ total_palavras)

Dataframe

Unnamed: 0,Palavras,Relevante,Irrelevante,prob_rel,prob_irrel
0,&amp;,0,1,0.000141,0.000302
1,&gt;,0,8,0.000141,0.001360
2,(@,2,0,0.000422,0.000151
3,(sabado,1,0,0.000281,0.000151
4,//t,37,65,0.005340,0.009974
5,000,1,0,0.000281,0.000151
6,01,1,0,0.000281,0.000151
7,1,1,0,0.000281,0.000151
8,10,1,1,0.000281,0.000302
9,123m,0,1,0.000141,0.000302


In [149]:
# Probabilidade do tweet ser relevante ou irrelevante

total_1 = data['Treinamento'][data['Classifica√ß√£o'] == 1].count()
total_2 = data['Treinamento'][data['Classifica√ß√£o'] == 0].count()

PRelevante = total_1/(total_1+total_2)
Pirrelevante = total_2/(total_1+total_2)

print(PRelevante)
print(Pirrelevante)




0.59
0.41


In [150]:
lis1 = []
lis2 = []
for e in Dataframe.prob_rel:
    lis1.append(e*PRelevante)
for e in Dataframe.prob_irrel:
    lis2.append(e*Pirrelevante)


    
Prob = {}    

Prob2 = {}
        
        
for i in range(0,len(Dataframe.Relevante)):
    Prob[Dataframe.Palavras[i]] = lis1[i]
    

    
for i in range(0,len(Dataframe.Irrelevante)):
    Prob2[Dataframe.Palavras[i]] = lis2[i]
        
index = pd.RangeIndex(start=0, stop=1, step=1)  

    
dc = pd.DataFrame(data=Prob,index=index)
x=dc.T
dc0 = pd.DataFrame(data=Prob2,index=index)
z=dc0.T
x.columns = ["Relevante_Palavra"]
z.columns = ["Irrelevante_Palavra"]

Dataframe3 =  x.join(z, how='inner')
Dataframe3.head(20)
        

        
            


 


Unnamed: 0,Relevante_Palavra,Irrelevante_Palavra
&amp;,8.3e-05,0.000124
&gt;,8.3e-05,0.000558
(@,0.000249,6.2e-05
(sabado,0.000166,6.2e-05
//t,0.003151,0.004089
000,0.000166,6.2e-05
01,0.000166,6.2e-05
1,0.000166,6.2e-05
10,0.000166,0.000124
123m,8.3e-05,0.000124


In [184]:
data_teste = pd.read_excel("mcdonalds_tweets.xlsx",sheet_name = "Teste")
colunas = ["Teste", "Classifica√ß√£o"]
data_teste = data_teste.loc[:,colunas] 

data_teste['Teste'] = data_teste['Teste'].apply(deletar_caracteres)
data_teste.head(10)


tweet = []
lista_tweets = []
for e in data_teste.Teste :
    lista_tweets.append(e)
    
x = lista_tweets[0].split() 

counter = 0
for e in x:
    for i in Dataframe3.index:
        if e in Dataframe3.index:
            counter += Dataframe3.Relevante_Palavra[i]


Dataframe3.Irrelevante_Palavra[0]

def classificar(tweet):
    x = tweet.split()
    counter_rel = 0
    counter_irrel = 1
    for e in x:
        for i in Dataframe3.index:
            if e in Dataframe3.index:
                counter_rel += Dataframe3.Relevante_Palavra[i]
                return counter_rel
print(classificar()


        
        

    

    
    
    

8.291174817313097e-05


___
## Verificando a performance

Agora voc√™ deve testar o seu Classificador com a base de Testes.<br /><br /> 

Voc√™ deve extrair as seguintes medidas:
* Porcentagem de positivos falsos (marcados como relevante mas n√£o s√£o relevantes)
* Porcentagem de positivos verdadeiros (marcado como relevante e s√£o relevantes)
* Porcentagem de negativos verdadeiros (marcado como n√£o relevante e n√£o s√£o relevantes)
* Porcentagem de negativos falsos (marcado como n√£o relevante e s√£o relevantes)

Obrigat√≥rio para grupos de 3 alunos:
* Criar categorias intermedi√°rias de relev√¢ncia baseado na diferen√ßa de probabilidades. Exemplo: muito relevante, relevante, neutro, irrelevante e muito irrelevante.

___
## Concluindo

Escreva aqui a sua conclus√£o.<br /> 
Fa√ßa um comparativo qualitativo sobre as medidas obtidas.<br />
Explique como s√£o tratadas as mensagens com dupla nega√ß√£o e sarcasmo.<br />
Proponha um plano de expans√£o. Por que eles devem continuar financiando o seu projeto?<br />

Opcionalmente: 
* Discorrer por que n√£o posso alimentar minha base de Treinamento automaticamente usando o pr√≥prio classificador, aplicado a novos tweets.
* Propor diferentes cen√°rios de uso para o classificador Naive-Bayes. Cen√°rios sem intersec√ß√£o com este projeto.
* Sugerir e explicar melhorias reais no classificador com indica√ß√µes concretas de como implementar (n√£o √© preciso codificar, mas indicar como fazer e material de pesquisa sobre o assunto).
