# Projeto 2 - Classificador Automático de Sentimento

Você foi contratado por uma empresa parar analisar como os clientes estão reagindo a um determinado produto no Twitter. A empresa deseja que você crie um programa que irá analisar as mensagens disponíveis e classificará como "relevante" ou "irrelevante". Com isso ela deseja que mensagens negativas, que denigrem o nome do produto, ou que mereçam destaque, disparem um foco de atenção da área de marketing.<br /><br />
Como aluno de Ciência dos Dados, você lembrou do Teorema de Bayes, mais especificamente do Classificador Naive-Bayes, que é largamente utilizado em filtros anti-spam de e-mails. O classificador permite calcular qual a probabilidade de uma mensagem ser relevante dadas as palavras em seu conteúdo.<br /><br />
Para realizar o MVP (*minimum viable product*) do projeto, você precisa implementar uma versão do classificador que "aprende" o que é relevante com uma base de treinamento e compara a performance dos resultados com uma base de testes.<br /><br />
Após validado, o seu protótipo poderá também capturar e classificar automaticamente as mensagens da plataforma.

## Informações do Projeto

Prazo: 19/Set até às 23:59.<br />
Grupo: 2 ou 3 pessoas - grupos com 3 pessoas terá uma rubrica diferenciada.<br /><br />
Entregáveis via GitHub: 
* Arquivo notebook com o código do classificador, seguindo as orientações abaixo.
* Arquivo Excel com as bases de treinamento e teste totalmente classificado.

**NÃO gravar a key do professor no arquivo**


### Entrega Intermediária: Check 1 - APS 2

Até o dia 10/Set às 23:59, xlsx deve estar no Github com as seguintes evidências: 

  * Produto escolhido.
  * Arquivo Excel contendo a base de treinamento e a base de testes já classificadas.

Sugestão de leitura:<br />
https://monkeylearn.com/blog/practical-explanation-naive-bayes-classifier/

## Grupo: ##
Enrico Aloisi Nardi

Evandro Romeiro Fontana

Jadson da Silva Oliveira de Jesus

___

## Parte I - Adquirindo a Base de Dados

Acessar o notebook **Projeto-2-Planilha** para realizar a coleta dos dados. O grupo deve classificar os dados coletados manualmente.

___
## Parte II - Montando o Classificador Naive-Bayes

Com a base de treinamento montada, comece a desenvolver o classificador. Não se esqueça de implementar o Laplace Smoothing (https://en.wikipedia.org/wiki/Laplace_smoothing).

Opcionalmente: 
* Limpar as mensagens removendo os caracteres: enter, :, ", ', (, ), etc. Não remover emojis.<br />
* Corrigir separação de espaços entre palavras e/ou emojis.
* Propor outras limpezas/transformações que não afetem a qualidade da informação.

Escreva o seu código abaixo:

In [2]:
import pandas as pd
import re
import numpy as np

In [166]:
#Abrindo o arquivo excel

planilha = pd.ExcelFile("tweets_Nintendo_201809042125.xlsx")
dados= pd.read_excel(planilha,'Treinamento')
dados2 = pd.read_excel(planilha,'Teste')

##dados= pd.read_excel("tweets_Nintendo_201809042125.xlsx")

#Excluindo colunas e linhas que não serão utilizadas
dados_R = dados.drop(['Classificação (R I)','Classificação (B M)'], axis=1)
dados_teste = dados2.drop(['Classificação (R I)','Classificação (B M)'], axis=1)

#Função que limpa a base de dados.. ela recebe a base (dataframe) e o tipo da base (string) como argumentos
def limpa_base(base, tipo):
    #Criando listas e dicionários para guardar os dados processados
    dados_limpos = {}
    frases = []
    classi = []
    
    #Criando as chaves e atribuindo os valores associados as frases e suas respectivas classificações. 
    dados_limpos[tipo] = frases
    dados_limpos["Classificacao"] = classi
    
    #Limpando a base de dados -ou seja, excluindo links de vídeos, rt's e @'s-
    for i in range(len(base[tipo])):
        
        Tweet = base.iloc[i][tipo]
        apaga_tudo = re.sub('https://[^\s]+',' ',Tweet)
        apaga_tudo = re.sub('@[^\s]+',' ',apaga_tudo)
        apaga_tudo = re.sub('^rt',' ',apaga_tudo)
        apaga_tudo = re.sub('[^A-Za-z ãáâõóôêéíç]',' ',apaga_tudo)
        apaga_tudo = re.sub(r'\b\w{1,2}\b ',' ',apaga_tudo)
        apaga_tudo = re.sub(r'\bque\b',' ',apaga_tudo)
        apaga_tudo = re.sub(r'\buma\b',' ',apaga_tudo)
        apaga_tudo = re.sub(r'\bpra\b',' ',apaga_tudo)
        apaga_tudo = re.sub('   ',' ',apaga_tudo)
        frases.append(apaga_tudo)
        classi.append(base.iloc[i]['Classificação por Subtopicos (MR, R, N, I, MI)'])
    return dados_limpos
dados_teste['Teste']

0      ontem fui jogar fortnite nao acertei como q at...
1       @mao_luva segue o link¬\nhttps://t.co/6ier8hlhzc
2      pensa em um dossiê completíssimo com todos os ...
3      rt @darkwiny: t-shirt mario + lunch box ninten...
4      mario bros. estrenará cooperativo online graci...
5      nintendo classic mini: nintendo entertainment ...
6      vai se foder que a nintendo vai lançar um rema...
7      rt @poetalesado: coisas q da saudade:\n\norkut...
8      forgotton annie, jogo inspirado pelo studio gh...
9      meu destino é só o de jogar coisas antigas e c...
10     nintendo switch é o console dos sonhos de qual...
11     super mario bros. 3 (nintendo entertainment sy...
12     nintendo pouch https://t.co/isvlpwvtfe https:/...
13     isso mesmo, sabemos muito pouco, então fiquem ...
14     nintendo wii u recebe nova atualização de firm...
15     adicionei um vídeo a uma playlist @youtube htt...
16     super mario 3d world - ao vivo!!! diretamente ...
17     aparentemente a nintendo

In [167]:
#Limpando os dados da base
dados_limpos=limpa_base(dados_teste, 'Teste')
dados_limpos

{'Teste': ['ontem fui jogar fortnite nao acertei como  atira  constroi muro mira nos cara  mesmo tempo plmdds  muita coisa sou  epoca  goldeneye  gente tinha  girar  alavaca  controle  nintendo  com muito cuidado nao quebrar  ainda matar  cara  pistola',
  '  segue  link ',
  'pensa dossiê completíssimo com todos  jogos você curtia  infância  ainda curte  super nintendo muitooo bom  geek  supernintendo  supermariobros  ',
  '   shirt mario lunch box nintendo    sowia  ',
  'mario bros  estrenará cooperativo online gracias  nintendo switch online  ',
  'nintendo classic mini  nintendo entertainment system  nintendo   delivered nes  nesclassicmini ',
  'vai  foder  nintendo vai lançar  remakezinho  romancing saga  ',
  '  coisas saudade orkut msn  globinho super nintendo bey blade  salgadinho com tazo  brincar  rua verdad ',
  'forgotton annie  jogo inspirado pelo studio ghibli  chegará  switch  ',
  'meu destino   jogar coisas antigas  curtas mesmo jogos  nintendo ',
  'nintendo switch 

In [132]:
#Calculando a probabilidade de cada categoria P(MR)

dados=pd.DataFrame.from_dict(dados_limpos)

total_msgs= len(dados.Classificacao)

frequencias = dados.Classificacao.value_counts()

#Dicionário com as probabilidades de cada categoria
prob_cat={}

prob_cat['MR']= frequencias.MR/total_msgs

prob_cat['R']= frequencias.R/total_msgs

prob_cat['N']= frequencias.N/total_msgs

prob_cat['I']= frequencias.I/total_msgs

prob_cat['MI']= frequencias.MI/total_msgs
frequencias

R     122
MR     60
N      47
I      41
MI     30
Name: Classificacao, dtype: int64

In [90]:
#criação de um dicionário que contêm a contagem das palavras dada uma determinada classe
d_base={}
d_base['MR']=[]
d_base['R']=[]
d_base['N']=[]
d_base['I']=[]
d_base['MI']=[]

#Separando o nosso dicionário limpo em duas listas para então coloca-los no novo dicionário

categorias=dados_limpos["Classificacao"]
frases=dados_limpos["Treinamento"]

todas_palavras = [] #lista de todas as palavras
todas_palavras_sr = [] #lista de todas as palavras sem repetição


#Percorrendo as listas 'categorias' e 'frases' para criar o dicionário correspondente a cada classificação (MR, R, N, I, MI)
for i in range(len(frases)):
    lista = frases[i].split() #lista com todas as palavras
    todas_palavras.extend(lista)
    for e in lista:
        if e not in todas_palavras_sr:
            todas_palavras_sr.append(e)
    
    if categorias[i]=='MR': #testando se uma palavras numa posição i (0,1,2...) é de uma categoria 
        palavras=frases[i].split()
        d_base['MR'].extend(palavras)
        
    if categorias[i]=='R':
        palavras=frases[i].split()
        d_base['R'].extend(palavras)
        
    if categorias[i]=='N':
        palavras=frases[i].split()
        d_base['N'].extend(palavras)
        
    if categorias[i]=='I':
        palavras=frases[i].split()
        d_base['I'].extend(palavras)
        
    if categorias[i]=='MI':
        palavras=frases[i].split()
        d_base['MI'].extend(palavras)



In [91]:
##Conta quantas palavras tem em cada categoria

def contadora(dic,categoria): #Recebemos o dicionário que tem as palavras em suas respectivas categorias {'MR':{palavras},'R':{palavras} etc}
    MR_l={}
    for palavra in dic[categoria]:
        if palavra not in MR_l: #Caso ainda não exista a palavra, criamos e atribuimos o valor de 1
            MR_l[palavra]= 1
        else: #Caso exista adicionamos +1 ao valor existente
            MR_l[palavra]+=1
    return(MR_l)


In [92]:
cont_MR = contadora(d_base,"MR")
cont_R = contadora(d_base,"R")
cont_N = contadora(d_base,"N")
cont_I = contadora(d_base,"I")
cont_MI = contadora(d_base,"MI")

cont_geral = {}
cont_geral["MR"] = cont_MR
cont_geral["R"] = cont_R
cont_geral["N"] = cont_N
cont_geral["I"] = cont_I
cont_geral["MI"] = cont_MI


In [93]:
#função cálcula da probabilidade de que uma dada palavra seja de uma determinada classificação (precisamos dividir pela soma
#de todas as palavras de uma classificação com as palavras que nao repetem {P(palavra|MR))}

def calcula_prob_dado_algo(serie,categoria):
    prob_algo={}
    
    for k,v in serie.items():
        prob_algo[k] = (v+1)/(len(serie) + len(todas_palavras_sr))
    return prob_algo

dic_prob_palavras_por_cat = {}

dic_prob_palavras_por_cat['MR']= calcula_prob_dado_algo(cont_MR,'MR')
dic_prob_palavras_por_cat['R']= calcula_prob_dado_algo(cont_R,'R')
dic_prob_palavras_por_cat['N']= prob_pal_N= calcula_prob_dado_algo(cont_N,'N')
dic_prob_palavras_por_cat['I']= calcula_prob_dado_algo(cont_I,'I')
dic_prob_palavras_por_cat['MI']= calcula_prob_dado_algo(cont_MI,'MI')


In [168]:
#Função para classificacao de relevancia de uma frase qualquer 
def classifica_relevancia(dataframe,probabilidades_categorias,probabilidade_palavras, tipo):
    frases_limpas = limpa_base(dataframe, tipo)
    dic_probabilidade_cada_frase = {}
    for frases in frases_limpas[tipo]:
        lista_palavras_msg = frases.split()
        lista_categorias = ['MR','R','N','I','MI']
        dic_prob_para_categoria = {}
        maior_prob= 0
        prob_frase = 1
        for categoria in lista_categorias:
            for palavra in lista_palavras_msg:
                if palavra in probabilidade_palavras[categoria]:
                    prob_frase *= (probabilidade_palavras[categoria][palavra])
            dic_prob_para_categoria[categoria] = prob_frase*probabilidades_categorias[categoria]
        dic_probabilidade_cada_frase[frases] = dic_prob_para_categoria
#            for k,v in dic_prob_para_categoria.items():
#                maior_prob= max(dic_prob_para_categoria)
            
    return dic_probabilidade_cada_frase
        
j = classifica_relevancia(dados_teste,prob_cat ,dic_prob_palavras_por_cat, 'Teste')
j   

{'ontem fui jogar fortnite nao acertei como  atira  constroi muro mira nos cara  mesmo tempo plmdds  muita coisa sou  epoca  goldeneye  gente tinha  girar  alavaca  controle  nintendo  com muito cuidado nao quebrar  ainda matar  cara  pistola': {'MR': 4.302286628683417e-41,
  'R': 1.5148027229208045e-68,
  'N': 1.9346867378078723e-81,
  'I': 1.756367073174503e-136,
  'MI': 3.1232791772501893e-155},
 '  segue  link ': {'MR': 0.00023923444976076556,
  'R': 5.319227787645962e-07,
  'N': 2.0492107050767232e-07,
  'I': 1.7876093384711838e-07,
  'MI': 1.3080068330276957e-07},
 'pensa dossiê completíssimo com todos  jogos você curtia  infância  ainda curte  super nintendo muitooo bom  geek  supernintendo  supermariobros  ': {'MR': 2.558008866329077e-21,
  'R': 8.447087186980144e-37,
  'N': 4.794894280871154e-49,
  'I': 8.833254816201409e-56,
  'MI': 7.019708873382414e-69},
 '   shirt mario lunch box nintendo    sowia  ': {'MR': 9.550263770754675e-08,
  'R': 1.8938207397785509e-13,
  'N': 5.49

___
## Verificando a performance

Agora você deve testar o seu Classificador com a base de Testes.<br /><br /> 

Você deve extrair as seguintes medidas:
* Porcentagem de positivos falsos (marcados como relevante mas não são relevantes)
* Porcentagem de positivos verdadeiros (marcado como relevante e são relevantes)
* Porcentagem de negativos verdadeiros (marcado como não relevante e não são relevantes)
* Porcentagem de negativos falsos (marcado como não relevante e são relevantes)

Obrigatório para grupos de 3 alunos:
* Criar categorias intermediárias de relevância baseado na diferença de probabilidades. Exemplo: muito relevante, relevante, neutro, irrelevante e muito irrelevante.

In [116]:
base_testes=limpa_base(dados_teste, 'Teste')

#for frase in base_testes.Teste:
#    relevancias = classifica_relevancia(frase) #Recebe o dicionário de relevâncias vindo da função que calcula P(R|frase)
#     #Duvida: pegamos a "relevância" com menor ou maior valor? (Lembrando que se trata de uma multiplicação de numeros < 1 )   

___
## Concluindo

Escreva aqui a sua conclusão.<br /> 
Faça um comparativo qualitativo sobre as medidas obtidas.<br />
Explique como são tratadas as mensagens com dupla negação e sarcasmo.<br />
Proponha um plano de expansão. Por que eles devem continuar financiando o seu projeto?<br />

Opcionalmente: 
* Discorrer por que não posso alimentar minha base de Treinamento automaticamente usando o próprio classificador, aplicado a novos tweets.
* Propor diferentes cenários de uso para o classificador Naive-Bayes. Cenários sem intersecção com este projeto.
* Sugerir e explicar melhorias reais no classificador com indicações concretas de como implementar (não é preciso codificar, mas indicar como fazer e material de pesquisa sobre o assunto).
