# Projeto 2 - Classificador Automático de Sentimento

Você foi contratado por uma empresa parar analisar como os clientes estão reagindo a um determinado produto no Twitter. A empresa deseja que você crie um programa que irá analisar as mensagens disponíveis e classificará como "relevante" ou "irrelevante". Com isso ela deseja que mensagens negativas, que denigrem o nome do produto, ou que mereçam destaque, disparem um foco de atenção da área de marketing.<br /><br />
Como aluno de Ciência dos Dados, você lembrou do Teorema de Bayes, mais especificamente do Classificador Naive-Bayes, que é largamente utilizado em filtros anti-spam de e-mails. O classificador permite calcular qual a probabilidade de uma mensagem ser relevante dadas as palavras em seu conteúdo.<br /><br />
Para realizar o MVP (*minimum viable product*) do projeto, você precisa implementar uma versão do classificador que "aprende" o que é relevante com uma base de treinamento e compara a performance dos resultados com uma base de testes.<br /><br />
Após validado, o seu protótipo poderá também capturar e classificar automaticamente as mensagens da plataforma.

## Informações do Projeto

Prazo: 19/Set até às 23:59.<br />
Grupo: 2 ou 3 pessoas - grupos com 3 pessoas terá uma rubrica diferenciada.<br /><br />
Entregáveis via GitHub: 
* Arquivo notebook com o código do classificador, seguindo as orientações abaixo.
* Arquivo Excel com as bases de treinamento e teste totalmente classificado.

**NÃO gravar a key do professor no arquivo**


### Entrega Intermediária: Check 1 - APS 2

Até o dia 10/Set às 23:59, xlsx deve estar no Github com as seguintes evidências: 

  * Produto escolhido.
  * Arquivo Excel contendo a base de treinamento e a base de testes já classificadas.

Sugestão de leitura:<br />
https://monkeylearn.com/blog/practical-explanation-naive-bayes-classifier/

## Grupo: ##
Enrico Aloisi Nardi

Evandro Romeiro Fontana

Jadson da Silva Oliveira de Jesus

___

## Parte I - Adquirindo a Base de Dados

Acessar o notebook **Projeto-2-Planilha** para realizar a coleta dos dados. O grupo deve classificar os dados coletados manualmente.

___
## Parte II - Montando o Classificador Naive-Bayes

Com a base de treinamento montada, comece a desenvolver o classificador. Não se esqueça de implementar o Laplace Smoothing (https://en.wikipedia.org/wiki/Laplace_smoothing).

Opcionalmente: 
* Limpar as mensagens removendo os caracteres: enter, :, ", ', (, ), etc. Não remover emojis.<br />
* Corrigir separação de espaços entre palavras e/ou emojis.
* Propor outras limpezas/transformações que não afetem a qualidade da informação.

Escreva o seu código abaixo:

In [56]:
import pandas as pd
import re
import numpy as np

In [57]:
#Abrindo o arquivo excel

planilha = pd.ExcelFile("tweets_Nintendo_201809042125.xlsx")
dados= pd.read_excel(planilha,'Treinamento') #'dados' e 'dados2': séries originais vindas diretamente do excel
dados2 = pd.read_excel(planilha,'Teste')

#Excluindo colunas do excel que não serão utilizadas
dados_R = dados.drop(['Classificação (R I)','Classificação (B M)'], axis=1)
dados_teste = dados2.drop(['Classificação (R I)','Classificação (B M)'], axis=1)

#Função que limpa a base de dados.. ela recebe a base (dataframe) e o tipo (treinamento ou teste) da base (string) como argumentos
def limpa_base(base, tipo):
    #Criando listas e dicionários para guardar os dados processados
    dados_limpos = {}
    frases = []
    classi = []
    
    #Criando as chaves e atribuindo os valores associados as frases e suas respectivas classificações. 
    dados_limpos[tipo] = frases
    dados_limpos["Classificacao"] = classi
    varios_emojis = re.compile(r'\d+(.*?)(?:\u263a|\U0001f645)')

    #Limpando a base de dados -ou seja, excluindo links de vídeos, rt's e @'s-
    for i in range(len(base[tipo])):     
        Tweet = base.iloc[i][tipo]
        apaga_tudo = re.sub('https://[^\s]+',' ',Tweet)
        apaga_tudo = re.sub('@[^\s]+',' ',apaga_tudo)
        apaga_tudo = re.sub('^rt',' ',apaga_tudo)
        apaga_tudo = re.sub('[^A-Za-z ãáâõóôêéíç👙"u"\U0001F600-\U0001F64F"u"\U0001F300-\U0001F5FF"u"\U0001F680-\U0001F6FF"u"\U0001F1E0-\U0001F1FF"]',' ',apaga_tudo)
        apaga_tudo = re.sub(r'\b\w{1,2}\b ',' ',apaga_tudo)
        apaga_tudo = re.sub(r'\b\n\b',' ',apaga_tudo)
        apaga_tudo = re.sub(r'\bque\b',' ',apaga_tudo)
        apaga_tudo = re.sub(r'\buma\b',' ',apaga_tudo)
        apaga_tudo = re.sub(r'\bpra\b',' ',apaga_tudo)
        apaga_tudo = re.sub('    ',' ',apaga_tudo)
        apaga_tudo = re.sub('   ',' ',apaga_tudo)
        apaga_tudo = apaga_tudo.lower()
        frases.append(apaga_tudo)
        classi.append(base.iloc[i]['Classificação por Subtopicos (MR, R, N, I, MI)'])
    return dados_limpos


In [68]:
#Limpando os dados da base
dados_limpos=limpa_base(dados_R, 'Treinamento')

In [69]:
#Calculando a probabilidade de cada categoria P(MR)

dados=pd.DataFrame.from_dict(dados_limpos)

total_msgs= len(dados.Classificacao)

frequencias = dados.Classificacao.value_counts()

#Dicionário com as probabilidades de cada categoria
prob_cat={}

prob_cat['MR']= frequencias.MR/total_msgs

prob_cat['R']= frequencias.R/total_msgs

prob_cat['N']= frequencias.N/total_msgs

prob_cat['I']= frequencias.I/total_msgs

prob_cat['MI']= frequencias.MI/total_msgs
prob_cat

{'I': 0.13666666666666666,
 'MI': 0.1,
 'MR': 0.2,
 'N': 0.15666666666666668,
 'R': 0.4066666666666667}

In [70]:
#criação de um dicionário que contêm a contagem das palavras dada uma determinada classe
d_base={}
d_base['MR']=[]
d_base['R']=[]
d_base['N']=[]
d_base['I']=[]
d_base['MI']=[]

#Separando o nosso dicionário limpo em duas listas para então coloca-los no novo dicionário

categorias = dados_limpos["Classificacao"]
frases = dados_limpos["Treinamento"]

todas_palavras = [] #lista de todas as palavras
todas_palavras_sr = [] #lista de todas as palavras sem repetição

#Percorrendo as listas 'categorias' e 'frases' para criar o dicionário correspondente a cada classificação (MR, R, N, I, MI)
for i in range(len(frases)):
    lista = frases[i].split() #lista com todas as palavras
    todas_palavras.extend(lista)
    for e in lista:
        if e not in todas_palavras_sr:
            todas_palavras_sr.append(e)
    
    if categorias[i]=='MR': #testando se uma palavras numa posição i (0,1,2...) é de uma categoria 
        palavras=frases[i].split()
        d_base['MR'].extend(palavras)
        
    if categorias[i]=='R':
        palavras=frases[i].split()
        d_base['R'].extend(palavras)
        
    if categorias[i]=='N':
        palavras=frases[i].split()
        d_base['N'].extend(palavras)
        
    if categorias[i]=='I':
        palavras=frases[i].split()
        d_base['I'].extend(palavras)
        
    if categorias[i]=='MI':
        palavras=frases[i].split()
        d_base['MI'].extend(palavras)


In [71]:
##Conta quantas palavras tem em cada categoria

def contadora(dic,categoria): #Recebemos o dicionário que tem as palavras em suas respectivas categorias {'MR':{palavras},'R':{palavras} etc}
    MR_l={}
    for palavra in dic[categoria]:
        if palavra not in MR_l: #Caso ainda não exista a palavra, criamos e atribuimos o valor de 1
            MR_l[palavra]= 1
        else: #Caso exista adicionamos +1 ao valor existente
            MR_l[palavra]+=1
    return(MR_l)

In [72]:
cont_geral = {}
cont_geral["MR"] = contadora(d_base,"MR")
cont_geral["R"]  = contadora(d_base,"R")
cont_geral["N"]  = contadora(d_base,"N")
cont_geral["I"]  = contadora(d_base,"I")
cont_geral["MI"] = contadora(d_base,"MI")

In [73]:
#função cálcula da probabilidade de que uma dada palavra seja de uma determinada classificação (precisamos dividir pela soma
#de todas as palavras de uma classificação com as palavras que nao repetem {P(palavra|MR))}

def calcula_prob_dado_algo(serie):
    prob_algo={}
    for k,v in serie.items():
        prob_algo[k] = (v+1)/(len(serie) + len(todas_palavras_sr))
    return prob_algo

dic_prob_palavras_por_cat = {}

dic_prob_palavras_por_cat['MR']= calcula_prob_dado_algo(cont_geral["MR"])
dic_prob_palavras_por_cat['R']= calcula_prob_dado_algo(cont_geral["R"])
dic_prob_palavras_por_cat['N']= prob_pal_N= calcula_prob_dado_algo(cont_geral["N"])
dic_prob_palavras_por_cat['I']= calcula_prob_dado_algo(cont_geral["I"])
dic_prob_palavras_por_cat['MI']= calcula_prob_dado_algo(cont_geral["MI"])

#cont_geral["MR"]

#dic_prob_palavras_por_cat['MR'].values()

In [74]:
#Função para classificacao de relevancia de uma frase qualquer 
  
def classifica_relevancia(dataframe, probabilidades_categorias, probabilidade_palavras, tipo):
    i = 0
    frases_limpas = limpa_base(dataframe, tipo)
    dic_probabilidade_cada_frase = {}
    
    for frases in frases_limpas[tipo]:
        
        lista_palavras_msg = frases.split()
        lista_categorias = ['MR','R','N','I','MI']
        dic_prob_para_categoria = {}
        
        for categoria in lista_categorias:
            prob_frase = 1
            for palavra in lista_palavras_msg:
                
                if palavra in probabilidade_palavras[categoria]:
                    prob_frase *= (probabilidade_palavras[categoria][palavra])
                
            dic_prob_para_categoria[categoria] = prob_frase*probabilidades_categorias[categoria]
        
        
        dic_probabilidade_cada_frase[i] = dic_prob_para_categoria
        i+=1    
    return dic_probabilidade_cada_frase
  
j = classifica_relevancia(dados_teste,prob_cat ,dic_prob_palavras_por_cat, 'Teste')

200


In [75]:
def escolhe_class(frases_classificadas):
    maximo = 1
    class_max = str()
    dick = {}
    for frase,d_classificacao in frases_classificadas.items():
        minimo = 1
        for classificacao, prob in d_classificacao.items():
            if prob < minimo:
                minimo = prob
                class_max = classificacao
        dick[frase] = class_max
    return dick

dicionario_final= escolhe_class(j)
s  = pd.DataFrame(list(dicionario_final.items()))
dados_clas_juntos= s.join(dados_teste['Classificação por Subtopicos (MR, R, N, I, MI)'])

#w= pd.DataFrame.from_dict(limpa_base(dados_teste, 'Teste'))


___
## Verificando a performance

Agora você deve testar o seu Classificador com a base de Testes.<br /><br /> 

Você deve extrair as seguintes medidas:
* Porcentagem de positivos falsos (marcados como relevante mas não são relevantes)
* Porcentagem de positivos verdadeiros (marcado como relevante e são relevantes)
* Porcentagem de negativos verdadeiros (marcado como não relevante e não são relevantes)
* Porcentagem de negativos falsos (marcado como não relevante e são relevantes)

Obrigatório para grupos de 3 alunos:
* Criar categorias intermediárias de relevância baseado na diferença de probabilidades. Exemplo: muito relevante, relevante, neutro, irrelevante e muito irrelevante.

In [76]:
nossos_valores= dados_clas_juntos[1]

valores_teste= dados_clas_juntos['Classificação por Subtopicos (MR, R, N, I, MI)']


positivos=0

negativos=0

for e in range(len(nossos_valores)):
    if nossos_valores[e] == valores_teste[e]:
        positivos+=1
    else:
        negativos+=1

print(positivos/200)
print(negativos/200)

0.425
0.575


___
## Concluindo

Escreva aqui a sua conclusão.<br /> 
Faça um comparativo qualitativo sobre as medidas obtidas.<br />
Explique como são tratadas as mensagens com dupla negação e sarcasmo.<br />
Proponha um plano de expansão. Por que eles devem continuar financiando o seu projeto?<br />

Opcionalmente: 
* Discorrer por que não posso alimentar minha base de Treinamento automaticamente usando o próprio classificador, aplicado a novos tweets.
* Propor diferentes cenários de uso para o classificador Naive-Bayes. Cenários sem intersecção com este projeto.
* Sugerir e explicar melhorias reais no classificador com indicações concretas de como implementar (não é preciso codificar, mas indicar como fazer e material de pesquisa sobre o assunto).


   Ao considerar que temos 5 classificações diferentes para os tweets das nossas bases de dados, podemos concluir que se as classificações fossem atribuídas aleatoriamente a cada um dos tweets, teríamos 20% de chance de acertar a nossa escolha. Sendo assim, podemos dizer que o nosso classificador possui uma eficiência razoável, pois acerta 42,5% das suas proposições baseadas na nossa limpeza da base de dados e nas classificações que atribuímos aos tweets no momento de treinar o classificador.
   
   Sobre possíveis melhorias para o projeto, é possível dizer que quanto maior a base de treino e quanto menos repetições ela contiver, maiores são as chances de conseguirmos um maior parcentual de acerto uma vez que os dicionários das palavras dado uma categoria se tornaria muito mais abrangente, diminuindo o número de casos onde a probabilidade é calculada através do suavização de Laplace.
   
   Para lidar com mensagens com dupla negação e/ou sarcasmo, os classificadores identificam a existência de um emoji ao lado do texto sarcástico. Para os humanos isso pode parecer algo óbvio ou imediato, porém é necessário avisar ao computador que quando ele se deparar com determinados emojis, ele está diante de uma situação sarcástica ou de dupla negação.
   
   Para que a empresa continue financiando o nosso projeto, pensamos em propor uma coleta em tempo real dos tweets, pois assim seria possível saber o sentimento instantâneo dos usuários a repseito de um produto.   
   
   No que diz respeito aos outros possíveis usos do classificador Naive-Bayes, são citáveis exemplos como classificação instânea de texto digitado por um usuário a fim de sugerir a melhor substituição dado um histórico de erros cometidos por outros usuários, que são constantemente aprendidos. Outro exemplo seria o de um monitor de um robô de transações do mercado financeiro. Nesta segunda idealização, o classificador calcularia a probabilidade de a decisão seguinte ser de compra ou venda estar certa ou errada baseando-se em uma base de acertos ou erros existentes em um histórico.