# Projeto 2 - Classificador Autom√°tico de Sentimento

Voc√™ foi contratado por uma empresa parar analisar como os clientes est√£o reagindo a um determinado produto no Twitter. A empresa deseja que voc√™ crie um programa que ir√° analisar as mensagens dispon√≠veis e classificar√° como "relevante" ou "irrelevante". Com isso ela deseja que mensagens negativas, que denigrem o nome do produto, ou que mere√ßam destaque, disparem um foco de aten√ß√£o da √°rea de marketing.<br /><br />
Como aluno de Ci√™ncia dos Dados, voc√™ lembrou do Teorema de Bayes, mais especificamente do Classificador Naive-Bayes, que √© largamente utilizado em filtros anti-spam de e-mails. O classificador permite calcular qual a probabilidade de uma mensagem ser relevante dadas as palavras em seu conte√∫do.<br /><br />
Para realizar o MVP (*minimum viable product*) do projeto, voc√™ precisa implementar uma vers√£o do classificador que "aprende" o que √© relevante com uma base de treinamento e compara a performance dos resultados com uma base de testes.<br /><br />
Ap√≥s validado, o seu prot√≥tipo poder√° tamb√©m capturar e classificar automaticamente as mensagens da plataforma.

## Informa√ß√µes do Projeto

Prazo: 19/Set at√© √†s 23:59.<br />
Grupo: 2 ou 3 pessoas - grupos com 3 pessoas ter√° uma rubrica diferenciada.<br /><br />
Entreg√°veis via GitHub: 
* Arquivo notebook com o c√≥digo do classificador, seguindo as orienta√ß√µes abaixo.
* Arquivo Excel com as bases de treinamento e teste totalmente classificado.

**N√ÉO gravar a key do professor no arquivo**


### Entrega Intermedi√°ria: Check 1 - APS 2

At√© o dia 10/Set √†s 23:59, xlsx deve estar no Github com as seguintes evid√™ncias: 

  * Produto escolhido.
  * Arquivo Excel contendo a base de treinamento e a base de testes j√° classificadas.

Sugest√£o de leitura:<br />
https://monkeylearn.com/blog/practical-explanation-naive-bayes-classifier/

## Grupo: ##
Enrico Aloisi Nardi

Evandro Romeiro Fontana

Jadson da Silva Oliveira de Jesus

___

## Parte I - Adquirindo a Base de Dados

Acessar o notebook **Projeto-2-Planilha** para realizar a coleta dos dados. O grupo deve classificar os dados coletados manualmente.

___
## Parte II - Montando o Classificador Naive-Bayes

Com a base de treinamento montada, comece a desenvolver o classificador. N√£o se esque√ßa de implementar o Laplace Smoothing (https://en.wikipedia.org/wiki/Laplace_smoothing).

Opcionalmente: 
* Limpar as mensagens removendo os caracteres: enter, :, ", ', (, ), etc. N√£o remover emojis.<br />
* Corrigir separa√ß√£o de espa√ßos entre palavras e/ou emojis.
* Propor outras limpezas/transforma√ß√µes que n√£o afetem a qualidade da informa√ß√£o.

Escreva o seu c√≥digo abaixo:

In [1]:
import pandas as pd
import re
import numpy as np

In [32]:
#Abrindo o arquivo excel

planilha = pd.ExcelFile("tweets_Nintendo_201809042125.xlsx")
dados= pd.read_excel(planilha,'Treinamento') #'dados' e 'dados2': s√©ries originais vindas diretamente do excel
dados2 = pd.read_excel(planilha,'Teste')

#Excluindo colunas do excel que n√£o ser√£o utilizadas
dados_R = dados.drop(['Classifica√ß√£o (R I)','Classifica√ß√£o (B M)'], axis=1)
dados_teste = dados2.drop(['Classifica√ß√£o (R I)','Classifica√ß√£o (B M)'], axis=1)

#Fun√ß√£o que limpa a base de dados.. ela recebe a base (dataframe) e o tipo (treinamento ou teste) da base (string) como argumentos
def limpa_base(base, tipo):
    #Criando listas e dicion√°rios para guardar os dados processados
    dados_limpos = {}
    frases = []
    classi = []
    
    #Criando as chaves e atribuindo os valores associados as frases e suas respectivas classifica√ß√µes. 
    dados_limpos[tipo] = frases
    dados_limpos["Classificacao"] = classi
    varios_emojis = re.compile(r'\d+(.*?)(?:\u263a|\U0001f645)')

    #Limpando a base de dados -ou seja, excluindo links de v√≠deos, rt's e @'s-
    for i in range(len(base[tipo])):     
        Tweet = base.iloc[i][tipo]
        apaga_tudo = re.sub('https://[^\s]+',' ',Tweet)
        apaga_tudo = re.sub('@[^\s]+',' ',apaga_tudo)
        apaga_tudo = re.sub('^rt',' ',apaga_tudo)
        apaga_tudo = re.sub('[^A-Za-z √£√°√¢√µ√≥√¥√™√©√≠√ßüëô]',' ',apaga_tudo)
        apaga_tudo = re.sub(r'\b\w{1,2}\b ',' ',apaga_tudo)
        apaga_tudo = re.sub(r'\b\n\b',' ',apaga_tudo)
        apaga_tudo = re.sub(r'\bque\b',' ',apaga_tudo)
        apaga_tudo = re.sub(r'\buma\b',' ',apaga_tudo)
        apaga_tudo = re.sub(r'\bpra\b',' ',apaga_tudo)
        apaga_tudo = re.sub('    ',' ',apaga_tudo)
        apaga_tudo = re.sub('   ',' ',apaga_tudo)
        apaga_tudo = apaga_tudo.lower()
        frases.append(apaga_tudo)
        classi.append(base.iloc[i]['Classifica√ß√£o por Subtopicos (MR, R, N, I, MI)'])
    return dados_limpos

In [33]:
#Limpando os dados da base
dados_limpos=limpa_base(dados_R, 'Treinamento')
dados_limpos

{'Classificacao': ['R',
  'N',
  'R',
  'I',
  'I',
  'R',
  'R',
  'R',
  'MI',
  'MI',
  'N',
  'MR',
  'N',
  'MR',
  'MR',
  'MR',
  'MR',
  'N',
  'MR',
  'MR',
  'MI',
  'MR',
  'R',
  'I',
  'N',
  'N',
  'MR',
  'MR',
  'N',
  'N',
  'R',
  'N',
  'I',
  'MR',
  'R',
  'MI',
  'R',
  'I',
  'MR',
  'MI',
  'MI',
  'N',
  'N',
  'MR',
  'MR',
  'MR',
  'R',
  'MI',
  'N',
  'I',
  'MR',
  'R',
  'R',
  'I',
  'MR',
  'MI',
  'R',
  'R',
  'R',
  'R',
  'R',
  'I',
  'I',
  'R',
  'R',
  'I',
  'MR',
  'R',
  'R',
  'MI',
  'R',
  'R',
  'I',
  'I',
  'MR',
  'R',
  'I',
  'R',
  'R',
  'MR',
  'R',
  'MI',
  'MR',
  'R',
  'R',
  'R',
  'MI',
  'MR',
  'MR',
  'R',
  'R',
  'N',
  'R',
  'N',
  'R',
  'MR',
  'R',
  'R',
  'R',
  'MI',
  'MR',
  'MR',
  'R',
  'R',
  'N',
  'MR',
  'MR',
  'N',
  'R',
  'R',
  'MR',
  'R',
  'MI',
  'R',
  'N',
  'R',
  'MR',
  'I',
  'N',
  'MI',
  'MR',
  'R',
  'MR',
  'R',
  'MI',
  'R',
  'R',
  'R',
  'R',
  'N',
  'R',
  'N',
  'R',
  'MR

In [138]:
#Calculando a probabilidade de cada categoria P(MR)

dados=pd.DataFrame.from_dict(dados_limpos)

total_msgs= len(dados.Classificacao)

frequencias = dados.Classificacao.value_counts()

#Dicion√°rio com as probabilidades de cada categoria
prob_cat={}

prob_cat['MR']= frequencias.MR/total_msgs

prob_cat['R']= frequencias.R/total_msgs

prob_cat['N']= frequencias.N/total_msgs

prob_cat['I']= frequencias.I/total_msgs

prob_cat['MI']= frequencias.MI/total_msgs
prob_cat

{'I': 0.13666666666666666,
 'MI': 0.1,
 'MR': 0.2,
 'N': 0.15666666666666668,
 'R': 0.4066666666666667}

In [139]:
#cria√ß√£o de um dicion√°rio que cont√™m a contagem das palavras dada uma determinada classe
d_base={}
d_base['MR']=[]
d_base['R']=[]
d_base['N']=[]
d_base['I']=[]
d_base['MI']=[]

#Separando o nosso dicion√°rio limpo em duas listas para ent√£o coloca-los no novo dicion√°rio

categorias = dados_limpos["Classificacao"]
frases = dados_limpos["Treinamento"]

todas_palavras = [] #lista de todas as palavras
todas_palavras_sr = [] #lista de todas as palavras sem repeti√ß√£o

#Percorrendo as listas 'categorias' e 'frases' para criar o dicion√°rio correspondente a cada classifica√ß√£o (MR, R, N, I, MI)
for i in range(len(frases)):
    lista = frases[i].split() #lista com todas as palavras
    todas_palavras.extend(lista)
    for e in lista:
        if e not in todas_palavras_sr:
            todas_palavras_sr.append(e)
    
    if categorias[i]=='MR': #testando se uma palavras numa posi√ß√£o i (0,1,2...) √© de uma categoria 
        palavras=frases[i].split()
        d_base['MR'].extend(palavras)
        
    if categorias[i]=='R':
        palavras=frases[i].split()
        d_base['R'].extend(palavras)
        
    if categorias[i]=='N':
        palavras=frases[i].split()
        d_base['N'].extend(palavras)
        
    if categorias[i]=='I':
        palavras=frases[i].split()
        d_base['I'].extend(palavras)
        
    if categorias[i]=='MI':
        palavras=frases[i].split()
        d_base['MI'].extend(palavras)


In [140]:
##Conta quantas palavras tem em cada categoria

def contadora(dic,categoria): #Recebemos o dicion√°rio que tem as palavras em suas respectivas categorias {'MR':{palavras},'R':{palavras} etc}
    MR_l={}
    for palavra in dic[categoria]:
        if palavra not in MR_l: #Caso ainda n√£o exista a palavra, criamos e atribuimos o valor de 1
            MR_l[palavra]= 1
        else: #Caso exista adicionamos +1 ao valor existente
            MR_l[palavra]+=1
    return(MR_l)

In [141]:
cont_geral = {}
cont_geral["MR"] = contadora(d_base,"MR")
cont_geral["R"]  = contadora(d_base,"R")
cont_geral["N"]  = contadora(d_base,"N")
cont_geral["I"]  = contadora(d_base,"I")
cont_geral["MI"] = contadora(d_base,"MI")

In [142]:
#fun√ß√£o c√°lcula da probabilidade de que uma dada palavra seja de uma determinada classifica√ß√£o (precisamos dividir pela soma
#de todas as palavras de uma classifica√ß√£o com as palavras que nao repetem {P(palavra|MR))}

def calcula_prob_dado_algo(serie):
    prob_algo={}
    for k,v in serie.items():
        prob_algo[k] = (v+1)/(len(serie) + len(todas_palavras_sr))
    return prob_algo

dic_prob_palavras_por_cat = {}

dic_prob_palavras_por_cat['MR']= calcula_prob_dado_algo(cont_geral["MR"])
dic_prob_palavras_por_cat['R']= calcula_prob_dado_algo(cont_geral["R"])
dic_prob_palavras_por_cat['N']= prob_pal_N= calcula_prob_dado_algo(cont_geral["N"])
dic_prob_palavras_por_cat['I']= calcula_prob_dado_algo(cont_geral["I"])
dic_prob_palavras_por_cat['MI']= calcula_prob_dado_algo(cont_geral["MI"])

#cont_geral["MR"]

#dic_prob_palavras_por_cat['MR'].values()

In [143]:
#Fun√ß√£o para classificacao de relevancia de uma frase qualquer 
  
def classifica_relevancia(dataframe, probabilidades_categorias, probabilidade_palavras, tipo):
    i = 0
    frases_limpas = limpa_base(dataframe, tipo)
    print(len(frases_limpas['Teste']))
    dic_probabilidade_cada_frase = {}
    
    for frases in frases_limpas[tipo]:
        
        lista_palavras_msg = frases.split()
        lista_categorias = ['MR','R','N','I','MI']
        dic_prob_para_categoria = {}
        
        for categoria in lista_categorias:
            prob_frase = 1
            for palavra in lista_palavras_msg:
                
                if palavra in probabilidade_palavras[categoria]:
                    prob_frase *= (probabilidade_palavras[categoria][palavra])
                
            dic_prob_para_categoria[categoria] = prob_frase*probabilidades_categorias[categoria]
        
        
        dic_probabilidade_cada_frase[i] = dic_prob_para_categoria
        i+=1    
    return dic_probabilidade_cada_frase
  
j = classifica_relevancia(dados_teste,prob_cat ,dic_prob_palavras_por_cat, 'Teste')

200


In [144]:
def escolhe_class(frases_classificadas):
    maximo = 1
    class_max = str()
    dick = {}
    for frase,d_classificacao in frases_classificadas.items():
        minimo = 1
        for classificacao, prob in d_classificacao.items():
            if prob < minimo:
                minimo = prob
                class_max = classificacao
        dick[frase] = class_max
    return dick

dicionario_final= escolhe_class(j)
s  = pd.DataFrame(list(dicionario_final.items()))
dados_clas_juntos= s.join(dados_teste['Classifica√ß√£o por Subtopicos (MR, R, N, I, MI)'])

#w= pd.DataFrame.from_dict(limpa_base(dados_teste, 'Teste'))


___
## Verificando a performance

Agora voc√™ deve testar o seu Classificador com a base de Testes.<br /><br /> 

Voc√™ deve extrair as seguintes medidas:
* Porcentagem de positivos falsos (marcados como relevante mas n√£o s√£o relevantes)
* Porcentagem de positivos verdadeiros (marcado como relevante e s√£o relevantes)
* Porcentagem de negativos verdadeiros (marcado como n√£o relevante e n√£o s√£o relevantes)
* Porcentagem de negativos falsos (marcado como n√£o relevante e s√£o relevantes)

Obrigat√≥rio para grupos de 3 alunos:
* Criar categorias intermedi√°rias de relev√¢ncia baseado na diferen√ßa de probabilidades. Exemplo: muito relevante, relevante, neutro, irrelevante e muito irrelevante.

In [145]:
nossos_valores= dados_clas_juntos[1]

valores_teste= dados_clas_juntos['Classifica√ß√£o por Subtopicos (MR, R, N, I, MI)']


positivos=0

negativos=0

for e in range(len(nossos_valores)):
    if nossos_valores[e] == valores_teste[e]:
        positivos+=1
    else:
        negativos+=1

print(positivos/200)
print(negativos/200)

0.055
0.945


___
## Concluindo

Escreva aqui a sua conclus√£o.<br /> 
Fa√ßa um comparativo qualitativo sobre as medidas obtidas.<br />
Explique como s√£o tratadas as mensagens com dupla nega√ß√£o e sarcasmo.<br />
Proponha um plano de expans√£o. Por que eles devem continuar financiando o seu projeto?<br />

Opcionalmente: 
* Discorrer por que n√£o posso alimentar minha base de Treinamento automaticamente usando o pr√≥prio classificador, aplicado a novos tweets.
* Propor diferentes cen√°rios de uso para o classificador Naive-Bayes. Cen√°rios sem intersec√ß√£o com este projeto.
* Sugerir e explicar melhorias reais no classificador com indica√ß√µes concretas de como implementar (n√£o √© preciso codificar, mas indicar como fazer e material de pesquisa sobre o assunto).
