# Projeto 2 - Classificador Automático de Sentimento

Você foi contratado por uma empresa parar analisar como os clientes estão reagindo a um determinado produto no Twitter. A empresa deseja que você crie um programa que irá analisar as mensagens disponíveis e classificará como "relevante" ou "irrelevante". Com isso ela deseja que mensagens negativas, que denigrem o nome do produto, ou que mereçam destaque, disparem um foco de atenção da área de marketing.<br /><br />
Como aluno de Ciência dos Dados, você lembrou do Teorema de Bayes, mais especificamente do Classificador Naive-Bayes, que é largamente utilizado em filtros anti-spam de e-mails. O classificador permite calcular qual a probabilidade de uma mensagem ser relevante dadas as palavras em seu conteúdo.<br /><br />
Para realizar o MVP (*minimum viable product*) do projeto, você precisa implementar uma versão do classificador que "aprende" o que é relevante com uma base de treinamento e compara a performance dos resultados com uma base de testes.<br /><br />
Após validado, o seu protótipo poderá também capturar e classificar automaticamente as mensagens da plataforma.

## Informações do Projeto

Prazo: 19/Set até às 23:59.<br />
Grupo: 2 ou 3 pessoas - grupos com 3 pessoas terá uma rubrica diferenciada.<br /><br />
Entregáveis via GitHub: 
* Arquivo notebook com o código do classificador, seguindo as orientações abaixo.
* Arquivo Excel com as bases de treinamento e teste totalmente classificado.

**NÃO gravar a key do professor no arquivo**


### Entrega Intermediária: Check 1 - APS 2

Até o dia 10/Set às 23:59, xlsx deve estar no Github com as seguintes evidências: 

  * Produto escolhido.
  * Arquivo Excel contendo a base de treinamento e a base de testes já classificadas.

Sugestão de leitura:<br />
https://monkeylearn.com/blog/practical-explanation-naive-bayes-classifier/

## Grupo: ##
Enrico Aloisi Nardi

Evandro Romeiro Fontana

Jadson da Silva Oliveira de Jesus

___

## Parte I - Adquirindo a Base de Dados

Acessar o notebook **Projeto-2-Planilha** para realizar a coleta dos dados. O grupo deve classificar os dados coletados manualmente.

___
## Parte II - Montando o Classificador Naive-Bayes

Com a base de treinamento montada, comece a desenvolver o classificador. Não se esqueça de implementar o Laplace Smoothing (https://en.wikipedia.org/wiki/Laplace_smoothing).

Opcionalmente: 
* Limpar as mensagens removendo os caracteres: enter, :, ", ', (, ), etc. Não remover emojis.<br />
* Corrigir separação de espaços entre palavras e/ou emojis.
* Propor outras limpezas/transformações que não afetem a qualidade da informação.

Escreva o seu código abaixo:

In [39]:
import pandas as pd
import re
import numpy as np

In [194]:
#Abrindo o arquivo excel
dados= pd.read_excel("tweets_Nintendo_201809042125.xlsx")

#Excluindo colunas e linhas que não serão utilizadas
dados_R= dados.drop(['Classificação (R I)','Classificação (B M)'], axis=1)


#Criando listas e dicionários para guardar os dados processados
dados_limpos = {}
frases = []
classi = []

dados_limpos["Treinamento"] = frases
dados_limpos["Classificacao"] = classi

#Limpando a base de dados -ou seja, excluindo links de vídeos, rt's e @'s-
for i in range(len(dados_R['Treinamento'])):
    Tweet = dados_R.iloc[i]['Treinamento']
    apaga_tudo = re.sub('https://[^\s]+','',Tweet)
    apaga_tudo = re.sub('@[^\s]+','',apaga_tudo)
    apaga_tudo = re.sub('^rt','',apaga_tudo)
    apaga_tudo = re.sub('[^A-Za-z ãõêáíé]','',apaga_tudo)
    apaga_tudo = re.sub(r'\b\w{1,2}\b','',apaga_tudo)
    apaga_tudo = re.sub(r'\bque\b',' ',apaga_tudo)
    apaga_tudo = re.sub(r'\buma\b',' ',apaga_tudo)
    apaga_tudo = re.sub(r'\bpra\b',' ',apaga_tudo)
    frases.append(apaga_tudo)
    classi.append(dados_R.iloc[i]['Classificação por Subtopicos (MR, R, N, I, MI)'])
    
frases[1]
    



'       bugou  polystation esquentou  playstation travou  nintendo nenhuma dessas serviu   esse rapaz'

In [223]:
#criação de um dicionário que receberá outros dicionários que contêm a contagem das palavras dada uma determinada classe
d_base={}
d_base['MR']=[]
d_base['R']=[]
d_base['N']=[]
d_base['I']=[]
d_base['MI']=[]
#todas_palavras= []

#Separando o nosso dicionário limpo em duas listas para então coloca-los no novo dicionário

categorias=dados_limpos["Classificacao"]
frases=dados_limpos["Treinamento"]

#Percorrendo as listas 'categorias' e 'frases' para criar o dicionário correspondente a cada classificação (MR, R, N, I, MI)
for i in range(len(frases)):
    
    if categorias[i]=='MR':
        palavras=frases[i].split()
        d_base['MR'].extend(palavras)
        
    if categorias[i]=='R':
        palavras=frases[i].split()
        d_base['R'].extend(palavras)
        
    if categorias[i]=='N':
        palavras=frases[i].split()
        d_base['N'].extend(palavras)
        
    if categorias[i]=='I':
        palavras=frases[i].split()
        d_base['I'].extend(palavras)
        
    if categorias[i]=='MI':
        palavras=frases[i].split()
        d_base['MI'].extend(palavras) 
d_base

{'MR': ['como',
  'esse',
  'evento',
  'não',
  'fosse',
  'difícil',
  'normalmente',
  'porraaaaaa',
  'nintendo',
  'fidida',
  'added',
  'video',
  'playlist',
  'dragalia',
  'lost',
  'novo',
  'rpg',
  'nintendo',
  'com',
  'gráficos',
  'excelentes',
  'tenho',
  'vídeos',
  'games',
  'atual',
  'geraão',
  'pro',
  'box',
  'one',
  'nintendo',
  'switch',
  'agora',
  'sai',
  'porra',
  'matéria',
  'ainda',
  'continuo',
  'jogando',
  'jogos',
  'nes',
  'nes',
  'vou',
  'mandar',
  'esse',
  'feedback',
  'nintendo',
  'quem',
  'mandou',
  'eles',
  'fazerem',
  'vídeo',
  'game',
  'bom',
  'dura',
  'muito',
  'mais',
  'vinte',
  'anos',
  'comigo',
  'charles',
  'martinet',
  'dublador',
  'mario',
  'luigi',
  'confirma',
  'presena',
  'bgs',
  'saudade',
  'nintendo',
  'esses',
  'dias',
  'resolvi',
  'fazer',
  'mirror',
  'site',
  'roms',
  'arquivar',
  'aqui',
  'antes',
  'nintendo',
  'tire',
  'tudo',
  'faz',
  'mais',
  'semana',
  'estou',
  'ba

In [218]:
def criadora(dic,categoria):
    MR_l={}
    for palavra in dic[categoria]:
        if palavra not in MR_l:
            MR_l[palavra]= 1
        else: 
            MR_l[palavra]+=1
    MR_f = pd.DataFrame({categoria:dic[categoria]})
    return(MR_f)

In [226]:
cont_MR = criadora(d_base,"MR")
cont_R = criadora(d_base,"R")
cont_N = criadora(d_base,"N")
cont_I = criadora(d_base,"I")
cont_MI = criadora(d_base,"MI")

cont_geral = {}
cont_geral["MR"] = cont_MR
cont_geral["R"] = cont_R
cont_geral["N"] = cont_N
cont_geral["I"] = cont_I
cont_geral["MI"] = cont_MI
cont_geral

{'MR':                 MR
 0             como
 1             esse
 2           evento
 3              não
 4            fosse
 5          difícil
 6      normalmente
 7       porraaaaaa
 8         nintendo
 9           fidida
 10           added
 11           video
 12        playlist
 13        dragalia
 14            lost
 15            novo
 16             rpg
 17        nintendo
 18             com
 19        gráficos
 20      excelentes
 21           tenho
 22          vídeos
 23           games
 24           atual
 25          geraão
 26             pro
 27             box
 28             one
 29        nintendo
 ..             ...
 769         dilema
 770           acho
 771        investi
 772          pouco
 773          tempo
 774            wii
 775          tenho
 776           aqui
 777            com
 778        backlog
 779     gigantesco
 780           tudo
 781       nintendo
 782         também
 783  horrivelmente
 784           mais
 785           caro
 786    brasil

In [208]:
cont_MR.MR.value_counts().head()

nintendo    59
switch      20
não         14
para        11
mas         10
Name: MR, dtype: int64

In [209]:
cont_R.R.value_counts().head()

nintendo    108
switch       25
vídeo        21
para         18
super        17
Name: R, dtype: int64

In [210]:
cont_N.N.value_counts().head()

nintendo    36
para        14
porém       11
marcas      11
switch      11
Name: N, dtype: int64

In [211]:
cont_I.I.value_counts().head()

nintendo    34
fui          8
jogar        7
switch       7
nao          7
Name: I, dtype: int64

In [212]:
cont_MI.MI.value_counts().head()

nintendo    26
xbox         5
heroes       2
não          2
games        2
Name: MI, dtype: int64

___
## Verificando a performance

Agora você deve testar o seu Classificador com a base de Testes.<br /><br /> 

Você deve extrair as seguintes medidas:
* Porcentagem de positivos falsos (marcados como relevante mas não são relevantes)
* Porcentagem de positivos verdadeiros (marcado como relevante e são relevantes)
* Porcentagem de negativos verdadeiros (marcado como não relevante e não são relevantes)
* Porcentagem de negativos falsos (marcado como não relevante e são relevantes)

Obrigatório para grupos de 3 alunos:
* Criar categorias intermediárias de relevância baseado na diferença de probabilidades. Exemplo: muito relevante, relevante, neutro, irrelevante e muito irrelevante.

In [224]:
def prop_palavras(dados):
    soma = 0
    dic_prop_palavras = {}
    for k in d_base:
        soma += len(d_base[k])
    for k,v in dados.items():
        p = v/soma
        dic_prop_palavras[k] = p
    return dic_prop_palavras
        

In [221]:
prop_cada_palavra = prop_palavras(jorge)
#prop_cada_palavra

nintendo
switch
não
para
mas
mais
ser
pro
agora
esse
jogo
meu
tenho
com
online
vou
games
ainda
mario
geraão
vídeos
one
porra
matéria
atual
quando
box
sai
melhor
por
ele
como
então
game
wii
super
jogos
tudo
alguma
novo
aqui
via
guardar
the
muito
tenta
anos
jogando
vai
estou
coisa
jogar
sua
world
blah
tem
acho
fica
foi
franquias
porque
cooperativo
servio
caro
caixa
canal
pouco
você
papelões
lanamento
esses
nada
eles
completo
isso
sempre
cia
imagino
papelão
hoje
vezes
dessas
está
quase
fazer
experiência
fazendo
portar
final
semana
lanado
bros
estrenará
labo
vídeo
nos
sou
gracias
nes
era
consoles
confirma
tivesse
daora
cada
mão
nas
segurar
mansion
piada
exatos
reiniciado
apropriando
mandar
video
nessa
sony
nintendonintendo
morreu
elw
dragalia
mutant
conta
horrivelmente
pai
cendo
beat
criar
ninja
quem
lembrei
ninjas
power
turtles
tava
comprar
ahahah
sei
faz
dava
qual
pesquisar
pessoas
mano
dele
legal
minha
caso
dedicou
colocar
pblica
relaão
detalhes
dizer
atualizaão
bundles
aberta
seria
nev

___
## Concluindo

Escreva aqui a sua conclusão.<br /> 
Faça um comparativo qualitativo sobre as medidas obtidas.<br />
Explique como são tratadas as mensagens com dupla negação e sarcasmo.<br />
Proponha um plano de expansão. Por que eles devem continuar financiando o seu projeto?<br />

Opcionalmente: 
* Discorrer por que não posso alimentar minha base de Treinamento automaticamente usando o próprio classificador, aplicado a novos tweets.
* Propor diferentes cenários de uso para o classificador Naive-Bayes. Cenários sem intersecção com este projeto.
* Sugerir e explicar melhorias reais no classificador com indicações concretas de como implementar (não é preciso codificar, mas indicar como fazer e material de pesquisa sobre o assunto).
