# Projeto 2 - Classificador Automático de Sentimento

Você foi contratado por uma empresa parar analisar como os clientes estão reagindo a um determinado produto no Twitter. A empresa deseja que você crie um programa que irá analisar as mensagens disponíveis e classificará como "relevante" ou "irrelevante". Com isso ela deseja que mensagens negativas, que denigrem o nome do produto, ou que mereçam destaque, disparem um foco de atenção da área de marketing.<br /><br />
Como aluno de Ciência dos Dados, você lembrou do Teorema de Bayes, mais especificamente do Classificador Naive-Bayes, que é largamente utilizado em filtros anti-spam de e-mails. O classificador permite calcular qual a probabilidade de uma mensagem ser relevante dadas as palavras em seu conteúdo.<br /><br />
Para realizar o MVP (*minimum viable product*) do projeto, você precisa implementar uma versão do classificador que "aprende" o que é relevante com uma base de treinamento e compara a performance dos resultados com uma base de testes.<br /><br />
Após validado, o seu protótipo poderá também capturar e classificar automaticamente as mensagens da plataforma.

## Informações do Projeto

Prazo: 19/Set até às 23:59.<br />
Grupo: 2 ou 3 pessoas - grupos com 3 pessoas terá uma rubrica diferenciada.<br /><br />
Entregáveis via GitHub: 
* Arquivo notebook com o código do classificador, seguindo as orientações abaixo.
* Arquivo Excel com as bases de treinamento e teste totalmente classificado.

**NÃO gravar a key do professor no arquivo**


### Entrega Intermediária: Check 1 - APS 2

Até o dia 10/Set às 23:59, xlsx deve estar no Github com as seguintes evidências: 

  * Produto escolhido.
  * Arquivo Excel contendo a base de treinamento e a base de testes já classificadas.

Sugestão de leitura:<br />
https://monkeylearn.com/blog/practical-explanation-naive-bayes-classifier/

___

## Parte I - Adquirindo a Base de Dados

Acessar o notebook **Projeto-2-Planilha** para realizar a coleta dos dados. O grupo deve classificar os dados coletados manualmente.

In [2]:
import pandas as pd
import matplotlib.pyplot as plt

___
## Parte II - Montando o Classificador Naive-Bayes

Com a base de treinamento montada, comece a desenvolver o classificador. Não se esqueça de implementar o Laplace Smoothing (https://en.wikipedia.org/wiki/Laplace_smoothing).

Opcionalmente: 
* Limpar as mensagens removendo os caracteres: enter, :, ", ', (, ), etc. Não remover emojis.<br />
* Corrigir separação de espaços entre palavras e/ou emojis.
* Propor outras limpezas/transformações que não afetem a qualidade da informação.

Escreva o seu código abaixo:

In [3]:
df = pd.read_excel('tweets_Cup Noodles_201809101833.xlsx')

lista_0 = df[df.Class == 0]

lista_1 = df[df.Class == 1]

In [4]:
df

Unnamed: 0,Treinamento,Class
0,queimei a boca comendo cup noodles anem kkkkkkk,1.0
1,"alô nissin, começa a vender cup noodles de cur...",1.0
2,eu amo mt cup noodles,1.0
3,rt @galacttea: seguinte galera\nnão apoiem ess...,0.0
4,rt @babyttrash2: queira que alguém me amasse i...,1.0
5,@esportv @cupnoodles_br o melhor mesmo é me da...,1.0
6,o coreano vem brilhando desde o circuitão!\n\n...,1.0
7,resenha do cup noodles frutos do mar\n\nn é de...,1.0
8,@beirigosa queria tá assim com o cup noodles q...,1.0
9,"@_luisafreitas simm, já comeu cup noodles? mal...",1.0


In [5]:
lista_relevante = list(lista_1['Treinamento'])

ling = ' '.join(lista_relevante)

lista_rel = pd.Series(ling.split())

In [6]:
lista_irelevante = list(lista_0['Treinamento'])

ling2 = ' '.join(lista_irelevante)

lista_irel = pd.Series(ling2.split())

In [7]:
df.Class.value_counts(True) * 100

1.0    69.230769
0.0    30.769231
Name: Class, dtype: float64

In [8]:
p_rel = .69230769

p_irel = .30769231

In [9]:
vc1 = lista_rel.value_counts() + 1

In [10]:
total1 = sum(vc1)
total1

3800

In [11]:
prob1 = (vc1/total1)
prob1

cup                        0.055263
noodles                    0.050789
de                         0.026316
e                          0.020000
eu                         0.015789
que                        0.013684
é                          0.013684
um                         0.013684
o                          0.011579
pra                        0.008684
comer                      0.008158
a                          0.008158
do                         0.007895
meu                        0.006579
com                        0.006579
no                         0.006316
comendo                    0.005789
tem                        0.005000
uma                        0.004737
vou                        0.004737
não                        0.004474
me                         0.004211
muito                      0.004211
da                         0.004211
em                         0.004211
minha                      0.003947
mas                        0.003947
só                         0

In [12]:
dic_rel = prob1.to_dict()
dic_rel

{'cup': 0.05526315789473684,
 'noodles': 0.05078947368421052,
 'de': 0.02631578947368421,
 'e': 0.02,
 'eu': 0.015789473684210527,
 'que': 0.01368421052631579,
 'é': 0.01368421052631579,
 'um': 0.01368421052631579,
 'o': 0.011578947368421053,
 'pra': 0.008684210526315789,
 'comer': 0.008157894736842105,
 'a': 0.008157894736842105,
 'do': 0.007894736842105263,
 'meu': 0.006578947368421052,
 'com': 0.006578947368421052,
 'no': 0.00631578947368421,
 'comendo': 0.005789473684210527,
 'tem': 0.005,
 'uma': 0.004736842105263158,
 'vou': 0.004736842105263158,
 'não': 0.0044736842105263155,
 'me': 0.004210526315789474,
 'muito': 0.004210526315789474,
 'da': 0.004210526315789474,
 'em': 0.004210526315789474,
 'minha': 0.003947368421052632,
 'mas': 0.003947368421052632,
 'só': 0.0036842105263157894,
 'bom': 0.0036842105263157894,
 'na': 0.0034210526315789475,
 'se': 0.0034210526315789475,
 'fazendo': 0.0034210526315789475,
 'como': 0.003157894736842105,
 'tô': 0.003157894736842105,
 'rt': 0.0031

In [13]:
vc0 = lista_irel.value_counts() + 1

In [14]:
total0 = sum(vc0)
total0

2400

In [15]:
prob0 = (vc0/total0)
prob0

cup                        0.035000
noodles                    0.030000
do                         0.026667
é                          0.025000
no                         0.021667
de                         0.020417
a                          0.017500
rt                         0.017500
patrocinador               0.017083
cblol                      0.016250
oficial                    0.016250
e                          0.015417
@esportv:                  0.014583
@cupnoodles_br             0.012917
e-sportv!                  0.012917
#cupandgo                  0.012917
uma                        0.010000
o                          0.010000
eu                         0.008750
os                         0.007500
um                         0.007083
muito!                     0.005833
brilharam                  0.005833
certeza:                   0.005833
que                        0.005833
dois                       0.005833
https…                     0.005417
só                         0

In [16]:
dic_irel = prob0.to_dict()
dic_irel

{'cup': 0.035,
 'noodles': 0.03,
 'do': 0.02666666666666667,
 'é': 0.025,
 'no': 0.021666666666666667,
 'de': 0.020416666666666666,
 'a': 0.0175,
 'rt': 0.0175,
 'patrocinador': 0.017083333333333332,
 'cblol': 0.01625,
 'oficial': 0.01625,
 'e': 0.015416666666666667,
 '@esportv:': 0.014583333333333334,
 '@cupnoodles_br': 0.012916666666666667,
 'e-sportv!': 0.012916666666666667,
 '#cupandgo': 0.012916666666666667,
 'uma': 0.01,
 'o': 0.01,
 'eu': 0.00875,
 'os': 0.0075,
 'um': 0.007083333333333333,
 'muito!': 0.005833333333333334,
 'brilharam': 0.005833333333333334,
 'certeza:': 0.005833333333333334,
 'que': 0.005833333333333334,
 'dois': 0.005833333333333334,
 'https…': 0.005416666666666667,
 'só': 0.005416666666666667,
 'hora!': 0.005,
 'quem': 0.004583333333333333,
 'meu': 0.004166666666666667,
 'coração': 0.004166666666666667,
 'pai': 0.004166666666666667,
 'e…': 0.004166666666666667,
 'gente': 0.00375,
 'chegou': 0.00375,
 'final?': 0.00375,
 'saber:': 0.00375,
 'time': 0.00375,
 '

___
## Verificando a performance

Agora você deve testar o seu Classificador com a base de Testes.<br /><br /> 

Você deve extrair as seguintes medidas:
* Porcentagem de positivos falsos (marcados como relevante mas não são relevantes)
* Porcentagem de positivos verdadeiros (marcado como relevante e são relevantes)
* Porcentagem de negativos verdadeiros (marcado como não relevante e não são relevantes)
* Porcentagem de negativos falsos (marcado como não relevante e são relevantes)

Obrigatório para grupos de 3 alunos:
* Criar categorias intermediárias de relevância baseado na diferença de probabilidades. Exemplo: muito relevante, relevante, neutro, irrelevante e muito irrelevante.

In [17]:
teste = pd.read_excel('tweets_Cup Noodles_201809101833.xlsx', sheet_name='Teste')

In [18]:
teste.head(5)

Unnamed: 0,Teste,Class
0,minha mae deixou agua com açúcar na caneca e m...,1
1,se tudo correr bem o plano pra hoje é comer cu...,0
2,@galacticpenis não entendem que eu sou um neet...,0
3,to comendo cup noodles pensando na esfiha da f...,1
4,o pai vai chegar voando nessa final!\nneste sá...,0


In [86]:
r = []


def Bayes(df):

    tweet = i.split()

    a = 1
    b = 1

    for palavra in tweet:

        if palavra not in dic_rel:

            a *= 1/(total0 + total1)

        else:

            a *= dic_rel[palavra]

        if palavra not in dic_irel:

            b *= 1/(total0 + total1)

        else:

            b *= dic_irel[palavra]


    a1 = a * p_rel
    b1 = b * p_irel

    if a1 > b1:
        return 1
    else:
        return 0
    
for i in teste.Teste:
    r.append(Bayes(teste.Teste))

In [87]:
teste['Verif'] = r
teste

Unnamed: 0,Teste,Class,Verif
0,minha mae deixou agua com açúcar na caneca e m...,1,1
1,se tudo correr bem o plano pra hoje é comer cu...,0,1
2,@galacticpenis não entendem que eu sou um neet...,0,1
3,to comendo cup noodles pensando na esfiha da f...,1,1
4,o pai vai chegar voando nessa final!\nneste sá...,0,0
5,thiago comprando mantimentos da semana : cup n...,1,1
6,feliz com meu cup noodles de tomate,1,1
7,comendo aquele cup noodles de galinha caipira ...,1,1
8,eu acordo pensando no meu cup noodles vulgo cu...,1,1
9,rt @esportv: é a vez do pai ou do filho?\n\ncu...,0,0


___
## Concluindo

Escreva aqui a sua conclusão.<br /> 
Faça um comparativo qualitativo sobre as medidas obtidas.<br />
Explique como são tratadas as mensagens com dupla negação e sarcasmo.<br />
Proponha um plano de expansão. Por que eles devem continuar financiando o seu projeto?<br />

Opcionalmente: 
* Discorrer por que não posso alimentar minha base de Treinamento automaticamente usando o próprio classificador, aplicado a novos tweets.
* Propor diferentes cenários de uso para o classificador Naive-Bayes. Cenários sem intersecção com este projeto.
* Sugerir e explicar melhorias reais no classificador com indicações concretas de como implementar (não é preciso codificar, mas indicar como fazer e material de pesquisa sobre o assunto).


Verificando a tabela a baixo, pode-se notar que o modelo funcionou bem para analisar os tweets irrelevantes e foi mais ou menos 50% funcional com relevantes.

Pode-se dizer que a maquina não consegue analisar sarcasmo por ser uma expressão contraditória e também porque as palavras foram separadas. Se a maquina conseguisse entender o sarcasmo de uma frase, ela não seria capaz de reconhecer-lo quando tiradas as palavras de contexto.



In [91]:
pd.crosstab(teste.Class, teste.Verif )

Verif,0,1
Class,Unnamed: 1_level_1,Unnamed: 2_level_1
0,39,51
1,1,109


O projeto pode ser expandido para outros assunstos, fazendo treinamentos mais extensos por exemplo. Também, pode ser feita uma versão do modelo onde se possa entrar com uma frase só ao inves de um dataframe 
___

