# Projeto 2 - Classificador Automático de Sentimento

Você foi contratado por uma empresa parar analisar como os clientes estão reagindo a um determinado produto no Twitter. A empresa deseja que você crie um programa que irá analisar as mensagens disponíveis e classificará como "relevante" ou "irrelevante". Com isso ela deseja que mensagens negativas, que denigrem o nome do produto, ou que mereçam destaque, disparem um foco de atenção da área de marketing.<br /><br />
Como aluno de Ciência dos Dados, você lembrou do Teorema de Bayes, mais especificamente do Classificador Naive-Bayes, que é largamente utilizado em filtros anti-spam de e-mails. O classificador permite calcular qual a probabilidade de uma mensagem ser relevante dadas as palavras em seu conteúdo.<br /><br />
Para realizar o MVP (*minimum viable product*) do projeto, você precisa implementar uma versão do classificador que "aprende" o que é relevante com uma base de treinamento e compara a performance dos resultados com uma base de testes.<br /><br />
Após validado, o seu protótipo poderá também capturar e classificar automaticamente as mensagens da plataforma.

## Informações do Projeto

Prazo: 19/Set até às 23:59.<br />
Grupo: 2 ou 3 pessoas - grupos com 3 pessoas terá uma rubrica diferenciada.<br /><br />
Entregáveis via GitHub: 
* Arquivo notebook com o código do classificador, seguindo as orientações abaixo.
* Arquivo Excel com as bases de treinamento e teste totalmente classificado.

**NÃO gravar a key do professor no arquivo**


### Entrega Intermediária: Check 1 - APS 2

Até o dia 10/Set às 23:59, xlsx deve estar no Github com as seguintes evidências: 

  * Produto escolhido.
  * Arquivo Excel contendo a base de treinamento e a base de testes já classificadas.

Sugestão de leitura:<br />
https://monkeylearn.com/blog/practical-explanation-naive-bayes-classifier/

___

## Parte I - Adquirindo a Base de Dados

Acessar o notebook **Projeto-2-Planilha** para realizar a coleta dos dados. O grupo deve classificar os dados coletados manualmente.

In [1]:
import pandas as pd
import matplotlib.pyplot as plt

___
## Parte II - Montando o Classificador Naive-Bayes

Com a base de treinamento montada, comece a desenvolver o classificador. Não se esqueça de implementar o Laplace Smoothing (https://en.wikipedia.org/wiki/Laplace_smoothing).

Opcionalmente: 
* Limpar as mensagens removendo os caracteres: enter, :, ", ', (, ), etc. Não remover emojis.<br />
* Corrigir separação de espaços entre palavras e/ou emojis.
* Propor outras limpezas/transformações que não afetem a qualidade da informação.

Escreva o seu código abaixo:

In [2]:
df = pd.read_excel('tweets_Cup Noodles_201809101833.xlsx')

lista_0 = df[df.Class == 0]

lista_1 = df[df.Class == 1]

In [3]:
lista_relevante = list(lista_1['Treinamento'])

ling = ' '.join(lista_relevante)

lista_rel = pd.Series(ling.split())

In [4]:
lista_irelevante = list(lista_0['Treinamento'])

ling2 = ' '.join(lista_irelevante)

lista_irel = pd.Series(ling2.split())

In [5]:
df.Class.value_counts(True) * 100

1.0    69.230769
0.0    30.769231
Name: Class, dtype: float64

In [6]:
p_rel = 69.230769

p_irel = 30.769231

In [8]:
vc1 = lista_rel.value_counts() + 1

In [9]:
total1 = sum(vc1)
total1

3800

In [10]:
prob1 = (vc1/total1) * 100
prob1

cup           5.526316
noodles       5.078947
de            2.631579
e             2.000000
eu            1.578947
que           1.368421
é             1.368421
um            1.368421
o             1.157895
pra           0.868421
a             0.815789
comer         0.815789
do            0.789474
com           0.657895
meu           0.657895
no            0.631579
comendo       0.578947
tem           0.500000
vou           0.473684
uma           0.473684
não           0.447368
me            0.421053
da            0.421053
em            0.421053
muito         0.421053
minha         0.394737
mas           0.394737
só            0.368421
bom           0.368421
na            0.342105
                ...   
dele          0.052632
debaixo       0.052632
vontades      0.052632
estou         0.052632
mala          0.052632
guardando     0.052632
ração         0.052632
térmica?      0.052632
ahhhh         0.052632
cabelo        0.052632
@dropws:      0.052632
20            0.052632
sono       

In [11]:
vc0 = lista_irel.value_counts() + 1

In [12]:
total0 = sum(vc0)
total0

2400

In [13]:
prob0 = (vc0/total0) * 100
prob0

cup               3.500000
noodles           3.000000
do                2.666667
é                 2.500000
no                2.166667
de                2.041667
rt                1.750000
a                 1.750000
patrocinador      1.708333
oficial           1.625000
cblol             1.625000
e                 1.541667
@esportv:         1.458333
@cupnoodles_br    1.291667
#cupandgo         1.291667
e-sportv!         1.291667
o                 1.000000
uma               1.000000
eu                0.875000
os                0.750000
um                0.708333
certeza:          0.583333
que               0.583333
muito!            0.583333
brilharam         0.583333
dois              0.583333
só                0.541667
https…            0.541667
hora!             0.500000
quem              0.458333
                    ...   
rift              0.083333
lanche,           0.083333
noodles...        0.083333
sorvete,          0.083333
bancar            0.083333
devastada,        0.083333
g

___
## Verificando a performance

Agora você deve testar o seu Classificador com a base de Testes.<br /><br /> 

Você deve extrair as seguintes medidas:
* Porcentagem de positivos falsos (marcados como relevante mas não são relevantes)
* Porcentagem de positivos verdadeiros (marcado como relevante e são relevantes)
* Porcentagem de negativos verdadeiros (marcado como não relevante e não são relevantes)
* Porcentagem de negativos falsos (marcado como não relevante e são relevantes)

Obrigatório para grupos de 3 alunos:
* Criar categorias intermediárias de relevância baseado na diferença de probabilidades. Exemplo: muito relevante, relevante, neutro, irrelevante e muito irrelevante.

In [14]:
teste = pd.read_excel('tweets_Cup Noodles_201809101833.xlsx', sheet_name='Teste')

In [24]:
for i in teste.Teste:





SyntaxError: unexpected EOF while parsing (<ipython-input-24-6a28f4b578e4>, line 3)

___
## Concluindo

Escreva aqui a sua conclusão.<br /> 
Faça um comparativo qualitativo sobre as medidas obtidas.<br />
Explique como são tratadas as mensagens com dupla negação e sarcasmo.<br />
Proponha um plano de expansão. Por que eles devem continuar financiando o seu projeto?<br />

Opcionalmente: 
* Discorrer por que não posso alimentar minha base de Treinamento automaticamente usando o próprio classificador, aplicado a novos tweets.
* Propor diferentes cenários de uso para o classificador Naive-Bayes. Cenários sem intersecção com este projeto.
* Sugerir e explicar melhorias reais no classificador com indicações concretas de como implementar (não é preciso codificar, mas indicar como fazer e material de pesquisa sobre o assunto).
