# Projeto 2 - Classificador Automático de Sentimento

Você foi contratado por uma empresa para analisar como os clientes estão reagindo a um determinado produto no Twitter. A empresa deseja que você crie um programa que irá analisar as mensagens disponíveis e classificará como "relevante" ou "irrelevante". Com isso ela deseja que mensagens negativas, que denigrem o nome do produto, ou que mereçam destaque, disparem um foco de atenção da área de marketing.<br /><br />
Como aluno de Ciência dos Dados, você lembrou do Teorema de Bayes, mais especificamente do Classificador Naive-Bayes, que é largamente utilizado em filtros anti-spam de e-mails. O classificador permite calcular qual a probabilidade de uma mensagem ser relevante dadas as palavras em seu conteúdo.<br /><br />
Para realizar o MVP (*minimum viable product*) do projeto, você precisa implementar uma versão do classificador que "aprende" o que é relevante com uma base de treinamento e compara a performance dos resultados com uma base de testes.<br /><br />
Após validado, o seu protótipo poderá também capturar e classificar automaticamente as mensagens da plataforma.

## Informações do Projeto

Prazo: 19/Set até às 23:59.<br />
Grupo: 2 ou 3 pessoas - grupos com 3 pessoas terá uma rubrica diferenciada.<br /><br />
Entregáveis via GitHub: 
* Arquivo notebook com o código do classificador, seguindo as orientações abaixo.
* Arquivo Excel com as bases de treinamento e teste totalmente classificado.

**NÃO gravar a key do professor no arquivo**


### Entrega Intermediária: Check 1 - APS 2

Até o dia 10/Set às 23:59, xlsx deve estar no Github com as seguintes evidências: 

  * Produto escolhido.
  * Arquivo Excel contendo a base de treinamento e a base de testes já classificadas.

Sugestão de leitura:<br />
https://monkeylearn.com/blog/practical-explanation-naive-bayes-classifier/

___

## Parte I - Adquirindo a Base de Dados

Acessar o notebook **Projeto-2-Planilha** para realizar a coleta dos dados. O grupo deve classificar os dados coletados manualmente.

___
## Parte II - Montando o Classificador Naive-Bayes

Com a base de treinamento montada, comece a desenvolver o classificador. Não se esqueça de implementar o Laplace Smoothing (https://en.wikipedia.org/wiki/Laplace_smoothing).

Opcionalmente: 
* Limpar as mensagens removendo os caracteres: enter, :, ", ', (, ), etc. Não remover emojis.<br />
* Corrigir separação de espaços entre palavras e/ou emojis.
* Propor outras limpezas/transformações que não afetem a qualidade da informação.

Escreva o seu código abaixo:

In [16]:
import pandas as pd
import numpy as np
import json
treinamento = pd.read_excel('tweetsmarlboro.xlsx')
treinamento = treinamento.loc[:,["Treinamento","Relevante"]]
treinamento.head()
relevantes = treinamento[(treinamento['Relevante']==1)]
irrelevantes = treinamento[(treinamento['Relevante']==0)]
tweetsirre = irrelevantes.loc[:,['Treinamento']]
tweetsirre = tweetsirre.to_json()
tweetsirre = json.loads(tweetsirre)
tweetsirre = tweetsirre['Treinamento']
dictirre = {}
listairre = []
palavrasirre = []
oi=[]
a = tweetsirre.values()
for e in a:
    listairre.append(e)
    for i in listairre:
        palavrasirre.append(i.split())
        for sublist in palavrasirre:
            for item in sublist:
                oi.append(item)
oi

['nws',
 'alert&gt;',
 'flood',
 'advisory:',
 'affected',
 'locations',
 'include',
 'trenton,',
 'middletown,',
 'old',
 'bridge,',
 'howell,',
 'marlboro,',
 'manalapan,',
 'ewing,',
 'tinton',
 'falls,',
 'holmdel,',
 'red',
 'bank,',
 'florence,',
 'burlington,',
 'bristol,',
 'matawan,',
 'jamesburg,',
 'high...',
 '#pawx',
 'https://t.co/xuyjzu8vth',
 'nws',
 'alert&gt;',
 'flood',
 'advisory:',
 'affected',
 'locations',
 'include',
 'trenton,',
 'middletown,',
 'old',
 'bridge,',
 'howell,',
 'marlboro,',
 'manalapan,',
 'ewing,',
 'tinton',
 'falls,',
 'holmdel,',
 'red',
 'bank,',
 'florence,',
 'burlington,',
 'bristol,',
 'matawan,',
 'jamesburg,',
 'high...',
 '#pawx',
 'https://t.co/xuyjzu8vth',
 'nws',
 'alert&gt;',
 'flood',
 'advisory:',
 'affected',
 'locations',
 'include',
 'trenton,',
 'middletown,',
 'old',
 'bridge,',
 'howell,',
 'marlboro,',
 'manalapan,',
 'ewing,',
 'tinton',
 'falls,',
 'holmdel,',
 'red',
 'bank,',
 'florence,',
 'burlington,',
 'bristol,'

In [17]:
for palavra in oi:
    if palavra not in dictirre:
        dictirre[palavra] = 1
    else:
        dictirre[palavra] += 1
dictirre

{'nws': 1681386,
 'alert&gt;': 1681386,
 'flood': 1681386,
 'advisory:': 1681386,
 'affected': 1681386,
 'locations': 1681386,
 'include': 1681386,
 'trenton,': 1681386,
 'middletown,': 1681386,
 'old': 3303290,
 'bridge,': 1681386,
 'howell,': 1681386,
 'marlboro,': 15479467,
 'manalapan,': 1681386,
 'ewing,': 1681386,
 'tinton': 1681386,
 'falls,': 1681386,
 'holmdel,': 1681386,
 'red': 1681386,
 'bank,': 1681386,
 'florence,': 1681386,
 'burlington,': 1681386,
 'bristol,': 1681386,
 'matawan,': 1681386,
 'jamesburg,': 1681386,
 'high...': 1681386,
 '#pawx': 1681386,
 'https://t.co/xuyjzu8vth': 1681386,
 "don't": 1666510,
 'miss': 1666510,
 'out': 2803696,
 'this': 4249382,
 'photoshoot': 1666510,
 'johannesburg': 1666510,
 'cbd,': 1666510,
 "we're": 1666510,
 'coming': 2793153,
 'for': 18911438,
 'you': 13222915,
 '✈': 1666510,
 '#jozi': 1666510,
 '#johannesburg': 1666510,
 '#joburg': 1666510,
 '#gauteng': 1666510,
 '#midrand': 1666510,
 '#sandton': 1666510,
 '#marlboro': 1666510,
 

In [20]:
tweetsre = relevantes.loc[:,['Treinamento']]
tweetsre = tweetsre.to_json()
tweetsre = json.loads(tweetsre)
tweetsre = tweetsre['Treinamento']
dictre = {}
listare = []
palavrasre = []
ola=[]
b = tweetsre.values()
for e in b:
    listare.append(e)
    for i in listare:
        palavrasre.append(i.split())
        for sublist in palavrasre:
            for item in sublist:
                ola.append(item)
ola

['rt',
 '@1990sf1:',
 'ayrton',
 'senna',
 '(marlboro',
 'mclaren-honda',
 'v12,',
 'mp4/6).',
 'pole',
 'position.',
 'italian',
 'gp',
 'qualifying,',
 'monza,',
 '7th',
 'september',
 '1991.',
 '#f1',
 'https:/…',
 'rt',
 '@1990sf1:',
 'ayrton',
 'senna',
 '(marlboro',
 'mclaren-honda',
 'v12,',
 'mp4/6).',
 'pole',
 'position.',
 'italian',
 'gp',
 'qualifying,',
 'monza,',
 '7th',
 'september',
 '1991.',
 '#f1',
 'https:/…',
 'rt',
 '@1990sf1:',
 'ayrton',
 'senna',
 '(marlboro',
 'mclaren-honda',
 'v12,',
 'mp4/6).',
 'pole',
 'position.',
 'italian',
 'gp',
 'qualifying,',
 'monza,',
 '7th',
 'september',
 '1991.',
 '#f1',
 'https:/…',
 'rt',
 '@1990sf1:',
 'ayrton',
 'senna',
 '(marlboro',
 'mclaren-honda',
 'v12,',
 'mp4/6).',
 'pole',
 'position.',
 'italian',
 'gp',
 'qualifying,',
 'monza,',
 '7th',
 'september',
 '1991.',
 '#f1',
 'https:/…',
 'rt',
 '@1990sf1:',
 'ayrton',
 'senna',
 '(marlboro',
 'mclaren-honda',
 'v12,',
 'mp4/6).',
 'pole',
 'position.',
 'italian',
 '

In [23]:
for palavra in ola:
    if palavra not in dictre:
        dictre[palavra] = 1
    else:
        dictre[palavra] += 1
dictre

{'"i': 492881,
 '#7': 657031,
 '#bloomthc': 23390,
 '#cannabis': 23390,
 '#cigarette': 690501,
 '#cigs': 690501,
 '#coke': 304381,
 '#coolkid': 690501,
 '#costacoffee': 304381,
 '#detail.': 1234296,
 '#didyouknow': 318449,
 '#edgy': 690501,
 '#emo': 690501,
 '#f1': 9588312,
 '#interesting': 318449,
 '#justiceforilikeitrough': 1,
 '#marijuana': 23390,
 '#marlboro': 994882,
 '#mclaren-ford': 640340,
 '#nicotex': 304381,
 '#okimdone': 690501,
 '#pepsi': 304381,
 '#relatable': 690501,
 '#roadwarrior': 78181,
 '#tambay,': 640340,
 '#zeltweg': 640340,
 '$10': 347189,
 '%': 5695,
 '&amp;': 361845,
 "'evaluating": 630476,
 '(': 5695,
 '(@': 283679,
 '(a8)': 657031,
 '(acidente)': 657031,
 '(lyrics)': 16881,
 '(marlboro': 8947972,
 '*buys': 429909,
 '*is': 429909,
 '*stops': 429909,
 '+': 48749,
 '-': 1415379,
 '--': 774,
 '...rip': 39351,
 '/': 657031,
 '//': 2336387,
 '1': 5695,
 '1.25': 5695,
 '1/this': 30889,
 '10': 52085,
 '100%': 52085,
 "100's.": 59056,
 '1979': 640340,
 '1990': 657031,


In [33]:
Relevantes = pd.DataFrame.from_dict(dictre, orient='index')
Relevantes.columns=['Contagem']
Relevantes.head()

Unnamed: 0,Contagem
rt,14485884
@1990sf1:,8947972
ayrton,8947972
senna,8947972
(marlboro,8947972


___
## Concluindo

Escreva aqui a sua conclusão.<br /> 
Faça um comparativo qualitativo sobre as medidas obtidas.<br />
Explique como são tratadas as mensagens com dupla negação e sarcasmo.<br />
Proponha um plano de expansão. Por que eles devem continuar financiando o seu projeto?<br />

Opcionalmente: 
* Discorrer por que não posso alimentar minha base de Treinamento automaticamente usando o próprio classificador, aplicado a novos tweets.
* Propor diferentes cenários de uso para o classificador Naive-Bayes. Cenários sem intersecção com este projeto.
* Sugerir e explicar melhorias reais no classificador com indicações concretas de como implementar (não é preciso codificar, mas indicar como fazer e material de pesquisa sobre o assunto).
