# Projeto 2 - Classificador Automático de Sentimento

Você foi contratado por uma empresa parar analisar como os clientes estão reagindo a um determinado produto no Twitter. A empresa deseja que você crie um programa que irá analisar as mensagens disponíveis e classificará como "relevante" ou "irrelevante". Com isso ela deseja que mensagens negativas, que denigrem o nome do produto, ou que mereçam destaque, disparem um foco de atenção da área de marketing.<br /><br />
Como aluno de Ciência dos Dados, você lembrou do Teorema de Bayes, mais especificamente do Classificador Naive-Bayes, que é largamente utilizado em filtros anti-spam de e-mails. O classificador permite calcular qual a probabilidade de uma mensagem ser relevante dadas as palavras em seu conteúdo.<br /><br />
Para realizar o MVP (*minimum viable product*) do projeto, você precisa implementar uma versão do classificador que "aprende" o que é relevante com uma base de treinamento e compara a performance dos resultados com uma base de testes.<br /><br />
Após validado, o seu protótipo poderá também capturar e classificar automaticamente as mensagens da plataforma.

## Informações do Projeto

Prazo: 19/Set até às 23:59.<br />
Grupo: 2 ou 3 pessoas - grupos com 3 pessoas terá uma rubrica diferenciada.<br /><br />
Entregáveis via GitHub: 
* Arquivo notebook com o código do classificador, seguindo as orientações abaixo.
* Arquivo Excel com as bases de treinamento e teste totalmente classificado.

**NÃO gravar a key do professor no arquivo**


### Entrega Intermediária: Check 1 - APS 2

Até o dia 10/Set às 23:59, xlsx deve estar no Github com as seguintes evidências: 

  * Produto escolhido.
  * Arquivo Excel contendo a base de treinamento e a base de testes já classificadas.

Sugestão de leitura:<br />
https://monkeylearn.com/blog/practical-explanation-naive-bayes-classifier/

___

## Parte I - Adquirindo a Base de Dados

Acessar o notebook **Projeto-2-Planilha** para realizar a coleta dos dados. O grupo deve classificar os dados coletados manualmente.

___
## Parte II - Montando o Classificador Naive-Bayes

Com a base de treinamento montada, comece a desenvolver o classificador. Não se esqueça de implementar o Laplace Smoothing (https://en.wikipedia.org/wiki/Laplace_smoothing).

Opcionalmente: 
* Limpar as mensagens removendo os caracteres: enter, :, ", ', (, ), etc. Não remover emojis.<br />
* Corrigir separação de espaços entre palavras e/ou emojis.
* Propor outras limpezas/transformações que não afetem a qualidade da informação.

Escreva o seu código abaixo:

In [1]:
import pandas as pd
import numpy as np
from emoji import UNICODE_EMOJI

df = pd.read_excel('tweets_netflix_treinamento.xlsx')

df.replace(regex=['\n', '\t'], value = '', inplace = True) #corrigindo separação entre enter e tab - pt.1

In [2]:
tweets = []

remover = ['?', '!', ',', ';', '.', '”', '“', ')', '(', '*',\
           '...', ':', '…', '{', '}', '"', '"', '=', "'", '•', '|'] #caracteres que devem ser removídos
for i in range(len(df['Treinamento'])):
    m = ''
    tweet = df['Treinamento'][i]
    for letra in tweet:
        if letra in UNICODE_EMOJI:
            m += ' ' + letra  + ' ' #corrigindo espaçamento entre caracteres - pt.2
        elif letra not in remover:
            m += letra
    tweets.append(m)

In [3]:
tweets_final = []
words = ['rt', 'a', 'is', 'me', 'in', '\U0001f92a']
for i in tweets:
    post = i.split()
    palavras = ''
    for e in post:
        #removendo links, hashtags, @, e demais termos/palavras inúteis
        if e[0:4] != 'http' and e[0:1] != '@' and e[:1] != '#' and e not in words:
            palavras += '' + e + ' '
        elif e in UNICODE_EMOJI:
            palavras += '' + e + ''
            
    tweets_final.append(palavras)
print(tweets_final)

['netflix has love wi noah centineo wtf can have him ', 'stoned watching netflix bed ', 'netflix ruins anime again making live action bleach smh ', 'well today’s the day sierra burgess loser finally out on netflix i hope it makes you feel seen and understood ', 'stoned watching netflix bed ', 'good netflix and chill too \U0001f92a', 'any good netflix documentary suggestions 🤔 or shows ', 'netflixtodo bien vas hacer 😍 🎬 ❤ ', 'they need to put this on netflix ', 'for black girls wanting to swim but risking getting your hair wet such dilemma this scene from ', 'petition to include never not love you and on the wings of love to be available at because why not 😍 ', 'mg aleatorio se lleva minecraft full accessoptifine capetarjeta visadinero por paypalnetflix accountfornit ', 'so we went on netflix to watch the matrix ', '❤ regalo random-minecraft full access-minecraft unmigrated-netflix account-metodo unmigrated-metodo paypal ', 'also we havent talked about the fact that iron fist has the be

In [4]:
PAU = pd.DataFrame(tweets_final, columns=['Treinamento'])
PAU = PAU.join(df['Relevância'], how='inner')

PAU

Unnamed: 0,Treinamento,Relevância
0,netflix has love wi noah centineo wtf can have...,0.0
1,stoned watching netflix bed,0.0
2,netflix ruins anime again making live action b...,1.0
3,well today’s the day sierra burgess loser fina...,0.0
4,stoned watching netflix bed,0.0
5,good netflix and chill too 🤪,0.0
6,any good netflix documentary suggestions 🤔 or ...,0.0
7,netflixtodo bien vas hacer 😍 🎬 ❤,0.0
8,they need to put this on netflix,0.0
9,for black girls wanting to swim but risking ge...,0.0


___
## Verificando a performance

Agora você deve testar o seu Classificador com a base de Testes.<br /><br /> 

Você deve extrair as seguintes medidas:
* Porcentagem de positivos falsos (marcados como relevante mas não são relevantes)
* Porcentagem de positivos verdadeiros (marcado como relevante e são relevantes)
* Porcentagem de negativos verdadeiros (marcado como não relevante e não são relevantes)
* Porcentagem de negativos falsos (marcado como não relevante e são relevantes)

Obrigatório para grupos de 3 alunos:
* Criar categorias intermediárias de relevância baseado na diferença de probabilidades. Exemplo: muito relevante, relevante, neutro, irrelevante e muito irrelevante.

___
## Concluindo

Escreva aqui a sua conclusão.<br /> 
Faça um comparativo qualitativo sobre as medidas obtidas.<br />
Explique como são tratadas as mensagens com dupla negação e sarcasmo.<br />
Proponha um plano de expansão. Por que eles devem continuar financiando o seu projeto?<br />

Opcionalmente: 
* Discorrer por que não posso alimentar minha base de Treinamento automaticamente usando o próprio classificador, aplicado a novos tweets.
* Propor diferentes cenários de uso para o classificador Naive-Bayes. Cenários sem intersecção com este projeto.
* Sugerir e explicar melhorias reais no classificador com indicações concretas de como implementar (não é preciso codificar, mas indicar como fazer e material de pesquisa sobre o assunto).


If categorical variable has a category (in test data set), which was not observed in training data set, then model will assign a 0 (zero) probability and will be unable to make a prediction. This is often known as “Zero Frequency”. To solve this, we can use the smoothing technique. One of the simplest smoothing techniques is called Laplace estimation.

On the other side naive Bayes is also known as a bad estimator, so the probability outputs from predict_proba are not to be taken too seriously.

Another limitation of Naive Bayes is the assumption of independent predictors. In real life, it is almost impossible that we get a set of predictors which are completely independent.

**Melhorias**

If continuous features do not have normal distribution, we should use transformation or different methods to convert it in normal distribution.
If test data set has zero frequency issue, apply smoothing techniques “Laplace Correction” to predict the class of test data set.
Remove correlated features, as the highly correlated features are voted twice in the model and it can lead to over inflating importance.
Naive Bayes classifiers has limited options for parameter tuning like alpha=1 for smoothing, fit_prior=[True|False] to learn class prior probabilities or not and some other options (look at detail here). I would recommend to focus on your  pre-processing of data and the feature selection.
You might think to apply some classifier combination technique like ensembling, bagging and boosting but these methods would not help. Actually, “ensembling, boosting, bagging” won’t help since their purpose is to reduce variance. Naive Bayes has no variance to minimize.