# Projeto 2 - Classificador Autom√°tico de Sentimento

Voc√™ foi contratado por uma empresa parar analisar como os clientes est√£o reagindo a um determinado produto no Twitter. A empresa deseja que voc√™ crie um programa que ir√° analisar as mensagens dispon√≠veis e classificar√° como "relevante" ou "irrelevante". Com isso ela deseja que mensagens negativas, que denigrem o nome do produto, ou que mere√ßam destaque, disparem um foco de aten√ß√£o da √°rea de marketing.<br /><br />
Como aluno de Ci√™ncia dos Dados, voc√™ lembrou do Teorema de Bayes, mais especificamente do Classificador Naive-Bayes, que √© largamente utilizado em filtros anti-spam de e-mails. O classificador permite calcular qual a probabilidade de uma mensagem ser relevante dadas as palavras em seu conte√∫do.<br /><br />
Para realizar o MVP (*minimum viable product*) do projeto, voc√™ precisa implementar uma vers√£o do classificador que "aprende" o que √© relevante com uma base de treinamento e compara a performance dos resultados com uma base de testes.<br /><br />
Ap√≥s validado, o seu prot√≥tipo poder√° tamb√©m capturar e classificar automaticamente as mensagens da plataforma.

## Informa√ß√µes do Projeto

Prazo: 19/Set at√© √†s 23:59.<br />
Grupo: 2 ou 3 pessoas - grupos com 3 pessoas ter√° uma rubrica diferenciada.<br /><br />
Entreg√°veis via GitHub: 
* Arquivo notebook com o c√≥digo do classificador, seguindo as orienta√ß√µes abaixo.
* Arquivo Excel com as bases de treinamento e teste totalmente classificado.

**N√ÉO gravar a key do professor no arquivo**


### Entrega Intermedi√°ria: Check 1 - APS 2

At√© o dia 10/Set √†s 23:59, xlsx deve estar no Github com as seguintes evid√™ncias: 

  * Produto escolhido.
  * Arquivo Excel contendo a base de treinamento e a base de testes j√° classificadas.

Sugest√£o de leitura:<br />
https://monkeylearn.com/blog/practical-explanation-naive-bayes-classifier/

___

## Parte I - Adquirindo a Base de Dados

Acessar o notebook **Projeto-2-Planilha** para realizar a coleta dos dados. O grupo deve classificar os dados coletados manualmente.

In [25]:
%matplotlib inline
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
from scipy import stats

In [26]:
df=pd.read_excel('tweets_riot.xlsx','Treinamento',sep=',')
dfTeste=pd.read_excel('teste.xlsx','Teste',sep=',')

In [27]:
lista1=['  ','   ',':','(',')','`','[',']','.','/','" ',"'"]
lista2=[' ',' ',' ',' ',' ',' ',' ',' ',' ',' ',' ',' ']
for i in range(len(lista1)):
    df['Treinamento']=df.Treinamento.str.replace(lista1[i], lista2[i])
df['Treinamento']=df.Treinamento.str.lower()

In [28]:
df['Treinamento']=df['Treinamento'].str.split()
df.head()

Unnamed: 0,Treinamento,Classifica√ß√£o,Legenda
0,"[n, √©, pq, eu, t√¥, com, uma, crush, imensa, n√£...",0,0 - IRRELEVANTE
1,"[rt, @favstommo, ai, cansei, de, viver, mas, n...",1,1 - RUIM
2,"[@carlosruaror, consegui,, riot, me, enviou, o...",2,2 - BOM
3,"[riot, fala, assim, mesmo, rs, https, t, co, r...",2,
4,"[rt, @saradocinzas, aaaaaaaaaaaaa, vai, toma, ...",0,


___
## Parte II - Montando o Classificador Naive-Bayes

Com a base de treinamento montada, comece a desenvolver o classificador. N√£o se esque√ßa de implementar o Laplace Smoothing (https://en.wikipedia.org/wiki/Laplace_smoothing).

Opcionalmente: 
* Limpar as mensagens removendo os caracteres: enter, :, ", ', (, ), etc. N√£o remover emojis.<br />
* Corrigir separa√ß√£o de espa√ßos entre palavras e/ou emojis.
* Propor outras limpezas/transforma√ß√µes que n√£o afetem a qualidade da informa√ß√£o.

Escreva o seu c√≥digo abaixo:

In [29]:
dfLen=len(df)

dfBom=df[df['Classifica√ß√£o']==2]
dfBomLen=len(dfBom)

dfRuim=df[df['Classifica√ß√£o']==1]
dfRuimLen=len(dfRuim)

dfIrre=df[df['Classifica√ß√£o']==0]
dfIrreLen=len(dfIrre)


In [30]:
# Probabilidades base
ProbBom=len(dfBom)/(dfLen)
ProbRuim=len(dfRuim)/(dfLen)
ProbIrre=len(dfIrre)/(dfLen)
print('A probablidade de ser Bom  √©:{0}'.format(ProbBom))
print('A probablidade de ser Ruim √©:{0}'.format(ProbRuim))
print('A probablidade de ser Irre √©:{0}'.format(ProbIrre))


A probablidade de ser Bom  √©:0.2866666666666667
A probablidade de ser Ruim √©:0.35
A probablidade de ser Irre √©:0.36333333333333334


In [31]:
dfBomProb=dfBom["Treinamento"].sum()
dfBomProb=pd.Series(dfBomProb)
dfBomProb=dfBomProb.value_counts()
dfBomProb.head(5)

riot     79
a        67
co       62
https    62
t        62
dtype: int64

In [32]:
dfRuimProb=dfRuim["Treinamento"].sum()
dfRuimProb=pd.Series(dfRuimProb)
dfRuimProb=dfRuimProb.value_counts()
dfRuimProb.head(5)

riot    98
a       68
que     63
e       60
o       60
dtype: int64

In [33]:
dfIrreProb=dfIrre["Treinamento"].sum()
dfIrreProb=pd.Series(dfIrreProb)
dfIrreProb=dfIrreProb.value_counts()
dfIrreProb.head(5)

de     49
rt     41
que    37
o      29
eu     27
dtype: int64

In [42]:
dfTotal=df.Treinamento.sum()
dfTotal=pd.Series(dfTotal)
dfTotal=dfTotal.value_counts()
dfBom.head()

Unnamed: 0,Treinamento,Classifica√ß√£o,Legenda
2,"[@carlosruaror, consegui,, riot, me, enviou, o...",2,2 - BOM
3,"[riot, fala, assim, mesmo, rs, https, t, co, r...",2,
7,"[obg, por, investir, em, skin, e, dx, o, servi...",2,
9,"[anem, que, fofura, melhor, champ, que, a, rio...",2,
10,"[@lolegendsbr, riot,cade, as, novas, skins???,...",2,


In [49]:
#Calculando as probabilidades base
#Prob palavra/bom
dfBomProb2=(dfBomProb+1)/(len(dfBomProb)+len(dfTotal))
#Prob palavra/ruim
dfRuimProb2=(dfRuimProb+1)/(len(dfRuimProb)+len(dfTotal))
#Prob palavra/irrelevante
dfIrreProb2=(dfIrreProb+1)/(len(dfIrreProb)+len(dfTotal))


In [61]:
def bayes(df, dfTotal):
    laplace=(1/len(dfTotal))
    for i in df:
        c_bom=1
        c_ruim=1
        c_irre=1
        for u in i:
            p=dfTotal[u]/len(dfTotal) #(Probabilidade da palavra no espa√ßo amostral de todas as palavras)
            if u not in dfBomProb2:
                p_bom=laplace
            else:
                p_bom=dfBomProb2[u]
            if u not in dfRuimProb2:
                p_ruim=laplace
            else:
                p_ruim=dfRuimProb2[u]
            if u not in dfIrreProb2:
                p_irre=laplace
            else:
                p_irre=dfIrreProb2[u]
                
            c_bom*=((p_bom*ProbBom)/p)
            c_ruim*=((p_ruim*ProbRuim)/p)
            c_irre*=((p_irre*ProbIrre)/p)
            
        if c_bom>c_ruim and c_bom>c_irre:
            #Classifica como Bom (2)
            return 'bom'
        elif c_ruim>c_bom and c_ruim>c_irre:
            #Classifica como Ruim (1)
            return 'ruim'
        elif c_irre>c_bom and c_irre>c_ruim:
            #Classifica como Irrelevante (0)
            return 'irrelevante'
bayes(df.Treinamento, dfTotal)

'irrelevante'

In [60]:
for i in df.Treinamento:
    print(i)

['n', '√©', 'pq', 'eu', 't√¥', 'com', 'uma', 'crush', 'imensa', 'n√£o', 'mas', 'acho', 'que', 'ela', 'ganha', 'essa', 'prova']
['rt', '@favstommo', 'ai', 'cansei', 'de', 'viver', 'mas', 'n', 'quero', 'me', 'matar', 'boa', 'noite']
['@carlosruaror', 'consegui,', 'riot', 'me', 'enviou', 'ontem']
['riot', 'fala', 'assim', 'mesmo', 'rs', 'https', 't', 'co', 'rlgeks0oej']
['rt', '@saradocinzas', 'aaaaaaaaaaaaa', 'vai', 'toma', 'no', 'cu', 'aaaaaa', 'aaaaaaaaaaaaaaaaaaaaaaaaaaa', 'aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa', 'https', 't', 'co‚Ä¶']
['ou', 'miseric√≥rdia', 'se', 'a', 'heaven', 'n√£o', 'ganhar', 'esse', 'programa', 'meu', 'cora√ß√£o', 'ela', 'j√°', 'tem', '#masterchefbr']
['rt', '@hugoverdose', 'meu', 'deus', 'os', 'gringos', 'acharam', 'que', 'sextou', 'significava', 'sex', 'to', 'you', 'e', 'agora', 'no', 'instagram', 'a', '#sextou', 't√°', 's√≥', 'pornoz√£o', 'hahaha']
['obg', 'por', 'investir', 'em', 'skin', 'e', 'dx', 'o', 'servidor', 'maravilhoso', 'riot', 'üòç']
['rt'

___
## Verificando a performance

Agora voc√™ deve testar o seu Classificador com a base de Testes.<br /><br /> 

Voc√™ deve extrair as seguintes medidas:
* Porcentagem de positivos falsos (marcados como relevante mas n√£o s√£o relevantes)
* Porcentagem de positivos verdadeiros (marcado como relevante e s√£o relevantes)
* Porcentagem de negativos verdadeiros (marcado como n√£o relevante e n√£o s√£o relevantes)
* Porcentagem de negativos falsos (marcado como n√£o relevante e s√£o relevantes)

Obrigat√≥rio para grupos de 3 alunos:
* Criar categorias intermedi√°rias de relev√¢ncia baseado na diferen√ßa de probabilidades. Exemplo: muito relevante, relevante, neutro, irrelevante e muito irrelevante.

___
## Concluindo

Escreva aqui a sua conclus√£o.<br /> 
Fa√ßa um comparativo qualitativo sobre as medidas obtidas.<br />
Explique como s√£o tratadas as mensagens com dupla nega√ß√£o e sarcasmo.<br />
Proponha um plano de expans√£o. Por que eles devem continuar financiando o seu projeto?<br />

Opcionalmente: 
* Discorrer por que n√£o posso alimentar minha base de Treinamento automaticamente usando o pr√≥prio classificador, aplicado a novos tweets.
* Propor diferentes cen√°rios de uso para o classificador Naive-Bayes. Cen√°rios sem intersec√ß√£o com este projeto.
* Sugerir e explicar melhorias reais no classificador com indica√ß√µes concretas de como implementar (n√£o √© preciso codificar, mas indicar como fazer e material de pesquisa sobre o assunto).
