# Projeto 2 - Classificador Automático de Sentimento

Você foi contratado por uma empresa para analisar como os clientes estão reagindo a um determinado produto no Twitter. A empresa deseja que você crie um programa que irá analisar as mensagens disponíveis e classificará como "relevante" ou "irrelevante". Com isso ela deseja que mensagens negativas, que denigrem o nome do produto, ou que mereçam destaque, disparem um foco de atenção da área de marketing.<br /><br />
Como aluno de Ciência dos Dados, você lembrou do Teorema de Bayes, mais especificamente do Classificador Naive-Bayes, que é largamente utilizado em filtros anti-spam de e-mails. O classificador permite calcular qual a probabilidade de uma mensagem ser relevante dadas as palavras em seu conteúdo.<br /><br />
Para realizar o MVP (*minimum viable product*) do projeto, você precisa implementar uma versão do classificador que "aprende" o que é relevante com uma base de treinamento e compara a performance dos resultados com uma base de testes.<br /><br />
Após validado, o seu protótipo poderá também capturar e classificar automaticamente as mensagens da plataforma.

## Informações do Projeto

Prazo: 19/Set até às 23:59.<br />
Grupo: 2 ou 3 pessoas - grupos com 3 pessoas terá uma rubrica diferenciada.<br /><br />
Entregáveis via GitHub: 
* Arquivo notebook com o código do classificador, seguindo as orientações abaixo.
* Arquivo Excel com as bases de treinamento e teste totalmente classificado.

**NÃO gravar a key do professor no arquivo**


### Entrega Intermediária: Check 1 - APS 2

Até o dia 10/Set às 23:59, xlsx deve estar no Github com as seguintes evidências: 

  * Produto escolhido.
  * Arquivo Excel contendo a base de treinamento e a base de testes já classificadas.

Sugestão de leitura:<br />
https://monkeylearn.com/blog/practical-explanation-naive-bayes-classifier/

___

## Parte I - Adquirindo a Base de Dados

Acessar o notebook **Projeto-2-Planilha** para realizar a coleta dos dados. O grupo deve classificar os dados coletados manualmente.

___
## Parte II - Montando o Classificador Naive-Bayes

Com a base de treinamento montada, comece a desenvolver o classificador. Não se esqueça de implementar o Laplace Smoothing (https://en.wikipedia.org/wiki/Laplace_smoothing).

Opcionalmente: 
* Limpar as mensagens removendo os caracteres: enter, :, ", ', (, ), etc. Não remover emojis.<br />
* Corrigir separação de espaços entre palavras e/ou emojis.
* Propor outras limpezas/transformações que não afetem a qualidade da informação.

Escreva o seu código abaixo:

In [1]:
import sys
!{sys.executable} -m pip install emoji --upgrade

Requirement already up-to-date: emoji in /anaconda3/lib/python3.6/site-packages (0.5.1)
[33mYou are using pip version 10.0.1, however version 18.0 is available.
You should consider upgrading via the 'pip install --upgrade pip' command.[0m


In [2]:
import pandas as pd
import numpy as np
import json
import emoji as m
treinamento = pd.read_excel('tweetsmarlboro.xlsx')
treinamento = treinamento.loc[:,["Treinamento","Relevante"]]
treinamento.head()
relevantes = treinamento[(treinamento['Relevante']==1)]
irrelevantes = treinamento[(treinamento['Relevante']==0)]

In [3]:
def emoji(st):
    lista=[]
    for l in st:
        if l in m.UNICODE_EMOJI:
            p = " " + l + " "
            lista.append(p)
        else:
            lista.append(l)
    z = "".join(lista)
    return z

In [4]:
treinamento.head()

Unnamed: 0,Treinamento,Relevante
0,rt @1990sf1: ayrton senna (marlboro mclaren-ho...,1.0
1,nws alert&gt; flood advisory: affected locatio...,0.0
2,rt @1990sf1: ayrton senna (marlboro mclaren-ho...,1.0
3,ciggie jacket look from yesterday\n#marlboro #...,1.0
4,at least four marlboro men have died of smokin...,1.0


In [5]:
relevantestring = " ".join(list(relevantes.Treinamento))
relevanteslimpo = relevantestring.replace('.','')
relevanteslimpo = relevanteslimpo.replace(',','')
relevanteslimpo = relevanteslimpo.replace(';','')
relevanteslimpo = relevanteslimpo.replace(':','')
relevanteslimpo = relevanteslimpo.replace('"','')
relevanteslimpo = relevanteslimpo.replace('!','')
relevanteslimpo = relevanteslimpo.replace('(','')
relevanteslimpo = relevanteslimpo.replace(')','')
relevanteslimpo = relevanteslimpo.replace('?','')
relevanteslimpo = relevanteslimpo.replace('*','')
relevanteslimpo = emoji(relevanteslimpo)      
Relevantes = pd.Series((relevanteslimpo).split()).value_counts()
Relevantes

marlboro                 117
rt                        49
the                       36
a                         32
i                         30
#f1                       28
mp4/6                     27
mclaren-honda             27
qualifying                27
gp                        27
7th                       27
monza                     27
september                 27
1991                      27
@1990sf1                  27
position                  27
ayrton                    27
pole                      27
v12                       27
italian                   27
https/…                   27
senna                     27
black                     23
of                        22
and                       22
to                        21
in                        20
is                        15
like                      13
for                       13
                        ... 
#interesting               1
extremely                  1
thankyou                   1
largest       

In [6]:
irrelevantestring = " ".join(list(irrelevantes.Treinamento))
irrelevanteslimpo = irrelevantestring.replace('.','')
irrelevanteslimpo = irrelevanteslimpo.replace(',','')
irrelevanteslimpo = irrelevanteslimpo.replace(';','')
irrelevanteslimpo = irrelevanteslimpo.replace(':','')
irrelevanteslimpo = irrelevanteslimpo.replace('"','')
irrelevanteslimpo = irrelevanteslimpo.replace('!','')
irrelevanteslimpo = irrelevanteslimpo.replace('(','')
irrelevanteslimpo = irrelevanteslimpo.replace(')','')
irrelevanteslimpo = irrelevanteslimpo.replace('?','')
irrelevanteslimpo = irrelevanteslimpo.replace('*','')
irrelevanteslimpo = emoji(irrelevanteslimpo)
Irrelevantes = pd.Series((irrelevanteslimpo).split()).value_counts()
Irrelevantes.head()

marlboro    146
md          115
rt          110
the          98
a            52
dtype: int64

In [7]:
Irreaspera = Irrelevantes.sum()
Releaspera = Relevantes.sum()
Irreaspera

3412

In [8]:
for p in Irrelevantes.index:
    Irrelevantes[p]+=1

In [9]:
irretotal = Irrelevantes.sum()
irretotal

4422

In [10]:
dfi = Irrelevantes.to_frame()
dfi.columns = ["Quantidade"]

In [11]:
dfi["prob"] = dfi["Quantidade"]/irretotal

In [12]:
dfi.head()

Unnamed: 0,Quantidade,prob
marlboro,147,0.033243
md,116,0.026232
rt,111,0.025102
the,99,0.022388
a,53,0.011986


In [13]:
for p in Relevantes.index:
    Relevantes[p]+=1

dfre = Relevantes.to_frame()
dfre.columns = ["Quantidade"]
dfre["prob"] = dfre["Quantidade"]/Relevantes.sum()
dfre.head()

Unnamed: 0,Quantidade,prob
marlboro,118,0.044079
rt,50,0.018678
the,37,0.013821
a,33,0.012327
i,31,0.01158


In [14]:
listatotal = list(dfre.index)+list(dfi.index)
totaldif = len(set(listatotal))

In [15]:
trele = len(list(dfre.index))
tirre = len(list(dfi.index))
c_rele = trele/totaldif
c_irre = tirre/totaldif

In [16]:
def classificador(a):
    probreli = []
    probeirri = []
    palavratweetsLimpo = a.replace('.','')
    palavratweetsLimpo = palavratweetsLimpo.replace(',','')
    palavratweetsLimpo = palavratweetsLimpo.replace(';','')
    palavratweetsLimpo = palavratweetsLimpo.replace(':','')
    palavratweetsLimpo = palavratweetsLimpo.replace('"','')
    palavratweetsLimpo = palavratweetsLimpo.replace('!','')
    palavratweetsLimpo = palavratweetsLimpo.replace('(','')
    palavratweetsLimpo = palavratweetsLimpo.replace(')','')
    palavratweetsLimpo = palavratweetsLimpo.replace('?','')
    palavratweetsLimpo = palavratweetsLimpo.replace('*','')
    palavratweets = palavratweetsLimpo.split(' ')
    for e in palavratweets:
        if e not in dfre.index:
            probreli.append(1/(Releaspera + totaldif))
            
        if e not in dfi.index:
            probeirri.append(1/(Irreaspera + totaldif))
            
        if e in dfre.index:
            probreli.append(dfre.prob[e])
        if e in dfi.index:
            probeirri.append(dfi.prob[e])
    m_irri = 1
    m_reli = 1
    for z in probeirri:
        m_irri*=z
    for j in probreli:
        m_reli*=j
    f_irre = c_irre*m_irri
    f_reli = c_rele*m_reli
    #print("Relevantes")
    #print(f_reli)
    #print("Irrelevante")
    #print(f_irre)
    if f_irre > f_reli:
        return 0
    else:
        return 1

In [17]:
print(classificador("marlboro reds"))

1


In [18]:
teste = pd.read_excel('tweetsteste.xlsx')
teste = teste.loc[:,["Teste","Relevante"]]
teste.head()

Unnamed: 0,Teste,Relevante
0,"rt @seanlynch845: final: cornwall 16, marlboro...",0
1,rt @1990sf1: ayrton senna (marlboro mclaren-ho...,1
2,game day!!!! home opener vs marlboro 230 pm.,0
3,rt @lbdfc: final score marlboro 10 leominster ...,0
4,rt @mattmcnamaratv_: cornwall with impressive ...,0


In [19]:
teste["Classificador"] = teste['Teste'].apply(classificador)
teste.head()

Unnamed: 0,Teste,Relevante,Classificador
0,"rt @seanlynch845: final: cornwall 16, marlboro...",0,0
1,rt @1990sf1: ayrton senna (marlboro mclaren-ho...,1,1
2,game day!!!! home opener vs marlboro 230 pm.,0,0
3,rt @lbdfc: final score marlboro 10 leominster ...,0,0
4,rt @mattmcnamaratv_: cornwall with impressive ...,0,0


In [20]:
def limpador(a):
    if a != 'True':
        return "False"
    else:
        return "True"
    

In [21]:
teste["Resultado"] = teste.Relevante.where(teste.Relevante != teste.Classificador, 'True')

In [29]:
teste["Resultado"] = teste["Resultado"].apply(limpador)
teste["Resultado"].value_counts()
teste


def f (rel, classe):
    if classe==0 and rel==1:
        fn = True
    return fn

#teste = teste.apply(f)

teste["fn"] = False

In [None]:
teste[teste.Resultado == True & teste.Classificador=]

In [23]:
frequencia = (170/200)*100
frequencia

85.0

___
## Concluindo

Escreva aqui a sua conclusão.<br /> 
Faça um comparativo qualitativo sobre as medidas obtidas.<br />
Explique como são tratadas as mensagens com dupla negação e sarcasmo.<br />
Proponha um plano de expansão. Por que eles devem continuar financiando o seu projeto?<br />

Opcionalmente: 
* Discorrer por que não posso alimentar minha base de Treinamento automaticamente usando o próprio classificador, aplicado a novos tweets.
* Propor diferentes cenários de uso para o classificador Naive-Bayes. Cenários sem intersecção com este projeto.
* Sugerir e explicar melhorias reais no classificador com indicações concretas de como implementar (não é preciso codificar, mas indicar como fazer e material de pesquisa sobre o assunto).
