# Projeto 2 - Classificador Automático de Sentimento

Você foi contratado por uma empresa parar analisar como os clientes estão reagindo a um determinado produto no Twitter. A empresa deseja que você crie um programa que irá analisar as mensagens disponíveis e classificará como "relevante" ou "irrelevante". Com isso ela deseja que mensagens negativas, que denigrem o nome do produto, ou que mereçam destaque, disparem um foco de atenção da área de marketing.<br /><br />
Como aluno de Ciência dos Dados, você lembrou do Teorema de Bayes, mais especificamente do Classificador Naive-Bayes, que é largamente utilizado em filtros anti-spam de e-mails. O classificador permite calcular qual a probabilidade de uma mensagem ser relevante dadas as palavras em seu conteúdo.<br /><br />
Para realizar o MVP (*minimum viable product*) do projeto, você precisa implementar uma versão do classificador que "aprende" o que é relevante com uma base de treinamento e compara a performance dos resultados com uma base de testes.<br /><br />
Após validado, o seu protótipo poderá também capturar e classificar automaticamente as mensagens da plataforma.

## Informações do Projeto

Prazo: 19/Set até às 23:59.<br />
Grupo: 2 ou 3 pessoas - grupos com 3 pessoas terá uma rubrica diferenciada.<br /><br />
Entregáveis via GitHub: 
* Arquivo notebook com o código do classificador, seguindo as orientações abaixo.
* Arquivo Excel com as bases de treinamento e teste totalmente classificado.

**NÃO gravar a key do professor no arquivo**


### Entrega Intermediária: Check 1 - APS 2

Até o dia 10/Set às 23:59, xlsx deve estar no Github com as seguintes evidências: 

  * Produto escolhido.
  * Arquivo Excel contendo a base de treinamento e a base de testes já classificadas.

Sugestão de leitura:<br />
https://monkeylearn.com/blog/practical-explanation-naive-bayes-classifier/

___

## Parte I - Adquirindo a Base de Dados

Acessar o notebook **Projeto-2-Planilha** para realizar a coleta dos dados. O grupo deve classificar os dados coletados manualmente.

In [1]:
%matplotlib inline
import pandas as pd
import numpy as np
from scipy import stats
import matplotlib.pyplot as plt
from math import *

___
## Parte II - Montando o Classificador Naive-Bayes

Com a base de treinamento montada, comece a desenvolver o classificador. Não se esqueça de implementar o Laplace Smoothing (https://en.wikipedia.org/wiki/Laplace_smoothing).

Opcionalmente: 
* Limpar as mensagens removendo os caracteres: enter, :, ", ', (, ), etc. Não remover emojis.<br />
* Corrigir separação de espaços entre palavras e/ou emojis.
* Propor outras limpezas/transformações que não afetem a qualidade da informação.

Escreva o seu código abaixo:

import re
lista = []

for i in civic.Treinamento:
    i.replace(":", " ")
    i.replace(".", " ")
    i.replace(";", " ")
    i.replace("?", " ")
    i.replace("/", " ")
    i.replace("\n", " ")
    i.replace("''", " ")
    i.replace(",", " ")
    i.replace("..", " ")
    i.replace("...", " ")
    lista.append(re.split(' #|@', i))
    
print(lista)

import re
lista = []

for tweet in civic.Treinamento:
    for palavra in tweet:
        for letra in palavra:
            if letra == "@" or letra == "#":
                palavra = ""
    print ("\n" + tweet)

In [2]:
def rmve(excel, sht):
    
    nome = pd.read_excel(excel, sheet_name = sht).loc[:, [sht,'Relevância']]
    
    if sht == "Treinamento": 

        lista_1 = []
        lista_2 = []
        lista_3 = []
        lista_4 = []
        lista_5 = []

        dataFrameli = [
        lista_1,
        lista_2,
        lista_3,
        lista_4,
        lista_5
        ]

        lista_twt = []

        for i in range(0, len(dataFrameli)):
            for tweet in nome[nome["Relevância"] == i + 1][sht]:
                msg = tweet.lower().replace(".", "").replace("#", " #").replace("||", "").replace("|", "").replace("[", "").replace("/", "").replace("+", "").replace("[", "").replace("]", "").replace("-", "").replace("!", " ! ").replace("?", " ? ").replace(":", "").replace(",", "").replace(";", "").replace("(", "").replace(")", "").replace("..", "").replace("…", "").replace("\n", "").replace('"', "").replace("—", "").replace("//", "")
                for palavra in msg.split(" "):
                    if palavra != "":
                        lista_twt.append(palavra)

                dataFrameli[i].append(lista_twt)
                lista_twt = []

        li_rm = []
        for lista in range(0, len(dataFrameli)):
            for frase in dataFrameli[lista]:
                for palavra in frase:
                    if "https" in palavra or "@" in palavra:
                        li_rm.append(palavra)

                for i in li_rm:
                    frase.remove(i)

                li_rm = []   
    
    elif sht == "Teste":
        
        dataFrameli = []
        lista_twt = []
        
        for tweet in nome[sht]:
            msg = tweet.lower().replace(".", "").replace("#", " #").replace("||", "").replace("|", "").replace("[", "").replace("/", "").replace("+", "").replace("[", "").replace("]", "").replace("-", "").replace("!", " ! ").replace("?", " ? ").replace(":", "").replace(",", "").replace(";", "").replace("(", "").replace(")", "").replace("..", "").replace("…", "").replace("\n", "").replace('"', "").replace("—", "").replace("//", "")
            for palavra in msg.split(" "):
                if palavra != "":
                    lista_twt.append(palavra)

            dataFrameli.append(lista_twt)
            lista_twt = []
            
        li_rm = []
        for frase in dataFrameli:
            for palavra in frase:
                if "https" in palavra or "@" in palavra:
                    li_rm.append(palavra)

            for i in li_rm:
                frase.remove(i)

            li_rm = []  
    
    return dataFrameli

In [3]:
data = rmve('tweets_civic_201809051726.xlsx', "Treinamento")

___
## Verificando a performance

Agora você deve testar o seu Classificador com a base de Testes.<br /><br /> 

Você deve extrair as seguintes medidas:
* Porcentagem de positivos falsos (marcados como relevante mas não são relevantes)
* Porcentagem de positivos verdadeiros (marcado como relevante e são relevantes)
* Porcentagem de negativos verdadeiros (marcado como não relevante e não são relevantes)
* Porcentagem de negativos falsos (marcado como não relevante e são relevantes)

Obrigatório para grupos de 3 alunos:
* Criar categorias intermediárias de relevância baseado na diferença de probabilidades. Exemplo: muito relevante, relevante, neutro, irrelevante e muito irrelevante.

## Funções secundárias

In [4]:
def soma_data(data):
    
    contador = 0
    
    for tweet in data.Treinamento:
        contador += 1
    
    return contador

def cont_pal(lista):
    
    lista2 = []
    
    for listinhas in lista:
        for frases in listinhas:
            for palavras in frases:
                if palavras not in lista2:
                    lista2.append(palavras)
    cont  = 0

    for i in lista2:
        cont += 1 
    
    return cont

def cont_pal_2(dataFrame, li):

    tamanho  = 0
    li_rt  = []
    
    for i in dataFrame:
        if i != li:
            for frase in i:
                for pal in frase:
                    tamanho += 1
    
    li_rt.append(tamanho)
    tamanho = 0
    
    for frase in li:
        for palavra in frase:
            tamanho += 1
            
    li_rt.append(tamanho)
    
    return li_rt


def acha_valor(palavra, lenght, p, tamanho_sm_rp):
    valor  = 0
    
    for pal in p:
        if palavra == pal:
            valor = p[pal]
    
    if valor == 0:
        valor  = 1/(tamanho_sm_rp + lenght[1])
    
    return valor

## Funções principais

In [5]:
def pb_rel(data):
    
    dt = pd.read_excel(data).loc[:, ['Treinamento','Relevância']].sort_values('Relevância', ascending=False)
    
    dici_rel = {}
    
    for i in range(5):
        
        nd = dt[dt["Relevância"] == i + 1]
        dici_rel["Ser " + str(i)] = len(nd)/soma_data(dt)
        dici_rel["Não ser " + str(i)] = (soma_data(dt) - len(nd))/soma_data(dt)
        
    return dici_rel

def pr_pl(dataframe, lista, palavra_total, cond):
    
    dici_p = {}
    
    if cond == "ser":
    
        contador = 0
        
        for frase in lista:
            for palavra in frase:
                for frase2 in lista:
                    for comparador in frase2:
                        
                        if palavra == comparador:
                            contador += 1
                            
                dici_p[palavra] = (contador + 1)/(cont_pal_2(dataframe, lista)[1] + palavra_total)
                contador = 0
    
    elif cond == "nao ser":

        contador = 0
        
        for frases in lista:
        
            for palavras in frases:

                for i in dataframe:

                    if i != lista:
                        for frase in i:
                            for comparador in frase:

                                if palavras == comparador:
                                    contador += 1

                dici_p[palavras] = (contador + 1)/(cont_pal_2(dataframe, lista)[0] + palavra_total)            
                contador = 0
    
    return dici_p

def bayes(dt, teste_limpo, rel, p, p2, p3, p4, p5, tm1, tm2, tm3, tm4, tm5):
    
    l_pbr = []
    dici_pbr = {}
    
    ps1 = 1
    ps2 = 1
    ps3 = 1
    ps4 = 1
    ps5 = 1
    
    for frases in range(len(teste_limpo)):
        for palavras in teste_limpo[frases]:                
            ps1 *= acha_valor(palavras, tm1, palavras_1, tamanho_sm_rp)
            ps2 *= acha_valor(palavras, tm2, palavras_2, tamanho_sm_rp)
            ps3 *= acha_valor(palavras, tm3, palavras_3, tamanho_sm_rp)
            ps4 *= acha_valor(palavras, tm4, palavras_4, tamanho_sm_rp)
            ps5 *= acha_valor(palavras, tm5, palavras_5, tamanho_sm_rp)
            
        ps1 *= rel["Ser 0"]
        ps2 *= rel["Ser 1"]
        ps3 *= rel["Ser 2"]
        ps4 *= rel["Ser 3"]
        ps5 *= rel["Ser 4"]

        l_pbr.append(ps1)
        l_pbr.append(ps2)
        l_pbr.append(ps3)
        l_pbr.append(ps4)
        l_pbr.append(ps5)
            
        if ps1 == max(l_pbr):
            dici_pbr[dt["Teste"][frases]] = 1 
            
        elif ps2 == max(l_pbr):
            dici_pbr[dt["Teste"][frases]] = 2
            
        elif ps3 == max(l_pbr):
            dici_pbr[dt["Teste"][frases]] = 3 
            
        elif ps4 == max(l_pbr):
            dici_pbr[dt["Teste"][frases]] = 4 
            
        elif ps5 == max(l_pbr):
            dici_pbr[dt["Teste"][frases]] = 5
                     
        l_pbr = []
            
        ps1 = 1
        ps2 = 1
        ps3 = 1
        ps4 = 1
        ps5 = 1
            
    return dici_pbr

def comparativo(dici, data):
    
    posn = 0
    faln = 0
    posmr = 0
    falmr = 0
    posr = 0
    falr = 0
    posi = 0
    fali = 0
    posmi = 0
    falmi = 0
    falir = 0
    
    dici_rt = {}
    
    for i in dici:
        for com in data["Teste"]:
            if i == com:
                if dici[i] == int(data.loc[data['Teste'] == com]['Relevância'][data.loc[data['Teste'] == com]['Relevância'].index[0]]):
                    
                    if dici[i] == 1:
                        posmr += 1
                    
                    if dici[i] == 2:
                        posr += 1
                    
                    if dici[i] == 3:
                        posn += 1
                    
                    if dici[i] == 4:
                        posi += 1
                    
                    if dici[i] == 5:
                        posmi += 1
                
                else:

                    if dici[i] == 1:
                        falmr += 1

                    if dici[i] == 2:
                        falr += 1

                    if dici[i] == 3:
                        faln += 1

                    if dici[i] == 4:
                        fali += 1

                    if dici[i] == 5:
                        falmi += 1
               
    dici_rt["Positivos"] = [posmr/200*100, posr/200*100, posn/200*100, posi/200*100, posmi/200*100, posmr/200*100 + posr/200*100, posmr/200*100 + posr/200*100 + posn/200*100 + posi/200*100 + posmi/200*100]
    dici_rt["Falsos"] = [falmr/200*100, falr/200*100, faln/200*100, fali/200*100, falmi/200*100, falmr/200*100 + falr/200*100, falmr/200*100 + falr/200*100 + faln/200*100 + fali/200*100 + falmi/200*100]
    
    return  dici_rt 

In [6]:
relcao_1 = pb_rel('tweets_civic_201809051726.xlsx')
tamanho_sm_rp = cont_pal(data)
tm1 = cont_pal_2(data, data[0])
tm2 = cont_pal_2(data, data[1])
tm3 = cont_pal_2(data, data[2])
tm4 = cont_pal_2(data, data[3])
tm5 = cont_pal_2(data, data[4])

In [7]:
palavras_1 = pr_pl(data, data[0], cont_pal(data), "ser")
palavras_2 = pr_pl(data, data[1], cont_pal(data), "ser")
palavras_3 = pr_pl(data, data[2], cont_pal(data), "ser")
palavras_4 = pr_pl(data, data[3], cont_pal(data), "ser")
palavras_5 = pr_pl(data, data[4], cont_pal(data), "ser")

In [8]:
tst = pd.read_excel('tweets_civic_201809051726.xlsx', sheet_name = "Teste").loc[:, ["Teste",'Relevância']]
tst2 = rmve('tweets_civic_201809051726.xlsx', "Teste")

In [13]:
bayes_dici = bayes(tst, tst2, relcao_1, palavras_1, palavras_2, palavras_3, palavras_4, palavras_5, tm1, tm2, tm3, tm4, tm5)

In [10]:
fnl = comparativo(bayes_dici, tst)

In [11]:
cross = pd.DataFrame.from_dict(fnl).transpose().rename(columns = {0: "Muito Relevante (%)", 1: "Relevante (%)", 2: "Neutro (%)", 3: "Irrelevante (%)", 4: "Muito Irrelevante (%)", 5: "Relevantes (%)", 6: "Total (%)"})

#### ___
## Concluindo

Escreva aqui a sua conclusão.<br /> 
Faça um comparativo qualitativo sobre as medidas obtidas.<br />
Explique como são tratadas as mensagens com dupla negação e sarcasmo.<br />
Proponha um plano de expansão. Por que eles devem continuar financiando o seu projeto?<br />

Opcionalmente: 
* Discorrer por que não posso alimentar minha base de Treinamento automaticamente usando o próprio classificador, aplicado a novos tweets.
* Propor diferentes cenários de uso para o classificador Naive-Bayes. Cenários sem intersecção com este projeto.
* Sugerir e explicar melhorias reais no classificador com indicações concretas de como implementar (não é preciso codificar, mas indicar como fazer e material de pesquisa sobre o assunto).


## ----------------------------

In [12]:
cross

Unnamed: 0,Muito Relevante (%),Relevante (%),Neutro (%),Irrelevante (%),Muito Irrelevante (%),Relevantes (%),Total (%)
Falsos,1.5,9.0,16.5,17.0,1.0,10.5,45.0
Positivos,0.0,10.5,25.0,15.5,4.0,10.5,55.0


Ao plotar a tabela crosstab acima, conclui-se que o classificador teve uma porcentagem de acerto de 55% total dos tweets, enquanto seu indice de erro foi de 45%. Conclue-se que tais porcentagens estão muito próximas, o que não foi o esperado para o classificador. Ao analizar os possiveis motivos para o ocorrido, notou-se que foi utilizada uma base de apenas 300 tweets para treinar o classificador, o que acaba não dando espaço para um grande numero de tweets dentro de uma categoria (apenas 11 foram classificados como muito relevante). Por conta disso, o classificador acaba por não cumprir com o esperado, já que aparecem poucas palavras e repetições para o mesmo calcular as probabilidades. 

Em contrapartida, nota-se que quando o classificador erra, o mesmo na maioria das vezes não classifica um objeto irrelevante como muito relevante, mas sim algo próximo de sua categoria, ou seja, apenas relevante. Por conta disso, com uma base de dados maior, em que muitas palavras novas apareceriam e se repetiriam, o classificador poderia aprimorar suas probabilidades, aumentando o numero de acertos ainda mais.

Falsos positivos e falsos negativos, são as duas categorias que mais afetam uma empresa, visto que no primeiro caso, o classificador acaba classificando algo relevante como irrelevante, e no segundo, o mesmo acerta tal classificação. Para tais categorias, respectivamente, as porcentagens são de 10.5% e 10.5% (soma de muito relevante com relevantes). Portanto, a porcentagem é igual em ambos, mostrando que há uma chance igual de erro e de acerto quando se trata de tweets relevantes, o que tambem é fruto do baixo número de tweets apanhados. 

No caso de dupla negação ou sarcasmo, como muitos tweets deste tipo eram retweets, o classificador acabou colocando-os no lugar certo, na maioria das vezes. Para aqueles tweets que contém dupla negação e não foram anteriormente apresentados para o classificador, a probabilidade de uma palavra negativa acompanhada de outra acabam se sobrepondo as demais, classificando o mesmo muitas vezes no lugar errado. Além disso, o classificador não é capaz de captar sarcasmos ou ironias, por considerar apenas a probabilidade de palavras separadas, como se as mesmas fossem independentes, levando-o a marcar as frases em outra categoria. Outro ponto, consiste no fato de que, aqueles tweets que contém adjetivos e palavras com probabilidades altíssimas, acabam levando o classificador a escolher uma categoria que não foi aquela anteriormente apresentada por nós.

Em um ambiente empresarial, um dos fatores que mais impacta nas vendas e projetos de produtos, é o usuário. Com o classificador desenvolvido, é possível com facilidade filtrar aqueles comentários que devem ser analisados pela empresa, para que a mesma possa realizar seus projetos com base no conteúdo apresentado nos tweets que o classificador julgou relevante, sem ter de faze-lo manualmente. Para aprimorar o percentual de acerto, é necessário aumentar a base de Treinamento, o que o tornaria uma forte ferramenta de controle de satisfação. Além disso, em uma futura iteração, o classificador poderia ser utilizado para analisar diferentes produtos ao mesmo tempo, o que daria uma noção geral de como está a reputação da empresa juntamente com seu produto. 

O classficador não poderia ser utilizado em tweets novos, muito menos quando um novo produto é lançado no mercado pela empresa. O fato ocorre pois o mesmo contém apenas as probabilidades das palavras que estão fazendo parte da discussão do twitter em certo dia, e como é impossivel saber se surgirá uma nova hashtag ou termo, o classificador não pode ser utilizado, já que a probabilidade da mesma (hashtag, palavra) seria baixa, pois sua frequencia na base de treinamento eh zero, já que a base esta destualizada. No caso de um lançamento de um novo produto, do mesmo modo que foi citado anteriormete, o classificador não dará uma probabilidade alta de relevância por conta da frequencia do termo ser nula na base de treinamento. Para solucionar tal problema, seria necessário atualizar a base de treinamento toda a vez que algo relevante tomar conta das discussões do twitter, para assim o classificador poder operar de forma correta.

O classificador Naive Bayes, tem várias outras vertentes aplicadas no dia a dia. Uma delas é o papel na medicina, já que a probabilidade de uma pessoa ter uma certa doença, é calculada pela probabilidade da mesma ter a doença, dado que sua família a teve ou dado que 100 mil habitantes de uma certa cidade tambem tiveram. Podemos citar como um exemplo o cancer, em que o papel da familia é crucial para o calculo da probabilidade de o filho ter a doença.
Além disso, pode-se prever por exemplo, a probabilidade de acontecer certo desastre natural dado que a localização escolhida tem certo historico.

Para a melhoria do classificador, uma base de treinamento de no mínimo 1000 tweets seria necessária, já que mais palavras seriam
registradas no dicionário de probabilidades, o que forneceria uma melhor base para o classificador trabalhar. Com o aumento dos tweets, as categorias não muito comuns, como muito relevante, seriam melhor preenchidas, melhorando assim, a porcentagem de acerto da mesma, a qual se refere a uma das mais importantes a serem analisadas em uma empresa. Com o intuito de melhorar o duplo sentido, negação e sarcasmo dos tweets, uma lista de palavras poderia ser criada com suas probabilidades, de forma que o conteúdo da mesma contenha apenas os termos que compõem um tweet que foi classificdo como ironico, de maneira que ao calcular todas as probabilidades, o classificador mudará o tweet de categoria caso ele tenha uma alta probabilidade de ter duplo sentido.