# Projeto 2 - Classificador Automático de Sentimento

Você foi contratado por uma empresa parar analisar como os clientes estão reagindo a um determinado produto no Twitter. A empresa deseja que você crie um programa que irá analisar as mensagens disponíveis e classificará como "relevante" ou "irrelevante". Com isso ela deseja que mensagens negativas, que denigrem o nome do produto, ou que mereçam destaque, disparem um foco de atenção da área de marketing.<br /><br />
Como aluno de Ciência dos Dados, você lembrou do Teorema de Bayes, mais especificamente do Classificador Naive-Bayes, que é largamente utilizado em filtros anti-spam de e-mails. O classificador permite calcular qual a probabilidade de uma mensagem ser relevante dadas as palavras em seu conteúdo.<br /><br />
Para realizar o MVP (*minimum viable product*) do projeto, você precisa implementar uma versão do classificador que "aprende" o que é relevante com uma base de treinamento e compara a performance dos resultados com uma base de testes.<br /><br />
Após validado, o seu protótipo poderá também capturar e classificar automaticamente as mensagens da plataforma.

## Informações do Projeto

Prazo: 19/Set até às 23:59.<br />
Grupo: 2 ou 3 pessoas - grupos com 3 pessoas terá uma rubrica diferenciada.<br /><br />
Entregáveis via GitHub: 
* Arquivo notebook com o código do classificador, seguindo as orientações abaixo.
* Arquivo Excel com as bases de treinamento e teste totalmente classificado.

**NÃO gravar a key do professor no arquivo**


### Entrega Intermediária: Check 1 - APS 2

Até o dia 10/Set às 23:59, xlsx deve estar no Github com as seguintes evidências: 

  * Produto escolhido.
  * Arquivo Excel contendo a base de treinamento e a base de testes já classificadas.

Sugestão de leitura:<br />
https://monkeylearn.com/blog/practical-explanation-naive-bayes-classifier/

___

## Parte I - Adquirindo a Base de Dados

Acessar o notebook **Projeto-2-Planilha** para realizar a coleta dos dados. O grupo deve classificar os dados coletados manualmente.

___
## Parte II - Montando o Classificador Naive-Bayes

Com a base de treinamento montada, comece a desenvolver o classificador. Não se esqueça de implementar o Laplace Smoothing (https://en.wikipedia.org/wiki/Laplace_smoothing).

Opcionalmente: 
* Limpar as mensagens removendo os caracteres: enter, :, ", ', (, ), etc. Não remover emojis.<br />
* Corrigir separação de espaços entre palavras e/ou emojis.
* Propor outras limpezas/transformações que não afetem a qualidade da informação.

Escreva o seu código abaixo:

In [1]:
import pandas as pd
from emoji import UNICODE_EMOJI
Data = pd.read_excel("tweets_rappi.xlsx")
relevante = Data.Treinamento[Data.Classifcação == 'relevante']
irrelevante = Data.Treinamento[Data.Classifcação == 'irrelevante']
Probabilidades = Data['Classifcação'].value_counts(normalize=True)
#------------------------------------------------------------------------------------------------------------------#
                                        #Funções de limpeza de tweets#
#-Função Limpeza para uma serie de tweets#
def LimpezaPrevia(tweets):
    acentos = {'á':'a','ã':'a','é':'e','ê':'e','í':'i','ô':'o','ó':'o','ú':'u','õ':'o','Z':'Zz14'}
    words = []
    for i in tweets:
        a = i.replace('/n','')
        b = a.replace('!','')
        c = b.replace("'","")
        d = c.replace(",","")
        for y in UNICODE_EMOJI.keys():
            if y in d:
                e = d.replace(y," {} ".format(y))
                lista = e.split(" ")
                break
            else:
                lista = d.split(" ")
        for x in lista:
            if '@' in x:
                del x
            elif 'http' in x:
                del x
            elif x == 'rt':
                  del x
            elif '\n' in x:
                del x
            else:
                z = list(x)
                for h in z:
                    if h == '?':
                        z.remove(h)
                    elif h == ',':
                        z.remove(h)
                    elif h == '.':
                        z.remove(h)
                    elif h == '!':
                        z.remove(h)
                    elif h == '#':
                        z.remove(h)
                    elif h == '&':
                        z.remove(h)
                    elif h == ';':
                        z.remove(h)
                    elif h == '(':
                        z.remove(h)
                    elif h == ')':
                        z.remove(h)
                    elif h == '"':
                        z.remove(h)
                    elif h == '/':
                        z.remove(h)
                    elif h == '*':
                        z.remove(h)
                    elif h == '-':
                        z.remove(h)
                    elif h in acentos:#RETIRANDO ACENTOS MAIS USADOS#
                        w = acentos[h]
                        z.remove(h)
                        z.append(w)
                y = ''.join(z)
                words.append(y)
    return words
#-Função Limpeza de um tweet:
def LimpezaLinha(lista):
    lista2 = []
    acentos = {'á':'a','ã':'a','é':'e','ê':'e','í':'i','ô':'o','ó':'o','ú':'u','õ':'o'}
    a = lista.replace('/n','')
    b = lista.replace('!','')
    c = lista.replace("'","")
    for y in UNICODE_EMOJI.keys():
        if y in c:
            d = c.replace(y," {} ".format(y))
            lista3 = d.split(" ")
            break
        else:
            lista3 = c.split(" ")
    for x in lista3:
        if '@' in x:
            del x
        elif 'http' in x:
            del x
        elif x == 'rt':
            del x
        elif '\n' in x:
            del x
        else:
            z = list(x)
            for h in z:
                if h == '?':
                    z.remove(h)
                elif h == ',':
                    z.remove(h)
                elif h == '.':
                    z.remove(h)
                elif h == '!':
                    z.remove(h)
                elif h == '#':
                    z.remove(h)
                elif h == '&':
                    z.remove(h)
                elif h == ';':
                    z.remove(h)
                elif h == '(':
                    z.remove(h)
                elif h == ')':
                    z.remove(h)
                elif h == '"':
                    z.remove(h)
                elif h == '/':
                    z.remove(h)
                elif h == '*':
                    z.remove(h)
                elif h == '-':
                    z.remove(h)
                elif h in UNICODE_EMOJI:
                    h.replace(h,' {} '.format(h))
                elif h in acentos:
                    w = acentos[h]
                    z.remove(h)
                    z.append(w)
            y = ''.join(z)
            lista2.append(y)
    return lista2
#------------------------------------------------------------------------------------------------------------------#
            #Dicionario com palavras relevantes e suas respectivas probabilidades sem LaPlace Smoothing#
#-Dicionario de palavres relevantes e probabilidades sem la place smoothing:
palavrasRel = LimpezaPrevia(relevante)
Relevantes = pd.DataFrame(palavrasRel)
PRel = Relevantes[0].value_counts().to_dict()
#-Dicionario de palavres irrelevantes e probabilidades sem la place smoothing:
palavrasIrrel = LimpezaPrevia(irrelevante)
Irrelevantes = pd.DataFrame(palavrasIrrel)
PIrrel = Irrelevantes[0].value_counts().to_dict()
#------------------------------------------------------------------------------------------------------------------#
                #Criando lista com todas as palavras da base de treinamento sem repetições#
listaTotal = list(set().union(palavrasRel, palavrasIrrel))
PalavrasTotal = len(listaTotal)
#------------------------------------------------------------------------------------------------------------------#
                                    #Probabilidade com LaPlace Smoothing#
#-Probabilidade de palavras relevantes:
for i in PRel.keys():
    PRel[i] = (PRel[i]+1)/(len(Relevantes)+PalavrasTotal)
#-Probabilidade de Palavras Irrelevantes:
for i in PIrrel.keys():
    PIrrel[i] = (PIrrel[i]+1)/(len(Irrelevantes)+PalavrasTotal)

#------------------------------------------------------------------------------------------------------------------#
                                    #Algoritmo de Classificação#
##Função a qual recebe uma Data Series de tweets, dicioinario de palavras relevantes com respectivas probabilidade e o -
#- mesmo para palavras irrelevantes , a quantidade totais de palavras nos dois dicionarios juntos e por fim uma Data-
#-Serie com as probabilidades de ser relevante ou irrelevante##
def ClassificadorNaiveBayes(tweets,palavrasRelevantes,palavrasIrrelevantes,palavrasTotais,Probabilidades):
    listaResultado = []
    for i in tweets:
        palavrasLimpas = LimpezaLinha(i)
        P_Relevante = 1
        P_Irrelevante = 1
        for z in palavrasLimpas:
            if z in palavrasRelevantes:
                P_Relevante *= palavrasRelevantes[z]
            else:
                P_Relevante *= 1/(palavrasTotais+len(palavrasRelevantes))
        for y in palavrasLimpas:
            if y in palavrasIrrelevantes:
                P_Irrelevante *= palavrasIrrelevantes[y]
            else:
                P_Irrelevante *= 1/(palavrasTotais+len(palavrasIrrelevantes))
        P_Relevante *= Probabilidades[1]
        P_Irrelevante *= Probabilidades[0]
        if P_Relevante > P_Irrelevante:
            listaResultado.append("relevante")
        elif P_Relevante < P_Irrelevante:
            listaResultado.append("irrelevante")
        else:
            listaResultado.append("EQUIVALENTE")
    SerieFinal = pd.Series(listaResultado,name="Classificação_NaiveBayes")
    return SerieFinal

___
## Verificando a performance

Agora você deve testar o seu Classificador com a base de Testes.<br /><br /> 

Você deve extrair as seguintes medidas:
* Porcentagem de positivos falsos (marcados como relevante mas não são relevantes)
* Porcentagem de positivos verdadeiros (marcado como relevante e são relevantes)
* Porcentagem de negativos verdadeiros (marcado como não relevante e não são relevantes)
* Porcentagem de negativos falsos (marcado como não relevante e são relevantes)

Obrigatório para grupos de 3 alunos:
* Criar categorias intermediárias de relevância baseado na diferença de probabilidades. Exemplo: muito relevante, relevante, neutro, irrelevante e muito irrelevante.

# Testando Classificador

In [2]:
DataTeste = pd.read_excel('tweets_rappi_teste.xlsx')
TweetsTeste = DataTeste['Teste']
x = ClassificadorNaiveBayes(TweetsTeste,PRel,PIrrel,PalavrasTotal,Probabilidades)
Data2 = DataTeste.join(x)
ClassificacaoManual = Data2['Classificação']
ClassificacaoNaiveBayes = Data2['Classificação_NaiveBayes']
def ResultadoClassificador(Manual,NaiveBayes):
    x = 0
    listaPor100 = []
    listaResultado = {"positivos_falsos":0,"positivos_verdadeiros":0,"negativos_verdadeiros":0,"negativos_falsos":0}
    for i in Manual:
        if i == 'irrelevante':
            if NaiveBayes[x] == i:
                listaResultado['negativos_verdadeiros'] += 1
                x += 1
            elif NaiveBayes[x] != i:
                listaResultado['negativos_falsos'] += 1
                x += 1
        elif i == 'relevante':
            if NaiveBayes[x] == i:
                listaResultado['positivos_verdadeiros'] += 1
                x += 1
            elif NaiveBayes[x] != i:
                listaResultado['positivos_falsos'] += 1
                x += 1
    Final = pd.DataFrame.from_dict(listaResultado,orient='index',columns=['Frequencia de acontecimento'])
    for i in Final['Frequencia de acontecimento']:
        listaPor100.append((i/200)*100)
    Final['Porcentagem'] = listaPor100
    return Final
#-------------------------------------------------------------------------------------------------------------------#
                            #Resultado da Função Classificadora com porcentagem de resultados#
ResultadoClassificador(ClassificacaoManual,ClassificacaoNaiveBayes)
#lista = ['o atendimento do rappi e tao rapido quanto o do sus']
#ClassificadorNaiveBayes(lista,PRel,PIrrel,PalavrasTotal,Probabilidades)

Unnamed: 0,Frequencia de acontecimento,Porcentagem
positivos_falsos,30,15.0
positivos_verdadeiros,13,6.5
negativos_verdadeiros,149,74.5
negativos_falsos,8,4.0


___
## Concluindo

Escreva aqui a sua conclusão.<br /> 
Faça um comparativo qualitativo sobre as medidas obtidas.<br />
Explique como são tratadas as mensagens com dupla negação e sarcasmo.<br />
Proponha um plano de expansão. Por que eles devem continuar financiando o seu projeto?<br />

Opcionalmente: 
* Discorrer por que não posso alimentar minha base de Treinamento automaticamente usando o próprio classificador, aplicado a novos tweets.
* Propor diferentes cenários de uso para o classificador Naive-Bayes. Cenários sem intersecção com este projeto.
* Sugerir e explicar melhorias reais no classificador com indicações concretas de como implementar (não é preciso codificar, mas indicar como fazer e material de pesquisa sobre o assunto).


#### Criando o classificador NaiveBayes e sua utilização
Nas celulas de codigo acima foi programado um classificador de sentimento NaiveBayes de tweets sobre o aplicativo Rappi utilizando uma base de treinamento de 500 tweets a qual foi primeiramente classificada como relevante ou irrelevante manualmente pela dupla autora deste projeto, o conceito de relevancia utilizado foi caso o tweet contesse alguma informação a qual pode ser possivelmente interpretada como um feedback positivo ou negativo sobre o aplicativo e seu serviço. Posteriormente a base de tweets de treinamento foi lida pelo python através da bliblioteca Pandas a qual possibilitou separar os tweets de treinamento em dois grupos classificados manualmente como relevantes e os classificados manualmente como irrelevante e através deste dois grupos foi possivel criar duas listas de palvras com suas respectivas probabilidades de aparecerem em tweets relevantes e de aparecerem em tweets irrelevantes, já considerando a tecnica de "Laplace Smoothing" a qual irá punir a classificação caso uma palavra no tweet a ser classificado não esteja disponivel no banco de palvras obtidas do treinamento. Após criar as duas listas de palavras citadas acima, foi utilizado outra base de tweets a qual foi classificada manualmente mas será tambem classificada pelo classificador de sentimento NaiveBayes programado nas celulas de codigo acima, após a classificação dos tweets pelo classificador NaiveBayes, estas classificações foram comparadas à classificação manual previamente feita e assim separadas em 4 grupos: positivos falsos(tweets classificados pelo classificador NaiveBayes como relevante à empresa mas foram classificados manualmente como irrelevantes),positivos verdadeiros(tweets classificados pelo classificador como relevantes e também classificado manualmente como relevante),negativos falsos(tweets classificados pelo classificador como irrelevantes mas classificados manualmente como relevantes) e por fim o quarto grupo os negativos verdadeiros(tweets classificados como irrelevante pelo classificador e pela classificação manual).

#### Resultados da utilização do classificador em uma base de tweets teste
Após o  término da comparação entre a classificação manual da base de tweets de teste com a classificacao do clasficador NaiveBayes da mesma base de tweets obtivemos os seguintes resultados: 31 ocorrencias de positivos falsos(15.5%), 12 ocorrencias de positivos verdadeiros(6%), 149 ocorrencias de negativos verdadeiros(74.5%) e por fim 8 ocorrencias de negativos falsos(4%).Observando esses resultaddos pode-se concluir que o classificador possui uma alta capacidade de classificar corretamente tweets irrelevantes, pois de 200 tweets utilizados na base de teste ele classificou 149 tweets corretamente como irrelevante, apesar de classificar 31 tweets os quais eram irrelevantes como relevantes. Além disso é possivel concluir também que para tweets relevantes o classificador classificou 12 tweets corretamente mas deixou de classificar 8 tweets dos quais eram relevantes, classificando-os como irrelevantes. No entanto 8 tweets dos quais eram relevante classificados erroneamente como irrelevantes representam 6% de todos os tweets e este numero  pode ser considerada relativamente baixo, mostrando que o classificador tem uma baixa tendencia de classificar tweets relevantes como irrelevantes mostrando ser eficiente em selecionar tweets os quais seriam relevantes para a empresa, sem deixar muitos tweets os quais seriam relevantes "escapar".

#### Classificador em relação a dupla negação e sarcasmo
O classificador claramente é capaz de classificar tweets, no entanto por se tratar de um classificador Naive, cada palavra do tweet será interpretada independentemente da frase na qual esta contida, ou seja, nos tweets em  que há uma dupla negação como por exemplo "Eu não odeio o rappi", a classificação deste tweet dependerá somente das palavras contidas nele e não do real significado do tweet, pois o classificador não analisa a semântica da frase. Além disso, o conceito de relevante utilizado para o treinamento do classificador foi que para um tweet ser relevante ele deve conter alguma informação a qual pode ser interpretada como um feedback para empresa, ou seja, somente a probabilidade de cada palavra individualmente ser ou nao relevante irá determinar sua classificação. Já para tweets que apresentam sarcasmo a classificação do classificador não condiz com a classificação correta, pois cada palavras em um tweet sarcastico tem seu propris significado, mas se analisadas em conjunto apresentam o sentido ironico. No entanto o classificador, como dito antes, utiliza a tecnica de analisar cada palavra individualmente, não conseguindo compreender o verdadeiro significado da frase e causando assim, uma classificação erronea.

#### Por que o classificador deve ser continuado e incentivado?
O classificador além da capacidade de classificar tweets como relevantes ou não, possui um grande potencial no mundo corporativo pois através deste classificador é possivel classificar tweets retirados da internet para serem analisados pela empresa assim sendo possivel encontrar uma fonte de feedback na qual pode guiar a empresa em suas decisões e apresentar a opinião do publico geral sobre o produto/serviço,  possibilitando também analisar a reação do publico a uma decisão ou ação da empresa bastando somente retirar tweets os quais foram postados após o anuncio de tal decisão/ação podendo ter uma fonte rapida e eficaz de feedback para validar sua decisão, alem disso caso o desenvolvimento do classificador se mantenha, é possivel criar uma maneira na qual tweets são baixados e classificados mensalmente criando uma fonte de feedback constante do produto/serviço a qual permite que a empresa tome decisões melhores com base na opinião do publico mais recente.

#### Realimentação da base de treinamento 
Alimentar a base de treinamento com classificações e tweets classificados pelo próprio classificador não é correto e não treinará o classificador corretamente pois após o primeiro treinamento o classificador erra em algumas classificações e re-alimentar o treinamento deste classificador com estas classificações erradas causará uma propagação deste erro tornando-o cada vez maior a cada treinamento piorando as classificaçõe e provocando a cada re-alimentação um maior indice de erros na classificação.

#### Cenarios alternativos de utilização do classificador NaiveBayes
Além da análise sentimental feita acima, o classificador NaiveBayes pode ser útil para vários outros objetivos. O primeiro dele diz respeito ao filtro de spam, já que você pode passar para ele uma base de emails ou mensagens consideradas spam e o classificador aprenderá com elas e poderá classificar novos emails ou mensagens recebidas em spam ou não, e assim, não deixará que seu computador fique com uma caixa de spam lotada de emails indesejados. Um segundo uso é o sistema de recomendação, pois ele pode ser combinado a ele uma filtragem colaborativa e assim prever, com base no machine learning e na leitura de dados, se um usuário gostaria ou nao de um produto 'x'.

#### Propostas para refinar e melhorar o classificador NaiveBayes
O classificador classifica tweets com uma margem de erro relativamente baixa no entanto é possivel melhorar o classificador através de implementações ao codigo, como por exemplo aumentar a base de tweets para treinamento, remover pronomes pessoais através de metodos em Python como replace(https://www.w3schools.com/python/ref_string_replace.asp) ou no caso de uma lista de palavras caso haja pronomes pessoais dentro desta lista, retiralos com uma iteração dentro da lista e deletando o item caso seja um pronome pessoal usando o metodo del ou remove(https://www.tutorialspoint.com/python/list_remove.htm), outra implementação na qual melhoraria o classificador seria agrupar diferentes formas de uma mesma palavra e um grupo o qual seria considerado somente uma palavra, no python para isso seria nescessario o uso de uma bliblioteca chamada NLTK(https://www.tutorialspoint.com/python/python_stemming_and_lemmatization.htm) e por fim outra implementação ao codigo seria remover numeros com varios caracteres os quais na grande maioria não agregam nada, fazendo uma iteração na lista de palavras e usando o metodo "try" para tentar converter a string em um numero e caso a conversão tenha sucesso, usar o metodo del ou remove para remover este numero(https://stackoverflow.com/questions/1265665/how-can-i-check-if-a-string-represents-an-int-without-using-try-except).




