# Projeto 2 - Classificador Automático de Sentimento

Você foi contratado por uma empresa parar analisar como os clientes estão reagindo a um determinado produto no Twitter. A empresa deseja que você crie um programa que irá analisar as mensagens disponíveis e classificará como "relevante" ou "irrelevante". Com isso ela deseja que mensagens negativas, que denigrem o nome do produto, ou que mereçam destaque, disparem um foco de atenção da área de marketing.<br /><br />
Como aluno de Ciência dos Dados, você lembrou do Teorema de Bayes, mais especificamente do Classificador Naive-Bayes, que é largamente utilizado em filtros anti-spam de e-mails. O classificador permite calcular qual a probabilidade de uma mensagem ser relevante dadas as palavras em seu conteúdo.<br /><br />
Para realizar o MVP (*minimum viable product*) do projeto, você precisa implementar uma versão do classificador que "aprende" o que é relevante com uma base de treinamento e compara a performance dos resultados com uma base de testes.<br /><br />
Após validado, o seu protótipo poderá também capturar e classificar automaticamente as mensagens da plataforma.

## Informações do Projeto

Prazo: 19/Set até às 23:59.<br />
Grupo: 2 ou 3 pessoas - grupos com 3 pessoas terá uma rubrica diferenciada.<br /><br />
Entregáveis via GitHub: 
* Arquivo notebook com o código do classificador, seguindo as orientações abaixo.
* Arquivo Excel com as bases de treinamento e teste totalmente classificado.

**NÃO gravar a key do professor no arquivo**


### Entrega Intermediária: Check 1 - APS 2

Até o dia 10/Set às 23:59, xlsx deve estar no Github com as seguintes evidências: 

  * Produto escolhido.
  * Arquivo Excel contendo a base de treinamento e a base de testes já classificadas.

Sugestão de leitura:<br />
https://monkeylearn.com/blog/practical-explanation-naive-bayes-classifier/

___

## Parte I - Adquirindo a Base de Dados

Acessar o notebook **Projeto-2-Planilha** para realizar a coleta dos dados. O grupo deve classificar os dados coletados manualmente.

In [38]:
#Leitura do Excel com os dados

import pandas as pd

treinamentouber = pd.read_excel('Treinamento - Uber - Excel.xlsx')

x = treinamentouber["Treinamento"]

In [50]:
#Leitura da base de testes

testeuber = pd.read_excel('Testes - Uber - Excel.xlsx')

y = testeuber["Teste"]

___
## Parte II - Montando o Classificador Naive-Bayes

Com a base de treinamento montada, comece a desenvolver o classificador. Não se esqueça de implementar o Laplace Smoothing (https://en.wikipedia.org/wiki/Laplace_smoothing).

Opcionalmente: 
* Limpar as mensagens removendo os caracteres: enter, :, ", ', (, ), etc. Não remover emojis.<br />
* Corrigir separação de espaços entre palavras e/ou emojis.
* Propor outras limpezas/transformações que não afetem a qualidade da informação.

Escreva o seu código abaixo:

In [40]:
#Agrupamento dos tweets em uma lista apenas

listamestre = []

for linha in x:
    listamestre.append(linha)

In [41]:
Caracteresremovidos = [",",".","!",":","@","?","(",")","_","-","/"]

listacorrigida = []



for i in range(len(listamestre)):
    for j in Caracteresremovidos:
        listamestre[i] = listamestre[i].replace(j,"")
    
for string in listamestre:
    listacorrigida.append(string.split())

In [42]:
#Criação do dicionário:

Dicionário = {}

#Criação do contador de palavras:

for lista in listacorrigida:
    for i in lista:    
        if i not in Dicionário:
            Dicionário[i] = 1
        else:
            Dicionário[i] += 1

In [43]:
#Contagem de caracteres relacionados à relevância

#Junção dos Tweets relevantes ou irrelevantes:

ListaRelevante = []
ListaIrrelevante = []

#Preenchimento das listas:

Relevante = treinamentouber[treinamentouber.Classificação==1].Treinamento

for linha in Relevante:
    ListaRelevante.append(linha)
    
Irrelevante = treinamentouber[treinamentouber.Classificação==0].Treinamento

for linha in Irrelevante:
    ListaIrrelevante.append(linha)
    
DicionárioIrrelevante = {}
DicionárioRelevante = {}

ListaRelevantePalavra = []
ListaIrrelevantePalavra = []

#Palavras das frases relevantes:

for i in range(len(ListaRelevante)):
    for j in Caracteresremovidos:
        ListaRelevante[i] = ListaRelevante[i].replace(j,"")
    
for string in ListaRelevante:
    ListaRelevantePalavra.append(string.split())

#Palavras das frases irrelevantes:

for i in range(len(ListaIrrelevante)):
    for j in Caracteresremovidos:
        ListaIrrelevante[i] = ListaIrrelevante[i].replace(j,"")
    
for string in ListaIrrelevante:
    ListaIrrelevantePalavra.append(string.split())
    
#Criação do contador de palavras:

for lista in ListaIrrelevantePalavra:  
    for string in lista:
        if string not in DicionárioIrrelevante:
            DicionárioIrrelevante[string] = 1
        else:
            DicionárioIrrelevante[string] += 1

for lista in ListaRelevantePalavra:    
    for string in lista:    
        if string not in DicionárioRelevante:
            DicionárioRelevante[string] = 1
        else:
            DicionárioRelevante[string] += 1

In [44]:
SomaIrrelevante = 0
SomaRelevante = 0

for quantia in DicionárioIrrelevante:
    SomaIrrelevante += DicionárioIrrelevante[quantia]
    
for quantia in DicionárioRelevante:
    SomaRelevante += DicionárioRelevante[quantia]
    

    
VocabDiferente = []
    
for i in DicionárioRelevante:
    if i not in DicionárioIrrelevante:
        VocabDiferente.append(i)
for i in DicionárioIrrelevante:
    if i not in DicionárioRelevante:
        VocabDiferente.append(i)
        


print("A quantia de palavras irrelevantes é", SomaIrrelevante)
print("A quantia de palavras relevantes é", SomaRelevante)
print("A quantia de palavras irrelevantes diferentes é", len(DicionárioIrrelevante))
print("A quantia de palavras relevantes diferentes é", len(DicionárioRelevante))
print("A quantia de palavras diferentes é",len(VocabDiferente))

A quantia de palavras irrelevantes é 4816
A quantia de palavras relevantes é 1150
A quantia de palavras irrelevantes diferentes é 1043
A quantia de palavras relevantes diferentes é 495
A quantia de palavras diferentes é 1104


In [45]:
listateste = []

for linha in y:
    listateste.append(linha)

In [46]:
#Cálculo da frequência de cada palavra

listacorrigidateste = []

for i in range(len(listateste)):
    for j in Caracteresremovidos:
        listateste[i] = listateste[i].replace(j,"")
    
for string in listateste:
    listacorrigidateste.append(string.split())

def Probabilidade(listacorrigidateste):
    
    ListaProbabilidadesIrrelevantes = []
    ListaProbabilidadesRelevantes = []
    
    for lista in listacorrigidateste:
        ProbabilidadeRelevante = len(ListaRelevante)/(len(ListaIrrelevante)+len(ListaRelevante))
        for palavra in lista:
            if palavra in DicionárioRelevante:
                ProbabilidadeRelevante *= (DicionárioRelevante[palavra]+1)/(SomaRelevante+len(VocabDiferente))
            else:
                ProbabilidadeRelevante *= 1/(SomaRelevante+len(VocabDiferente))
        ListaProbabilidadesRelevantes.append(ProbabilidadeRelevante)
                
    for lista in listacorrigidateste:
        ProbabilidadeIrrelevante = len(ListaIrrelevante)/(len(ListaIrrelevante)+len(ListaRelevante))
        for palavra in lista:
            if palavra in DicionárioIrrelevante:
                ProbabilidadeIrrelevante *= (DicionárioIrrelevante[palavra]+1)/(SomaIrrelevante+len(VocabDiferente))
            else:
                ProbabilidadeIrrelevante *= 1/(SomaIrrelevante+len(VocabDiferente))
        ListaProbabilidadesIrrelevantes.append(ProbabilidadeIrrelevante)
    
    return ListaProbabilidadesIrrelevantes, ListaProbabilidadesRelevantes

ListaProbabilidadesIrrelevantes, ListaProbabilidadesRelevantes = Probabilidade(listacorrigidateste)

In [47]:
#Classificação da base de testes

ListaClassificação = []
ListaTesteRelevantes = []
ListaTesteIrrelevantes = []

for i in range(0,len(ListaProbabilidadesRelevantes)):
    if ListaProbabilidadesIrrelevantes[i]>ListaProbabilidadesRelevantes[i]:
        ListaClassificação.append(0)
    else:
        ListaClassificação.append(1)

for i in range(0,len(ListaClassificação)):
    if ListaClassificação[i] == 0:
        ListaTesteIrrelevantes.append(listateste[i])
    elif ListaClassificação[i] == 1:
        ListaTesteRelevantes.append(listateste[i])

In [53]:
print(len(ListaTesteRelevantes))
print(len(ListaTesteIrrelevantes))

106
94
[0, 1, 0, 1, 0, 0, 0, 1, 0, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 0, 0, 0, 1, 1, 0, 1, 1, 0, 1, 0, 0, 0, 1, 0, 0, 1, 1, 0, 1, 0, 0, 1, 1, 0, 0, 1, 1, 0, 1, 1, 1, 1, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 1, 0, 1, 1, 1, 0, 1, 0, 1, 0, 0, 1, 0, 1, 1, 1, 0, 1, 0, 1, 0, 1, 0, 0, 0, 1, 1, 0, 1, 0, 1, 1, 0, 0, 0, 1, 0, 1, 1, 0, 1, 0, 1, 1, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 1, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 1, 0, 0, 0, 1, 0, 1, 0, 0, 1, 1, 1, 1, 0, 1, 0, 0, 1, 1, 1, 1, 1, 1, 1, 0, 1, 0, 0, 1, 0, 1, 1, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 1, 1]


___
## Verificando a performance

Agora você deve testar o seu Classificador com a base de Testes.<br /><br /> 

Você deve extrair as seguintes medidas:
* Porcentagem de positivos falsos (marcados como relevante mas não são relevantes)
* Porcentagem de positivos verdadeiros (marcado como relevante e são relevantes)
* Porcentagem de negativos verdadeiros (marcado como não relevante e não são relevantes)
* Porcentagem de negativos falsos (marcado como não relevante e são relevantes)

Obrigatório para grupos de 3 alunos:
* Criar categorias intermediárias de relevância baseado na diferença de probabilidades. Exemplo: muito relevante, relevante, neutro, irrelevante e muito irrelevante.

In [52]:
c = testeuber["Classificação 1"]

Classificação1 = []

for linha in c:
    Classificação1.append(linha)

[1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 1, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0]


In [65]:
PositivoFalso = 0
PositivoVerdadeiro = 0
NegativoFalso = 0
NegativoVerdadeiro = 0

for i in range(0,len(Classificação1)):
    if ListaClassificação[i] == 1:
        if ListaClassificação[i] == Classificação1[i]:
            PositivoVerdadeiro += 1
        elif ListaClassificação[i] != Classificação1[i]:
            PositivoFalso += 1
    if ListaClassificação[i] == 0:
        if ListaClassificação[i] == Classificação1[i]:
            NegativoVerdadeiro += 1
        elif ListaClassificação[i] != Classificação1[i]:
            NegativoFalso += 1
            
print("A quantia de positivos falsos é", PositivoFalso)
print("A quantia de positivos verdadeiros é", PositivoVerdadeiro)
print("A quantia de negativos falsos é", NegativoFalso)
print("A quantia de negativos verdadeiros é", NegativoVerdadeiro)
print()
print("A porcentagem de positivos verdadeiros é", 100*PositivoVerdadeiro/200,"%")
print("A porcentagem de negativos verdadeiros é", 100*NegativoVerdadeiro/200,"%")
print("A porcentagem de positivos falsos é", 100*PositivoFalso/200,"%")
print("A porcentagem de negativos falsos é", 100*NegativoFalso/200,"%")

A quantia de positivos falsos é 74
A quantia de positivos verdadeiros é 32
A quantia de negativos falsos é 5
A quantia de negativos verdadeiros é 89

A porcentagem de positivos verdadeiros é 16.0 %
A porcentagem de negativos verdadeiros é 44.5 %
A porcentagem de positivos falsos é 37.0 %
A porcentagem de negativos falsos é 2.5 %


___
## Concluindo

Escreva aqui a sua conclusão.<br /> 
Faça um comparativo qualitativo sobre as medidas obtidas.<br />
Explique como são tratadas as mensagens com dupla negação e sarcasmo.<br />
Proponha um plano de expansão. Por que eles devem continuar financiando o seu projeto?<br />

Opcionalmente: 
* Discorrer por que não posso alimentar minha base de Treinamento automaticamente usando o próprio classificador, aplicado a novos tweets.
* Propor diferentes cenários de uso para o classificador Naive-Bayes. Cenários sem intersecção com este projeto.
* Sugerir e explicar melhorias reais no classificador com indicações concretas de como implementar (não é preciso codificar, mas indicar como fazer e material de pesquisa sobre o assunto).


Após a finalização do projeto e interpretação dos resultado do mesmo, é possível concluir que a execução foi bem sucedida. 

Com uma taxa extremamente baixa de negativos falsos e alta de negativos verdadeiros, a falha do modelo está na baixa porcentagem de positivos verdadeiros e alta nos positivos falsos. A justificativa para tal falha está no fato de uma pequena base de tweets efetivamente relevantes seja a causa deste apenas o acaso ou interpretação errônea da base de treinamento, entretanto ao considerar a segunda opção, é necessário tomar em conta a base também pequena de 300 tweets, sendo que apenas 60 foram classificados como relevantes, uma correção na avaliação não afetaria muito o número de relevantes. 

Além dos motivos já citados, há de se considerar as falhas no programa, visto que alguns caracteres não foram devidamente separados, gírias escritas foram consideradas palavras diferentes e ainda, figuras de linguagem não foram consideradas como explicado a seguir. Dentre as figuras de linguagem, duas se destacam, sarcasmo e dupla negação, a explicação para isto está no fato de que o programa lê as frases de maneira literal, sendo assim, ignora qualquer forma de sarcasmo, classificando errado tais frases, quanto à dupla negação, o programa lerá a frase com peso duplo, e ao invés de neutralizar as duas palavras, irá duplicar o peso delas. 

Entretanto, para contrariar a dupla negação, seria possível implementar um sistema de detecção por proximidade e certas palavras de negação. Já para a figura do sarcasmo, seria necessário identificar um padrão nas frases, como repetição de letras ou agrupamento de sinais de pontuação. 

Para um plano de expansão, seria interessante adicionar uma identificação de usuário, sendo assim, usuários com a tendência de publicar tweets irrelevantes teriam futuros tweets ignorados e usuários com a tendência de tweets relevantes teriam um peso maior atribuído às suas palavras. O potencial desta expansão está no fato de transformar o projeto de um simples classificador de relevância para um sistema de feedback otimizado e natural. Outrossim, um ainda futuro avanço no plano de expansão seria capaza de classificar separadamente os feedbacks entre ideias, reclamações construtivas e elogios construtivos.