# Projeto 2 - Classificador Automático de Sentimento

Você foi contratado por uma empresa parar analisar como os clientes estão reagindo a um determinado produto no Twitter. A empresa deseja que você crie um programa que irá analisar as mensagens disponíveis e classificará como "relevante" ou "irrelevante". Com isso ela deseja que mensagens negativas, que denigrem o nome do produto, ou que mereçam destaque, disparem um foco de atenção da área de marketing.<br /><br />
Como aluno de Ciência dos Dados, você lembrou do Teorema de Bayes, mais especificamente do Classificador Naive-Bayes, que é largamente utilizado em filtros anti-spam de e-mails. O classificador permite calcular qual a probabilidade de uma mensagem ser relevante dadas as palavras em seu conteúdo.<br /><br />
Para realizar o MVP (*minimum viable product*) do projeto, você precisa implementar uma versão do classificador que "aprende" o que é relevante com uma base de treinamento e compara a performance dos resultados com uma base de testes.<br /><br />
Após validado, o seu protótipo poderá também capturar e classificar automaticamente as mensagens da plataforma.

## Informações do Projeto

Prazo: 19/Set até às 23:59.<br />
Grupo: 2 ou 3 pessoas - grupos com 3 pessoas terá uma rubrica diferenciada.<br /><br />
Entregáveis via GitHub: 
* Arquivo notebook com o código do classificador, seguindo as orientações abaixo.
* Arquivo Excel com as bases de treinamento e teste totalmente classificado.

**NÃO gravar a key do professor no arquivo**


### Entrega Intermediária: Check 1 - APS 2

Até o dia 10/Set às 23:59, xlsx deve estar no Github com as seguintes evidências: 

  * Produto escolhido.
  * Arquivo Excel contendo a base de treinamento e a base de testes já classificadas.

Sugestão de leitura:<br />
https://monkeylearn.com/blog/practical-explanation-naive-bayes-classifier/

___

## Parte I - Adquirindo a Base de Dados

Acessar o notebook **Projeto-2-Planilha** para realizar a coleta dos dados. O grupo deve classificar os dados coletados manualmente.

___
## Parte II - Montando o Classificador Naive-Bayes

Com a base de treinamento montada, comece a desenvolver o classificador. Não se esqueça de implementar o Laplace Smoothing (https://en.wikipedia.org/wiki/Laplace_smoothing).

Opcionalmente: 
* Limpar as mensagens removendo os caracteres: enter, :, ", ', (, ), etc. Não remover emojis.<br />
* Corrigir separação de espaços entre palavras e/ou emojis.
* Propor outras limpezas/transformações que não afetem a qualidade da informação.

Escreva o seu código abaixo:

In [21]:
import pandas as pd

#Excel
Data_Treinamento = pd.read_excel("tweets_McDonald's_201809061113 copy.xlsx", sheet_name = 'Treinamento')
Data_Teste = pd.read_excel("tweets_McDonald's_201809061113 copy.xlsx", sheet_name = 'Teste')
Relevante = Data_Treinamento.Treinamento[Data_Treinamento.Relevância == 'R']
Irrelevante = Data_Treinamento.Treinamento[Data_Treinamento.Relevância == 'NR']
#Listas
PalavrasR = []
PalavrasNR = []
PalavrasTo = []
Data_Teste['Teste'] = Teste


#Limpa Tweets
for l in Relevante:
    l.replace(',','')
    l.replace('/n', '')
    l.replace('""', "")
    l.replace("'", "")
    l.replace(':', '')
    limpaR = l.split(" ")
    PalavrasR.append(limpaR)

for l in Irrelevante:
    l.replace(',','')
    l.replace('/n', '')
    l.replace('""', "")
    l.replace("'", "")
    l.replace(':', '')
    limpaNR = l.split(" ")
    PalavrasNR.append(limpaNR)
        
#Coloca lista de relevantes e irrelevantes em uma lista total        
for i in range(len(PalavrasR)-1):
    PalavrasTo.append(PalavrasR[i])
    PalavrasTo.append(PalavrasNR[i])

#Lista sem palavras repetidas
def Sem_repeticao(lista):
    LP = []
    for i in lista:
        for c in i:
            if c.lower() not in LP:
                LP.append(c.lower())
    return LP
LP=Sem_repeticao(PalavrasTo)

#Probabilidade da palavra ser relevante
def Prob_Rr(Palavra):
    soma = 1
    total = 0
    for i in PalavrasR:
        total += len(i)
        for c in i:
            if c.lower() == Palavra.lower():
                soma += 1
    return soma/(total + len(LP))

def Prob_NRr(Palavra):
    soma = 1
    total = 0
    for i in PalavrasNR:
        total += len(i)
        for c in i:
            if c.lower() == Palavra.lower():
                soma += 1
    return soma/(total + len(LP))

#Relevancia
Prob_R = len(Relevante)/len(Data_Treinamento.Treinamento)
Prob_NR = len(Irrelevante)/len(Data_Treinamento.Treinamento)

#Classificador
def Classificador(Lista):
    Lista_classificada = []
    for i in Lista:
        w= i.split()
        PR = []
        PNR = []
        for k in w:
            PR.append(Prob_Rr(k))
            PNR.append(Prob_NRr(k))
        P_Relevante = 1
        P_Irrelevante = 1
        for i in PR:
            P_Relevante *= i
        for i in PNR:
            P_Irrelevante *= i
        Prel = P_Relevante*Prob_R
        Pirrel = P_Irrelevante*Prob_NR
        if Prel > Pirrel:
            Lista_classificada.append('Relevante')
        else:
            Lista_classificada.append('Irrelevante')
    return Lista_classificada



# Análise base Teste

In [31]:
Frases_teste = []
for i in Teste:
    Frases_teste.append(i)
Teste_Final = Classificador(Frases_teste)
print(Teste_Final)

['Irrelevante', 'Irrelevante', 'Irrelevante', 'Relevante', 'Relevante', 'Relevante', 'Relevante', 'Relevante', 'Relevante', 'Irrelevante', 'Relevante', 'Relevante', 'Irrelevante', 'Irrelevante', 'Relevante', 'Irrelevante', 'Relevante', 'Relevante', 'Irrelevante', 'Relevante', 'Irrelevante', 'Relevante', 'Irrelevante', 'Irrelevante', 'Irrelevante', 'Relevante', 'Irrelevante', 'Irrelevante', 'Irrelevante', 'Irrelevante', 'Relevante', 'Irrelevante', 'Irrelevante', 'Irrelevante', 'Irrelevante', 'Relevante', 'Relevante', 'Irrelevante', 'Irrelevante', 'Irrelevante', 'Relevante', 'Relevante', 'Irrelevante', 'Relevante', 'Irrelevante', 'Relevante', 'Irrelevante', 'Irrelevante', 'Irrelevante', 'Irrelevante', 'Irrelevante', 'Irrelevante', 'Irrelevante', 'Relevante', 'Relevante', 'Relevante', 'Irrelevante', 'Irrelevante', 'Irrelevante', 'Relevante', 'Irrelevante', 'Irrelevante', 'Irrelevante', 'Relevante', 'Relevante', 'Relevante', 'Irrelevante', 'Irrelevante', 'Relevante', 'Irrelevante', 'Irrele

___
## Verificando a performance

Agora você deve testar o seu Classificador com a base de Testes.<br /><br /> 

Você deve extrair as seguintes medidas:
* Porcentagem de positivos falsos (marcados como relevante mas não são relevantes)
* Porcentagem de positivos verdadeiros (marcado como relevante e são relevantes)
* Porcentagem de negativos verdadeiros (marcado como não relevante e não são relevantes)
* Porcentagem de negativos falsos (marcado como não relevante e são relevantes)

Obrigatório para grupos de 3 alunos:
* Criar categorias intermediárias de relevância baseado na diferença de probabilidades. Exemplo: muito relevante, relevante, neutro, irrelevante e muito irrelevante.

In [36]:
teste = Data_Teste.Relevância

Positivos_Falsos = 0
for i in range(len(Teste_Final)) and range(len(teste)):
    if Final[i] == 'Relevante' and teste[i] == "NR":
        Positivos_Falsos += 1
print('Positivos Falsos: {0}'.format(Positivos_Falsos/200))

Positivos_Verdadeiros = 0
for i in range(len(Teste_Final)) and range(len(teste)):
    if Final[i] == 'Relevante' and teste[i] == "R":
        Positivos_Verdadeiros += 1
print('Positivos Verdadeiros: {0}'.format(Positivos_Verdadeiros/200))

Negativos_Verdadeiros = 0
for i in range(len(Teste_Final)) and range(len(teste)):
    if Final[i] == 'Irrelevante' and teste[i] == "NR":
        Negativos_Verdadeiros += 1
print('Negativos Verdadeiros: {0}'.format(Negativos_Verdadeiros/200))

Negativos_Falsos = 0
for i in range(len(Teste_Final)) and range(len(teste)):
    if Final[i] == 'Irrelevante' and teste[i] == "R":
        Negativos_Falsos += 1
print('Negativos Falsos: {0}'.format(Negativos_Falsos/200))

Positivos Falsos: 0.305
Positivos Verdadeiros: 0.16
Negativos Verdadeiros: 0.525
Negativos Falsos: 0.01


In [33]:
print(0.305+0.16+0.525+0.01)

1.0


___
## Concluindo

Escreva aqui a sua conclusão.<br /> 
Faça um comparativo qualitativo sobre as medidas obtidas.<br />
Explique como são tratadas as mensagens com dupla negação e sarcasmo.<br />
Proponha um plano de expansão. Por que eles devem continuar financiando o seu projeto?<br />

Opcionalmente: 
* Discorrer por que não posso alimentar minha base de Treinamento automaticamente usando o próprio classificador, aplicado a novos tweets.
* Propor diferentes cenários de uso para o classificador Naive-Bayes. Cenários sem intersecção com este projeto.
* Sugerir e explicar melhorias reais no classificador com indicações concretas de como implementar (não é preciso codificar, mas indicar como fazer e material de pesquisa sobre o assunto).


Nesse trabalho foram analisados diversos tweets sobre a empresa McDonald's com comentários que foram julgados anteriormente como relevantes ou irrelevantes, com o objetivo de criar um classificador autônomo capaz de julgar atravez da base teste e do estudo de probabilidades a relevância de tweets futuros para a empresa.

Atravez do estudo dos resultados foi possível perceber que o classificador não foi eficaz ao jugar os tweets positivos tendo como apenas 16% de Positivos Verdadeiros (Marcados como relevantes que realmente são relevantes) e com uma taxa de Positivos Falsos (Marcados como relevantes mas são irrelevantes) de 30%. Isso pode ser explicado pela existência de sarcasmo e frases com duplo negativo nos tweets, os quais o classificador não consegue distinguir dos outros relevantes, assim classificando-os como relevantes. Outra possibilidade é a falta de filtração dos caracteres (pontos, virgulas, etc.) que estavam acoplados a palavras e o classificador as entendeu como palavras diferentes (exemplo: "McDonald's" e "McDonald's.").

Já no caso dos tweets irrelevantes, o classificador se mostrou mais eficaz tendo uma porcentagem de acerto de 52% nos Negativos Verdadeiros (Marcados como irrelevantes e são irrelevantes) e um erro de apenas 1% em relação aos Negativos Falsos (Marcados como irrelevantes mas são relevantes). Apesar disso, poderia ter tido um desempenho melhor nessa análise no caso dos Negativos Verdadeiros, mas esta ineficácia pode ser atribuida também aos fatores de sarcasmo, duplo negativo e caracteres acoplados como foi discutido no parágrafo anterior. 

Contudo, uma extensão de investimento nesse projeto poderia ser muito útil para a empresa, pois futuramente este classificador pode ser capaz de analisar comentários de clientes sobre produtos específicos ou comentários gerais sobre a empresa, conseguindo classificar o que previamente não foi possível (sarcasmo, duplo negativo, caracteres acoplados), assim facilitando um diagnóstico da opinião de sua clientela permitindo uma melhor adaptação de seus produtos com a opinião popular. 