# Projeto 2 - Classificador Automático de Sentimento

Você foi contratado por uma empresa parar analisar como os clientes estão reagindo a um determinado produto no Twitter. A empresa deseja que você crie um programa que irá analisar as mensagens disponíveis e classificará como "relevante" ou "irrelevante". Com isso ela deseja que mensagens negativas, que denigrem o nome do produto, ou que mereçam destaque, disparem um foco de atenção da área de marketing.<br /><br />
Como aluno de Ciência dos Dados, você lembrou do Teorema de Bayes, mais especificamente do Classificador Naive-Bayes, que é largamente utilizado em filtros anti-spam de e-mails. O classificador permite calcular qual a probabilidade de uma mensagem ser relevante dadas as palavras em seu conteúdo.<br /><br />
Para realizar o MVP (*minimum viable product*) do projeto, você precisa implementar uma versão do classificador que "aprende" o que é relevante com uma base de treinamento e compara a performance dos resultados com uma base de testes.<br /><br />
Após validado, o seu protótipo poderá também capturar e classificar automaticamente as mensagens da plataforma.

## Informações do Projeto

Prazo: 19/Set até às 23:59.<br />
Grupo: 2 ou 3 pessoas - grupos com 3 pessoas terá uma rubrica diferenciada.<br /><br />
Entregáveis via GitHub: 
* Arquivo notebook com o código do classificador, seguindo as orientações abaixo.
* Arquivo Excel com as bases de treinamento e teste totalmente classificado.

**NÃO gravar a key do professor no arquivo**


### Entrega Intermediária: Check 1 - APS 2

Até o dia 10/Set às 23:59, xlsx deve estar no Github com as seguintes evidências: 

  * Produto escolhido.
  * Arquivo Excel contendo a base de treinamento e a base de testes já classificadas.

Sugestão de leitura:<br />
https://monkeylearn.com/blog/practical-explanation-naive-bayes-classifier/

___

## Parte I - Adquirindo a Base de Dados

Acessar o notebook **Projeto-2-Planilha** para realizar a coleta dos dados. O grupo deve classificar os dados coletados manualmente.

___
## Parte II - Montando o Classificador Naive-Bayes

Com a base de treinamento montada, comece a desenvolver o classificador. Não se esqueça de implementar o Laplace Smoothing (https://en.wikipedia.org/wiki/Laplace_smoothing).

Opcionalmente: 
* Limpar as mensagens removendo os caracteres: enter, :, ", ', (, ), etc. Não remover emojis.<br />
* Corrigir separação de espaços entre palavras e/ou emojis.
* Propor outras limpezas/transformações que não afetem a qualidade da informação.

Escreva o seu código abaixo:

# Introdução
### André E. Weber e Michel José Moraes

Decidimos usar o termo Yakult como nosso experimento para a elaboração e o teste do algorítmo de Naive-Bayes por conta de ser um tema comentado frequentemente pelos brasileiros pelo sabor, cultura, tradição entre os jovens e uma bebida frequentemente feita em casa.

# Imports

In [480]:
import pandas as pd
import numpy as np
import math as math
from scipy import stats
import matplotlib.pyplot as plt
import nltk
from nltk.corpus import stopwords

# Renomeando categorias

In [481]:
tweets = pd.read_excel('tweets.xlsx') #Planilha Treinamento definida
tweets["Categoria"] = tweets["Categoria"].replace(0,"Irrelevante")
tweets["Categoria"] = tweets["Categoria"].replace(2,"Relevante")
tweets["Categoria"] = tweets["Categoria"].replace(1,"Relevante")



tweets_teste= pd.read_excel("tweets.xlsx",sheet_name=1) #Planilha Teste definida
tweets_teste["Categoria"] = tweets_teste["Categoria"].replace(0,"Irrelevante")
tweets_teste["Categoria"] = tweets_teste["Categoria"].replace(2,"Relevante")
tweets_teste["Categoria"] = tweets_teste["Categoria"].replace(1,"Relevante")

# Limpando Tweets

In [482]:
#Função que limpa a coluna do dataframe de uma vez
def limpeza(tweets, coluna):
    tweets[coluna] = tweets[coluna].apply(lambda x: x.lower())

    for frase in tweets[coluna]:
        frase_split = frase.split(" ")
        for palavra in frase_split:
            if len(palavra) == 1:
                frase_split.remove(palavra)



    nltk.download('stopwords')
    stop = stopwords.words('portuguese')
    stop_list = ["?", "de", "é", "á", "à", "ao", "a", "o", "é", "rt", '"', "“", "'", ",", ":", ".", "(", ")", "!", "$", "%", "*", "&", "-", "+", "=", "/"]
    stop.extend(stop_list)
    tweets[coluna] = [' '.join([w for w in x.lower().split() if w not in stop]) 
        for x in tweets[coluna].tolist()]
    
    
        

    tweets[coluna] = tweets[coluna].str.replace("  "," ")
    tweets[coluna] = tweets[coluna].str.replace(",","")
    tweets[coluna] = tweets[coluna].str.replace("?","")
    tweets[coluna] = tweets[coluna].str.replace("'","")
    tweets[coluna] = tweets[coluna].str.replace('"',"")
    tweets[coluna] = tweets[coluna].str.replace("“","")
    tweets[coluna] = tweets[coluna].str.replace(":","")
    tweets[coluna] = tweets[coluna].str.replace(".","")
    tweets[coluna] = tweets[coluna].str.replace(")","")
    tweets[coluna] = tweets[coluna].str.replace("(","")
    tweets[coluna] = tweets[coluna].str.replace("!","")
    tweets[coluna] = tweets[coluna].str.replace("$","")
    tweets[coluna] = tweets[coluna].str.replace("%","")
    tweets[coluna] = tweets[coluna].str.replace("*","")
    tweets[coluna] = tweets[coluna].str.replace("&","")
    tweets[coluna] = tweets[coluna].str.replace("-","")
    tweets[coluna] = tweets[coluna].str.replace("+","")
    tweets[coluna] = tweets[coluna].str.replace("=","")
    tweets[coluna] = tweets[coluna].str.replace("/","")
    return pd.DataFrame(tweets)

In [483]:
tweets = limpeza(tweets, "Treinamento")

tweets_irrel=tweets['Treinamento'][tweets['Categoria'] == "Irrelevante"]
tweets_rel=tweets['Treinamento'][tweets['Categoria'] == "Relevante"]

tweets_irrel=pd.DataFrame(tweets_irrel)
tweets_rel=pd.DataFrame(tweets_rel)

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\mihan\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


AttributeError: 'Series' object has no attribute 'remove'

___
## Verificando a performance

Agora você deve testar o seu Classificador com a base de Testes.<br /><br /> 

Você deve extrair as seguintes medidas:
* Porcentagem de positivos falsos (marcados como relevante mas não são relevantes)
* Porcentagem de positivos verdadeiros (marcado como relevante e são relevantes)
* Porcentagem de negativos verdadeiros (marcado como não relevante e não são relevantes)
* Porcentagem de negativos falsos (marcado como não relevante e são relevantes)

Obrigatório para grupos de 3 alunos:
* Criar categorias intermediárias de relevância baseado na diferença de probabilidades. Exemplo: muito relevante, relevante, neutro, irrelevante e muito irrelevante.

# contando tweets

In [None]:

irrel_total = tweets['Treinamento'][tweets['Categoria'] == "Irrelevante"].count() #Contagem do total de irrelevantes calssificados
rel_total = tweets['Treinamento'][tweets['Categoria'] == "Relevante"].count() #Contagem do total de relevantes calssificados
total = tweets["Treinamento"].count() #Contagem total dos tweets

porcent_rel= (rel_total/total) #Probabilidade de relevantes
porcent_irrel= (irrel_total/total) #Probabilidade de irrelevantes

print ("Porcentagem de relevantes:{0}%".format(porcent_rel*100))
print ("Porcentagem de irrelevantes:{0}%".format(porcent_irrel*100))

print ("Total de relevantes:{0}".format(rel_total))
print ("Total de irrelevantes:{0}".format(irrel_total))

# Contando aparições palavras

In [None]:
palavras_total = {} #Dicionario para o total de palavras e ocorrências
palavras_rel={} #Dicionario para o total de palavras relevantes e suas ocorrências
palavras_irrel={} #Dicionario para o total de palavras irrelevantes e suas ocorrências

#Relevantes
for frase in tweets_rel["Treinamento"]:
    for palavra in frase.split():
        if palavra not in palavras_rel:
            palavras_rel[palavra]=1
        else:
            palavras_rel[palavra]+=1
            
#Irrelevantes
for frase in tweets_irrel["Treinamento"]:
    for palavra in frase.split():
        if palavra not in palavras_irrel:
            palavras_irrel[palavra]=1
        else:
            palavras_irrel[palavra]+=1
#Total
for frase in tweets["Treinamento"]:
    for palavra in frase.split():
        if palavra not in palavras_total:
            palavras_total[palavra]=1
        else:
            palavras_total[palavra]+=1




# Contador probabilidade palavras

In [None]:
#Função que cálcula probabilidade de cada palavra e frase a ser relevante ou irrelevante, retornando a mais provável das opções
def prob_palavra(frase, dic1, dic2):
    prob_irrel = porcent_irrel
    prob_rel = porcent_rel
    frase_split = frase.split()
    soma_irrel = sum(palavras_irrel.values())
    soma_rel = sum(palavras_rel.values())
    resultado=str()
    for palavra in frase_split:
        quantidade_rel = 1
        quantidade_irrel = 1
        if palavra in dic1:
            quantidade_rel += palavras_rel[palavra]
        if palavra in dic2:
            quantidade_irrel += palavras_irrel[palavra]
        prob_rel *= (quantidade_rel)/(soma_irrel + len(palavras_total))
        prob_irrel *= (quantidade_irrel)/(soma_rel + len(palavras_total))
    if prob_irrel > prob_rel:
        resultado = "Irrelevante"
    else:
        resultado = "Relevante"
    return resultado

In [None]:
frase = input("Digite uma frase: ")
prob_palavra(frase, palavras_rel, palavras_irrel)

In [None]:
#Verificar a porcentagem de acerto do classificador (precisão)
previsao = []
for frase in tweets_teste["Teste"]:
    previsao.append(prob_palavra(frase, palavras_rel, palavras_irrel))
tweets_teste["Previsão"] = previsao
tweets_teste

numero_acerto = tweets_teste["Teste"][tweets_teste["Categoria"] == tweets_teste["Previsão"]].count()
numero_acerto

print(numero_acerto/len(tweets_teste) * 100,"% de acerto")

___
## Concluindo

Escreva aqui a sua conclusão.<br /> 
Faça um comparativo qualitativo sobre as medidas obtidas.<br />
Explique como são tratadas as mensagens com dupla negação e sarcasmo.<br />
Proponha um plano de expansão. Por que eles devem continuar financiando o seu projeto?<br />

Opcionalmente: 
* Discorrer por que não posso alimentar minha base de Treinamento automaticamente usando o próprio classificador, aplicado a novos tweets.
* Propor diferentes cenários de uso para o classificador Naive-Bayes. Cenários sem intersecção com este projeto.
* Sugerir e explicar melhorias reais no classificador com indicações concretas de como implementar (não é preciso codificar, mas indicar como fazer e material de pesquisa sobre o assunto).


# Conclusão


&nbsp; O classificador demonstrou um acerto de 68,5%. O resultado não é alto e sim razoável, dessa forma poderia ser usado para apenas uma colaboração de pesquisas ou um embasamento para futuras investigações.

&nbsp; A conclusão que pode ser tirada a partir da classificação, foi de que houveram muitos "tweets" acerca de uma novidade. Um filme lançado pelo netflix, uma plataforma que vem ganhando cada vez mais notoriedade, em 17 de agosto de 2018. Em uma das cenas, um dos personagens utiliza uma bebida parecida com "Yakult" para elaborar um drink alcoólico, o que gerou muita repercussão entre os americanos se perguntando o que seria isso, levando-os a experimentar, gerando diversos comentários. Consequentemente os brasileiros se sentiram surpresos ao ver a famosa bebida sendo exibida internacionalmente e ao mesmo tempo por conta da novidade que foi para os estrangeiros. 
&nbsp; Dessa forma, houve uma grande quantidade de tweets irrelevantes, enquanto outros o contrário, porém levando mais em conta do próprio filme.

&nbsp;

&nbsp; Nosso classificador se baseia em relevância, então poderíamos incrementar um método para positivos e negativos, dessa forma também identificar ironias e sarcasmos vistos durante a pesquisa, como "Yalkut é bom sim, por isso da diarreia".

&nbsp; O projeto seria algo de bom financiamento por conta do foco em algo com bom desempenho, limpeza para dados mais puros e rápidos e simplicidade do código. Fatores que giram em torno de um bom desempenho.

&nbsp; Utilizar os tweets classificados para alimentar a base de dados seria uma boa ideia, porém é inviável devido a margem de erro alta, assim poderia manipular os dados erroneamente.

&nbsp; O decorrer da elaboração do projeto nos fez chegar mais a fundo sobre o algorítmo de Naive-Bayes, por conta de sua possível expansão e se movendo entre polos complexos ou simples. Alguns exemplos de utilização são, identificação de spam, classificação de artigos através de categorias, reconhecimento facial e também diagnóstico médico, como a detecção de H1N1 entre os pacientes, com positivo correto de 98% e negativo de 97%.


&nbsp; Para o melhoramento do classificador, poderia aumentar a base de treinamento, uma melhor classificação de relevância manual para gerar menor taxa de erros. Uma possibilidade também, seria o melhoramento da performance através de alguns estudos feitos sobre o relaxamento da suposição de independência (Melhorando a Performance do Algoritmo Naive Bayes para Regressão Através da Combinação de Atributos, ResearchGate)