# Projeto 2 - Classificador Automático de Sentimento

Você foi contratado por uma empresa parar analisar como os clientes estão reagindo a um determinado produto no Twitter. A empresa deseja que você crie um programa que irá analisar as mensagens disponíveis e classificará como "relevante" ou "irrelevante". Com isso ela deseja que mensagens negativas, que denigrem o nome do produto, ou que mereçam destaque, disparem um foco de atenção da área de marketing.<br /><br />
Como aluno de Ciência dos Dados, você lembrou do Teorema de Bayes, mais especificamente do Classificador Naive-Bayes, que é largamente utilizado em filtros anti-spam de e-mails. O classificador permite calcular qual a probabilidade de uma mensagem ser relevante dadas as palavras em seu conteúdo.<br /><br />
Para realizar o MVP (*minimum viable product*) do projeto, você precisa implementar uma versão do classificador que "aprende" o que é relevante com uma base de treinamento e compara a performance dos resultados com uma base de testes.<br /><br />
Após validado, o seu protótipo poderá também capturar e classificar automaticamente as mensagens da plataforma.

## Informações do Projeto

Prazo: 19/Set até às 23:59.<br />
Grupo: 2 ou 3 pessoas - grupos com 3 pessoas terá uma rubrica diferenciada.<br /><br />
Entregáveis via GitHub: 
* Arquivo notebook com o código do classificador, seguindo as orientações abaixo.
* Arquivo Excel com as bases de treinamento e teste totalmente classificado.

**NÃO gravar a key do professor no arquivo**


### Entrega Intermediária: Check 1 - APS 2

Até o dia 10/Set às 23:59, xlsx deve estar no Github com as seguintes evidências: 

  * Produto escolhido.
  * Arquivo Excel contendo a base de treinamento e a base de testes já classificadas.

Sugestão de leitura:<br />
https://monkeylearn.com/blog/practical-explanation-naive-bayes-classifier/

**Projeto 2 Ciência dos dados**

** - André Vital Tavernaro**

** - Daniel Castro**

___

## Parte I - Adquirindo a Base de Dados

Acessar o notebook **Projeto-2-Planilha** para realizar a coleta dos dados. O grupo deve classificar os dados coletados manualmente.

In [472]:
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib

dadosbk = pd.read_excel('tweets_burguer_king.xlsx')



___
## Parte II - Montando o Classificador Naive-Bayes

Com a base de treinamento montada, comece a desenvolver o classificador. Não se esqueça de implementar o Laplace Smoothing (https://en.wikipedia.org/wiki/Laplace_smoothing).

Opcionalmente: 
* Limpar as mensagens removendo os caracteres: enter, :, ", ', (, ), etc. Não remover emojis.<br />
* Corrigir separação de espaços entre palavras e/ou emojis.
* Propor outras limpezas/transformações que não afetem a qualidade da informação.

Escreva o seu código abaixo:

mudando os nomes das categorias e dividindo a tabela em duas: relevantes e irrelevantes

In [473]:
dadosbk.classificacao = dadosbk.classificacao.astype('category')
dadosbk.classificacao.cat.categories = ('relevante','irrelevante')
dadosrele = dadosbk[dadosbk.classificacao=='relevante']
dadosirrele = dadosbk[dadosbk.classificacao=='irrelevante']

transformando a tabela irrelevante em dicionario e logo depois em string e splitando 

In [474]:
listairrele = dadosirrele.Treinamento.tolist()
stringirrele= str(listairrele)
stringirrele = stringirrele.replace(",","")
stringirrele = stringirrele.replace("'","")
stringirrele = stringirrele.replace("rt","")
stringirrele = stringirrele.replace("]","")
stringirrele = stringirrele.replace("[","")
stringirrele = stringirrele.replace(":","")
stringirrele = stringirrele.replace("—","")
stringirrele = stringirrele.replace("a","")
stringirrele = stringirrele.replace("@","")
stringirrele = stringirrele.replace("o","")
splitpalavrasirrele = stringirrele.split()

transformando a tabela relevante em dicionario e logo depois em string e splitando 

In [475]:
listarele = dadosrele.Treinamento.tolist()
stringrele= str(listarele)
stringrele = stringrele.replace(",","")
stringrele = stringrele.replace("'","")
stringrele = stringrele.replace("rt","")
stringrele = stringrele.replace("]","")
stringrele = stringrele.replace("[","")
stringrele = stringrele.replace(":","")
stringrele = stringrele.replace("@","")
stringrele = stringrele.replace("a","")
stringrele = stringrele.replace("—","")
stringrele = stringrele.replace("o","")
splitpalavrasrele = stringrele.split()

transformando a tabela total em dicionario e logo depois em string e splitando 

In [476]:
listafrases = dadosbk.Treinamento.tolist()
stringfrases = str(listafrases)
stringfrases = stringfrases.replace(",","")
stringfrases = stringfrases.replace("'","")
stringfrases = stringfrases.replace("rt","")
stringfrases = stringfrases.replace("]","")
stringfrases = stringfrases.replace("[","")
stringfrases = stringfrases.replace(":","")
stringfrases = stringfrases.replace("@","")
stringfrases = stringfrases.replace("a","")
stringfrases = stringfrases.replace("—","")
stringfrases = stringfrases.replace("o","")
splitstringfrases = stringfrases.split()

Criando uma tabela de frequencia total

In [477]:
palavrastotal = {}
for ws in splitstringfrases:
    if ws not in palavrastotal:
        palavrastotal[ws] = 1
    else:
        palavrastotal[ws] += 1

Criando uma tabela de frequencia  dos irrelevantes

In [478]:
palavrasirrele = {}
for ws in splitpalavrasirrele:
    if ws not in palavrasirrele:
        palavrasirrele[ws] = 1
    else:
        palavrasirrele[ws] += 1

Criando uma tabela de frequencia  dos relevantes

In [479]:
palavrasrele = {}
for ws in splitpalavrasrele:
    if ws not in palavrasrele:
        palavrasrele[ws] = 1
    else:
        palavrasrele[ws] += 1

funcao para encontrar a probabilidade irrelevante

In [480]:
import numpy as np

In [481]:
def funcaoirrelevante (palavra): 
    if palavra in palavrasirrele:
        quantidadeirrele = palavrasirrele[palavra]
    else:
        quantidadeirrele = 0
    probabilidadeirrele =  (quantidadeirrele + 1 )/ ( len(palavrastotal)+len(palavrasirrele) )
    return probabilidadeirrele

funcao para encontrar a probabilidade relevante

In [482]:
def funcaorelevante (palavra): 
    if palavra in palavrasrele:
        quantidaderele = palavrasrele[palavra]
    else:
        quantidaderele = 0
    probabilidaderele = ( quantidaderele + 1 )/ ( len(palavrastotal)+len(palavrasrele) )
    return probabilidaderele

___
## Verificando a performance

Agora você deve testar o seu Classificador com a base de Testes.<br /><br /> 

Você deve extrair as seguintes medidas:
* Porcentagem de positivos falsos (marcados como relevante mas não são relevantes)
* Porcentagem de positivos verdadeiros (marcado como relevante e são relevantes)
* Porcentagem de negativos verdadeiros (marcado como não relevante e não são relevantes)
* Porcentagem de negativos falsos (marcado como não relevante e são relevantes)

Obrigatório para grupos de 3 alunos:
* Criar categorias intermediárias de relevância baseado na diferença de probabilidades. Exemplo: muito relevante, relevante, neutro, irrelevante e muito irrelevante.

funcao que splita a string e retorna a classificacao

In [483]:
from functools import reduce

def classificador(string):
    multiplicadoresrele = []
    multiplicadoresirrele = []
    splitado = string.split()
    for word in splitado:
        multiplicadoresrele.append(funcaorelevante(word))
        multiplicadoresirrele.append(funcaoirrelevante(word))
    resultadorele = reduce(lambda x, y: x*y, multiplicadoresrele)
    resultadoirrele =  reduce(lambda x, y: x*y, multiplicadoresirrele)
    if resultadorele < resultadoirrele:
        return 'irrelevante'
    elif resultadorele > resultadoirrele:
        return 'relevante'

In [484]:
dadosbkteste = pd.read_excel('tweets_burguer_king.xlsx', 'Teste')

In [485]:
dadosbkteste.classificacao = dadosbkteste.classificacao.astype('category')
dadosbkteste.classificacao.cat.categories = ('relevante','irrelevante')

In [486]:
listafrasesteste = dadosbkteste.Teste.tolist()

In [487]:
listacolunateste = []
for string in listafrasesteste:
    listacolunateste.append(classificador(string))
dadosbkteste['programa'] = pd.DataFrame(data=listacolunateste)

porcentagem de acerto total

In [488]:
lista_classificacaoteste = dadosbkteste.classificacao.tolist()
lista_automaticoteste = dadosbkteste.programa.tolist()
quantidade_acertosteste=0
contadorteste=0
for e in lista_classificacaoteste:
        if e == lista_automaticoteste[contadorteste]:
            quantidade_acertosteste+=1
        contadorteste+=1
        
print('A probabilidade de acerto do programa foi de: {0:f}%'.format(quantidade_acertosteste/2))

A probabilidade de acerto do programa foi de: 86.000000%


Porcentagem de positivos ( falsos e verdadeiros)

In [489]:
relevanteprograma =dadosbkteste[dadosbkteste.programa=='relevante']
listaclassificacao = relevanteprograma.classificacao.tolist()

In [490]:
quantidade_acertosrele=0
contadorrele=0
for f in listaclassificacao :
        if f == 'relevante':
            quantidade_acertosrele+=1
        contadorrele+=1
print('A probabilidade de positivos verdadeiros do programa foi de: {0:f}%'.format((quantidade_acertosrele/164)*100))
print('A probabilidade de positivos falsos foi de: {0:f}%'.format(((164 - quantidade_acertosrele)/164)*100))

A probabilidade de positivos verdadeiros do programa foi de: 88.414634%
A probabilidade de positivos falsos foi de: 11.585366%


Porcentagem de negativos ( falsos e verdadeiros)

In [491]:
irrelevanteprograma =dadosbkteste[dadosbkteste.programa=='irrelevante']
listaclassificacaoirrele = irrelevanteprograma.classificacao.tolist()

In [492]:
quantidade_acertosirrele=0
contadorirrele=0
for f in listaclassificacaoirrele :
        if f == 'irrelevante':
            quantidade_acertosirrele+=1
        contadorirrele+=1
print('A probabilidade de negativos verdadeiros do programa foi de: {0:f}%'.format((quantidade_acertosirrele/36)*100))
print('A probabilidade de negativos falsos foi de: {0:f}%'.format(((36 - quantidade_acertosirrele)/36)*100))

A probabilidade de negativos verdadeiros do programa foi de: 75.000000%
A probabilidade de negativos falsos foi de: 25.000000%


___
## Concluindo

Escreva aqui a sua conclusão.<br /> 
Faça um comparativo qualitativo sobre as medidas obtidas.<br />
Explique como são tratadas as mensagens com dupla negação e sarcasmo.<br />
Proponha um plano de expansão. Por que eles devem continuar financiando o seu projeto?<br />

Opcionalmente: 
* Discorrer por que não posso alimentar minha base de Treinamento automaticamente usando o próprio classificador, aplicado a novos tweets.
* Propor diferentes cenários de uso para o classificador Naive-Bayes. Cenários sem intersecção com este projeto.
* Sugerir e explicar melhorias reais no classificador com indicações concretas de como implementar (não é preciso codificar, mas indicar como fazer e material de pesquisa sobre o assunto).


**Conclusão**

O objetivo do projeto seria monitorar tweets para a empresa burguer king, e classifica-los por meio de um programa em relevante e irrelevante. Desse modo, inicialmente foram considerados 300 tweets que tinham a empresa como assunto em comum, e a partir da classificação feita manualmente de cada tweet captou-se a probabilidade de cada palavra ser relevante ou não para a empresa. Após a captção dos dados dos 300 tweets iniciais e após concluir a programação do classificador Naive-Bayes, aplicamos ele sobre 200 tweets que se encontravam na aba teste do arquivo excel, assim, notou-se que a porcertagem de acerto foi de 86% , uma taxa que pode ser considerada alta, além disso tanto a porcentagem de positivos verdadeiros como a porcentagem de negativos verdadeiros são elevadas. Logo, pode-se considerar de certo modo que o classificador Naive-Bayes construido foi um sucesso dado a base de dados que foi oferecida.


Se fossem monitorados mais tweets, a porcentagem de acerto do classificador seria mais alta, já que muitas palavras que aparecem em tweets relevantes não aparecem em tweets irrelevantes por exemplo, logo a porcentagem dessa mesma palavra de ser relevante vai ser muito maior do que a porcetagem dela ser irrelevante. Assim conclui-se que quanto maior a base de dados maior a precisão do classificador Naive-Bayes, isso explica por que nos dias de hoje o chamado de 'data' é tao relevante e vale tanto dinheiro, com uma grande quantidade de informação as probabilidades são infinitas.


Um dos defeitos do classificador é que ele é incapaz de interpretar mensagens com sarcasmo ou dupla negação. Isso acontece por que em mensagens sarcásticas, que na verdade estão falando mal de um produto por exemplo, não existe a presença de palavras negativas, somente a presença de palavras positivas já que a frase tem o intuito de ser saracastica, logo como o classificador detecta a maioria das palavras positivas ele classifica aquela frase como positiva, quando na verdade a frase é negativa. Já em frases com dupla negação acontece um fenômeno extremamente semelhante, uma dupla negação significa que algo seria positivo, no entanto, o classificador identifica duas palavras que possuem grande chances de serem negativas, logo para a leitura dele a frase é negativa, quando na verdade é positiva.


Nós devemos continuar sendo financiados pelo burguer king por que conforme o andamento do projeto, mais 'data' vai se acumular, e como mais data maior a precisão do classficador automáticos, e com uma alta precisão a empresa será capaz de separar os tweets relevantes dos irrelevantes e, desse modo,  monitorando essa grande quantidade de mensagens que possuem informações relevantes para a empresa, o burguer king será capaz de saber o que os clientes pensam, e assim eles podem tomar medidas para melhorar seu produto e satisfazer ainda mais o seu cliente. Além disso se o financiamento continuar seremos capazes de classificar os tweets relevantes em bons e ruins, possibilitando assim que a empresa tome conta de seus erros e melhore para conquistar mais clientes.