# Projeto 2 - Classificador Automático de Sentimento

Você foi contratado por uma empresa parar analisar como os clientes estão reagindo a um determinado produto no Twitter. A empresa deseja que você crie um programa que irá analisar as mensagens disponíveis e classificará como "relevante" ou "irrelevante". Com isso ela deseja que mensagens negativas, que denigrem o nome do produto, ou que mereçam destaque, disparem um foco de atenção da área de marketing.<br /><br />
Como aluno de Ciência dos Dados, você lembrou do Teorema de Bayes, mais especificamente do Classificador Naive-Bayes, que é largamente utilizado em filtros anti-spam de e-mails. O classificador permite calcular qual a probabilidade de uma mensagem ser relevante dadas as palavras em seu conteúdo.<br /><br />
Para realizar o MVP (*minimum viable product*) do projeto, você precisa implementar uma versão do classificador que "aprende" o que é relevante com uma base de treinamento e compara a performance dos resultados com uma base de testes.<br /><br />
Após validado, o seu protótipo poderá também capturar e classificar automaticamente as mensagens da plataforma.

## Informações do Projeto

Prazo: 19/Set até às 23:59.<br />
Grupo: 2 ou 3 pessoas - grupos com 3 pessoas terá uma rubrica diferenciada.<br /><br />
Entregáveis via GitHub: 
* Arquivo notebook com o código do classificador, seguindo as orientações abaixo.
* Arquivo Excel com as bases de treinamento e teste totalmente classificado.

**NÃO gravar a key do professor no arquivo**


### Entrega Intermediária: Check 1 - APS 2

Até o dia 10/Set às 23:59, xlsx deve estar no Github com as seguintes evidências: 

  * Produto escolhido.
  * Arquivo Excel contendo a base de treinamento e a base de testes já classificadas.

Sugestão de leitura:<br />
https://monkeylearn.com/blog/practical-explanation-naive-bayes-classifier/

___

## Parte I - Adquirindo a Base de Dados

Acessar o notebook **Projeto-2-Planilha** para realizar a coleta dos dados. O grupo deve classificar os dados coletados manualmente.

___
## Parte II - Montando o Classificador Naive-Bayes

Com a base de treinamento montada, comece a desenvolver o classificador. Não se esqueça de implementar o Laplace Smoothing (https://en.wikipedia.org/wiki/Laplace_smoothing).

Opcionalmente: 
* Limpar as mensagens removendo os caracteres: enter, :, ", ', (, ), etc. Não remover emojis.<br />
* Corrigir separação de espaços entre palavras e/ou emojis.
* Propor outras limpezas/transformações que não afetem a qualidade da informação.

Escreva o seu código abaixo:

In [323]:
import pandas as pd
import json
from random import shuffle
import math
import os.path

In [324]:
teste = pd.read_excel('tweets_teste.xlsx')
treino = pd.read_excel('tweets_treinamento.xlsx')
treino_indiferente = treino.Treinamento[treino.classificacao == 2]
treino_uteis = treino.Treinamento[treino.classificacao < 2]
tudo_treino = treino.Treinamento
teste_indiferente = teste.Teste[teste.classificacao == 2]
teste_uteis = teste.Teste[teste.classificacao < 2]
tudo_teste = teste.Teste

## Limpando os comentários

In [325]:
def lista(objeto):
    lista=[]
    for i in objeto:
        lista.append(i.split())
    return lista
lista(tudo_teste)

[['uma',
  'senhorinha',
  'deu-me',
  'uma',
  'mochilinha',
  'da',
  'heineken',
  'as',
  'senhorinhas',
  'gostam',
  'todas',
  'de',
  'mim,',
  'isto',
  'só',
  'quer',
  'dizer',
  'que',
  'sou',
  'fixe'],
 ['queria',
  'tá',
  'falando',
  '"bom',
  'dia"',
  'com',
  'uma',
  'heineken',
  'na',
  'mão',
  'como',
  'foi',
  'nesse',
  'feriadão'],
 ['rt',
  '@gabriel_motoka:',
  '#vamosfalarsobrelúpulo',
  'primeiramente',
  'skol',
  'ta',
  'aguada',
  'segundamente',
  'cerveja',
  'de',
  'milho',
  'safada',
  'terceiramente',
  '#heineken',
  'obgd',
  'p…'],
 ['tomando', 'heineken', 'querendo', 'que', 'fosse', 'coca', 'cola'],
 ['rt',
  '@jesustreep:',
  'a',
  'própria',
  'garota',
  'propaganda',
  'da',
  'heineken',
  'https://t.co/q3sqydjvob'],
 ['rt',
  '@farrley_:',
  'isso',
  'é',
  'coisa',
  'de',
  'branco',
  'bombado',
  'cabelo',
  'liso',
  'topete',
  'na',
  'frente',
  'blusa',
  'amarrada',
  'no',
  'braço',
  'ou',
  'entao',
  'enfiada',
  

In [326]:
def remocao_palavras_inteiras(lista):
    for e in range(0,len(lista)):
        for i in range(0,len(lista[e])):
            if lista[e][i][0] == '@' or lista[e][i][0:4] == 'http' or lista[e][i] == 'rt':
                lista[e][i] = 'lixo'
    for x in range(0,len(lista)):
        deletadas = 0
        for z in range(0,len(lista[x])):
            if lista[x][z - deletadas] == 'lixo':
                del lista[x][z - deletadas]
                deletadas += 1
                
    return lista

In [327]:
def remocao_acentos(lista):
    e = ['é','è','ê']
    a = ['á','à','ã','â']
    i = ['í','ì','î']
    o = ['ó','ò','õ','ô']
    u = ['ú','ù','û']
    for x in range(0,len(lista)):
        for y in range(0,len(lista[x])):
            for l in range(0,len(lista[x][y])):
                if lista[x][y][l] in e:
                    divide = list(lista[x][y])
                    divide[l] = 'e'
                    lista[x][y] = ''.join(divide)
                    break
                elif lista[x][y][l] in a:
                    divide = list(lista[x][y])
                    divide[l] = 'a'
                    lista[x][y] = ''.join(divide)
                    break
                elif lista[x][y][l] in i:
                    divide = list(lista[x][y])
                    divide[l] = 'i'
                    lista[x][y] = ''.join(divide)
                    break
                elif lista[x][y][l] in o:
                    divide = list(lista[x][y])
                    divide[l] = 'o'
                    lista[x][y] = ''.join(divide)
                    break
                elif lista[x][y][l] in u:
                    divide = list(lista[x][y])
                    divide[l] = 'u'
                    lista[x][y] = ''.join(divide)
                    break
                         
    return lista
 

In [328]:
def remocao_caracteres(lista):

    caracteres = ['\\',',','+','@','#',"'","\"","!","(",")",'...','$','-','/','?','.',',',';',':']
    for e in range(0,len(lista)):
        for i in range(0,len(lista[e])):
            for l in range(0,len(lista[e][i])):
                if lista[e][i][l] in caracteres:
                    divide = list(lista[e][i])
                    del divide[l]
                    lista[e][i] = ''.join(divide)
                    break
                    
    return lista
                

In [329]:
def normalizacao(objeto):
    x = lista(objeto)
    y = remocao_palavras_inteiras(x)
    z = remocao_caracteres(y)
    finalizado = remocao_acentos(z)
    return finalizado

In [330]:
def contagem(lista):
    dicionario = {}
    for e in range(0,len(lista)):
        for i in range(0,len(lista[e])):
            if lista[e][i] not in dicionario:
                dicionario[lista[e][i]] = 1
            else:
                dicionario[lista[e][i]]+=1
    return dicionario

In [331]:
def preparacao_final(objeto):
    x = normalizacao(objeto)
    final = contagem(x)
    return final

In [332]:
tudo_treinamento_final = preparacao_final(tudo_treino)
treinamento_relevante_final = preparacao_final(treino_uteis)
treinamento_irrelevante_final = preparacao_final(treino_indiferente)  

In [333]:
def soma(dicionario):
    contador = 0
    for e in dicionario:
        contador += dicionario[e]
    return contador

In [334]:
soma_total = soma(tudo_treinamento_final)
soma_relevantes = soma(treinamento_relevante_final)
soma_irrelevante = soma(treinamento_irrelevante_final)
if 'gostam' not in treinamento_irrelevante_final:
    print('olodum')

olodum


### Calculando a probabilidade da frase ser relevante ou não

In [340]:
def relevancia(tweet):
    tweet_separado = tweet.split()
    P_frase_relevante = 1
    P_frase_irrelevante = 1
    for e in tweet_separado:
        if e not in treinamento_relevante_final:
            P_frase_relevante += 1
        else:   
            P_frase_relevante *= (treinamento_relevante_final[e] + 1)/(soma_relevantes + len(tudo_treinamento_final))
        if e not in treinamento_irrelevante_final:
            P_frase_irrelevante +=1
        else:
            P_frase_irrelevante *= (treinamento_irrelevante_final[e] + 1)/(soma_irrelevante + len(tudo_treinamento_final))
    if P_frase_irrelevante > P_frase_relevante:
            return 'irrelevante'
    else:
            return 'relevante'

___
## Verificando a performance

Agora você deve testar o seu Classificador com a base de Testes.<br /><br /> 

Você deve extrair as seguintes medidas:
* Porcentagem de positivos falsos (marcados como relevante mas não são relevantes)
* Porcentagem de positivos verdadeiros (marcado como relevante e são relevantes)
* Porcentagem de negativos verdadeiros (marcado como não relevante e não são relevantes)
* Porcentagem de negativos falsos (marcado como não relevante e são relevantes)

Obrigatório para grupos de 3 alunos:
* Criar categorias intermediárias de relevância baseado na diferença de probabilidades. Exemplo: muito relevante, relevante, neutro, irrelevante e muito irrelevante.

### Limpando os comentários do teste 

In [336]:
teste_completo_limpo = normalizacao(tudo_teste)
lista_final = []
for e in range(0,len(teste_completo_limpo)):
    x = ' '.join(teste_completo_limpo[e])
    lista_final.append(x)


### Classificando

In [337]:
lista_resposta = []
for e in lista_final:
    x = relevancia(e)
    if x == 'relevante':
        lista_resposta.append(0)
    else:
        lista_resposta.append(2)


In [338]:
classificacao_teste = teste.classificacao # classificacao humana
positivo_falso = 0
positivo_verdadeiro = 0
negativo_verdadeiro = 0
negativo_falso = 0
for e in range(0,200):
    if lista_resposta[e] == 2 and classificacao_teste[e] == 2:
        negativo_verdadeiro +=1
    elif lista_resposta[e] == 2 and classificacao_teste[e] != 2:
        negativo_falso += 1
    elif lista_resposta[e] == 0 and classificacao_teste[e] != 2:
        positivo_verdadeiro += 1
    elif lista_resposta[e] == 0 and classificacao_teste[e] == 2:
        positivo_falso += 1
        
porcentagem_pos_fal = positivo_falso/200
porcentagem_pos_ver = positivo_verdadeiro/200
porcentagem_neg_fal = negativo_falso/200
porcentagem_neg_ver = negativo_verdadeiro/200

print(porcentagem_neg_fal)
print(porcentagem_neg_ver)
print(porcentagem_pos_fal)
print(porcentagem_pos_ver)

0.585
0.2
0.105
0.11


In [339]:
certo = 0
errado = 0
for e in range(0,200):
    if lista_resposta[e] == 2 and classificacao_teste[e] == 2:
        certo+=1
    elif lista_resposta[e] == 0 and classificacao_teste[3] != 2:
        certo+=1
    else:
        errado+=1
print(certo/200,errado/200)

0.415 0.585


___
## Concluindo

Escreva aqui a sua conclusão.<br /> 
Faça um comparativo qualitativo sobre as medidas obtidas.<br />
Explique como são tratadas as mensagens com dupla negação e sarcasmo.<br />
Proponha um plano de expansão. Por que eles devem continuar financiando o seu projeto?<br />

Opcionalmente: 
* Discorrer por que não posso alimentar minha base de Treinamento automaticamente usando o próprio classificador, aplicado a novos tweets.
* Propor diferentes cenários de uso para o classificador Naive-Bayes. Cenários sem intersecção com este projeto.
* Sugerir e explicar melhorias reais no classificador com indicações concretas de como implementar (não é preciso codificar, mas indicar como fazer e material de pesquisa sobre o assunto).


Concluimos que o nosso classificador não conseguiu chegar ao nivel de acurácia que esperavamos na análise dos tweets que nós mesmo classificamos.

Nossas precisao foi mais baixa do que esperavamos (41,5%), isso pode ter acontecido pelo fato de haver muitos tweets que envolvem sarcasmo, deste modo como nosso classificador é muito primitivo ele ainda não detecta este fator nas frases e também outra razão pode ser o fato da impressicão da classificação humana, uma vez que esses dependem de interpretações pessoais e esse trabalho foi dividido por nós, o que aumenta ainda mais a imprecisão do sistema.

A detecção de sarcasmo pode ser o plano de expansao, uma vez que aumentaria a precisão do classificador, assim podendo ser mais utilizado em outras funções. Além disso outro plano seria classificar mais tweets na mão, uma vez que isso aumentaria a base de dados e por consequencia a precisão

Este classificador pode ser usado em empresas pequenas, que não necessitam de um alto nivel de precisão e que muitas vezes o número de tweets envolvendo elas é menor e assim tendo menos problemas envolvendo a interpretação do classificador.