# Projeto 2 - Classificador Autom√°tico de Sentimento

Voc√™ foi contratado por uma empresa parar analisar como os clientes est√£o reagindo a um determinado produto no Twitter. A empresa deseja que voc√™ crie um programa que ir√° analisar as mensagens dispon√≠veis e classificar√° como "relevante" ou "irrelevante". Com isso ela deseja que mensagens negativas, que denigrem o nome do produto, ou que mere√ßam destaque, disparem um foco de aten√ß√£o da √°rea de marketing.<br /><br />
Como aluno de Ci√™ncia dos Dados, voc√™ lembrou do Teorema de Bayes, mais especificamente do Classificador Naive-Bayes, que √© largamente utilizado em filtros anti-spam de e-mails. O classificador permite calcular qual a probabilidade de uma mensagem ser relevante dadas as palavras em seu conte√∫do.<br /><br />
Para realizar o MVP (*minimum viable product*) do projeto, voc√™ precisa implementar uma vers√£o do classificador que "aprende" o que √© relevante com uma base de treinamento e compara a performance dos resultados com uma base de testes.<br /><br />
Ap√≥s validado, o seu prot√≥tipo poder√° tamb√©m capturar e classificar automaticamente as mensagens da plataforma.

## Informa√ß√µes do Projeto

Prazo: 19/Set at√© √†s 23:59.<br />
Grupo: 2 ou 3 pessoas - grupos com 3 pessoas ter√° uma rubrica diferenciada.<br /><br />
Entreg√°veis via GitHub: 
* Arquivo notebook com o c√≥digo do classificador, seguindo as orienta√ß√µes abaixo.
* Arquivo Excel com as bases de treinamento e teste totalmente classificado.

**N√ÉO gravar a key do professor no arquivo**


### Entrega Intermedi√°ria: Check 1 - APS 2

At√© o dia 10/Set √†s 23:59, xlsx deve estar no Github com as seguintes evid√™ncias: 

  * Produto escolhido.
  * Arquivo Excel contendo a base de treinamento e a base de testes j√° classificadas.

Sugest√£o de leitura:<br />
https://monkeylearn.com/blog/practical-explanation-naive-bayes-classifier/

___

## Parte I - Adquirindo a Base de Dados

Acessar o notebook **Projeto-2-Planilha** para realizar a coleta dos dados. O grupo deve classificar os dados coletados manualmente.

___
## Parte II - Montando o Classificador Naive-Bayes

Com a base de treinamento montada, comece a desenvolver o classificador. N√£o se esque√ßa de implementar o Laplace Smoothing (https://en.wikipedia.org/wiki/Laplace_smoothing).

Opcionalmente: 
* Limpar as mensagens removendo os caracteres: enter, :, ", ', (, ), etc. N√£o remover emojis.<br />
* Corrigir separa√ß√£o de espa√ßos entre palavras e/ou emojis.
* Propor outras limpezas/transforma√ß√µes que n√£o afetem a qualidade da informa√ß√£o.

Escreva o seu c√≥digo abaixo:

In [7]:
import pandas as pd

lacta=pd.read_excel('tweets_lacta.xlsx')

relevant_tweets=lacta[lacta['Classificador - 1 para relevante(cr√≠ticas/sugest√µes) para a empresa e 0 para n√£o relevante']==1]

irrelevant_tweets=lacta[lacta['Classificador - 1 para relevante(cr√≠ticas/sugest√µes) para a empresa e 0 para n√£o relevante']==0]

relevant_tweets.head()

Unnamed: 0,Treinamento,Classificador - 1 para relevante(cr√≠ticas/sugest√µes) para a empresa e 0 para n√£o relevante
1,"nunca vi um bombom t√£o mal embalado, que que t...",1
8,aquele sonho de valsa com larva nosso de cada ...,1
12,mas lolo nao eh aquele bombom da lacta que ngm...,1
14,"@lacta pelo amor de deus, tirem um pouco o a√ßu...",1
23,impressionada como os cholates da @lacta perde...,1


In [19]:
excecoes=[':',';','[',']', '{','}','‚Äî','-','+','=','/','|', ')','_', '(','@','#', '?','.', '!', ' ',',']

lista_palavras_relevant=[]

for elemento in relevant_tweets['Treinamento']:
    quebra=elemento.split()
    for palavra in quebra:
        lista_letra=list(palavra)
        letras_corretas=[]
        for letra in lista_letra:
            if letra not in excecoes:
                letras_corretas.append(letra)
        palavra_limpa=''.join(letras_corretas)
        lista_palavras_relevant.append(palavra_limpa)
        
        
lista_palavras_irrelevant=[]

for elemento in irrelevant_tweets['Treinamento']:
    quebra=elemento.split()
    for palavra in quebra:
        lista_letra=list(palavra)
        letras_corretas=[]
        for letra in lista_letra:
            if letra not in excecoes:
                letras_corretas.append(letra)
        palavra_limpa=''.join(letras_corretas)
        lista_palavras_irrelevant.append(palavra_limpa)

for palavra in lista_palavras_relevant:
    if palavra=='':
        lista_palavras_relevant.remove(palavra)

for palavra in lista_palavras_irrelevant:
    if palavra=='':
        lista_palavras_irrelevant.remove(palavra)

0        mano, esse chocolate √© maravilhoso. amem @lacta
2      rt @oalezoun: aquela marca de chocolate q apon...
3      quem prefere qualquer caixa de bombom em vez d...
4      @gabirigobeli vamo tomar um aqui que √© metade ...
5              rt @thaynaluiza20: farinha l√°cta √© vida üòç
6               @lacta obrigada por fazer essa maravilha
7          @lucynegreiros97 @lacta eu voooooooooooooooou
9               farinha lacta  com leite ninho hummmmmmm
10     vou fazer farinha lacta p mim e brigadeiro p c...
11     rt @oalezoun: aquela marca de chocolate q apon...
13     s√≥ queria uma coca bem gelada e uma caixa lacta üò≠
15     comprei uma caixa de chocolate da lacta por 5,...
16     @eiennibolinhasz laca, aquele chocolate branco...
17     rt @mayfelisbertoo: 5star √© o melhor chocolate...
18        comi muito lacta com oreo nessas √∫ltimas horas
19     encontrei uma ex-colega da equipe que dirigi m...
20                           farinha lacta c rosquinha üòã
21     @agcsdia

In [21]:
palavras_relevantes={}
palavras_irrelevantes={}

for palavra in lista_palavras_relevant:
    if palavra not in palavras_relevantes:
        palavras_relevantes[palavra]=1
    else:
        palavras_relevantes[palavra]+=1

for palavra in lista_palavras_irrelevant:
    if palavra not in palavras_irrelevantes:
        palavras_irrelevantes[palavra]=1
    else:
        palavras_irrelevantes[palavra]+=1

print(palavras_irrelevantes)
print(palavras_relevantes)

{'mano': 5, 'esse': 9, 'chocolate': 92, '√©': 65, 'maravilhoso': 3, 'amem': 1, 'lacta': 242, 'rt': 47, 'oalezoun': 27, 'aquela': 35, 'marca': 31, 'de': 165, 'q': 40, 'aponta': 31, 'onde': 33, 't√°': 35, 'as': 36, 'coisas': 33, 'quem': 6, 'prefere': 1, 'qualquer': 9, 'caixa': 29, 'bombom': 13, 'em': 17, 'vez': 6, 'louquissimo': 1, 'gabirigobeli': 1, 'vamo': 1, 'tomar': 4, 'um': 30, 'aqui': 5, 'que': 83, 'metade': 2, 'e': 79, 'diamante': 22, 'negro': 21, 'thaynaluiza20': 1, 'farinha': 42, 'l√°cta': 2, 'vida': 3, 'üòç': 8, 'obrigada': 2, 'por': 27, 'fazer': 6, 'essa': 14, 'maravilha': 1, 'lucynegreiros97': 3, 'eu': 63, 'voooooooooooooooou': 1, 'com': 45, 'leite': 13, 'ninho': 3, 'hummmmmmm': 1, 'vou': 16, 'p': 10, 'mim': 8, 'brigadeiro': 2, 'chato': 1, 'do': 24, 'filipe': 2, 's√≥': 15, 'queria': 18, 'uma': 57, 'coca': 3, 'bem': 9, 'gelada': 2, 'üò≠': 1, 'comprei': 8, 'da': 79, '540': 1, 'no': 44, 'lider': 1, 'eiennibolinhasz': 2, 'laca': 2, 'aquele': 12, 'branco': 7, 'bom': 26, 'pra': 2

___
## Verificando a performance

Agora voc√™ deve testar o seu Classificador com a base de Testes.<br /><br /> 

Voc√™ deve extrair as seguintes medidas:
* Porcentagem de positivos falsos (marcados como relevante mas n√£o s√£o relevantes)
* Porcentagem de positivos verdadeiros (marcado como relevante e s√£o relevantes)
* Porcentagem de negativos verdadeiros (marcado como n√£o relevante e n√£o s√£o relevantes)
* Porcentagem de negativos falsos (marcado como n√£o relevante e s√£o relevantes)

Obrigat√≥rio para grupos de 3 alunos:
* Criar categorias intermedi√°rias de relev√¢ncia baseado na diferen√ßa de probabilidades. Exemplo: muito relevante, relevante, neutro, irrelevante e muito irrelevante.

___
## Concluindo

Escreva aqui a sua conclus√£o.<br /> 
Fa√ßa um comparativo qualitativo sobre as medidas obtidas.<br />
Explique como s√£o tratadas as mensagens com dupla nega√ß√£o e sarcasmo.<br />
Proponha um plano de expans√£o. Por que eles devem continuar financiando o seu projeto?<br />

Opcionalmente: 
* Discorrer por que n√£o posso alimentar minha base de Treinamento automaticamente usando o pr√≥prio classificador, aplicado a novos tweets.
* Propor diferentes cen√°rios de uso para o classificador Naive-Bayes. Cen√°rios sem intersec√ß√£o com este projeto.
* Sugerir e explicar melhorias reais no classificador com indica√ß√µes concretas de como implementar (n√£o √© preciso codificar, mas indicar como fazer e material de pesquisa sobre o assunto).
