# Projeto 1 - Ciência dos Dados

Nome: Paulo Kim

Nome: Rodrigo Coelho

**Atenção:** Serão permitidos grupos de três pessoas, mas com uma rubrica mais exigente. Grupos deste tamanho precisarão fazer um questionário de avaliação de trabalho em equipe

___
Carregando algumas bibliotecas:

In [1]:
%matplotlib inline
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import os
import re
import math

**Em `filename`, coloque o nome do seu arquivo de dados!**

In [2]:
import os

filename = 'iPhone_X.xlsx'
if filename in os.listdir():
    print(f'Encontrei o arquivo {filename}, tudo certo para prosseguir com a prova!')
else:
    print(f'Não encontrei o arquivo {filename} aqui no diretório {os.getcwd()}, será que você não baixou o arquivo?')

Encontrei o arquivo iPhone_X.xlsx, tudo certo para prosseguir com a prova!


Carregando a base de dados de treinamento com os tweets classificados:

In [3]:
train = pd.read_excel(filename)
train = train.iloc[:,:2]
train.head(5)

Unnamed: 0,Treinamento,Classificação
0,@iconredesign my prediction is the same but:\n...,2
1,still have mine but i never connected to my ph...,1
2,"iphone 11 na waste of money, just chill with x...",2
3,once the iphone 12 drops those using the iphon...,2
4,#ncat who fix’s phone ?? it’s a iphone x,1


Carregando a base de dados de teste com os tweets classificados:

In [4]:
test = pd.read_excel(filename, sheet_name = 'Teste')
test = test.iloc[:,:2]
test.head()

Unnamed: 0,Teste,Classificação
0,@starrynight024 right?? that’s exactly what ha...,3
1,@gossipgirliee some of us haven't bought iphone x,2
2,@manyaww @mlgcollegefess hs without cond*m and...,1
3,very annoying that they didn't announce the ne...,2
4,@clarkvolo iphone x was released in november tho,2


___
## Classificador automático de sentimento


Nós pegamos como produto o iPhone X. Para sua classificação, dividimos os tweets em:

* **Propaganda/oferta** (0) --> tweets com anúncios de valor e venda de iPhones, assim como vendas de peliculas e capas específicas para o iPhone X
* **Muito irrelevante** (1) --> tweets que mencionavam o iPhone X, mas que nada relacionado ao aparelho em si, apenas citando ele
* **Irrelevante** (2) --> tweets que além de mencionar o iPhone, faziam comentários relacionados ao aparelho, mas muito superficiais
* **Relevante** (3) --> tweets que traziam alguma carga de crítica ao aparelho (seja boa ou ruim)
* **Muito relevante** (4) --> tweets com altas cargas criticas construtivas, que especificam algum parte ou recurso do aparelho

In [5]:
# Função cleanup que realiza a filtragem de caracteres desnecessários, 
# assim como menção à contas e referências a sites

def cleanup(text):
    punctuation = '[!-.:?;]'
    pattern = re.compile(punctuation)
    text_subbed = re.sub(pattern, '', text)
    
    text_subbed_list = text_subbed.split()
    
    for word in text_subbed_list:
        if word[0] == '@' or word[:5] == 'https':
            text_subbed_list.remove(word)
        else:
            pass
    return ' '.join(text_subbed_list)  

In [12]:
# Loop para realizar a limpeza do treinamento
for i in range(len(train)):
    train.at[i,'Treinamento'] = cleanup(train.Treinamento[i]).lower() 
                                                                      
train.head()

Unnamed: 0,Treinamento,Classificação
0,my prediction is the same but a13 bionic face ...,2
1,still have mine but i never connected to my ph...,1
2,iphone 11 na waste of money just chill with x ...,2
3,once the iphone 12 drops those using the iphon...,2
4,ncat who fix’s phone it’s a iphone x,1


In [13]:
# Loop para realizar a limpeza do teste
for i in range(len(test)):
    test.at[i,'Teste'] = cleanup(test.Teste[i]).lower() 
                                                                      
test.head()

Unnamed: 0,Teste,Classificação
0,right that’s exactly what happened when i got ...,3
1,some of us havent bought iphone x,2
2,hs without condm and what did you expected to ...,1
3,very annoying that they didnt announce the new...,2
4,iphone x was released in november tho,2


In [14]:
# Calculando o total de palavras no conjunto dos tweets da base de treinamento
total_palavras = 0 
for phrase in train.Treinamento:
    total_palavras += len(phrase.split())

total_palavras

28833

___
### Montagens das séries e tabelas relativas para cada classificação

Filtragem do dataframe para cada classficação, para assim montar as tabelas com as probabilidades de cada palavra dada uma classificação


Criando um dicionário contendo todas as palavras dos tweets divididas em cada categoria (0,1,2,3 ou 4)

In [15]:
dict_lista_palavras = {}

for index_class in range(5):
    palavras_class = train.loc[train.Classificação == index_class,:]
    lista = []
    for phrase in palavras_class.Treinamento:
        lista += phrase.split()
    dict_lista_palavras[index_class] = lista

dt_palavras = pd.DataFrame.from_dict({ key:pd.Series(value) for key, value in dict_lista_palavras.items() })
dt_palavras

Unnamed: 0,0,1,2,3,4
0,bypass,still,my,you,i
1,with,have,prediction,think,left
2,iphones,mine,is,lol,x
3,network,but,the,its,when
4,blocked,i,same,already,i
...,...,...,...,...,...
8377,,number,,,
8378,,61,,,
8379,,iphone,,,
8380,,x,,,


In [16]:
# Calculando a quantidade de cada palavra dada a classificação
dict_quants_absolutas = {}
for i in range(5):
    dict_quants_absolutas[i] = dt_palavras[i].value_counts()

___
### Montando um Classificador Naive-Bayes

Considerando apenas as mensagens da planilha Treinamento, ensine  seu classificador.

In [17]:
# Calculando a probabilddiade de uma palavra pertencer à respectiva classificação

dict_probabilidades = {}
for i in range(5):
    dict_probabilidades[i] = len(train.loc[train['Classificação']== i,:]) / len(train)

dict_probabilidades

{0: 0.2224, 1: 0.3568, 2: 0.1968, 3: 0.1592, 4: 0.0648}

In [22]:
# Smoothing
smoothing = {
    'V': 10**4,
    'alpha': 0.1}

def prob_frase_dado_class(frase, classe):
    prob = 1
    quant_absoluta = dict_quants_absolutas[classe]
    
    for palavra in frase.split():
        if palavra in dt_palavras.loc[classe].to_list():
            print(quant_absoluta[palavra])
            prob *= (quant_absoluta[palavra] + smoothing['alpha']) / (quant_absoluta.sum() + smoothing['alpha']*smoothing['V']) 
        else:
            prob *= smoothing['alpha'] / (quant_absoluta.sum() + smoothing['alpha']*smoothing['V'])
    return prob


In [23]:
def naive_bayes(tweet):
    for palavra in tweet.split()
    dict_p_X_dado_frase = {}
    for i in range(5):
        dict_p_X_dado_frase[i] = math.log(prob_frase_dado_class(tweet, i) * dict_probabilidades[i])
    
    # As probabilidade são guardadas em uma lista, para assim, retornar o maior valor dela
    
    #Já que a lista está ordenada de acordo com as categorias, o index da maior probabilidade será a própria classificação
    print(dict_p_X_dado_frase)
    for classificacao, prob in dict_p_X_dado_frase.items():
        if prob == max(dict_p_X_dado_frase.values()):
            return classificacao


In [27]:
test.Teste[0]

'right that’s exactly what happened when i got my current iphone 8 couldn’t wait a day longer cause my phone prior literally died and the next week the iphone x was announced 🥴'

___
### Verificando a performance do Classificador

Agora você deve testar o seu classificador com a base de Testes.

In [24]:
test.loc[:,'NBayes'] = 0
for i in range(1): #len(test)
    test.iloc[i,2] = naive_bayes(test.Teste[i])
test

16
8
8
228
16
253
253
72
{0: -362.33586027947234, 1: -378.8519798303971, 2: -356.1889981846053, 3: -347.71039301616594, 4: -340.1989542098665}


Unnamed: 0,Teste,Classificação,NBayes
0,right that’s exactly what happened when i got ...,3,4
1,some of us havent bought iphone x,2,0
2,hs without condm and what did you expected to ...,1,0
3,very annoying that they didnt announce the new...,2,0
4,iphone x was released in november tho,2,0
...,...,...,...
720,mojosmartphone qi leather wireless charger,0,0
721,shop anythingyoucanimagine,0,0
722,glowing apple logo backlit led case for iphone...,0,0
723,shit crazy had this iphone x forever,2,0


In [None]:
tabela_acuracia_teste = pd.crosstab(test.Classificação, test.NBayes, normalize = True)
tabela_acuracia_teste

In [None]:
taxa_acuracia_teste = tabela_acuracia_teste.iloc[0,0] + tabela_acuracia_teste.iloc[1,1] + tabela_acuracia_teste.iloc[2,2] + tabela_acuracia_teste.iloc[3,3] 
print('A taxa de acurácia do classificador no teste é de {}%'.format(taxa_acuracia_teste.round(4)*100))

In [None]:
train.loc[:,'NBayes'] = 0
for i in range(len(train)):
    train.iloc[i,2] = naive_bayes(train.Treinamento[i])

In [None]:
tabela_acuracia_treino = pd.crosstab(train.Classificação, train.NBayes, normalize = True)
tabela_acuracia_treino

In [None]:
taxa_acuracia_treino = tabela_acuracia_treino.iloc[0,0] + tabela_acuracia_treino.iloc[1,1] + tabela_acuracia_treino.iloc[2,2] + tabela_acuracia_treino.iloc[3,3] 
print('A taxa de acurácia do classificador no teste é de {}%'.format(taxa_acuracia_treino.round(4)*100))

___
## Concluindo:

___
## Aperfeiçoamento:

Os trabalhos vão evoluir em conceito dependendo da quantidade de itens avançados:

* Limpar: \n, :, ", ', (, ), etc SEM remover emojis
* Corrigir separação de espaços entre palavras e emojis ou entre emojis e emojis
* Propor outras limpezas e transformações que não afetem a qualidade da informação ou classificação
* Criar categorias intermediárias de relevância baseadas na probabilidade: ex.: muito relevante, relevante, neutro, irrelevante, muito irrelevante (3 categorias: C, mais categorias conta para B)
* Explicar por que não posso usar o próprio classificador para gerar mais amostras de treinamento
* Propor diferentes cenários para Naïve Bayes fora do contexto do projeto
* Sugerir e explicar melhorias reais com indicações concretas de como implementar (indicar como fazer e indicar material de pesquisa)
* Montar um dashboard que realiza análise de sentimento e visualiza estes dados

___
## Referências

[Naive Bayes and Text Classification](https://arxiv.org/pdf/1410.5329.pdf)  **Mais completo**

[A practical explanation of a Naive Bayes Classifier](https://monkeylearn.com/blog/practical-explanation-naive-bayes-classifier/) **Mais simples**

In [None]:
dict_lista_palavras = {}

for index_class in range(5):
    palavras_class = train.loc[train.Classificação == index_class,:]
    lista = []
    for phrase in palavras_class.Treinamento:
        lista += phrase.split()
    dict_lista_palavras[index_class] = lista

dt_palavras = pd.DataFrame.from_dict({ key:pd.Series(value) for key, value in dict_lista_palavras.items() })
dt_palavras.head()