**Universidade Federal do Pará**

---

> Pré processamento da Base de dados de Avaliações do Hambre

---

> Objetivo: Remover inconsistências, limpar os dados e codificar variáveis categóricas.

In [28]:
# importando pandas
import pandas as pd

# para remover emoji e caractere especial
import re

In [29]:
# importação da base de dados
dataset = pd.read_csv('../dataset/dataset-rating-hambre.csv', sep=';')
dataset

Unnamed: 0,Qualidade do Produto,Tempo de Entrega,Qualidade da Loja,Comentário do Cliente,Nome da Loja,Nicho,Cidade
0,5.0,5.0,5.0,Sem comentário,Companhia da Pizza,Pizzaria,Cametá
1,5.0,5.0,5.0,Sem comentário,Companhia da Pizza,Pizzaria,Cametá
2,5.0,5.0,5.0,Sem comentário,Companhia da Pizza,Pizzaria,Cametá
3,5.0,5.0,5.0,Sem comentário,Companhia da Pizza,Pizzaria,Cametá
4,5.0,5.0,5.0,Sem comentário,Companhia da Pizza,Pizzaria,Cametá
...,...,...,...,...,...,...,...
901,5.0,5.0,5.0,Sem comentário,Restaurante e Pizzaria Terrazzo Palace,Restaurante,Cametá
902,5.0,5.0,5.0,Sem comentário,Restaurante e Pizzaria Terrazzo Palace,Restaurante,Cametá
903,5.0,5.0,5.0,Sem comentário,Restaurante e Pizzaria Terrazzo Palace,Restaurante,Cametá
904,5.0,5.0,5.0,Sem comentário,Restaurante e Pizzaria Terrazzo Palace,Restaurante,Cametá


In [30]:
# renomeando as colunas para facilitar a manipulação dos dados
novos_nomes = {
    'Qualidade do Produto': 'quality_rating',
    'Tempo de Entrega': 'waiting_time_rating',
    'Qualidade da Loja': 'store_service_rating',
    'Comentário do Cliente': 'comment_rating',
    'Nome da Loja': 'name_store',
    'Nicho': 'niche',
    'Cidade': 'city',
}

dataset.rename(columns=novos_nomes, inplace=True)
dataset

Unnamed: 0,quality_rating,waiting_time_rating,store_service_rating,comment_rating,name_store,niche,city
0,5.0,5.0,5.0,Sem comentário,Companhia da Pizza,Pizzaria,Cametá
1,5.0,5.0,5.0,Sem comentário,Companhia da Pizza,Pizzaria,Cametá
2,5.0,5.0,5.0,Sem comentário,Companhia da Pizza,Pizzaria,Cametá
3,5.0,5.0,5.0,Sem comentário,Companhia da Pizza,Pizzaria,Cametá
4,5.0,5.0,5.0,Sem comentário,Companhia da Pizza,Pizzaria,Cametá
...,...,...,...,...,...,...,...
901,5.0,5.0,5.0,Sem comentário,Restaurante e Pizzaria Terrazzo Palace,Restaurante,Cametá
902,5.0,5.0,5.0,Sem comentário,Restaurante e Pizzaria Terrazzo Palace,Restaurante,Cametá
903,5.0,5.0,5.0,Sem comentário,Restaurante e Pizzaria Terrazzo Palace,Restaurante,Cametá
904,5.0,5.0,5.0,Sem comentário,Restaurante e Pizzaria Terrazzo Palace,Restaurante,Cametá


# Pré Processamento

---

Limpeza dos dados

In [31]:
# remover emojis e caracteres especiais
def remove_emojis_and_special_chars(text):
    # Substitui emojis por uma string vazia
    text = re.sub(r'[\U00010000-\U0010ffff]', '', text)
    # Substitui caracteres especiais por uma string vazia
    text = re.sub(r'[^\w\s]', '', text)
    return text

# aplicando a função para remover emoji e caracteres especias dos cometários
dataset['comment_rating'] = dataset['comment_rating'].apply(remove_emojis_and_special_chars)

In [33]:
# agrupando avaliações
# group = dataset.groupby(['quality_rating']).size()
group = dataset.groupby(['waiting_time_rating']).size()
# group = dataset.groupby(['store_service_rating']).size()
group

waiting_time_rating
1.0     48
2.0     15
3.0     33
4.0     57
5.0    753
dtype: int64

Codificação de variáveis, de numéricas para categóricas

In [34]:
# Mapeamento das categorias
categorias = {
    1.0: 'Muito insatisfeito',
    2.0: 'Insatisfeito',
    3.0: 'Neutro',
    4.0: 'Satisfeito',
    5.0: 'Muito satisfeito'
}

# Aplicando o mapeamento para cada coluna
dataset['quality_rating'] = dataset['quality_rating'].map(categorias)
dataset['waiting_time_rating'] = dataset['waiting_time_rating'].map(categorias)
dataset['store_service_rating'] = dataset['store_service_rating'].map(categorias)

dataset

Unnamed: 0,quality_rating,waiting_time_rating,store_service_rating,comment_rating,name_store,niche,city
0,Muito satisfeito,Muito satisfeito,Muito satisfeito,Sem comentário,Companhia da Pizza,Pizzaria,Cametá
1,Muito satisfeito,Muito satisfeito,Muito satisfeito,Sem comentário,Companhia da Pizza,Pizzaria,Cametá
2,Muito satisfeito,Muito satisfeito,Muito satisfeito,Sem comentário,Companhia da Pizza,Pizzaria,Cametá
3,Muito satisfeito,Muito satisfeito,Muito satisfeito,Sem comentário,Companhia da Pizza,Pizzaria,Cametá
4,Muito satisfeito,Muito satisfeito,Muito satisfeito,Sem comentário,Companhia da Pizza,Pizzaria,Cametá
...,...,...,...,...,...,...,...
901,Muito satisfeito,Muito satisfeito,Muito satisfeito,Sem comentário,Restaurante e Pizzaria Terrazzo Palace,Restaurante,Cametá
902,Muito satisfeito,Muito satisfeito,Muito satisfeito,Sem comentário,Restaurante e Pizzaria Terrazzo Palace,Restaurante,Cametá
903,Muito satisfeito,Muito satisfeito,Muito satisfeito,Sem comentário,Restaurante e Pizzaria Terrazzo Palace,Restaurante,Cametá
904,Muito satisfeito,Muito satisfeito,Muito satisfeito,Sem comentário,Restaurante e Pizzaria Terrazzo Palace,Restaurante,Cametá


In [35]:
# Salvando a nova base de dados normalizada
dataset.to_csv('../dataset/normalized-hambre-rating-database.csv', index=False)