# Pré-processamento dos dados

A qualidade dos dados é um pré-requisito para que pesquisadores obtenham descobertas significativas e as pesquisas sejam consideradas robustas.

Entretanto, no mundo real, os dados costumam ser incompletos, inconsistentes, ruidosos e, muitas vezes, estão em um formato inutilizável ou em diversas fontes diferentes (Pimentel et al., 2021). Logo, o pré-processamento consiste em adequar os dados para que sirvam como entrada para os processos de pesquisa subsequentes.

O trabalho de pré-processamento geralmente ocorre com as seguintes etapas: **Limpeza de Dados**, Integração de Dados, Transformação de Dados e Redução de Dados (Pimentel et al., 2021).

## 1. Limpeza dos dados

Consiste em ajustar a base para a aplicação das técnicas estatísticas e de Aprendizagem de Máquina futuramente. Buscaremos dados ausentes, dados ruidosos, valores atípicos (outliers) e dados duplicados.

Mas antes, vamos importar a base para o ambiente Python e colocá-la numa estrutura de daos do Pandas.

Base carregada no código, vamos vislumbrar uma pequena mostra da base. O método `isna()` identifica os valores ausentes em um DataFrame, enquanto o método `head()` retorna a quantidade de linhas que especificarmos dentro dos parênteses.

Para visualizarmos melhor onde há dados ausentes e quantos são, podemos aplicar a proposta de Pimentel et al. (2021): resumir as colunas do DataFrame booleano retornado pelo `isna()` somando os valores `False = 0` e `True = 1`. Dessa forma, teremos o número de valores ausentes no DataFrame. Podemos aproveitar e retornar a porcentagem das ausências, conforme o código de Pimentel et al. (2021).

### 1.1 Dados ausentes

Em estruturas de dados como o pandas da linguagem Python, são frequentemente representados como ***NaN (Not a Number)*** ou ***None***. Encontrados os dados faltantes, há duas soluções:
1.   elimina-se o atributo (coluna) ou registro (linha);
2.   imputa-se um valor para o campo ausente.

### 1.2 Dados ruidosos

Consiste em trabalhar dados que possuam tipos ou formatações que possam atrapalhar modelagens futuras

### 1.3 Valores atípicos (outliers)

Os outliers apreesntam valores muito discrepantes em comparação com a tendência central da base de dados. É daí que surge o nome **valores atípicos**.

Eles geralmente surgem por causa de erros na coleta ou na entrada dos dados no sistema computacional, e acabam interferindo na qualidade de análises.

Para encontrar esses outliers, usaremos os intervalos interquartis como métrica de comparação.

### 1.4 Dados duplicados

A duplicação pode ser proveniente de cópias exatamente iguais de um mesmo registro ou duplicação parcial.

Nestes casos, a remoção é a solução mais simples e é realizada pelo método `drop_duplicates()` do pandas. Para duplicatas mais difíceis de identificar, como as duplicatas parciais, a solução comum é usar funções de similaridade de strings.

# Salvando a base de dados após a limpeza

Vamos salvar a base de dados obtida após o tratamento realizado por nós.