# Motivação

A etapa de pré-processamento é importante pois a qualidade do resultado obtido por meio dos algoritmos de ML dependerá da qualidade dos dados de entrada.

Na grande maioria dos casos, os dados coletados contém certos problemas que podem prejudicar o resultado almejado.
* Diferentes escalas entre atributos numéricos
* Exemplos atributos faltantes
* Atributos textuais

# Tratando dados faltantes

Alguns datasets podem conter linhas de dados com atributos sem valor.

Existem algumas técnicas que podem ser utilizadas para contornar esses defeitos.
* Excluir colunas do atributo - pode ocasionar grande perda de informações
* Excluir linhas com atributos faltantes - perda de exemplos
* Preencher valores faltantes com a média

## Excluindo colunas com dados faltantes

Recomenda-se a utilização dessa opção quando o atributo exercer pouca influência sobre o conjunto de dados.

Para a execução desta opção basta se utilizar a função df.dropna(axis=1,inplace=True) da biblioteca Pandas.

### Dica:
Fazer alterações em cópias do df, para evitar ter que começar tudo de novo quando ocorrer um erro.

## Excluindo linhas com dados faltantes

Recomenda-se a utilização dessa opção quando existem poucas linhas com dados faltantes no dataset.

Esta operação pode ser realizada utilizando-se a função df.dropna(axis=0, inplace=True)

## Preenchendo com a média

Os valores faltantes podem ser preenchidos com o valor médio do atributo no dataset.

dataset = pd.read_csv('arquivo.csv')

-> Calcula a média da coluna especifica

dataset_media = dataset['coluna_especifica'].mean()

-> Atribui a média da coluna para todos o NaN

dataset['coluna_especifica'].fillna(dataset_media, inplace=True)

# Variáveis categoricas

Determinados atributos são do tipo nominal sendo necessário convertê-los para valores numéricos.

Isso pode ser feito alterando o tipo da coluna para category e utilizar o código das categorias.

dataset = pd.read_csv('arquivo.csv')

dataset['animal'] = dataset['animal'].astype('category')

dataset['animal_numerico'] = dataset['animal'].cat.codes

# Normalização

Alguns datasets possuem atributos numéricos que possuem diferentes escalas. Ex.: idade, salário, altura, etc.

Essa diferença de escala dificulta o treinamento dos modelos de ML, de modo que um atributo pode influenciar mais do que outro.

Para solucionar esse problema aplica-se a normalização.

A biblioteca Scikit Learn fornece dierentes funções que podem ser aplicadas sobre os dados de acordo com suas características:

MinMaxscaler, StandardScaler, RobustScaler

### MinMaxScaler

Fórmula = (valor - Min) / (Max-Min)

Reescala os valores para um intervalo entre 0 e 1 ou -1 e 1 caso existam valores negativos dentro do conjunto.

É aplicada somente dentro da coluna.

Recomendada quando os dados não possuem distribuição normal e baixo desvio padrão.

Sintaxe: coluna_normalizada = MinMaxscaler().fit_transform(coluna)

### StandardScaler

Fórmula: (valor - media) / desvio padrão

Mais recomendado para dados com distribuição normal.

O resultado é um conjunto de dados com desvio padrão e variância iguais à 1.

Sintaxe: coluna_normalizada = StandardScaler().fit_transform(coluna)

### RobustScaler

Fórmula: (valor - media) / (Amplitude Interquartil)
    
Recomendada para dados que possuem valores outliers.

Mantém os outliers porém devido a mudança de escala sua inflência negativa é atenuada.

Sintaxe: coluna_normalizada = RobustScaler().fit_transform(coluna)

### Sintaxes: 
coluna = np.array(dataset['coluna']).reshape(-1,1)

from sklearn.preprocessing import RobustScaler

coluna_normalizada = RobustScaler().fit_transform(coluna)