# imports

In [1]:
import pandas as pd
import seaborn as sns

## Piguins

In [2]:
df = sns.load_dataset('penguins')
df.head()

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,Male
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,Female
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,Female
3,Adelie,Torgersen,,,,,
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,Female


In [3]:
pd.get_dummies(df[['island','species']], prefix=['island', 'species'])

Unnamed: 0,island_Biscoe,island_Dream,island_Torgersen,species_Adelie,species_Chinstrap,species_Gentoo
0,0,0,1,1,0,0
1,0,0,1,1,0,0
2,0,0,1,1,0,0
3,0,0,1,1,0,0
4,0,0,1,1,0,0
...,...,...,...,...,...,...
339,1,0,0,0,0,1
340,1,0,0,0,0,1
341,1,0,0,0,0,1
342,1,0,0,0,0,1


In [4]:
pd.get_dummies(df[['island','species']], prefix=['island', 'species'], drop_first=True)

Unnamed: 0,island_Dream,island_Torgersen,species_Chinstrap,species_Gentoo
0,0,1,0,0
1,0,1,0,0
2,0,1,0,0
3,0,1,0,0
4,0,1,0,0
...,...,...,...,...
339,0,0,0,1
340,0,0,0,1
341,0,0,0,1
342,0,0,0,1


imputação

Note que se utilizarmos a deleção em casos que temos uma quantidade relativamente grande de dados faltantes, podem restar dados insuficientes para geração de modelos de previsão confiável para observações que tem dados faltantes. Uma alternativa a deleção de dados faltantes, por vezes mais eficaz, é a imputação de valores.

Dependendo do motivo da falta dos dados, os métodos de imputação podem fornecer resultados razoavelmente confiáveis que a deleção.

Um dos métodos mais comuns de imputação de valores ao se lidar com dados faltantes é a utilização de estatísticas de tendência central, que são média, mediana e moda. Para variáveis contínuas, a média e a mediana podem funcionar bem, já em variáveis discretas (nominais ou ordinais) a imputação pode ser realizada através do uso da moda. Essa abordagem funciona bem quando a proporção de dados faltantes não é grande, caso contrário, a imputação por valores de tendências centrais faz com que os dados percam variância. Para realizar a imputação utilizando a média, mediana ou moda em Python, podemos utilizar os seguintes métodos:

```py
df.fillna(df.mean())           # Média
df.fillna(df.median())         # Mediana
df.fillna(df.mode().squeeze()) # Moda
```

Para dados que tem característica sequencial, como séries temporais, podemos utilizar métodos de interpolação simples, em que utilizamos dados anteriores e posteriores para criar modelos lineares que ajudem a imputar valores nas janelas de dados faltantes. Pra realizar a imputação utilizando interpolação simples, utilize o método interpolate do Pandas. Confira a documentação oficial para mais informações.

Outra maneira mais interessante de lidar com dados faltantes, sejam eles sequenciais ou não, é a utilização de modelos de classificação e regressão. Nesse caso, utilizamos para a imputação em colunas de dados faltantes. Modelos são criados tendo como saída (variável de resposta) a coluna que contém dados faltantes e o restante como variáveis preditoras (ou preditivas). O modelo é treinado utilizando as instâncias que não contém dados faltantes e os valores faltantes são imputados de acordo com o resultado da predição de tais modelos. Modelos de regressão são utilizados para imputação de variáveis contínuas e modelos de classificação são utilizados para variáveis discretas. Para realizar a imputação de valores utilizando modelos de classificação ou regressão utilizando o Python, precisaremos da biblioteca Numpy. O código a seguir mostra a utilização de alguns tipos de modelos de predição para esta tarefa.

```py
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer
from sklearn.tree import DecisionTreeRegressor
imputer = IterativeImputer(estimator=DecisionTreeRegressor)
df = pd.DataFrame(imputer.fit_transform(df), columns=df.columns)
```

Por fim, podemos utilizar o método dos vizinhos mais próximos, nesse método, selecionamos uma métrica de similaridade para k vizinhos, e a média é usada para imputar uma estimativa dos valores faltantes. O cientista de dados deve selecionar o número de vizinhos mais próximos e a métrica de distância.

In [6]:
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer
from sklearn.tree import DecisionTreeRegressor

In [7]:
imputer = IterativeImputer(estimator=DecisionTreeRegressor)
#df = pd.DataFrame(imputer.fit_transform(df), columns=df.columns)

In [9]:
df

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,Male
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,Female
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,Female
3,Adelie,Torgersen,,,,,
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,Female
...,...,...,...,...,...,...,...
339,Gentoo,Biscoe,,,,,
340,Gentoo,Biscoe,46.8,14.3,215.0,4850.0,Female
341,Gentoo,Biscoe,50.4,15.7,222.0,5750.0,Male
342,Gentoo,Biscoe,45.2,14.8,212.0,5200.0,Female


In [None]:
imputer.fit_transform(df)

Detecção de anomalias

Detecção de anomalias, também conhecidas como outliers, novelties (novidades) ou mesmo ruído, diz respeito a identificação de itens raros ou valores que levantam suspeita, pois se diferenciam do restante majoritário dos dados. Geralmente tal tipo de evento (presença de anomalias) pode estar ligado a algum tipo de problema como uma fraude bancária, problemas médicos ou até erros em sensores.

Na etapa de preparação dos dados, o pré-processamento, a identificação de anomalias é uma tarefa importante, pois modelos que por algum motivo forem treinados com dados anômalos, geralmente são modelos enviesados. Desse modo, a tarefa de detecção de anomalias aqui se resume a identificação e remoção de valores discrepantes. Existem outras aplicações de detecção de anomalias, no entanto elas serão estudadas mais adiante. Existem três principais abordagens para lidar com valores de discrepantes. Duas delas dizem respeito a utilização de métricas de tendências centrais e variabilidade dos dados.

Na primeira técnica, conhecida como método do desvio padrão, se calculam a média amostral e o desvio padrão dos dados, depois as anomalias são identificadas utilizando um limiar de 3 (três) desvios padrões para cima ou para baixo da média calculada. Valores que forem maiores ou menores que três desvios padrões a partir da média são classificados como anomalias. Para usar tal abordagem em Python, podemos utilizar o submódulo stats da biblioteca scipy:

```py
from scipy import stats
outliers_zscore = df[np.abs(stats.zscore(df)) > 3]
```

Outra técnica bastante utilizada é conhecida como método do intervalo interquartil. Nessa abordagem, calculamos os quartis Q1 e Q3, subtraimos Q3 de Q1 e o chamamos de intervalo interquartil (interquartile range, IQR) do conjunto de dados, e classificamos como anomalias os dados que tiverem valor menor que Q1 - 1.5 vezes o intervalo interquartil ou valor maior que Q3 + 1.5 vezes o intervalo interquartil. Para utilizar tal abordagem em Python, podemos utilizar as seguintes linhas de código:
```py
Q1 = df.quantile(0.25)
Q3 = df.quantile(0.75)
IQR = Q3 - Q1
outliers = (df < (Q1 - 1.5 * IQR)) | (df > (Q3 + 1.5 * IQR))
outliers_iqr = df[outliers.any(axis=1)]
```

Por fim, podemos utilizar métodos que fazem detecção automática de valores discrepantes, como o local outlier factor (LOF) ou One-class support vector machines.

***Normalização de dados***<br/>
Muitos algoritmos de aprendizado de máquina tentam encontrar tendências nos dados comparando variáveis de pontos de dados. No entanto, há um problema quando as variáveis estão em escalas drasticamente diferentes, fazendo com que os modelos deem mais atenção para dados com escalas maiores. Uma maneira de contornar tal situação é efetuando a normalização de dados, que significa deixar todas as variáveis em escalas parecidas.

Existem duas maneiras mais conhecidas para normalização de dados, a saber:

Normalização min-max: para cada variável, o valor mínimo dela é transformado em 0, o valor máximo é transformado em 1 e todos os outros valores são transformados em um decimal entre 0 e 1. Por exemplo, se o valor mínimo de um elemento era 20 e o valor máximo era 40, então 30 seria transformado em cerca de 0.5, uma vez que está entre 20 e 40. A fórmula é a seguinte: **novo_valor = (valor - min) / (max - min)**. A normalização min-max tem uma desvantagem bastante significativa: ela não lida muito bem com outliers.


Normalização Z-Score: é uma estratégia de normalização de dados que evita esse problema de valores discrepantes. A fórmula para a normalização Z-score é: **novo_valor = (valor - média) / desvio_padrão**. Se um valor for exatamente igual à média de todos os valores do elemento, ele será normalizado para 0. Se estiver abaixo da média, será um número negativo, e se estiver acima da média será um número positivo número. O tamanho desses números negativos e positivos é determinado pelo desvio padrão da variável original.