# Engenharia de Software para Ciência de Dados - PUC-Rio

### Pré-Processamento de Dados
Marcos Kalinowski e Tatiana Escovedo

**Referências:** https://scikit-learn.org/stable/modules/classes.html#module-sklearn.preprocessing

In [None]:
# configuração para não exibir os warnings
import warnings
warnings.filterwarnings("ignore")

# Importação de pacotes
import pandas as pd
import numpy as np
from sklearn.preprocessing import MinMaxScaler # para normalização
from sklearn.preprocessing import StandardScaler # para padronização
from sklearn.preprocessing import OrdinalEncoder # para ordinal encoding
from sklearn.preprocessing import OneHotEncoder # para one-hot encoding e dummy encoding
from sklearn.preprocessing import LabelEncoder # para label encoding

## Transformações Numéricas

Muitos algoritmos de machine learning apresentam um melhor desempenho quando os atributos de entrada numéricos são redimensionados (exemplos: algoritmos que trabalham com a soma ponderada de entradas, como regressão linear, regressão logística e redes neurais; e algoritmos baseados em distância ou produto interno dos atributos de entrada, como o KNN e SVM).

As duas técnicas mais populares para redimensionar dados numéricos antes da modelagem são **Normalização** e **Padronização**.

In [None]:
# dados que iremos usar nos exemplos
data = pd.DataFrame([[100, 0.001],
				[8, 0.05],
				[50, 0.005],
				[88, 0.07],
				[4, 0.1]])
print(data)

     0      1
0  100  0.001
1    8  0.050
2   50  0.005
3   88  0.070
4    4  0.100


### Normalização

A Normalização redimensiona os dados do intervalo original para um novo intervalo entre 0 e 1. São utilizados os valores mínimo e máximo observáveis, sendo possível estimar esses valores a partir dos dados disponíveis.

*y = (x – min) / (max – min)*

Podemos normalizar os dados usando o objeto **MinMaxScaler**, do pacote **Scikit-learn**. A escala padrão é o intervalo [0,1], mas é possível especificar outro intervalo através do parâmetro *feature_range*, que será utilizado para todas as variáveis normalizadas.

https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.MinMaxScaler.html

In [None]:
# definindo o transformador como min max scaler
scaler = MinMaxScaler()

# transformando os dados
scaled = scaler.fit_transform(data)
print(scaled)

[[1.         0.        ]
 [0.04166667 0.49494949]
 [0.47916667 0.04040404]
 [0.875      0.6969697 ]
 [0.         1.        ]]


### Padronização

A Padronização redimensiona a distribuição dos valores observados para que a sua média seja 0 e o seu desvio padrão 1 (normal padrão).

A padronização pressupõe que suas observações sigam uma distribuição Normal. Ainda é possível padronizar seus dados mesmo se essa premissa não for verdadeira, mas talvez os resultados sejam prejudicados.

*y = (x - média) / desvio padrão*

Podemos padronizar os dados usando o objeto **StandardScaler**, do pacote **Scikit-learn**.

https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html

In [None]:
# definindo o transformador como standard scaler
scaler = StandardScaler()

# transformando os dados
scaled = scaler.fit_transform(data)
print(scaled)

[[ 1.26398112 -1.16389967]
 [-1.06174414  0.12639634]
 [ 0.         -1.05856939]
 [ 0.96062565  0.65304778]
 [-1.16286263  1.44302493]]


**Quando Normalizar e quando Padronizar?**

* Se a distribuição é normal, padronize. Caso contrário, normalize.
* Os problemas de modelagem preditiva são muitas vezes complexos, não sendo clara a melhor transformação para realizar.
* Na dúvida, use a normalização. Se tiver tempo, explore os modelos com os dados sem transformação, com a padronização e com a normalização e veja se os resultados são significativamente diferentes e se o custo x benefício vale a pena.

## Transformações Categóricas

Algumas implementações de modelos de Machine Learning requerem que os atributos sejam numéricos, sendo necessário codificar os atributos categóricos em numéricos antes de treinar e utilizar o modelo.

Usamos o **ordinal encoding** para as variáveis categóricas ordinais e o **one-hot encoding** para as variáveis categóricas nominais.

In [None]:
# dados que iremos usar nos exemplos
data = np.asarray([['CMMIL2'], ['CMMIL3'], ['CMMIL4'], ['CMMIL3'], ['CMMIL4']])
print(data)

[['CMMIL2']
 ['CMMIL3']
 ['CMMIL4']
 ['CMMIL3']
 ['CMMIL4']]


### Ordinal Encoding

No *ordinal encoding*, cada categoria única é transformada em um número inteiro, mantendo o relacionamento ordinal entre as variáveis. Este encoding não deve ser utilizado quando a variável não é ordinal, pois seria criada uma ordenação que não existe.

O *ordinal encoding* é implementado pelo objeto **OrdinalEncoder**, do pacote **Scikit-learn**. Por padrão, serão atribuídos inteiros aos valores categóricos ordinais em ordem alfabética, mas é possível especificar a ordenação desejada através do parâmetro *categories*.

A classe OrdinalEncoder é utilizada com atributos em formato matricial (organizadas em linhas e colunas). Se quisermos codificar uma variável target categórica, devemos usar a classe **LabelEncoder**, similar ao **OrdinalEncoder**, mas que espera um input de 1 dimensão apenas.

http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OrdinalEncoder.html

https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html

In [None]:
# definindo o transformador como ordinal encoding
encoder = OrdinalEncoder()

# transformando os dados
result = encoder.fit_transform(data)
print(result)

[[0.]
 [1.]
 [2.]
 [1.]
 [2.]]


In [None]:
target = np.asarray(['Sim', 'Não', 'Sim'])

# definindo o transformador como label encoding
encoder = LabelEncoder()

# transformando os dados
result = encoder.fit_transform(target)
print(result)

[1 0 1]


### One Hot Encoding

Para variáveis categóricas nominais, sem ordenação existente entre elas, devemos utilizar o *one-hot encoding*. Em vez de uma variável inteira, é criada uma variável binária para cada valor único da variável. Este nome se dá porque para cada possível categoria, apenas um bit é "ativado".

O one-hot encoding é implementado pelo objeto **OneHotEncoder**, do pacote **Scikit-learn**, que ordena as categorias alfabeticamente antes de aplicar a transformação. É possível especificar a lista de categorias através do parâmetro *categories*.

OBS: Espera-se que o conjunto de treinamento contenha pelo menos um exemplo de cada categoria se as categorias não forem explicitamente definidas. Se os novos dados (conjunto de teste, por exemplo) tiverem categorias não vistas no treinamento, é possível configurar o parâmetro "handle_unknown" como "ignore" para que não ocorra um erro.

http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html

In [None]:
# definindo o transformador como one hot encoding
encoder = OneHotEncoder(sparse=False)

# transformando os dados
onehot = encoder.fit_transform(data)
print(onehot)

[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]
 [0. 1. 0.]
 [0. 0. 1.]]


### Dummy Variable Encoding

O one-hot encoding cria uma variável binária para cada categoria, mas esta representação inclui redundância. Por exemplo, se soubermos que [1, 0, 0] representa "azul" e [0, 1, 0] representa "verde", não precisamos de outra variável binária [0, 0, 1] para representar "vermelho". Poderíamos usar [0, 0] para "vermelho", [1, 0] para "azul" e [0, 1] para "verde". O *dummy encoding* representa C categorias em C-1 variáveis ​​binárias.

A codificação dummy também é implementada pelo objeto **OneHotEncoder**, do pacote **Scikit-learn**, usando o parâmetro *drop* para indicar qual categoria receberá todos os valores zero, chamada de "linha de base". Podemos usar *first* para que a primeira categoria seja usada (as categorias são ordenadas alfabeticamente).

In [None]:
# definindo o transformador como one hot encoding (com Dummy variable encoder)
encoder = OneHotEncoder(drop='first', sparse=False)

# transformando os dados
onehot = encoder.fit_transform(data)
print(onehot)

[[0. 0.]
 [1. 0.]
 [0. 1.]
 [1. 0.]
 [0. 1.]]


OBS: Se tivermos no mesmo dataset atributos dos dois tipos (numéricos e categóricos), será necessário transformar/codificar cada atributo (coluna) separadamente e concatenar todas as variáveis ​​preparadas novamente em uma única matriz para ajustar ou avaliar o modelo (ou usar o **ColumnTransformer** para aplicar condicionalmente diferentes transformações de dados a diferentes variáveis ​​de entrada).

https://scikit-learn.org/stable/modules/generated/sklearn.compose.ColumnTransformer.html

## Exercícios

In [None]:
# configuração para não exibir os warnings
import warnings
warnings.filterwarnings("ignore")

# Importação de pacotes
import pandas as pd
import numpy as np
from sklearn.preprocessing import MinMaxScaler # para normalização
from sklearn.preprocessing import StandardScaler # para padronização

In [None]:
# Carrega arquivo csv usando Pandas usando uma URL

# Informa a URL de importação do dataset
url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"

# Informa o cabeçalho das colunas
colunas = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']

# Lê o arquivo utilizando as colunas informadas
dataset = pd.read_csv(url, names=colunas, skiprows=0, delimiter=',')

In [None]:
# Pegando apenas os dados do dataset e guardando em um array
array = dataset.values

# Separando o array em componentes de input e output
X = array[:,0:8]
Y = array[:,8]

In [None]:
# 1. Normalize o dataset usando MinMaxScaler

In [None]:
# 2. Padronize o dataset usando StandardScaler 

## Gabarito

In [None]:
# 1. Normalize o dataset usando MinMaxScaler

# Normalizando os dados
scaler = MinMaxScaler().fit(X)
normalizedX = scaler.transform(X)

# Sumarizando os dados transformados
print("Dados Originais: \n\n", X)
print("\nDados Normalizados: \n\n", normalizedX[0:5,:])

In [None]:
# 2. Padronize o dataset usando StandardScaler 

# Padronizando os dados
scaler = StandardScaler().fit(X)
standardX = scaler.transform(X)

# Sumarizando os dados transformados
print("Dados Originais: \n\n", X)
print("\nDados Padronizados: \n\n", standardX[0:5,:])