# Preprocessing

O módulo `preprocessing` do `sklearn` contém diversas funções que realizam a transformações de conjuntos de dados a fim de gerar representações mais favoráveis à estimação dos modelos de aprendizado de máquina. 

**Padronização:** É um requerimento comum para diversos modelos e transformações lineares. Consiste em escalar todos os dados com base em estatísticas obtidas no período de treinamento dos modelos.

**Encoding:** Consiste na transformação de dados categóricos em outras formas que façam mais sentido. Podem ser transformações binárias, representações numéricas das categorias etc. 

**Fonte:** <https://scikit-learn.org/stable/modules/preprocessing.html>

**Obs.:** O método `inverse_transform` realiza a conversão das variáveis transformadas para seus valores originais, na maioria dos casos.

### Importação dos Dados de Teste

In [16]:
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score, roc_curve, auc

# Manipular dados
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

df = pd.read_csv("../dados/titanic.csv")
df.drop("Name", axis=1, inplace=True)
df.dropna(inplace = True)

X = df.drop("Survived", axis = 1)
y = df["Survived"]

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state = 42)

num_features = ["Age", "Fare"]
cat_features = ["Sex", "Embarked"]

df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,female,38.0,1,0,PC 17599,71.2833,C85,C
3,4,1,1,female,35.0,1,0,113803,53.1,C123,S
6,7,0,1,male,54.0,0,0,17463,51.8625,E46,S


## Principais Ferramentas de Padronização

#### StandardScaler()

Realiza a subtração de cada variável pela sua média e pelo seu desvio-padrão. Cada observação será representada pela distância em relação à média (em desvios-padrão). 

$$X_{novo} = \frac{X_{i} - \mu}{\sigma}$$

Caso as observações sigam uma distribuição normal, as variáveis padronizadas passam a seguir uma distribuição normal-padrão, ou seja:

$$X = N (\mu = 0, \sigma = 1)$$

In [5]:
from sklearn.preprocessing import StandardScaler

X_train_num = X_train[num_features]
X_test_num = X_test[num_features]

scaler = StandardScaler()
X_train_num = scaler.fit_transform(X_train_num) # Calcula as estatísticas no treino, e transforma
X_test_num = scaler.transform(X_test_num) # Transforma o teste com as estatísticas do treino

#### MinMaxScaler()

Transforma os dados para que se mantenham dentro de determinado intervalo pré-fixado, mas preservando as distâncias relativas (proporcionalmente) entre as observações. 

$$X_{novo} = \frac{X_{i} - min(X)}{max(X) - min(X)}$$

In [6]:
from sklearn.preprocessing import MinMaxScaler

X_train_num = X_train[num_features]
X_test_num = X_test[num_features]

scaler = MinMaxScaler()
X_train_num = scaler.fit_transform(X_train_num) # Calcula as estatísticas no treino, e transforma
X_test_num = scaler.transform(X_test_num) # Transforma o teste com as estatísticas do treino



#### RobustScaler()

Realiza processo similar ao `StandardScaler`, porém utiliza estatísticas menos sensíveis à presença de outliers como a mediana e a distância inter-quartil, conhecida como Interquartile Range (Percentil 75% - Percentil 25%).

$$X_{novo} = \frac{X_{i} - med(X)}{IQR}$$

In [9]:
from sklearn.preprocessing import RobustScaler

X_train_num = X_train[num_features]
X_test_num = X_test[num_features]

scaler = RobustScaler()
X_train_num = scaler.fit_transform(X_train_num) # Calcula as estatísticas no treino, e transforma
X_test_num = scaler.transform(X_test_num) # Transforma o teste com as estatísticas do treino



#### Normalizer()

Consiste em escalar cada **vetor de observações** (linha), para que apresente uma norma (comprimento) igual a 1. 

$$ x_{i}^2 + y_{i}^2 + ... + z_{i}^2 = 1$$

In [8]:
from sklearn.preprocessing import Normalizer

X_train_num = X_train[num_features]
X_test_num = X_test[num_features]

scaler = Normalizer()
X_train_num = scaler.fit_transform(X_train_num) # Calcula as estatísticas no treino, e transforma
X_test_num = scaler.transform(X_test_num) # Transforma o teste com as estatísticas do treino



## Principais Ferramentas de Encoding

#### OrdinalEncoder()

Associa cada categoria contida em uma variável a um número inteiro. NA's não são convertidos por padrão.

In [21]:
from sklearn.preprocessing import OrdinalEncoder

X_train_cat = X_train[cat_features]
X_test_cat = X_test[cat_features]

encoder = OrdinalEncoder()
X_train_cat = encoder.fit_transform(X_train_cat) # Calcula as estatísticas no treino, e transforma
X_test_cat = encoder.transform(X_test_cat) # Transforma o teste com as estatísticas do treino

#### OneHotEncoder()

Cria variáveis binárias (0 ou 1) que representam a existência de determinada categoria naquela observação. Exemplo imaginando um dataset:

$$ \frac{male}{female} = \frac{0|1}{1|0}$$

No caso, o vetor $x_{1}$ representa a ocorrência de "female" e o vetor $x_{2}$ representa a ocorrência de "male".

In [25]:
from sklearn.preprocessing import OneHotEncoder

X_train_cat = X_train[cat_features]
X_test_cat = X_test[cat_features]

encoder = OneHotEncoder()
X_train_cat = encoder.fit_transform(X_train_cat) # Calcula as estatísticas no treino, e transforma
X_test_cat = encoder.transform(X_test_cat) # Transforma o teste com as estatísticas do treino

#### KBinsDiscretizer

Transforma variáveis contínuas em discretas, mapeando-as entre k intervalos. 

In [27]:
from sklearn.preprocessing import KBinsDiscretizer

X_train_num = X_train[num_features]
X_test_num = X_test[num_features]

encoder = KBinsDiscretizer()
X_train_num = encoder.fit_transform(X_train_num) # Calcula as estatísticas no treino, e transforma
X_test_num = encoder.transform(X_test_num) # Transforma o teste com as estatísticas do treino

#### Binarizer()

Classifica as observações como 0 ou 1 caso sejam superiores a determinado ponto de corte.

In [26]:
from sklearn.preprocessing import Binarizer

X_train_num = X_train[num_features]
X_test_num = X_test[num_features]

encoder = Binarizer()
X_train_num = encoder.fit_transform(X_train_num) # Calcula as estatísticas no treino, e transforma
X_test_num = encoder.transform(X_test_num) # Transforma o teste com as estatísticas do treino