# Pipelines e transformadores compostos

## Transformadores

A biblioteca Scikit-Learn tem vários componentes chamados **Transformadores** (Transformers) para transformar os dados. Um transformador é um objeto de uma classe que implemente os seguintes métodos:

- `fit(X_train, y_train = None)`
    - Recebe as *features* `X_train` e "treina" o transformador. 
    - Recebe também opcionalmente o *target* `y_train` por compatibilidade com *estimadores* (e.g. modelos), mas não usa.
- `transform(X_test)`
    - Recebe um novo conjunto de *features* `X_test` e aplica a transformação aprendida (no passo `fit`) aos dados.

Vamos ver alguns exemplos de transformadores do Scikit-Learn:

### StandardScaler

O `sklearn.preprocessing.StandardScaler` realiza a normalização de cada coluna do dataset:

- No método `fit` calcula e armazena a média e o desvio padrão de cada coluna do dataset.
- No método `transform` aplica a cada coluna a fórmula

$$
z = \frac{(x - m)}{s}
$$

onde $m$ é o valor médio da coluna e $s$ é o desvio padrão da coluna. Vamos ver um exemplo:

In [1]:
from IPython import get_ipython, display

# Vou usar o magic %reset -f para limpar as variáveis do kernel antes de
# cada exemplo, para evitar problemas de variáveis globais e garantir
# que o exemplo é autocontido.
#
# Estou usando a versão sem "%" para não ter problemas com o linting.
get_ipython().run_line_magic('reset', '-sf')

In [2]:
import numpy as np

# Faz uns dados falsos para testar o StandardScaler.
X_train = np.array(
    [
        [1, 2],
        [3, 4],
        [5, 6],
        [7, 8],
    ],
    dtype=np.float64,
)
print(X_train)

[[1. 2.]
 [3. 4.]
 [5. 6.]
 [7. 8.]]


In [3]:
# Mostra a média de cada coluna dos dados originais.
print(X_train.mean(axis=0))

[4. 5.]


In [4]:
# Mostra o desvio padrão de cada coluna dos dados originais.
print(X_train.std(axis=0))

[2.23606798 2.23606798]


In [5]:
from sklearn.preprocessing import StandardScaler

# Cria um scaler.
scaler = StandardScaler()

# Mostra o scaler antes de treinar, vai aparecer laranja indicando que não foi
# treinado ainda.
display(scaler)

In [6]:
# Treina o scaler nos dados.
scaler.fit(X_train)

# Mostra o scaler depois de treinar, vai aparecer azul indicando 
# que foi treinado.
display(scaler)

In [7]:
# Usa o scaler para transformar os dados.
X_train_scaled = scaler.transform(X_train)

print(X_train_scaled)

[[-1.34164079 -1.34164079]
 [-0.4472136  -0.4472136 ]
 [ 0.4472136   0.4472136 ]
 [ 1.34164079  1.34164079]]


In [8]:
# Mostra a média de cada coluna dos dados transformados.
print(np.mean(X_train_scaled, axis=0))

[0. 0.]


In [9]:
# Mostra o desvio padrão de cada coluna dos dados transformados.
print(np.std(X_train_scaled, axis=0))

[1. 1.]


Note que aplicar a transformação do `scaler` aos mesmos dados em que foi treinado resulta em um *dataset* com média zero e desvio padrão $1$ em cada coluna, como esperado. A aplicação de `fit` seguido de `transform` no mesmo *dataset* pode ser feita de uma vez só com o método `fit_transform`:

In [10]:
X_train_scaled = scaler.fit_transform(X_train)

print(X_train_scaled)

[[-1.34164079 -1.34164079]
 [-0.4472136  -0.4472136 ]
 [ 0.4472136   0.4472136 ]
 [ 1.34164079  1.34164079]]


Agora vamos testar o `scaler` já treinado em outro *dataset*:

In [12]:
X_test = np.array(
    [
        [3, 1],
        [4, 1],
        [5, 9],
        [2, 6],
        [5, 3],
    ],
    dtype=np.float64,
)

print(X_test.mean(axis=0))
print(X_test.std(axis=0))

[3.8 4. ]
[1.16619038 3.09838668]


In [13]:
X_test_scaled = scaler.transform(X_test)

print(X_test_scaled)

[[-0.4472136  -1.78885438]
 [ 0.         -1.78885438]
 [ 0.4472136   1.78885438]
 [-0.89442719  0.4472136 ]
 [ 0.4472136  -0.89442719]]


In [14]:
print(X_test_scaled.mean(axis=0))
print(X_test_scaled.std(axis=0))

[-0.08944272 -0.4472136 ]
[0.52153619 1.38564065]
