## Uso de Pipelines

1. carregar o conjunto de dados das flores "iris" e agregar valores faltantes.

In [1]:
from sklearn.datasets import load_iris
import numpy as np
iris = load_iris()
iris_data = iris.data
mask = np.random.binomial(1, .25, iris_data.shape).astype(bool)
iris_data[mask] = np.nan
iris_data[:5]

array([[5.1, nan, nan, nan],
       [nan, nan, 1.4, 0.2],
       [nan, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [nan, nan, nan, 0.2]])

## Como fazer

O propósito vai ser atribuir valores faltantes no conjunto de dado para depois fazer um PCA no conjunto de dados correto. 
E pipelines vai facilitar muito.

1. Carregar as bibliotecas

In [2]:
from sklearn import pipeline, preprocessing, decomposition
from sklearn.impute import SimpleImputer

2. criar classes *'imputer'* (atribuidor de valores) e *PCA*

In [3]:
pca = decomposition.PCA()
atribuidor = SimpleImputer()

3. agora que se tem as classes que são precisas, carrega-lo no pipeline (canal)

In [4]:
pipe = pipeline.Pipeline([("imputer", atribuidor),("pca", pca)])
iris_data_transformada = pipe.fit_transform(iris_data)
iris_data_transformada[:5]

array([[-0.23126646, -0.73465988,  0.03022253,  0.25659324],
       [-2.39053642,  0.57627454, -0.21933763, -0.47879738],
       [-2.49291919,  0.64484652, -0.2055265 , -0.37637075],
       [-2.67545115, -0.62652183, -0.203684  , -0.02616372],
       [-0.27685864, -0.0032955 , -0.91271701, -0.15146374]])

## Como Funciona

Cada passo no pipeline é enviado para um objeto pipeline em uma lista de tuplas, com o primeiro elemento se obtém o nome e o segundo obtem o objeto atual. Por baixo dos panos, estos passos entram em loop finito quando o método como o "fit_transform" é utilizado como objeto pipeline.

Para adicionar mais potência pode ser usado o `StandarScaler`, mas a função `pipeline` criará automaticamente os nomes para o objeto pipeline

In [5]:
pipe2 = pipeline.make_pipeline(atribuidor, pca)
pipe2.steps

[('simpleimputer', SimpleImputer()), ('pca', PCA())]

In [6]:
iris_data_transformada2 = pipe2.fit_transform(iris_data)
iris_data_transformada2[:5]

array([[-0.23126646, -0.73465988,  0.03022253,  0.25659324],
       [-2.39053642,  0.57627454, -0.21933763, -0.47879738],
       [-2.49291919,  0.64484652, -0.2055265 , -0.37637075],
       [-2.67545115, -0.62652183, -0.203684  , -0.02616372],
       [-0.27685864, -0.0032955 , -0.91271701, -0.15146374]])

## Tem mais

Foi visto sobre pipelines num nível elevado, mas é provável que tenha-se que aplicar uma tranformação base. Então os atributos em cada objeto de uma pipeline pode ser acessado usando a função `set_params`, onde o parâmetro segue a convenção `<step_name>__<step_parameter>`. Por exemplo, será mudado o objeto `pca`  para usar dois componentes:

In [7]:
pipe2.set_params(pca__n_components=2)

Olhe que o `n_components=2` na saída. Só como teste, podemos produzir, a mesma transformação  que tenha feito duas vezes, e a saída será uma matriz **Nx2**

In [9]:
iris_data_transformada3 = pipe2.fit_transform(iris_data)
iris_data_transformada3[:5]

array([[-0.23126646, -0.73465988],
       [-2.39053642,  0.57627454],
       [-2.49291919,  0.64484652],
       [-2.67545115, -0.62652183],
       [-0.27685864, -0.0032955 ]])

In [12]:
iris_data_transformada3[:5].shape

(5, 2)

In [13]:
iris_data[:5].shape

(5, 4)