Pipeline é um modulo da biblioteca scikit-learn que permite agrupar transformadores e preditores.

Vantagens de utilizar pipelines:

Melhora a produtividade.

Facilita o uso de técnicas de validação e seleção de modelos.

Evita erros de manipulação de conjuntos de treino e teste.

In [4]:
conda install scikit-learn

Collecting package metadata (repodata.json): ...working... done
Solving environment: ...working... done

## Package Plan ##

  environment location: C:\Users\Andre\Anaconda3

  added / updated specs:
    - scikit-learn


The following packages will be downloaded:

    package                    |            build
    ---------------------------|-----------------
    joblib-0.14.1              |             py_0         202 KB
    scikit-learn-0.22.1        |   py37h6288b17_0         6.3 MB
    ------------------------------------------------------------
                                           Total:         6.5 MB

The following NEW packages will be INSTALLED:

  joblib             pkgs/main/noarch::joblib-0.14.1-py_0
  scikit-learn       pkgs/main/win-64::scikit-learn-0.22.1-py37h6288b17_0



Downloading and Extracting Packages

scikit-learn-0.22.1  | 6.3 MB    |            |   0% 
scikit-learn-0.22.1  | 6.3 MB    |            |   0% 
scikit-learn-0.22.1  | 6.3 MB    | 1          |

In [16]:
pip install sklearn

Collecting sklearn
  Downloading sklearn-0.0.tar.gz (1.1 kB)
Building wheels for collected packages: sklearn
  Building wheel for sklearn (setup.py): started
  Building wheel for sklearn (setup.py): finished with status 'done'
  Created wheel for sklearn: filename=sklearn-0.0-py2.py3-none-any.whl size=1319 sha256=c4996b1bb8ebd5c37fa5c41eabe4b7222c143d22869351d532c37cd7f341f251
  Stored in directory: c:\users\andre\appdata\local\pip\cache\wheels\46\ef\c3\157e41f5ee1372d1be90b09f74f82b10e391eaacca8f22d33e
Successfully built sklearn
Installing collected packages: sklearn
Successfully installed sklearn-0.0
Note: you may need to restart the kernel to use updated packages.


In [6]:
# importanto o módulo.

from sklearn.pipeline import Pipeline

Vamos usar o pipeline para criar um objeto que encapsula a tarefa de pré-processamento e classificação (usando um algoritmo de Machine Learning)

In [8]:
# Importando o módulo de pré-processamento:

from sklearn.preprocessing import StandardScaler

In [9]:
# Em seguida importanto o módulo do nosso classificador (regressão logística, neste caso)

from sklearn.linear_model import LogisticRegression

In [11]:
# Carregando o dataset

from sklearn import datasets
dataset = datasets.load_iris()

In [13]:
# O próximo passo é separar as classes dos dados de treino.

X = dataset.data
y = dataset.target

In [19]:
# Agora vou utilizar o método train_test_split para separar os dados de treino e teste

from sklearn.model_selection import train_test_split

X_treino, X_teste, y_treino, y_teste = train_test_split(X, y)

Usando a pipeline após a separação dos dados.

In [20]:
# No código abaixo, foi criado um objeto chamado “pip_1” que será o pipeline que encapsula 
# um método de pré-processamento (StandardScaler) e um classificador (LogisticRegressĩon)

pip_1 = Pipeline([
    ('scaler',StandardScaler()),
    ('clf', LogisticRegression())
])

In [21]:
# Com o objeto criado, vamos usar o pipeline para aplicar o pré-processamento no dado e treinar o algoritmo.

pip_1.fit(X_treino,y_treino)

Pipeline(memory=None,
         steps=[('scaler',
                 StandardScaler(copy=True, with_mean=True, with_std=True)),
                ('clf',
                 LogisticRegression(C=1.0, class_weight=None, dual=False,
                                    fit_intercept=True, intercept_scaling=1,
                                    l1_ratio=None, max_iter=100,
                                    multi_class='auto', n_jobs=None,
                                    penalty='l2', random_state=None,
                                    solver='lbfgs', tol=0.0001, verbose=0,
                                    warm_start=False))],
         verbose=False)

In [24]:
# Calculando a acurácia desse modelo, fazendo uma validação cruzada.

import numpy as np
from sklearn.model_selection import cross_val_score

np.mean(cross_val_score(pip_1, X_treino, y_treino, cv=5)) # O parâmetro cv significa uma validação cruzada de 5 folds.

0.9371541501976285

Criando pipelines

Criando um outro pipeline que usará outra técnica de pré-processamento nos dados.

In [25]:
from sklearn.preprocessing import MinMaxScaler

# Com o comando acima, importamos um outro pré-processador para aplicar nos dados

In [26]:
# Criando o novo pipeline.

pip_2 = Pipeline([
    ('min_max_scaler', MinMaxScaler()),
    ('clf', LogisticRegression())
])

In [27]:
# Aplicar a técnica no novo pré-processador e treinar o algoritmo.

pip_2.fit(X_treino,y_treino)

Pipeline(memory=None,
         steps=[('min_max_scaler',
                 MinMaxScaler(copy=True, feature_range=(0, 1))),
                ('clf',
                 LogisticRegression(C=1.0, class_weight=None, dual=False,
                                    fit_intercept=True, intercept_scaling=1,
                                    l1_ratio=None, max_iter=100,
                                    multi_class='auto', n_jobs=None,
                                    penalty='l2', random_state=None,
                                    solver='lbfgs', tol=0.0001, verbose=0,
                                    warm_start=False))],
         verbose=False)

In [28]:
from sklearn.model_selection import cross_val_score

np.mean(cross_val_score(pip_2, X_treino, y_treino, cv=5))

0.9019762845849802

In [29]:
# O resultado foi diferente, isso mostra que o segundo tipo de pré-processamento ficou pior que o primeiro.