# Pipeline

Existem fluxos de trabalho (workflows) em um projeto de aprendizado de máquina que podem ser automatizados. No Python scikit-learn, Pipelines ajudam a definir e automatizar esses workflows. Pipeline é o encadeamento de operações que poderiam ser realizadas separadamente.

O Python scikit-learn fornece um utilitário chamado Pipeline para ajudar a automatizar fluxos de trabalho de aprendizado de máquina. Os pipelines funcionam permitindo que uma sequência linear de transformações de dados seja encadeada, culminando em um processo de modelagem mais simples e com menos linhas de código.

http://scikit-learn.org/stable/modules/generated/sklearn.pipeline.Pipeline.html

## Exemplo 1 - Criando um Pipeline que padroniza os dados e cria o modelo

In [1]:
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis

# Carrega os dados e preparar os datasets
#url = "https://archive.ics.uci.edu/ml/machine-learning-databases/pima-indians-diabetes/pima-indians-diabetes.data"
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv('data/pima-data.csv', names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]

# Cria o pipeline - encadeamento de 2 operações em apenas uma estrutura
estimators = []
estimators.append(('standardize', StandardScaler()))
estimators.append(('lda', LinearDiscriminantAnalysis()))
modelo = Pipeline(estimators)

# Avalia o Modelo
seed = 7
kfold = KFold(n_splits= 10, shuffle=True, random_state = seed)
results = cross_val_score(modelo, X, Y, cv = kfold)
print('Acurácia do Modelo Preditivo: ', results.mean())

Acurácia do Modelo Preditivo:  0.7669685577580315


## Exemplo 2 - Feature Extraction e Modelagem

In [2]:
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.pipeline import Pipeline
from sklearn.pipeline import FeatureUnion
from sklearn.linear_model import LogisticRegression
from sklearn.decomposition import PCA
from sklearn.feature_selection import SelectKBest

# Carrega os dados e preparar os datasets
#url = "https://archive.ics.uci.edu/ml/machine-learning-databases/pima-indians-diabetes/pima-indians-diabetes.data"
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv('data/pima-data.csv', names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]

# Feature Union - Cria uma lista contendo o resultado da redução de dimensionalidade com PCA e seleção dos melhores atributos
features = []
features.append(('pca', PCA(n_components = 3)))
features.append(('select_best', SelectKBest(k = 6)))
feature_union = FeatureUnion(features)

# Cria o pipeline - utiliza o objeto criado no item anterior, mais a criação do modelo em um mesmo objeto. 
# Pipeline é o encadeamento de operações que poderiam ser realizadas separadamente.
estimators = []
estimators.append(('feature_union', feature_union))
estimators.append(('logistic', LogisticRegression()))
modelo = Pipeline(estimators)

# Avaliação do Modelo
seed = 7
kfold = KFold(n_splits= 10, shuffle=True, random_state = seed)
results = cross_val_score(modelo, X, Y, cv = kfold)
print('Acurácia do Modelo Preditivo: ', results.mean())

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver opt

Acurácia do Modelo Preditivo:  0.769565960355434


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver opt

O resultado do Pipeline é um objeto que chamamos de modelo, que contém diversas operações 
dentro de apenas uma única estrutura. Essas operações poderia ser feitas separadamente, mas o Pipeline automatiza
as operações concatenando tudo em um único objeto.

In [3]:
print(modelo)

Pipeline(steps=[('feature_union',
                 FeatureUnion(transformer_list=[('pca', PCA(n_components=3)),
                                                ('select_best',
                                                 SelectKBest(k=6))])),
                ('logistic', LogisticRegression())])
