# <font color='blue'>Data Science Academy - Machine Learning</font>

# <font color='blue'>Capítulo 8 - Pipeline</font>

Existem fluxos de trabalho (workflows) em um projeto de aprendizado de máquina que podem ser automatizados. No Python scikit-learn, Pipelines ajudam a definir e automatizar esses workflows. Pipeline é o encadeamento de operações que poderiam ser realizadas separadamente.

O Python scikit-learn fornece um utilitário chamado Pipeline para ajudar a automatizar fluxos de trabalho de aprendizado de máquina. Os pipelines funcionam permitindo que uma sequência linear de transformações de dados seja encadeada, culminando em um processo de modelagem mais simples e com menos linhas de código.

http://scikit-learn.org/stable/modules/generated/sklearn.pipeline.Pipeline.html

## Exemplo 1 - Criando um Pipeline que padroniza os dados e cria o modelo

In [1]:
import pandas as pd

In [2]:
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = pd.read_csv("diabetes.csv")
dataframe.head()

Unnamed: 0,6,148,72,35,0,33.6,0.627,50,1
0,1,85,66,29,0,26.6,0.351,31,0
1,8,183,64,0,0,23.3,0.672,32,1
2,1,89,66,23,94,28.1,0.167,21,0
3,0,137,40,35,168,43.1,2.288,33,1
4,5,116,74,0,0,25.6,0.201,30,0


In [3]:
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis

# Carrega os dados e preparar os datasets
dataframe = read_csv("diabetes.csv")
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]

# Cria o pipeline - encadeamento de 2 operações em apenas uma estrutura
estimators = []
estimators.append(('standardize', StandardScaler()))
estimators.append(('lda', LinearDiscriminantAnalysis()))
modelo = Pipeline(estimators)

# Avalia o Modelo
seed = 7
kfold = KFold(n_splits = 10, random_state = seed)
results = cross_val_score(modelo, X, Y, cv = kfold)
print('Acurácia do Modelo Preditivo: ', results.mean())

Acurácia do Modelo Preditivo:  0.7745557074504443


## Exemplo 2 - Feature Extraction e Modelagem

In [4]:
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.pipeline import Pipeline
from sklearn.pipeline import FeatureUnion
from sklearn.linear_model import LogisticRegression
from sklearn.decomposition import PCA
from sklearn.feature_selection import SelectKBest


# Carrega os dados e preparar os datasets
dataframe = read_csv("diabetes.csv")

array = dataframe.values
X = array[:,0:8]
Y = array[:,8]

# Feature Union - Cria uma lista contendo o resultado da redução de dimensionalidade com PCA e seleção dos melhores atributos
features = []
features.append(('pca', PCA(n_components = 3)))
features.append(('select_best', SelectKBest(k = 6)))
feature_union = FeatureUnion(features)

# Cria o pipeline - utiliza o objeto criado no item anterior, mais a criação do modelo em um mesmo objeto. 
# Pipeline é o encadeamento de operações que poderiam ser realizadas separadamente.
estimators = []
estimators.append(('feature_union', feature_union))
estimators.append(('logistic', LogisticRegression()))
modelo = Pipeline(estimators)

# Avaliação do Modelo
seed = 7
kfold = KFold(n_splits = 10, random_state = seed)
results = cross_val_score(modelo, X, Y, cv = kfold)
print('Acurácia do Modelo Preditivo: ', results.mean())

Acurácia do Modelo Preditivo:  0.7745386192754614


O resultado do Pipeline é um objeto que chamamos de modelo, que contém diversas operações 
dentro de apenas uma única estrutura. Essas operações poderia ser feitas separadamente, mas o Pipeline automatiza
as operações concatenando tudo em um único objeto.

In [5]:
print(modelo)

Pipeline(memory=None,
     steps=[('feature_union', FeatureUnion(n_jobs=1,
       transformer_list=[('pca', PCA(copy=True, iterated_power='auto', n_components=3, random_state=None,
  svd_solver='auto', tol=0.0, whiten=False)), ('select_best', SelectKBest(k=6, score_func=<function f_classif at 0x1a0b26e6a8>))],
       transfor...ty='l2', random_state=None, solver='liblinear', tol=0.0001,
          verbose=0, warm_start=False))])


### Fim

### Obrigado - Data Science Academy - <a href="http://facebook.com/dsacademybr">facebook.com/dsacademybr</a>