### Automatize fluxos de trabalho de aprendizado de máquina com pipelines

Existem trabalhos padrão
fluxos em um projeto de aprendizado de máquina que pode ser automatizado. Em Python
scikit-learn, Pipelines ajudam a de nir e automatizar claramente esses trabalhos
ows. Neste capítulo você
descobrirá Pipelines no scikit-learn e como você pode automatizar o aprendizado de máquina comum
trabalhar
ows. Depois de concluir esta lição, você saberá:
1. Como usar pipelines para minimizar o vazamento de dados.
2. Como construir um pipeline de modelagem e preparação de dados.
3. Como construir um pipeline de modelagem e extração de recursos.
Vamos começar.

#### Como automatizar fluxos de trabalho de aprendizado de máquina

Existem trabalhos padrão
fluxos em aprendizado de máquina aplicado. Padrão porque superam
problemas comuns como vazamento de dados em seu equipamento de teste. Python scikit-learn fornece um pipeline
utilitário para ajudar a automatizar o trabalho de aprendizado de máquina
ows. Os dutos funcionam permitindo uma linha
sequência de transformações de dados a serem encadeadas, culminando em um processo de modelagem que pode
ser avaliado.

O objetivo é garantir que todas as etapas do pipeline sejam restritas aos dados disponíveis
para a avaliação, como o conjunto de dados de treinamento ou cada dobra do procedimento de validação cruzada.
Você pode aprender mais sobre Pipelines no scikit-learn lendo a seção Pipeline1 do usuário
guia. Você também pode revisar a documentação da API para as classes Pipeline e FeatureUnion
e o módulo de pipeline.

#### Preparação de dados e pipeline de modelagem

Uma armadilha fácil de cair no aprendizado de máquina aplicado é vazar dados do seu conjunto de dados de treinamento
ao seu conjunto de dados de teste. Para evitar essa armadilha, você precisa de um equipamento de teste robusto com forte separação de treinamento e teste. Isso inclui a preparação de dados. A preparação de dados é uma maneira fácil de vazar
conhecimento de todo o conjunto de dados de treinamento para o algoritmo. Por exemplo, preparando seus dados
usar normalização ou padronização em todo o conjunto de dados de treinamento antes do aprendizado não
ser um teste válido porque o conjunto de dados de treinamento estaria em
uenciado pela escala dos dados
no conjunto de teste.

Os pipelines ajudam a evitar o vazamento de dados em seu equipamento de teste, garantindo que a preparação de dados
como a padronização é restrita a cada dobra do seu procedimento de validação cruzada. O exemplo
abaixo demonstra este importante trabalho de preparação de dados e avaliação de modelo
olá no
Conjunto de dados de início do diabetes dos índios Pima. O pipeline é definido com duas etapas:

1. Padronize os dados.
2. Aprenda um modelo de Análise Discriminante Linear.
   
O pipeline é então avaliado usando validação cruzada de 10 vezes.

In [None]:
# Create a pipeline that standardizes the data then creates a model
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
# load data
filename = 'pima-indians-diabetes.data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(filename, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]
# create pipeline
estimators = []
estimators.append(('standardize', StandardScaler()))
estimators.append(('lda', LinearDiscriminantAnalysis()))
model = Pipeline(estimators)
# evaluate pipeline
kfold = KFold(n_splits=10, random_state=7)
results = cross_val_score(model, X, Y, cv=kfold)
print(results.mean())

Observe como criamos uma lista Python de etapas que são fornecidas ao Pipeline para o processo
os dados. Observe também como o próprio Pipeline é tratado como um estimador e é avaliado em seu
inteiramente pelo procedimento de validação cruzada k-fold. A execução do exemplo fornece um resumo de
precisão da configuração no conjunto de dados.

In [None]:
print(results.mean())

#### Extração de recursos e pipeline de modelagem

A extração de recursos é outro procedimento suscetível ao vazamento de dados. Como a preparação de dados,
os procedimentos de extração de recursos devem ser restritos aos dados em seu conjunto de dados de treinamento. O
O pipeline fornece uma ferramenta útil chamada FeatureUnion, que permite os resultados de vários
procedimentos de seleção e extração de recursos a serem combinados em um conjunto de dados maior no qual um
modelo pode ser treinado. É importante ressaltar que toda a extração de recursos e a união de recursos ocorre
dentro de cada dobra do procedimento de validação cruzada. O exemplo abaixo demonstra o pipeline
de nido com quatro etapas:
1. Extração de Características com Análise de Componentes Principais (3 características).
2. Extração de características com seleção estatística (6 características).
3. União de recursos.
4. Aprenda um modelo de regressão logística.
O pipeline é então avaliado usando validação cruzada de 10 vezes.

In [None]:
# Create a pipeline that extracts features from the data then creates a model
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.pipeline import Pipeline
from sklearn.pipeline import FeatureUnion
from sklearn.linear_model import LogisticRegression
from sklearn.decomposition import PCA
from sklearn.feature_selection import SelectKBest
# load data
filename = 'pima-indians-diabetes.data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(filename, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]
# create feature union
features = []
features.append(('pca', PCA(n_components=3)))
features.append(('select_best', SelectKBest(k=6)))
feature_union = FeatureUnion(features)
# create pipeline
estimators = []
estimators.append(('feature_union', feature_union))
estimators.append(('logistic', LogisticRegression()))
model = Pipeline(estimators)
# evaluate pipeline
kfold = KFold(n_splits=10, random_state=7)
results = cross_val_score(model, X, Y, cv=kfold)
print(results.mean())

Observe como o FeatureUnion é seu próprio Pipeline que por sua vez é uma única etapa no nal
Pipeline utilizado para alimentar a Regressão Logística. Isso pode fazer você pensar em como começar
incorporando pipelines dentro de pipelines. A execução do exemplo fornece um resumo da precisão de
a configuração no conjunto de dados.

In [None]:
print(results.mean())

In [None]:
%reload_ext watermark
%watermark -a "Caique Miranda" -gu "caiquemiranda" -iv

### End.