## Selección de Parámetros y Creación de Pipelines (Linea de Ensamblaje)

### Creando y usando un pipeline

> <b>Pipelining</b>
* `Pipeline(steps=[...])` - donde steps puede ser una lista de procesos por los cuales los datos van a pasar, en la forma de un dataset, o un diccionario que incluya los parametros en cada paso como sus valores
* Por ejemplo, acá vemos una transformación (SelectKBest) y una clasificación (SVC) ejecutada de manera unitaria en la forma de un pipeline.

Ver un ejemplo completo [acá](http://scikit-learn.org/stable/auto_examples/feature_stacker.html)

Nota:  Si se desean efectuar <b>multiples transformaciones</b> dentro de un solo pipeline, puede intentarse usar [FeatureUnion](http://scikit-learn.org/stable/modules/generated/sklearn.pipeline.FeatureUnion.html#sklearn.pipeline.FeatureUnion)

In [None]:
# Imports for python 2/3 compatibility

from __future__ import absolute_import, division, print_function, unicode_literals

# For python 2, comment these out:
# from builtins import range

In [None]:
from sklearn.cross_validation import train_test_split
from sklearn.svm import SVC
from sklearn.pipeline import Pipeline
from sklearn.feature_selection import SelectKBest, chi2
from sklearn.datasets import load_iris

iris = load_iris()
X, y = iris.data, iris.target

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3)

# Instancia de selección de atributos
selection = SelectKBest(chi2, k = 2)

# Instancia de clasificador
clf = SVC(kernel = 'linear')

# Creación del pipeline
pipeline = Pipeline([("feature selection", selection), ("classification", clf)])

# Entrenamiento/Ajuste del pipeline
pipeline.fit(X, y)

In [None]:
# Mlxtend (machine learning extensions) es una libreria de Python con herramientas útiles para ingeniería de datos:
# Homepage: http://rasbt.github.io/mlxtend/

!pip install msgpack mlxtend

In [None]:
import numpy as np
from mlxtend.plotting import plot_decision_regions

# Obtener estimados para el set de prueba con el pipeline que creamos
y_pred = pipeline.predict(X_test)

# Uso de mlxtend para mostrar las regiones de decisión del clasificador SVC
fig, axarr = plt.subplots(1, 2, figsize=(12,5), sharex=True, sharey=True)

# Graficar la región de decisión para X_train y y_train. Nótese que el pipeline no transforma a X usando
# el componente de SelectKBest, por lo que debemos transformarlos acá:
X_train_transformed = selection.transform(X_train)
X_test_transformed = selection.transform(X_test)

plot_decision_regions(X_train_transformed, y_train, clf=clf, legend=2, ax= axarr[0])
axarr[0].set_title("Decision Region (Trained)")

plot_decision_regions(X_test_transformed, y_pred, clf=clf, legend=2, ax= axarr[1])
axarr[1].set_title("Decision Region (Predicted)")

### Búsqueda en el Espacio de Parámetros con `GridSearchCV`

In [None]:
from sklearn.model_selection import GridSearchCV

from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression

poly = PolynomialFeatures(include_bias = False)
lm = LinearRegression()

pipeline = Pipeline([("polynomial_features", poly),
                         ("linear_regression", lm)])

param_grid = dict(polynomial_features__degree = list(range(1, 30, 2)),
                  linear_regression__normalize = [False, True])

grid_search = GridSearchCV(pipeline, param_grid=param_grid)
grid_search.fit(X, y)
print(grid_search.best_params_)

Created by a Microsoft Employee.
	
The MIT License (MIT)<br>
Copyright (c) 2016 Micheleen Harris