# Pipeline

La clase Pipeline proporcionada por sklearn, sirve para aplicar varios algoritmo (preprocesamiento, modelos de aprendisaje diferentes, busqueda de hiperparametros, validacion cruzada, etc.) de una forma simplificada. Esta clase posee metodos de entrenamiento, predicción y puntuación. 

In [4]:
from sklearn.datasets import load_breast_cancer
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split,GridSearchCV
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier
from sklearn.pipeline import Pipeline

# Cargamos los datos.
cancer = load_breast_cancer()

# Separamos los datos para entrenamiento y evaluacion.
X_train,X_test,y_train,y_test = train_test_split(cancer.data,cancer.target,random_state=0)

# Canalizamos SVC() que necesita un escalodo previo en los datos para andar mejor.
pipe = Pipeline([('preprocesado',StandardScaler()),('clasificador',SVC())])

# Queremos buscar un clasificador entre RandomForestClassifier y SVC que de el mejor resultado en este conjunto de datos. 
# Combinando GridSearchCV y Pipeline
# Para asignar un estimador a un paso, usamos el nombre del paso despues del nombre del parametro.
# Cuando queremos omitir un paso en el Pipeline, establecemos ese paso con None.
param_grid = [{'clasificador':[SVC()],'preprocesado':[StandardScaler()],
               'clasificador__gamma':[0.001,0.01,0.1,1,10,100],
               'clasificador__C':[0.001,0.01,0.1,1,10,100]},
              {'clasificador':[RandomForestClassifier(n_estimators=100)],
               'preprocesado':[None],
               'clasificador__max_features':[1,2,3]}]

# Busqueda en cuadricula con validacion cruzada para ajustar parametros.
grid = GridSearchCV(pipe, param_grid,cv=5)

# Usamos el motodo fit.
grid.fit(X_train,y_train)

# Presentacion de resultados.
print(f'mejores parametros:\n{grid.best_params_}')
print(f'mejor puntaje de validacion cruzada:\n{grid.best_score_}')
print(f'puntaje del conjunto de prueba:\n{grid.score(X_test,y_test)}')

mejores parametros:
{'clasificador': SVC(C=10, gamma=0.01), 'clasificador__C': 10, 'clasificador__gamma': 0.01, 'preprocesado': StandardScaler()}
mejor puntaje de validacion cruzada:
0.9858823529411765
puntaje del conjunto de prueba:
0.9790209790209791


El resultado de la búsqueda en cuadrícula es que SVC con preprocesamiento StandardScaler, 
C=10 y gamma=0,01 dio el mejor resultado.