# Pipepines

## Gestión de flujos de trabajo de aprendizaje automático con pipelines de Scikit-Learn


Hoy vamos a construir 3 pipelines , cada una con un estimador diferente (algoritmo de clasificación), usando hiperparámetros predeterminados:
1. Regresión Logisitica
2. Máquinas de vectores soporte
3. Árbol de decisión

Para demostrar las transformaciones de tubería , realizaremos:
- escalado de características
- reducción de dimensionalidad, utilizando PCA para proyectar datos en un espacio bidimensional

Terminaremos con la adaptación a nuestros estimadores finales.
Después, y casi sin relación alguna, para hacer esto un poco más como un flujo de trabajo completo (todavía no lo es, pero más cerca), haremos lo siguiente:

- Seguimiento con datos de prueba de puntuación
- Comparar las exactitudes del modelo de pipeline
- Identificar el “mejor” modelo, lo que significa que tiene la mayor precisión en nuestros datos de prueba
- Persistir (guardar en archivo) todo el pipeline del “mejor” modelo

Por supuesto, dado que usaremos hiperparámetros predeterminados, es probable que esto no dé como resultado los modelos más precisos posibles, pero proporcionará una idea de cómo usar pipelines simples. Volveremos sobre la cuestión de la modelización más compleja, el ajuste de hiperparámetros y la evaluación de modelos posteriores.
Ah, y para una mayor simplicidad, estamos usando el dataset del iris. El código está bien comentado y debería ser fácil de seguir.

**El trabajo de hoy es entender el código para lo cual vamos a tener que completar que es lo que hace cada celda:**

COMPLETAR

In [1]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.pipeline import Pipeline
from sklearn.externals import joblib
from sklearn.linear_model import LogisticRegression
from sklearn import svm
from sklearn import tree



COMPLETAR

In [2]:
iris = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=42)


COMPLETAR


In [3]:
pipe_lr = Pipeline([('scl', StandardScaler()),
			('pca', PCA(n_components=2)),
			('clf', LogisticRegression(random_state=42))])

pipe_svm = Pipeline([('scl', StandardScaler()),
			('pca', PCA(n_components=2)),
			('clf', svm.SVC(random_state=42))])
			
pipe_dt = Pipeline([('scl', StandardScaler()),
			('pca', PCA(n_components=2)),
			('clf', tree.DecisionTreeClassifier(random_state=42))])

COMPLETAR

In [4]:
pipelines = [pipe_lr, pipe_svm, pipe_dt]

COMPLETAR

In [5]:
pipe_dict = {0: 'Logistic Regression', 1: 'Support Vector Machine', 2: 'Decision Tree'}


COMPLETAR

In [6]:
for pipe in pipelines:
	pipe.fit(X_train, y_train)



COMPLETAR

In [7]:
for idx, val in enumerate(pipelines):
	print('%s pipeline test accuracy: %.3f' % (pipe_dict[idx], val.score(X_test, y_test)))

Logistic Regression pipeline test accuracy: 0.933
Support Vector Machine pipeline test accuracy: 0.900
Decision Tree pipeline test accuracy: 0.867


COMPLETAR

In [8]:
best_acc = 0.0
best_clf = 0
best_pipe = ''
for idx, val in enumerate(pipelines):
	if val.score(X_test, y_test) > best_acc:
		best_acc = val.score(X_test, y_test)
		best_pipe = val
		best_clf = idx
print('Classifier with best accuracy: %s' % pipe_dict[best_clf])


Classifier with best accuracy: Logistic Regression


COMPLETAR

In [9]:
joblib.dump(best_pipe, 'best_pipeline.pkl', compress=1)
print('Saved %s pipeline to file' % pipe_dict[best_clf])

Saved Logistic Regression pipeline to file


Entonces ahí lo tienes; una implementación simple de pipelines de Scikit-learn. 

En este caso particular, nuestra pipelines de regresión logística con parámetros predeterminados obtuvo la mayor precisión.

Como se mencionó anteriormente, sin embargo, estos resultados probablemente no representan nuestros mejores esfuerzos. 

¿Qué pasa si queremos probar una serie de hiperparámetros diferentes?
¿Podemos usar la búsqueda de grillas?
¿Podemos incorporar métodos automatizados para ajustar estos hiperparámetros? 
¿Puede AutoML encajar en esta imagen en alguna parte? 
¿Qué pasa con el uso de validación cruzada?

Otra técnica simple pero poderosa que podemos combinar con los pipelines para mejorar el rendimiento es la búsqueda de cuadrículas , que intenta optimizar las combinaciones de modelos de hiperparámetros. La búsqueda exhaustiva de la cuadrícula o red, en oposición a los esquemas alternativos de optimización de combinación de hiperparámetros, como la optimización aleatoria, evalúa y compara todas las combinaciones posibles de valores hiperparámetros deseados, un ejercicio en crecimiento exponencial. La compensación en lo que podría terminar siendo tiempos de ejecución exorbitantes sería (afortunadamente) el mejor modelo optimizado posible.

**AHORA COMPLETEMOS ESTA PARTE DEL CÓDIGO**

In [14]:
# Construct pipeline
from sklearn.model_selection import GridSearchCV
from sklearn import svm
svc = svm.SVC()

pipe = Pipeline([('scl', StandardScaler()),
			('pca', PCA(n_components=2)),
			('clf', tree.DecisionTreeClassifier(random_state=42))])

param_range = [1, 2, 3, 4, 5]

# Set grid search params
grid_params = [{'clf__criterion': ['gini', 'entropy'],
		'clf__min_samples_leaf': param_range,
		'clf__max_depth': param_range,
		'clf__min_samples_split': param_range[1:],
		'clf__presort': [True, False]}]

# Construct grid search
gs = GridSearchCV(estimator= svc,
			param_grid=grid_params,
			scoring='accuracy',
			cv=10)

# Fit using grid search
gs.fit(X_train, y_train)

# Best accuracy
print('Best accuracy: %.3f' % best_score_ )

# Best params
print('\nBest params:\n', best_parameters_)

ValueError: Invalid parameter clf for estimator SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
    decision_function_shape='ovr', degree=3, gamma='auto_deprecated',
    kernel='rbf', max_iter=-1, probability=False, random_state=None,
    shrinking=True, tol=0.001, verbose=False). Check the list of available parameters with `estimator.get_params().keys()`.

De importancia, tenga en cuenta que nuestra tubería es el estimador en el objeto de búsqueda de la cuadrícula, y que está en el nivel del objeto de búsqueda de la grilla que encajamos en nuestro modelo(s). También ten en cuenta que nuestro espacio de parámetros de cuadrícula se define en un diccionario y luego se alimenta a nuestro objeto de búsqueda de cuadrículas.

¿Qué más está sucediendo durante la creación del objeto de búsqueda de cuadrícula? Para calificar nuestros modelos resultantes (hay un potencial de 2 * 5 * 5 * 5 * 2 = 500), direccionaremos nuestra búsqueda de cuadrícula para evaluarlos por su precisión en el conjunto de prueba. También hemos denotado una estrategia de división de validación cruzada de 10 pliegues. Tenga en cuenta lo siguiente sobre GridSearchCV:

    Los parámetros del estimador utilizado para aplicar estos métodos se optimizan mediante una búsqueda de grillas con validación cruzada en una cuadrícula de parámetros.


Finalmente, por supuesto, nuestro modelo está en forma.

Deberás consultar la documentación oficial del módulo GridSearchCV para obtener información sobre todas las otras configuraciones útiles, incluido, entre otros, el paralelismo.

Fuente:

https://medium.com/datos-y-ciencia/gesti%C3%B3n-de-flujos-de-trabajo-de-aprendizaje-autom%C3%A1tico-con-pipelines-de-scikit-learn-parte-2-eeecab194d83