# 5.1.1 Construcción de tuberias de estimadores

In [None]:
%load_ext autoreload
%autoreload 2

In [None]:
from sklearn.datasets import load_digits

from sklearn.decomposition import PCA
from sklearn.pipeline import Pipeline, make_pipeline
from sklearn.svm import SVC
from sklearn.model_selection import GridSearchCV


from sklearn.naive_bayes import MultinomialNB
from sklearn.preprocessing import Binarizer

import warnings
warnings.filterwarnings("ignore")

## 5.1.1.1 Creación de un pipeline asignando nombres a las componentes

https://scikit-learn.org/stable/modules/compose.html

Es una matriz que permite visualizar el desempeño de un clasificador. La organización típica es la presentada a continuación:

In [None]:
#
# Creación de una tubería de estimadores
# asignando un identificador
#
estimators = [
    ("reduce_dim", PCA()),
    ("clf", SVC()),
]

pipeline = Pipeline(
    # -------------------------------------------------------------------------
    # List of (name, transform) tuples (implementing fit/transform) that are
    # chained, in the order in which they are chained, with the last object an
    # estimator
    steps=estimators,
    # -------------------------------------------------------------------------
    # If True, the time elapsed while fitting each step will be printed as it
    # is completed.
    verbose=False,
)
pipeline

## 5.1.1.2 Creación de un pipeline usando make_pipeline

In [None]:
#
# Creación de una tubería con identificadores
# por defecto para sus componentes
#
from sklearn.pipeline import make_pipeline

make_pipeline(
    # -------------------------------------------------------------------------
    # List of the scikit-learn estimators that are chained together.
    PCA(),
    SVC(),
)

In [None]:
#
# Creación de una tubería con identificadores
# por defecto para sus componentes
#

make_pipeline(
    # -------------------------------------------------------------------------
    # List of the scikit-learn estimators that are chained together.
    # -------------------------------------------------------------------------
    Binarizer(
        # ---------------------------------------------------------------------
        # Feature values below or equal to this are replaced by 0, above it
        # by 1
        threshold=0.0
    ),
    # -------------------------------------------------------------------------
    MultinomialNB(
        # ---------------------------------------------------------------------
        # Additive (Laplace/Lidstone) smoothing parameter (0 for no smoothing).
        alpha=1.0,
    ),
)

## 5.1.1.3 Acceso a las componentes del pipeline

In [None]:
#
# Acceso a la tupla mediante un índice
#
pipeline.steps[0]

In [None]:
#
# Acceso al estimador mediante un índice
#
pipeline[0]

In [None]:
#
# Accesso al estimador usando su nombre
#
pipeline["reduce_dim"]

## 5.1.1.4 Actualización de los parámetros de los estimadores

In [None]:
#
# Actualización de los parámetros de un estimador
# en la tubería
#
pipeline.set_params(clf__C=10)

## 5.1.1.5 Búsqueda de hiperparámetros óptimos con GridSearchCV

In [None]:
#
# Especificación de una malla de valores de parámetros en la tubería para
# buscar su combinación óptima
#

param_grid = dict(
    reduce_dim__n_components=[2, 5, 10],
    clf__C=[0.1, 10, 100],
)

grid_search = GridSearchCV(
    # -------------------------------------------------------------------------
    # esetimador/modelo
    estimator=pipeline,
    # -------------------------------------------------------------------------
    # Dictionary with parameters names (str) as keys and lists of parameter
    # settings to try as values
    param_grid=param_grid,
)

## 5.1.1.6 Creación de modelos fuera de la tubería de estimadores

In [None]:
X_digits, y_digits = load_digits(return_X_y=True)

pca = PCA()
clf = SVC()

pipeline = Pipeline(
    [
        ("reduce_dim", pca),
        ("clf", clf),
    ],
)

pipeline.fit(X_digits, y_digits)

pca.components_

In [None]:
print('ok_')