# Pipelines y Automatización de Flujo de Trabajo en Scikit-Learn

Un _pipeline_ es una herramienta de automatización de procesos de aprendizaje automático, tanto para la implementación como la evaluación de los modelos.

Para entenderlo mejor, el concepto proviene naturalmente de las tuberías. Un _pipeline_ es algo que **canaliza** un elemento fluido para que se transporte desde un lugar a otro. Por ende, se utiliza como una metáfora para describir procesos que tienen una **secuencia lineal y continua**, donde **una fase lleva a la siguiente**. Es decir, al terminar una fase, comienza otra directamente. Por ejemplo, en la industria panadera, un _pipeline_ podría referirse al flujo de producción que describe todo el recorrido que hace la materia prima (el trigo) hasta el producto final (el pan).

En Scikit-Learn, un _pipeline_ es una **secuencia de transformaciones** que terminan en un **modelo final** de machine learning. Encapsula todas las secuencias de pasos (por ejemplo, las que se han visto hasta ahora en el curso), asegurándonos que todos ellos se ejecuten en el orden correcto, de una forma repetible, fiable y consistente.

In [5]:
import numpy as np

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import Pipeline, make_pipeline
from sklearn.metrics import accuracy_score

Recordemos el código usado en la [clase introductoria](intro.ipynb) (sin pipelines):

In [2]:
X, y = load_iris(return_X_y=True)

X_train, X_test, y_train, y_test = train_test_split(
    X,
    y,
    test_size=0.3,
    random_state=42
)

scaler: StandardScaler = StandardScaler()
scaler.fit(X_train)

X_train_scaled = scaler.transform(X_train)
X_test_scaled = scaler.transform(X_test)

model: LogisticRegression = LogisticRegression(
    random_state=42,
    max_iter=1000
)

model.fit(X_train_scaled, y_train)

y_pred: np.ndarray = model.predict(X_test_scaled)

score: float = float(model.score(X_test_scaled, y_test))

print(f'Las predicciones son: {y_pred}')
print(f'El puntaje para la precisión del modelo es: {score:.2f}')

Las predicciones son: [1 0 2 1 1 0 1 2 1 1 2 0 0 0 0 1 2 1 1 2 0 2 0 2 2 2 2 2 0 0 0 0 1 0 0 2 1
 0 0 0 2 1 1 0 0]
El puntaje para la precisión del modelo es: 1.00


Ahora, copiemos el mismo código y apliquemos aquí el concepto de pipelines, desde `from sklearn.pipeline import Pipeline`.

In [4]:
X, y = load_iris(return_X_y=True)

X_train, X_test, y_train, y_test = train_test_split(
    X,
    y,
    test_size=0.3,
    random_state=42
)

# por aquí va el pipeline!
pipeline: Pipeline = Pipeline([
    ('scaler', StandardScaler()),
    ('model', LogisticRegression(random_state=42, max_iter=1000))
])

"""
CÓDIGO LIBERADO POR EL PIPELINE:

scaler: StandardScaler = StandardScaler()
scaler.fit(X_train)

X_train_scaled = scaler.transform(X_train)
X_test_scaled = scaler.transform(X_test)

model: LogisticRegression = LogisticRegression(
    random_state=42,
    max_iter=1000
)

model.fit(X_train_scaled, y_train)
"""

# entrenar al pipeline!
pipeline.fit(X_train, y_train)

# predicciones con el pipeline
y_pred: np.ndarray | tuple = pipeline.predict(X_test)
score: float = float(pipeline.score(X_test, y_test))

print(f'Las predicciones son: {y_pred}')
print(f'El puntaje para la precisión del modelo es: {score:.2f}')

Las predicciones son: [1 0 2 1 1 0 1 2 1 1 2 0 0 0 0 1 2 1 1 2 0 2 0 2 2 2 2 2 0 0 0 0 1 0 0 2 1
 0 0 0 2 1 1 0 0]
El puntaje para la precisión del modelo es: 1.00


La **ventaja** de tener a `scaler` y `model` en la tubería es que ya no es necesario entrenar dichos elementos por separado: **solo basta con entrenar al pipeline directamente** (ya que aplicará esto para sus elementos internos). Adicionalmente, la necesidad de transformar explícitamente los datos se elimina, ya que el pipeline gestiona las transformaciones por su cuenta internamente y se asegura de que se apliquen de manera adecuada, en el orden correcto durante la fase de entrenamiento y la fase de predicción.

Adicionalmente, todo esto se puede simplificar aún más con `make_pipelines`, donde ya no es necesario declarar explícitamente el nombre de los elementos (`scaler` y `model` en el ejemplo). Usemos el código recién creado como base:

In [6]:
X, y = load_iris(return_X_y=True)

X_train, X_test, y_train, y_test = train_test_split(
    X,
    y,
    test_size=0.3,
    random_state=42
)

# por aquí va el pipeline!
pipeline: Pipeline = make_pipeline(
    StandardScaler(),
    LogisticRegression(random_state=42, max_iter=1000)
)

# entrenar al pipeline!
pipeline.fit(X_train, y_train)

# predicciones con el pipeline
y_pred: np.ndarray | tuple = pipeline.predict(X_test)
score: float = float(pipeline.score(X_test, y_test))

print(f'Las predicciones son: {y_pred}')
print(f'El puntaje para la precisión del modelo es: {score:.2f}')

Las predicciones son: [1 0 2 1 1 0 1 2 1 1 2 0 0 0 0 1 2 1 1 2 0 2 0 2 2 2 2 2 0 0 0 0 1 0 0 2 1
 0 0 0 2 1 1 0 0]
El puntaje para la precisión del modelo es: 1.00
