# **Ciencia de Datos e Inteligencia Artificial para la industria del software**

# *Curso MLOps*

## **Edición 2023**

# 2. Seguimiento de experimentos y gestión de modelos

Las hojas de cálculo son una herramienta familiar y ampliamente utilizada en diferentes industrias. Muchas personas ya están familiarizadas con el software de hojas de cálculo como Microsoft Excel o Google Sheets, lo que facilita su adopción y uso para el seguimiento de experimentos sin necesidad de aprendizaje o capacitación adicional.

Sin embargo, a medida que aumenta la complejidad y escala de tus experimentos, y tus necesidades de seguimiento de experimentos evolucionan, las plataformas de seguimiento de experimentos dedicadas pueden ofrecer características más avanzadas y un mejor soporte para la reproducibilidad, la colaboración y la escalabilidad.

## 2.1 Introducción al seguimiento de experimentos

![MLOps_cycle](https://i0.wp.com/neptune.ai/wp-content/uploads/2022/11/MLOps_cycle.webp?resize=1020%2C574&ssl=1)

El seguimiento de experimentos en el aprendizaje automático se refiere a la práctica de registrar y organizar sistemáticamente información sobre experimentos de aprendizaje automático. Implica capturar varios aspectos de un experimento, como **hiperparámetros, conjuntos de datos, arquitectura del modelo, métricas de evaluación y resultados**. Las plataformas o herramientas de seguimiento de experimentos a menudo se utilizan para facilitar este proceso.

El propósito del seguimiento de experimentos es permitir la **reproducibilidad, la colaboración y la optimización de flujos de trabajo de aprendizaje automático (organización)**. Al mantener un registro detallado de los experimentos, los investigadores y científicos de datos pueden volver a visitar y reproducir fácilmente experimentos anteriores, comparar diferentes enfoques y tomar decisiones informadas sobre mejoras en el modelo. El seguimiento de experimentos también ayuda a identificar patrones, comprender el impacto de varios factores en el rendimiento del modelo y compartir hallazgos con colegas.

## 2.2 Empezando con MLflow

MLflow es una plataforma de código abierto para **gestionar el ciclo de vida del aprendizaje automático**. Proporciona un conjunto completo de **herramientas y API** para ayudar a los científicos de datos e ingenieros de aprendizaje automático a realizar un seguimiento, gestionar e implementar experimentos y modelos de aprendizaje automático. MLflow tiene como objetivo simplificar el proceso de construcción, compartición y reproducción de proyectos de aprendizaje automático.

Los componentes principales de MLflow son:

* **Seguimiento**: MLflow Tracking permite a los usuarios **registrar y organizar experimentos**. Captura parámetros, métricas y artefactos (como modelos o visualizaciones) asociados con cada ejecución. El componente de seguimiento facilita la comparación y la reproducibilidad de experimentos, así como la visualización de resultados de experimentos.

* **Proyectos**: Los Proyectos de MLflow proporcionan un formato estándar para **organizar y empaquetar código en un proyecto de aprendizaje automático**. Permite definir dependencias, especificar el punto de entrada para ejecutar el proyecto y reproducir y compartir fácilmente el proyecto con otros.

* **Modelos**: MLflow Models proporciona una forma de **gestionar e implementar modelos** de aprendizaje automático de manera estandarizada. Admite varios formatos de modelo y permite la implementación fácil en diferentes entornos de ejecución, como implementación local o a través de APIs REST.

* **Registro de modelos**: **MLflow Model Registry ofrece versionado de modelos, gestión de etapas y funciones de colaboración**. Permite a los equipos gestionar y realizar un seguimiento del ciclo de vida de los modelos, incluida la transición de modelos entre etapas de desarrollo, la aprobación y promoción de modelos y la habilitación de la colaboración entre miembros del equipo.

MLflow es compatible con varios lenguajes de programación e se integra con bibliotecas y marcos de aprendizaje automático populares como TensorFlow, PyTorch y scikit-learn. Se puede utilizar tanto en entornos locales como en entornos de cómputo distribuido como Apache Spark.

En resumen, MLflow simplifica el proceso de gestión y seguimiento de experimentos de aprendizaje automático, facilitando la colaboración, la reproducibilidad y la implementación de modelos de aprendizaje automático.

## 2.2.1 Instalar MLflow

Ya estaba especificado en el requirements.txt. 

Chequearemos si se encuentra instalado correctamente:

```bash
mlflow
```

## 2.2.2 La interfaz de usuario de MLFlow
Para iniciar la interfaz de usuario de MLflow, introduzca lo siguiente desde la línea de comandos :

**Ejectuar en la terminal!!**

```bash
mlflow ui --backend-store-uri sqlite:///mlflow.db
```

**Importante**

Asegúrate de iniciar la interfaz de usuario de MLflow desde el mismo directorio en el que se encuentran los scripts o el cuaderno Jupyter que está ejecutando los experimentos (el mismo directorio que contiene el directorio de MLflow y la base de datos que almacena los experimentos).

funcionó sin problemas.

Y podemos ver copiando el enlace resaltado http://127.0.0.1:5000 en su navegador:

Ten en cuenta que si recibes un mensaje de error del tipo Conexión en uso: ('127.0.0.1', 5000) significa que ya tienes algo ejecutándose en el puerto 5000, y necesitas eliminarlo.

Ejecute el siguiente comando en el terminal:

```bash
ps -A | grep gunicorn
```

y luego busque el número id de proceso que es el 1er número después de ejecutar el comando. Luego finalizarlo, usando:

```bash
kill <process_id>
```
De momento no tenemos experimentos. Vamos a crear uno siguiendo el modelo de Regresión Lineal que construimos en el módulo anterior para predecir la duración de un viaje en taxi.

```bash
# check Python version
python -V
```

In [1]:
import pandas as pd # working with tabular data
import pickle # for machine learning models
import seaborn as sns # visualization
import matplotlib.pyplot as plt # visualization

from sklearn.feature_extraction import DictVectorizer # Machine Learning
from sklearn.linear_model import LinearRegression # Machine Learning
from sklearn.linear_model import Lasso # Regularization
from sklearn.linear_model import Ridge # Regularization

from sklearn.metrics import mean_squared_error # Loss Function

In [2]:
import mlflow

# to hook up with MLFlow UI
mlflow.set_tracking_uri("sqlite:///mlflow.db")
mlflow.set_experiment("mlops_nyc_taxi_1") # choose a name for your experiment

<Experiment: artifact_location='file:///c:/Users/marti/Desktop/CursoSadosky/MLops/mlruns/4', creation_time=1694711695214, experiment_id='4', last_update_time=1694711695214, lifecycle_stage='active', name='mlops_nyc_taxi_1', tags={}>

Si volvemos a la interfaz de usuario de MLflow podemos ver que nuestro experimento nyc_taxi_experiment se ha iniciado con éxito.

Si recuerdas en el Módulo 1 el código era disperso, y a veces difícil de seguir. Vamos a replicarlo aquí para al menos obtener una línea de base para la mejora utilizando MLflow.

In [3]:
# !wget https://d37ci6vzurychx.cloudfront.net/trip-data/yellow_tripdata_2022-01.parquet https://d37ci6vzurychx.cloudfront.net/trip-data/yellow_tripdata_2022-02.parquet

In [4]:
def read_dataframe(filename):
    if filename.endswith('.csv'):
        df = pd.read_csv(filename)

        df.tpep_dropoff_datetime = pd.to_datetime(df.tpep_dropoff_datetime)
        df.tpep_pickup_datetime = pd.to_datetime(df.tpep_pickup_datetime)
    elif filename.endswith('.parquet'):
        df = pd.read_parquet(filename)

    df['duration'] = df.tpep_dropoff_datetime - df.tpep_pickup_datetime
    df.duration = df.duration.apply(lambda td: td.total_seconds() / 60)

    df = df[(df.duration >= 1) & (df.duration <= 60)]

    categorical = ['PULocationID', 'DOLocationID']
    df[categorical] = df[categorical].astype(str)
    
    return df

In [5]:
df_train = read_dataframe('yellow_tripdata_2022-01.parquet')
df_val = read_dataframe('yellow_tripdata_2022-02.parquet')

In [6]:
len(df_train), len(df_val)

(2421440, 2918187)

In [7]:
df_train['PU_DO'] = df_train['PULocationID'] + '_' + df_train['DOLocationID']
df_val['PU_DO'] = df_val['PULocationID'] + '_' + df_val['DOLocationID']

In [8]:
categorical = ['PU_DO'] #'PULocationID', 'DOLocationID']
numerical = ['trip_distance']

dv = DictVectorizer()

train_dicts = df_train[categorical + numerical].to_dict(orient='records')
X_train = dv.fit_transform(train_dicts)

val_dicts = df_val[categorical + numerical].to_dict(orient='records')
X_val = dv.transform(val_dicts)

In [9]:
target = 'duration'
y_train = df_train[target].values
y_val = df_val[target].values

In [10]:
lr = LinearRegression()
lr.fit(X_train, y_train)

y_pred = lr.predict(X_val)

mean_squared_error(y_val, y_pred, squared=False)

5.530572197116553

In [11]:
with open('./models/lin_reg.bin', 'wb') as f_out: # wb means write binary
    try:
        # Pickle both the dictionary vectorizer and the linear regression model
        pickle.dump((dv, lr), f_out)
        print("Model successfully pickled.")
    except Exception as e:
        print("Error occurred while pickling the model:", str(e))

Model successfully pickled.


Aprovechemos **MLFlow** para incorporar algo de estructura a nuestro flujo, haciéndolo más fácil de seguir, más fácil de iterar sobre diferentes modelos y parámetros, y más fácil de rastrear los cambios.

Un fragmento de código se incluye a continuación para demostrar cómo podemos lograr esto:

In [12]:
with mlflow.start_run():

    mlflow.set_tag("developer", "martin")

    mlflow.log_param("train-data-path", "./data/green_tripdata_2021-01.csv")
    mlflow.log_param("valid-data-path", "./data/green_tripdata_2021-02.csv")

    alpha = 0.1
    mlflow.log_param("alpha", alpha)
    lr = Lasso(alpha)
    lr.fit(X_train, y_train)

    y_pred = lr.predict(X_val)
    rmse = mean_squared_error(y_val, y_pred, squared=False)
    mlflow.log_metric("rmse", rmse)

    mlflow.log_artifact(local_path="models/lin_reg.bin", artifact_path="models_pickle") # where model saved

mlflow.log_artifact() registra un archivo local o directorio como un artefacto, opcionalmente tomando un artifact_path para colocarlo dentro del URI del artefacto de ejecución. Los artefactos de ejecución pueden organizarse en directorios, por lo que puedes colocar el artefacto en un directorio de esta forma.

Si ahora volvemos a la interfaz de usuario de Mlflow podemos ver que el estado de la ejecución es FINISHED y se ha completado con éxito. Tenemos una nota de nuestro Tag, Parmaeters, Metrics y Artifacts como se especificó anteriormente en con mlflow.start_run():.

## 2.3 Seguimiento de experimentos con MLflow

### 2.3.1 XGBoost

Para demostrar más completamente las capacidades de MLflow, veamos un modelo más complejo que utiliza XGBoost.

XGBoost, abreviatura de "Extreme Gradient Boosting", es un algoritmo de aprendizaje automático popular conocido por su eficacia en tareas de modelado predictivo y análisis de datos. Pertenece a la familia de métodos de **gradient boosting**, que son técnicas de aprendizaje en conjunto que combinan múltiples modelos de predicción débiles, típicamente árboles de decisión, para crear un modelo de predicción sólido.

XGBoost es especialmente conocido por su escalabilidad, eficiencia y precisión. Incorpora técnicas avanzadas como el aumento de gradiente, la regularización y el procesamiento paralelo para mejorar el rendimiento del modelo. Puede manejar una amplia gama de tipos de datos y a menudo se utiliza tanto para problemas de regresión como de clasificación.

El algoritmo funciona construyendo de manera iterativa (**secuencial**) árboles de decisión para minimizar una función de pérdida especificada. Cada árbol subsiguiente se enfoca en corregir los errores cometidos por los árboles anteriores, lo que da como resultado un modelo de conjunto altamente preciso. Además, XGBoost permite objetivos de optimización personalizados y métricas de evaluación, lo que proporciona flexibilidad para abordar diversos dominios de problemas.

Debido a su rendimiento excepcional y versatilidad, XGBoost ha ganado popularidad en diversos campos, incluidos finanzas, atención médica, marketing y más. Ha sido ampliamente adoptado en competencias de ciencia de datos y es una opción favorita entre los profesionales al abordar problemas complejos de aprendizaje automático.

In [13]:
# import required modules
import xgboost as xgb

from hyperopt import fmin, tpe, hp, STATUS_OK, Trials # some methods to optimize hyperparameters
from hyperopt.pyll import scope

[FMin](https://github.com/hyperopt/hyperopt/wiki/FMin)

## Enfoque del Estimador de Parzen Estructurado en Árbol (TPE) *Tree Parzen Estimator*

El Enfoque del Estimador de Parzen Estructurado en Árbol (TPE) es un **algoritmo de optimización bayesiana** utilizado para la sintonización de hiperparámetros en modelos de aprendizaje automático. Es una alternativa popular a los métodos tradicionales de búsqueda en cuadrícula y búsqueda aleatoria. TPE tiene como objetivo explorar eficientemente el espacio de hiperparámetros mediante la exploración y explotación iterativa de las regiones más prometedoras basadas en evaluaciones previas.

TPE divide el espacio de búsqueda en dos partes: la **"prior"** y la **"posterior"**. La "prior" representa la **distribución de probabilidad de los hiperparámetros**, mientras que la "posterior" refleja la **distribución de probabilidad condicional de los hiperparámetros dados sus valores correspondientes de la función objetivo**.

El algoritmo **opera** en un proceso de dos pasos. Primero, construye un modelo probabilístico para estimar la distribución posterior de los hiperparámetros utilizando un conjunto de puntos evaluados previamente. Este modelo se construye típicamente utilizando una estructura de árbol llamada "ratio de densidad" que captura las densidades relativas de hiperparámetros que funcionan mejor en comparación con los que funcionan peor.

En el segundo paso, TPE genera un nuevo conjunto de hiperparámetros candidatos muestreando de la distribución posterior estimada. La selección de candidatos está sesgada hacia las regiones con una mayor probabilidad de mejorar la función objetivo, aprovechando el conocimiento obtenido de las evaluaciones previas.

Al repetir iterativamente estos pasos, TPE explora y refina el espacio de búsqueda de hiperparámetros, convergiendo gradualmente hacia la configuración óptima. Se centra en explorar regiones prometedoras durante las primeras etapas de la optimización y explota esas regiones a medida que avanza la optimización.

TPE ha ganado popularidad debido a su capacidad para explorar eficazmente espacios de hiperparámetros de alta dimensionalidad y complejos. Se ha aplicado con éxito en diversos campos, incluyendo el aprendizaje profundo, la selección de modelos de aprendizaje automático y el aprendizaje por refuerzo.

### hp

En Hyperopt, los hiperparámetros se definen utilizando el módulo "hp" proporcionado por la biblioteca. Este módulo ofrece un conjunto de funciones para definir diferentes tipos de hiperparámetros, incluyendo hiperparámetros continuos, discretos y condicionales. Estas funciones permiten la creación de un espacio de búsqueda sobre el cual el algoritmo de optimización puede explorar para encontrar los valores óptimos de los hiperparámetros.

### Trials

Al pasar directamente un objeto de "Trials", podemos inspeccionar todos los valores de retorno que se calcularon durante el experimento.

Por ejemplo:

- `trials.trials` - una lista de diccionarios que representan todo sobre la búsqueda
- `trials.results` - una lista de diccionarios devueltos por 'objective' durante la búsqueda
- `trials.losses()` - una lista de pérdidas (flotante para cada prueba 'ok')
- `trials.statuses()` - una lista de cadenas de estado

Este objeto de "Trials" se puede guardar, pasar a las rutinas de trazado incorporadas o analizar con su propio código personalizado.

Ahora definamos nuestros conjuntos de datos de entrenamiento y validación y configuremos nuestra ejecución de MLflow:

In [14]:
train = xgb.DMatrix(X_train, label=y_train)
valid = xgb.DMatrix(X_val, label=y_val)

In [15]:
# Objective function - set the parameters for this specific run
def objective(params): 
    
    with mlflow.start_run():
        mlflow.set_tag("model", "xgboost")
        mlflow.log_params(params) 
        booster = xgb.train(
            params=params,
            dtrain=train, # model trained on training set
            num_boost_round=3, # restricted due to time constraints - a value of 1000 iterations is common
            evals=[(valid, 'validation')], # model evaluated on validation set
            early_stopping_rounds=3 # if no improvements after 3 iterations, stop running # restricted, time constraints
        )
        y_pred = booster.predict(valid)
        rmse = mean_squared_error(y_val, y_pred, squared=False)
        mlflow.log_metric("rmse", rmse)

    return {'loss': rmse, 'status': STATUS_OK}

### 2.3.2 Establecer el rango de búsqueda de optimización del hiperparámetro

In [16]:
# Set the range of the hyperparameter optimization search
search_space = {
    'max_depth': scope.int(hp.quniform('max_depth', 4, 100, 1)), # tree depth 4 to 100. Returns float, so convert to integer
    'learning_rate': hp.loguniform('learning_rate', -3, 0), # range exp(-3), exp(0) which is (0.049787, 1.0)
    'reg_alpha': hp.loguniform('reg_alpha', -5, -1), # range exp(-5), exp(-1) which is (0.006738, 0.367879)
    'reg_lambda': hp.loguniform('reg_lambda', -6, -1), # range exp(-6), exp(-1) which is (0.002479, 0.367879)
    'min_child_weight': hp.loguniform('min_child_weight', -1, 3), # range exp(-1), exp(3) which is (0.367879, 20.085537)
    'objective': 'reg:linear',
    'seed': 42
}


best_result = fmin( # imported above
    fn=objective,
    space=search_space, # as defined above
    algo=tpe.suggest, # tpe is the algorithm used for optimization
    max_evals=3, #restricted, time constraints
    trials=Trials()
)

  0%|          | 0/3 [00:00<?, ?trial/s, best loss=?]




[0]	validation-rmse:9.19109                          
[1]	validation-rmse:8.72924                          
[2]	validation-rmse:8.31773                          
 33%|███▎      | 1/3 [00:07<00:14,  7.23s/trial, best loss: 8.31773429023806]




[0]	validation-rmse:6.04778                                                  
[1]	validation-rmse:5.28118                                                  
[2]	validation-rmse:5.10239                                                  
 67%|██████▋   | 2/3 [05:10<03:01, 181.46s/trial, best loss: 5.102394266846925]




[0]	validation-rmse:9.00730                                                    
[1]	validation-rmse:8.40635                                                    
[2]	validation-rmse:7.89389                                                    
100%|██████████| 3/3 [05:27<00:00, 109.22s/trial, best loss: 5.102394266846925]


*hp.quniform(label, low, high, q)*

- Devuelve un valor como round(uniform(low, high) / q) * q
- Adecuado para un valor discreto con respecto al cual el objetivo todavía es algo "suave", pero que debe estar acotado tanto por encima como por debajo.

*hp.loguniform(label, low, high)*

- Devuelve un valor dibujado de acuerdo con exp(uniform(low, high)) de modo que el logaritmo del valor de retorno esté distribuido de forma uniforme.
- Cuando se optimiza, esta variable está limitada al intervalo [exp(low), exp(high)].

Una guía detallada sobre cómo establecer el espacio de búsqueda se incluye en la documentación oficial de Hyperopt.

### 2.3.3 Visualizaciones

**Vista de tabla**

La vista de tabla permite realizar una comparación básica. Puede especificar qué columnas mostrar. En mi caso, podemos ver que el modelo "brawny-donkey-463" devuelve el RMSE más bajo, 6.171, una mejora respecto a nuestra cifra de referencia de 9.71.

**Vista de gráficos**

La vista de gráficos ofrece una visualización ligeramente mejor, un gráfico de barras horizontal. Sin embargo, si queremos comprender completamente nuestros modelos, necesitamos una visualización más compleja que aborde las interrelaciones entre los diversos parámetros y su impacto en el RMSE.

**Comparar**

Puede filtrar los modelos que desea comparar utilizando "tags.model=<nombre_del_modelo>", seleccionarlos todos marcando las casillas y luego hacer clic en "Comparar".

Explore:

**Gráfico de coordenadas paralelas**

**Gráfico de dispersión**

**Gráfico de contorno**

### 2.3.4 Selección del mejor modelo

La forma más sencilla de clasificar los modelos es ordenar la columna de **Métricas** de la vista de tabla, sin embargo, no se trata únicamente de la métrica.

La velocidad también es algo a considerar. En mi ejemplo simple, aunque el modelo "brawny-donkey-463" devolvió el RMSE más bajo, el modelo "youthful-hen-151" fue el **más rápido**, con 2.1 segundos. El viejo adagio "el tiempo es dinero" es muy cierto en un entorno de producción, por lo que debemos tener en cuenta cuánto tiempo lleva entrenar nuestros modelos.

La complejidad del modelo es otro factor. El modelo "brawny-donkey-463" es bastante **complejo** con "max_depth=81", mientras que el modelo "youthful-hen-151" es menos complejo con "max_depth=11". Cuanto mayor sea la complejidad, menor será la interpretabilidad. Necesitamos entender lo que nuestro modelo está haciendo "bajo el capó" antes de poder explicarlo.

### 2.3.5 Entrenando el modelo seleccionado como el mejor

Entonces, digamos que después de considerar cuidadosamente las métricas, el tiempo y la complejidad, decidimos optar por el modelo "brawn-donkey-463". Podemos tomar sus parámetros y copiarlos en un diccionario de parámetros:


In [17]:
params = {
    'learning_rate': 0.6379934993414184,
    'max_depth': 48,
    'min_child_weight': 2.921791686074419,
    'objective': 'reg:linear',
    'reg_alpha': 0.044409064018651856,
    'reg_lambda': 0.00981451912750773,
    'seed': 42   
}

Puedes aprovechar [Logging Automático](https://mlflow.org/docs/latest/tracking.html#automatic-logging).

### 2.3.6 Logging Automático

**El logging automático te permite registrar métricas, parámetros y modelos sin necesidad de declaraciones de registro explícitas.**

Hay dos formas de usar el logging automático:

1. Llama a mlflow.autolog() antes de tu código de entrenamiento. Esto habilitará el logging automático para cada biblioteca admitida que tengas instalada tan pronto como la importes.

2. Usa llamadas específicas de autolog para cada biblioteca que utilices en tu código.

Las siguientes bibliotecas admiten la autologización:

* Scikit-learn
* Keras
* Gluon
* XGBoost
* LightGBM
* Statsmodels
* Spark
* Fastai
* Pytorch

A continuación, podemos ejecutar el entrenamiento del modelo, en nuestro caso utilizando el prompt de la librería XGBoost:

In [18]:
mlflow.xgboost.autolog()
    
booster = xgb.train(
    params=params,
    dtrain=train, # model trained on training set
    num_boost_round=3, # restricted due to time constraints - a value of 1000 iterations is common
    evals=[(valid, 'validation')], # model evaluated on validation set
    early_stopping_rounds=3 # if no improvements after 3 iterations, stop running # restricted, time constraints
)

2023/10/23 12:30:46 INFO mlflow.utils.autologging_utils: Created MLflow autologging run with ID '3b1b9fb39083421590c9ce62f50d676a', which will track hyperparameters, performance metrics, model artifacts, and lineage information for the current xgboost workflow


[0]	validation-rmse:6.15483
[1]	validation-rmse:5.35559
[2]	validation-rmse:5.16269




Si vamos a la interfaz de usuario podemos ver que se ha registrado un nuevo experimento con mucha más información:

**busca el nuevo experimento** 

* Si miramos las Métricas podemos visualizar la evolución del RMSE.

* También tenemos los detalles del modelo por si queremos reproducirlo.

## 2.4 Gestión de modelos

![Ciclo de MLOps](https://i0.wp.com/neptune.ai/wp-content/uploads/2022/11/MLOps_cycle.webp?resize=1020%2C574&ssl=1)

En la sección anterior, examinamos el Seguimiento de Experimentos, pero la gestión de modelos también abarca:

- Model Versioning
- Model Deployment
- Scaling Hardware

### 2.4.1 Model Versioning
Podríamos usar un sistema de carpetas como una forma muy básica de gestionar las versiones de nuestros modelos, pero esto tiene varias limitaciones.

![Sistema de carpetas](https://stephen137.github.io/posts/MLOps_Zoomcamp_Module_2/MLOps_Zoomcamp_Module_2_files/figure-html/ee079e29-1-folders.PNG)

Veamos cómo podemos aprovechar MLflow para gestionar el control de versiones.


In [19]:
mlflow.xgboost.autolog(disable=True) # MLflow will not store parameters automatically - these will have to be requested

In [20]:
with mlflow.start_run():
    
    train = xgb.DMatrix(X_train, label=y_train)
    valid = xgb.DMatrix(X_val, label=y_val)

    best_params = {
        'learning_rate': 0.4434065752589766,
        'max_depth': 81,
        'min_child_weight': 10.423237853746643,
        'objective': 'reg:linear',
        'reg_alpha': 0.2630756846813668,
        'reg_lambda': 0.1220536223877784,
        'seed': 42    
    }

    mlflow.log_params(best_params)

    booster = xgb.train(
        params=params,
        dtrain=train, # model trained on training set
        num_boost_round=3, # restricted due to time constraints - a value of 1000 iterations is common
        evals=[(valid, 'validation')], # model evaluated on validation set
        early_stopping_rounds=3 # if no improvements after 3 iterations, stop running # restricted, time constraints
        )

    y_pred = booster.predict(valid)
    rmse = mean_squared_error(y_val, y_pred, squared=False)
    mlflow.log_metric("rmse", rmse)

    with open("models/preprocessor.b", "wb") as f_out: # save pre-processing as a model
        pickle.dump(dv, f_out)
        
    mlflow.log_artifact("models/preprocessor.b", artifact_path="preprocessor") # we can isolate the pre-processing from raw data
    mlflow.xgboost.log_model(booster, artifact_path="models_mlflow") 



[0]	validation-rmse:6.15483
[1]	validation-rmse:5.35559
[2]	validation-rmse:5.16269




Al ejecutar esto, podemos ver desde la interfaz de usuario que tanto el modelo XGBoost como un modelo de preprocesamiento se han guardado. Más tarde, esto se puede cargar para procesar los datos de predicción y luego pasarlos a través del modelo XGBoost.

**models_mlflow**

### 2.4.2 Realización de predicciones

MLflow proporciona fragmentos de código útiles para realizar predicciones en un DataFrame de Spark o pandas.

Vamos a usar el fragmento de pandas y hacer una predicción. Primero, carguemos el modelo. Hay dos sabores disponibles, `python_function` o, alternativamente, `xgboost`.

`python_function`

In [21]:
logged_model = 'file:///c:/Users/marti/Desktop/CursoSadosky/MLops/mlruns/4/feaddbda7d3a4138bcd6b4f8db1f6f44/artifacts/models_mlflow'

# Load model as a PyFuncModel.
loaded_model = mlflow.pyfunc.load_model(logged_model)

 - mlflow (current: 2.7.1, required: mlflow==2.4)
 - numpy (current: 1.26.0, required: numpy==1.25.1)
 - pandas (current: 2.1.1, required: pandas==2.0.3)
 - psutil (current: 5.9.5, required: psutil==5.9.0)
 - scikit-learn (current: 1.3.1, required: scikit-learn==1.3.0)
 - scipy (current: 1.11.2, required: scipy==1.11.1)
 - typing-extensions (current: 4.8.0, required: typing-extensions==4.7.1)
 - xgboost (current: 2.0.0, required: xgboost==1.7.6)
To fix the mismatches, call `mlflow.pyfunc.get_model_dependencies(model_uri)` to fetch the model's environment and install dependencies using the resulting environment file.


In [22]:
loaded_model

mlflow.pyfunc.loaded_model:
  artifact_path: models_mlflow
  flavor: mlflow.xgboost
  run_id: feaddbda7d3a4138bcd6b4f8db1f6f44

In [23]:
xgboost_model = mlflow.xgboost.load_model(logged_model)

In [24]:
xgboost_model

<xgboost.core.Booster at 0x22c9d90f4c0>

Finally, we can make predictions with this model.

In [25]:
y_pred = xgboost_model.predict(valid)

In [26]:
# check the first 10
y_pred[:10]

array([15.847052 , 17.987246 , 24.64872  , 25.763891 , 29.417316 ,
       12.618283 , 23.466017 ,  5.1277075, 15.760189 , 16.288137 ],
      dtype=float32)

Resumiendo esta sección, hemos visto que es posible tomar un modelo entrenado utilizando una variedad de bibliotecas diferentes y registrar ese modelo en MLflow. Luego, puede acceder a ese modelo utilizando diferentes "flavors", como una función de Python o un modelo de scikit-learn. Luego, se vuelve muy fácil realizar predicciones y posteriormente implementar el modelo, por ejemplo, como una función de Python, en un contenedor Docker, en un cuaderno Jupyter o tal vez como un trabajo por lotes en Spark. Además, puede implementar en un clúster de Kubernetes o en diferentes entornos en la nube, como Amazon SageMaker o Microsoft Azure.

![Formato del modelo](https://stephen137.github.io/posts/MLOps_Zoomcamp_Module_2/MLOps_Zoomcamp_Module_2_files/figure-html/dceee7a2-1-model_format.PNG)

## 2.5 Registro de modelos
### 2.5.1 Motivación
Imagina que eres un ingeniero de aprendizaje automático o MLOps y recibes el siguiente correo electrónico de un científico de datos:

![Correo electrónico](https://stephen137.github.io/posts/MLOps_Zoomcamp_Module_2/MLOps_Zoomcamp_Module_2_files/figure-html/165e93d0-1-model_registry.PNG)

Existen varias preguntas sin respuesta que deben resolverse antes de que te sientas cómodo al implementar el modelo, como:

- ¿Qué ha cambiado desde la versión anterior?
- ¿Es necesario actualizar los hiperparámetros?
- ¿Se necesita algún preprocesamiento?
- ¿Cuáles son las dependencias necesarias para ejecutar el modelo?

Con el fin de evitar retrasos en la implementación del modelo debido a correspondencia por correo electrónico larga o ambigüedad, podemos aprovechar el Registro de Modelos de MLflow.

![Registro de modelos](https://stephen137.github.io/posts/MLOps_Zoomcamp_Module_2/MLOps_Zoomcamp_Module_2_files/figure-html/218f3014-1-register_model.PNG)

Ten en cuenta que el registro de modelos no equivale a la implementación. Es una "sala de espera" de modelos que se asignarán a etapas de puesta en escena, producción o archivo. Para implementar realmente un modelo, necesitaríamos algún código de CI/CD (integración continua y entrega continua).

### 2.5.2 Registro de un modelo
Bueno, digamos que estamos contentos con nuestra ejecución whimsical-shad-190, que fue un modelo XGBoost, y ahora queremos moverlo a la etapa de puesta en escena. Para hacerlo, haz clic en Registrar modelo y dale un nombre al modelo:

**Registrar modelo con el nombre mlops_nyc_taxi**

Cuando vamos a la pestaña de Modelos, ahora podemos ver nuestro modelo registrado.

### 2.5.3 Transición de etapa
Mencionamos anteriormente que existen tres etapas: Puesta en Escena, Producción y Archivo. Como se puede ver arriba, nuestro modelo está recién registrado y aún no ha sido trasladado. Podemos hacer esto haciendo clic primero en la versión que deseamos poner en escena, lo que nos lleva a esta pantalla.

Haz clic en Transición a -> Puesta en Escena y si regresamos a nuestra pestaña de modelos, podemos ver que ahora se muestra en la columna de Puesta en Escena.

### 2.5.4 Interacción con el servidor de seguimiento de MLflow
El módulo mlflow.client proporciona una interfaz CRUD de Python para Experimentos, Ejecuciones, Versiones de Modelos y Modelos Registrados de MLflow. Esta es una API de nivel inferior que se traduce directamente en llamadas a la API REST de MLflow. Para una API de nivel superior para administrar una "ejecución activa", utiliza el módulo mlflow.

Esencialmente, esto nos permite interactuar con la interfaz de usuario de MLflow y acceder a la misma información utilizando Python:

In [27]:
from mlflow.tracking import MlflowClient

In [28]:
MLFLOW_TRACKING_URI = "sqlite:///mlflow.db"

client = MlflowClient(tracking_uri=MLFLOW_TRACKING_URI)

Imaginemos que intentamos comprender, para un experimento determinado, cuáles son los mejores modelos o ejecuciones:

**Buscar id del experiment que inicializamos y colocarlo en experiment_ids**

In [29]:
from mlflow.entities import ViewType

runs = client.search_runs(
    experiment_ids='4', # mlops_nyc_taxi
    filter_string="metrics.rmse < 10", # grab only the runs with an RMSE below 10
    run_view_type=ViewType.ACTIVE_ONLY,
    max_results=5,
    order_by=["metrics.rmse ASC"] # Ascending
)

In [30]:
for run in runs:
    print(f"run id: {run.info.run_id}, rmse: {run.data.metrics['rmse']:.4f}") # round to 4 d.p

run id: 37a5bb0dc7e84499ac8a8eeb6ecea675, rmse: 5.1024
run id: cf1de24cf10d46749b3dcfd5e0a3b1b1, rmse: 5.1352
run id: c77ad7dc58194ebdb99a736642d2ff2a, rmse: 5.1627
run id: f5caede9e9b6414ca8801a629c8e2811, rmse: 5.1627
run id: b1df062a8dc64dc49cc1b9a78f798109, rmse: 5.2820


### 2.5.5 Interactuando con el Registro de Modelos
En esta sección, utilizaremos la instancia de MlflowClient para:

* Registrar una nueva versión para el experimento mlops_nyc_taxi
* Recuperar las últimas versiones del modelo nyc_taxi_xgb y verificar que se haya creado una nueva versión
* Transicionar la nueva versión 2 a "Puesta en Escena"
* Agregar anotaciones

Registrar una nueva versión para el experimento mlops_nyc_taxi

**Analizar pestaña Models**

In [31]:
import mlflow

mlflow.set_tracking_uri(MLFLOW_TRACKING_URI)

In [32]:
# register the top performing model(run) from the mlops_nyc_taxi experiment
run_id = "feaddbda7d3a4138bcd6b4f8db1f6f44" 
model_uri = f"runs:/{run_id}/model"
mlflow.register_model(model_uri=model_uri, name="mlops_nyc_taxi_1")

Registered model 'mlops_nyc_taxi_1' already exists. Creating a new version of this model...
2023/10/23 12:35:04 INFO mlflow.tracking._model_registry.client: Waiting up to 300 seconds for model version to finish creation. Model name: mlops_nyc_taxi_1, version 6
Created version '6' of model 'mlops_nyc_taxi_1'.


<ModelVersion: aliases=[], creation_timestamp=1698075304014, current_stage='None', description=None, last_updated_timestamp=1698075304014, name='mlops_nyc_taxi_1', run_id='feaddbda7d3a4138bcd6b4f8db1f6f44', run_link=None, source='file:///c:/Users/marti/Desktop/CursoSadosky/MLops/mlruns/4/feaddbda7d3a4138bcd6b4f8db1f6f44/artifacts/model', status='READY', status_message=None, tags={}, user_id=None, version=6>

Podemos ver que ahora tenemos la versión 2 de nuestro modelo.

Recuperar las últimas versiones del modelo nyc_taxi_xgb y comprobar que se ha creado una nueva versión

In [33]:
model_name = "nyc_taxi_xgb"
latest_versions = client.get_latest_versions(name=model_name)

for version in latest_versions:
    print(f"version: {version.version}, stage: {version.current_stage}")

version: 1, stage: Production
version: 2, stage: Staging


Transición de la nueva versión 2 a "Staging".

In [34]:
model_version = 2
new_stage = "Staging"
client.transition_model_version_stage(
    name=model_name,
    version=model_version,
    stage=new_stage,
    archive_existing_versions=False # so version 1 will remain in Staging
)

<ModelVersion: aliases=[], creation_timestamp=1689178215523, current_stage='Staging', description='The model version 2 was transitioned to Staging on 2023-09-22', last_updated_timestamp=1698075304102, name='nyc_taxi_xgb', run_id='52579390d9714d83b395be8615e0e851', run_link='', source='file:///c:/Users/marti/Desktop/CursoSadosky/MLops/mlruns/1/52579390d9714d83b395be8615e0e851/artifacts/model', status='READY', status_message=None, tags={}, user_id=None, version=2>

Podemos ver que esto se ha realizado exitosamente.

**both in staggning area**

Agregar anotaciones

In [35]:
from datetime import datetime

date = datetime.today().date()
client.update_model_version(
    name=model_name,
    version=model_version,
    description=f"The model version {model_version} was transitioned to {new_stage} on {date}"
)

<ModelVersion: aliases=[], creation_timestamp=1689178215523, current_stage='Staging', description='The model version 2 was transitioned to Staging on 2023-10-23', last_updated_timestamp=1698075304133, name='nyc_taxi_xgb', run_id='52579390d9714d83b395be8615e0e851', run_link='', source='file:///c:/Users/marti/Desktop/CursoSadosky/MLops/mlruns/1/52579390d9714d83b395be8615e0e851/artifacts/model', status='READY', status_message=None, tags={}, user_id=None, version=2>

**Ver anotaciones en la descripción de mlflow**

Añadamos la Versión 1 a Producción para utilizarla en la ilustración que sigue en la siguiente sección.

In [36]:
model_version = 1
new_stage = "Production"
client.transition_model_version_stage(
    name=model_name,
    version=model_version,
    stage=new_stage,
    archive_existing_versions=False # 
)

from datetime import datetime

date = datetime.today().date()
client.update_model_version(
    name=model_name,
    version=model_version,
    description=f"The model version {model_version} was transitioned to {new_stage} on {date}"
)

<ModelVersion: aliases=[], creation_timestamp=1689178043596, current_stage='Production', description='The model version 1 was transitioned to Production on 2023-10-23', last_updated_timestamp=1698075304180, name='nyc_taxi_xgb', run_id='e5f0b90fde45451a85f5fe4bc7c3bd08', run_link=None, source='file:///c:/Users/marti/Desktop/CursoSadosky/MLops/mlruns/1/e5f0b90fde45451a85f5fe4bc7c3bd08/artifacts/model', status='READY', status_message=None, tags={}, user_id=None, version=1>

### 2.5.6 Comparing versions and selecting the new “Production” model
En esta última sección, recuperaremos los modelos registrados en el registro de modelos y compararemos su rendimiento en un conjunto de prueba no visto. La idea es simular el escenario en el que un ingeniero de implementación tiene que interactuar con el registro de modelos para decidir si actualizar o no la versión del modelo que está en producción.

Estos son los pasos:

* Cargar el conjunto de datos de prueba, que corresponde a los datos de los taxis amarillos de Nueva York del mes de marzo de 2022.
* Descargar el DictVectorizer que se ajustó utilizando los datos de entrenamiento y se guardó en MLflow como un artefacto, y cargarlo con pickle.
* Procesar el conjunto de pruebas utilizando el DictVectorizer.
* Realizar predicciones en el conjunto de pruebas utilizando la versión del modelo que actualmente está en la etapa de "Producción".
* Basándonos en los resultados, actualizar la versión del modelo en "Producción" en consecuencia.

**Registro de modelos**

El registro de modelos en realidad no implementa el modelo en producción cuando se transfiere un modelo a la etapa de "Producción", simplemente asigna una etiqueta a esa versión del modelo. Debe complementar el registro con algún código de CI/CD que realice la implementación real.

In [37]:
# import packages
from sklearn.metrics import mean_squared_error
import pandas as pd

In [None]:
# download March 2022 yellow taxi data as `test` dataset
# we used Feb 2022 for validation (which is sometimes also effectively the 'test' set)

# !wget https://d37ci6vzurychx.cloudfront.net/trip-data/yellow_tripdata_2022-03.parquet 

In [39]:
# create our functions

def read_dataframe(filename):
    if filename.endswith('.csv'):
        df = pd.read_csv(filename)

        df.tpep_dropoff_datetime = pd.to_datetime(df.tpep_dropoff_datetime)
        df.tpep_pickup_datetime = pd.to_datetime(df.tpep_pickup_datetime)
    elif filename.endswith('.parquet'):
        df = pd.read_parquet(filename)

    df['duration'] = df.tpep_dropoff_datetime - df.tpep_pickup_datetime
    df.duration = df.duration.apply(lambda td: td.total_seconds() / 60)

    df = df[(df.duration >= 1) & (df.duration <= 60)]

    categorical = ['PULocationID', 'DOLocationID']
    df[categorical] = df[categorical].astype(str)
    
    return df

def preprocess(df, dv):
    df['PU_DO'] = df['PULocationID'] + '_' + df['DOLocationID']
    categorical = ['PU_DO']
    numerical = ['trip_distance']
    train_dicts = df[categorical + numerical].to_dict(orient='records')
    return dv.transform(train_dicts) # not fitting the pre-processor again


def test_model(name, stage, X_test, y_test):
    model = mlflow.pyfunc.load_model(f"models:/{name}/{stage}")
    y_pred = model.predict(X_test)
    return {"rmse": mean_squared_error(y_test, y_pred, squared=False)}

Cargue el conjunto de datos de prueba, que corresponde a los datos de NYC Yellow Taxi del mes de marzo de 2022.

In [40]:
df = read_dataframe("yellow_tripdata_2022-03.parquet")

Descargue el DictVectorizer que fue ajustado utilizando los datos de entrenamiento y guardado en MLflow como un artefacto, y cárguelo con pickle

In [41]:
client.download_artifacts(run_id=run_id, path='preprocessor', dst_path='.') # downloaded locally

  from .autonotebook import tqdm as notebook_tqdm
Downloading artifacts: 100%|██████████| 1/1 [00:00<00:00, 38.24it/s]


'c:\\Users\\marti\\Desktop\\CursoSadosky\\MLops\\preprocessor'

In [42]:
import pickle

with open("preprocessor/preprocessor.b", "rb") as f_in:
    dv = pickle.load(f_in)

https://scikit-learn.org/stable/model_persistence.html#security-maintainability-limitations


Preprocesar el conjunto de pruebas con el DictVectorizer

In [43]:
X_test = preprocess(df, dv)

Realizar predicciones sobre el conjunto de pruebas - modelo en Producción

In [44]:
target = "duration"
y_test = df[target].values

In [45]:
# From the experiments, model script
logged_model = 'runs:/feaddbda7d3a4138bcd6b4f8db1f6f44/models_mlflow'

# Load model as a PyFuncModel.
loaded_model = mlflow.pyfunc.load_model(logged_model)

 - mlflow (current: 2.7.1, required: mlflow==2.4)
 - numpy (current: 1.26.0, required: numpy==1.25.1)
 - pandas (current: 2.1.1, required: pandas==2.0.3)
 - psutil (current: 5.9.5, required: psutil==5.9.0)
 - scikit-learn (current: 1.3.1, required: scikit-learn==1.3.0)
 - scipy (current: 1.11.2, required: scipy==1.11.1)
 - typing-extensions (current: 4.8.0, required: typing-extensions==4.7.1)
 - xgboost (current: 2.0.0, required: xgboost==1.7.6)
To fix the mismatches, call `mlflow.pyfunc.get_model_dependencies(model_uri)` to fetch the model's environment and install dependencies using the resulting environment file.


In [46]:
# Predict on a Pandas DataFrame.
import pandas as pd
y_predict=loaded_model.predict(X_test)

In [47]:
from sklearn.metrics import mean_squared_error
mean_squared_error(y_test, y_predict, squared=False)

5.561789023449282

Así pues, el RMSE es sólo ligeramente superior (6,505) y el rendimiento es ligeramente peor cuando se prueba con los datos no vistos de marzo de 2022 que con la métrica del conjunto de validación (6,171).

## 2.6 MLflow en la práctica
Consideremos tres escenarios:

1. Un único científico de datos participando en una competencia de ML.
2. Un equipo interdisciplinario con un científico de datos trabajando en un modelo de ML.
3. Múltiples científicos de datos trabajando en múltiples modelos de ML.

### 2.6.1 Un único científico de datos participando en una competencia de ML
En este caso de uso, tener un servidor de seguimiento remoto sería excesivo. No es necesario compartir información con otros y usar un registro de modelos sería inútil, porque no hay posibilidad de implementación del modelo en producción.

Configuración de MLflow:

* Servidor de seguimiento: no
* Almacenamiento de backend: sistema de archivos local
* Almacenamiento de artefactos: sistema de archivos local

Los experimentos se pueden explorar localmente iniciando la interfaz de usuario de MLflow.

### 2.6.2 Un equipo interdisciplinario con un científico de datos trabajando en un modelo de ML
La información deberá compartirse con el equipo interdisciplinario, pero no necesariamente hay necesidad de ejecutar un servidor de seguimiento de forma remota; localmente puede ser suficiente. Usar el registro de modelos podría ser una buena idea para gestionar el ciclo de vida de los modelos, pero no está claro si necesitamos ejecutarlo de forma remota o en el host local.

Configuración de MLflow:

* Servidor de seguimiento: sí, servidor local
* Almacenamiento de backend: base de datos sqlite
* Almacenamiento de artefactos: sistema de archivos local

Los experimentos se pueden explorar localmente accediendo al servidor de seguimiento local.

Para ejecutar este ejemplo, debe iniciar el servidor de MLflow localmente ejecutando el siguiente comando en su terminal:

!mlflow server --backend-store-uri sqlite:///backend.db

### 2.6.3 Múltiples científicos de datos trabajando en múltiples modelos de ML
Compartir información es muy importante en este escenario. Existe colaboración entre científicos para construir modelos y, por lo tanto, necesitan un servidor de seguimiento remoto y deben hacer uso del registro de modelos.

Configuración de MLflow:

* Servidor de seguimiento: sí, servidor remoto (EC2)
* Almacenamiento de backend: base de datos postgresql
* Almacenamiento de artefactos: cubo de s3

Los experimentos se pueden explorar accediendo al servidor remoto.

El ejemplo utiliza AWS para alojar un servidor remoto. Para ejecutar el ejemplo, necesitará una cuenta de AWS. Siga los pasos descritos a continuación para crear una nueva cuenta de AWS y lanzar el servidor de seguimiento.