# Introducción a MLOps
 
## 1. ¿Qué es Machine Learning Operations (MLOps)?

https://www.databricks.com/glossary/mlops

MLOps significa Operaciones de Machine Learning. MLOps es una función central de la ingeniería de Machine Learning, que se enfoca en optimizar el proceso de llevar modelos de aprendizaje automático a producción, y luego en mantenerlos y monitorearlos. MLOps es una función colaborativa, que a menudo incluye a científicos de datos, ingenieros de DevOps y personal de IT.

- **MLOps**: Operaciones de Machine Learning.
- Integra ingeniería de ML, DevOps y TI.
- Objetivo: llevar modelos de machine learning a producción y mantenerlos.

<img style="display: block; margin: auto;" src="./images/mlops-cycle.png" title="git" width="380" height="50">

## 2. ¿Cuál es el uso de MLOps?

- Acelera la **colaboración** entre científicos de datos e ingenieros de ML.
- Implementa **CI/CD** (Integración y Despliegue Continuos).
- Facilita **monitorización**, **validación** y **gobernanza** de modelos.

MLOps es un enfoque útil para la creación y calidad de soluciones de aprendizaje automático e inteligencia artificial. Al adoptar un enfoque de MLOps, los científicos de datos e ingenieros de machine learning pueden colaborar y acelerar el desarrollo y la producción de modelos, implementando prácticas de integración y despliegue continuos (CI/CD), junto con el monitoreo, validación y gobernanza adecuados de los modelos de ML.


## 3. ¿Por qué necesitamos MLOps?

- El ciclo de vida de ML es **complejo** (ingesta de datos, entrenamiento, despliegue, monitoreo).
- **Colaboración** entre equipos (Ingeniería de Datos, Ciencia de Datos, DevOps).
- Asegura **rigor operacional** y **sincronización** de procesos.

https://cloud.google.com/architecture/mlops-continuous-delivery-and-automation-pipelines-in-machine-learning

<img style="display: block; margin: auto;" src="./images/mlops-elements.png" title="git" width="380" height="50">

La producción de modelos de machine learning es difícil. El ciclo de vida del aprendizaje automático incluye muchos componentes complejos, como la ingesta de datos, la preparación de datos, el entrenamiento de modelos, el ajuste de modelos, el despliegue de modelos, el monitoreo de modelos, la explicabilidad, entre otros. Además, requiere colaboración y traspasos entre equipos, desde Ingeniería de Datos hasta Ciencia de Datos e Ingeniería de Machine Learning. Naturalmente, esto exige un rigor operacional estricto para mantener todos estos procesos sincronizados y funcionando en conjunto. MLOps abarca la experimentación, iteración y mejora continua del ciclo de vida del aprendizaje automático.

## 4. ¿Cuáles son los beneficios de MLOps?

Los principales beneficios de MLOps son la eficiencia, escalabilidad y reducción de riesgos.

+ **Eficiencia:** MLOps permite a los equipos de datos desarrollar modelos más rápido, entregar modelos de machine learning de mayor calidad y desplegarlos en producción con mayor rapidez.
+ **Escalabilidad:** MLOps facilita la gestión y escalabilidad masiva, permitiendo supervisar, controlar, gestionar y monitorear miles de modelos con integración continua, entrega continua y despliegue continuo. Además, proporciona la reproducibilidad de los pipelines de machine learning, mejorando la colaboración entre equipos de datos, reduciendo conflictos con DevOps y TI, y acelerando la velocidad de lanzamiento.
+ **Reducción de riesgos:** Los modelos de machine learning a menudo requieren controles regulatorios y verificación de desviaciones, y MLOps permite una mayor transparencia y una respuesta más rápida a estas solicitudes, asegurando un mayor cumplimiento de las políticas de una organización o industria.

## 5. ¿Cuáles son los componentes de MLOps?

<img style="display: block; margin: auto;" src="./images/mlops-components.png" title="git" width="380" height="50">

El alcance de MLOps en los proyectos de machine learning puede ser tan enfocado o expansivo como lo requiera el proyecto. En algunos casos, MLOps puede abarcar desde el pipeline de datos hasta la producción del modelo, mientras que en otros proyectos solo se requiere la implementación de MLOps para el proceso de despliegue del modelo. La mayoría de las empresas implementan los principios de MLOps en los siguientes aspectos:

+ Análisis exploratorio de datos (EDA)
+ Preparación de datos e ingeniería de características
+ Entrenamiento y ajuste de modelos
+ Revisión y gobernanza de modelos
+ Inferencia y servicio de modelos
+ Monitoreo de modelos
+ Re-entrenamiento automático de modelos

## 6. ¿Cuáles son las mejores prácticas para MLOps?

Las mejores prácticas para MLOps se pueden dividir según la etapa en la que se aplican los principios de MLOps. A continuación, se detalla cada fase con sus prácticas recomendadas:

### 1. Análisis Exploratorio de Datos (EDA)
- Explorar, compartir y preparar datos de manera iterativa.
- Crear conjuntos de datos, tablas y visualizaciones reproducibles, editables y compartible.

### 2. Preparación de Datos e Ingeniería de Características
- Transformar, agregar y eliminar duplicados de los datos de manera iterativa.
- Crear características refinadas que sean visibles y compartibles entre equipos.
- Utilizar un *feature store* para gestionar y almacenar las características generadas.

### 3. Entrenamiento y Ajuste de Modelos
- Utilizar bibliotecas de código abierto como `scikit-learn` y `hyperopt` para entrenar y mejorar el rendimiento del modelo.
- Considerar el uso de herramientas de *AutoML* para realizar pruebas automáticas y generar código revisable y desplegable.
  
### 4. Revisión y Gobernanza de Modelos
- Rastrear el linaje del modelo, versiones y gestionar los artefactos del modelo a lo largo de su ciclo de vida.
- Utilizar plataformas de MLOps de código abierto, como `MLflow`, para facilitar la colaboración, descubrimiento y gestión de modelos.

### 5. Inferencia y Servicio de Modelos
- Gestionar la frecuencia de actualización del modelo y los tiempos de las solicitudes de inferencia en entornos de prueba y QA.
- Utilizar herramientas de CI/CD, como repositorios y orquestadores, para automatizar el pipeline de preproducción.

### 6. Despliegue y Monitoreo de Modelos
- Automatizar la gestión de permisos y la creación de clústeres para llevar los modelos a producción.
- Habilitar puntos de acceso a los modelos mediante API REST para facilitar el uso en aplicaciones en producción.

### 7. Reentrenamiento Automático de Modelos
- Crear alertas y automatizar la corrección en caso de *drift* del modelo debido a cambios en los datos de entrenamiento e inferencia.
- Implementar pipelines de reentrenamiento para garantizar la actualización continua de los modelos sin intervención manual.

## 7. Evolución de MLOps
https://ml-ops.org/

<img style="display: block; margin: auto;" src="./images/mlops-evolution.png" title="git" width="380" height="50">

## 8. Etapas de MLOps
<img style="display: block; margin: auto;" src="./images/mlops-incremental-process.png" title="git" width="380" height="50">


## 9. Caso de uso

Predicción de duración de un viaje. 

In [None]:
# Create the directory if it doesn't exist
!mkdir -p ./data

# Download files using curl
!curl -o ./data/green_tripdata_2024-01.parquet https://d37ci6vzurychx.cloudfront.net/trip-data/green_tripdata_2024-01.parquet
!curl -o ./data/green_tripdata_2024-02.parquet https://d37ci6vzurychx.cloudfront.net/trip-data/green_tripdata_2024-02.parquet

In [None]:
# Install libraries
!pip install pandas==2.2.2 scikit-learn==1.5.1 seaborn==0.13.2 matplotlib==3.9.0 mlflow==2.15.1 hyperopt==0.2.7 xgboost==2.1.1 fastparquet==2024.5.0 boto3==1.34.158 pyarrow==17.0.0

In [None]:
import pickle
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.linear_model import Lasso, Ridge
from sklearn.linear_model import LinearRegression
from sklearn.metrics import root_mean_squared_error
from sklearn.feature_extraction import DictVectorizer

In [None]:
df = pd.read_parquet('./data/green_tripdata_2024-01.parquet')

df['duration'] = df.lpep_dropoff_datetime - df.lpep_pickup_datetime
df.duration = df.duration.apply(lambda td: td.total_seconds() / 60)

df = df[(df.duration >= 1) & (df.duration <= 60)]

In [None]:
categorical = ['PULocationID', 'DOLocationID']
numerical = ['trip_distance']

df[categorical] = df[categorical].astype(str)
train_dicts = df[categorical + numerical].to_dict(orient='records')

train_dicts

In [None]:
dv = DictVectorizer()
X_train = dv.fit_transform(train_dicts)

target = 'duration'
y_train = df[target].values

lr = LinearRegression()
lr.fit(X_train, y_train)

y_pred = lr.predict(X_train)

In [None]:
root_mean_squared_error(y_train, y_pred)

In [None]:
sns.distplot(y_pred, label='prediction')
sns.distplot(y_train, label='actual')

plt.legend()

In [None]:
def read_dataframe(filename):

    df = pd.read_parquet(filename)

    df['duration'] = df.lpep_dropoff_datetime - df.lpep_pickup_datetime
    df.duration = df.duration.apply(lambda td: td.total_seconds() / 60)

    df = df[(df.duration >= 1) & (df.duration <= 60)]

    categorical = ['PULocationID', 'DOLocationID']
    df[categorical] = df[categorical].astype(str)

    return df

In [None]:
df_train = read_dataframe('./data/green_tripdata_2024-01.parquet')
df_val = read_dataframe('./data/green_tripdata_2024-02.parquet')
len(df_train), len(df_val)

In [None]:
df_train['PU_DO'] = df_train['PULocationID'] + '_' + df_train['DOLocationID']
df_val['PU_DO'] = df_val['PULocationID'] + '_' + df_val['DOLocationID']

categorical = ['PU_DO']  #'PULocationID', 'DOLocationID']
numerical = ['trip_distance']

In [None]:
dv = DictVectorizer()

train_dicts = df_train[categorical + numerical].to_dict(orient='records')
X_train = dv.fit_transform(train_dicts)

val_dicts = df_val[categorical + numerical].to_dict(orient='records')
X_val = dv.transform(val_dicts)

In [None]:
target = 'duration'

y_train = df_train[target].values
y_val = df_val[target].values

lr = LinearRegression()
lr.fit(X_train, y_train)

y_pred = lr.predict(X_val)

root_mean_squared_error(y_val, y_pred)

In [None]:
with open('models/lin_reg.bin', 'wb') as f_out:
    pickle.dump((dv, lr), f_out)


In [None]:
lr = Lasso(0.1)
lr.fit(X_train, y_train)

y_pred = lr.predict(X_val)

root_mean_squared_error(y_val, y_pred)

In [None]:
lr = Lasso(0.01)
lr.fit(X_train, y_train)

y_pred = lr.predict(X_val)

root_mean_squared_error(y_val, y_pred)

In [None]:
lr = Lasso(0.001)
lr.fit(X_train, y_train)

y_pred = lr.predict(X_val)

root_mean_squared_error(y_val, y_pred)

In [None]:
lr = Ridge(0.1)
lr.fit(X_train, y_train)

y_pred = lr.predict(X_val)

root_mean_squared_error(y_val, y_pred)

In [None]:
lr = Ridge(0.01)
lr.fit(X_train, y_train)

y_pred = lr.predict(X_val)

root_mean_squared_error(y_val, y_pred)

In [None]:
lr = Ridge(0.001)
lr.fit(X_train, y_train)

y_pred = lr.predict(X_val)

root_mean_squared_error(y_val, y_pred)

### Análisis del código - Limitaciones para llevarlo a producción.
1. Experiment Tracking - Logging
2. Model registry - Performance
3. Run the code with different dataset - Parameterising ML Pipelines
    + Load & Prepare Data
    + Vectorize
    + Train
    + Parameters: Train, val data, model, etc
4. Model service
5. Model monitoring - Performance alert

<img style="display: block; margin: auto;" src="./images/mlops-model-decay-monitoring.png" title="git" width="380" height="50">

## Niveles de Madurez en MLOps

https://medium.com/@NickHystax/mlops-maturity-levels-the-most-well-known-models-5b1de94ea285

https://learn.microsoft.com/en-us/azure/architecture/ai-ml/guide/mlops-maturity-model

- El propósito de este modelo de madurez es ayudar a aclarar los principios y prácticas de Operaciones de Machine Learning (MLOps). 
- El modelo de madurez muestra la mejora continua en la creación y operación de un entorno de aplicación de machine learning a nivel de producción. 
- Puedes utilizarlo como una métrica para establecer los requisitos progresivos necesarios para medir la madurez de un entorno de producción de machine learning y sus procesos asociados.

El modelo de madurez de MLOps ayuda a aclarar los principios y prácticas de Operaciones de Desarrollo (DevOps) necesarios para ejecutar un entorno exitoso de MLOps. Está destinado a identificar brechas en el intento existente de una organización para implementar dicho entorno. También es una manera de mostrarte cómo desarrollar tu capacidad de MLOps en incrementos, en lugar de abrumarte con los requisitos de un entorno completamente maduro. Utilízalo como guía para:

- Estimar el alcance del trabajo para nuevos compromisos.
- Establecer criterios de éxito realistas.
- Identificar entregables que entregarás al finalizar el compromiso.

Como ocurre con la mayoría de los modelos de madurez, el modelo de madurez de MLOps evalúa cualitativamente las personas/cultura, los procesos/estructuras y los objetos/tecnología. A medida que aumenta el nivel de madurez, aumenta la probabilidad de que los incidentes o errores conduzcan a mejoras en la calidad de los procesos de desarrollo y producción.

El modelo de madurez de MLOps abarca cinco niveles de capacidad técnica:

### Level 0: No MLOps
- **Descripción**:
    - Difícil de gestionar el ciclo de vida completo del modelo de machine learning
    - Los equipos son dispares y las versiones son problemáticas
    - La mayoría de los sistemas existen como "cajas negras", con poco feedback durante/después del despliegue

- **Aspectos Destacados**:
    - Construcciones y despliegues manuales
    - Pruebas manuales del modelo y la aplicación
    - Sin seguimiento centralizado del rendimiento del modelo
    - Entrenamiento del modelo es manual
    - Adecuado para Pruebas de Conceptos (PoC)

### Nivel 1: DevOps pero sin MLOps
- **Descripción**:
    - Los despliegues son menos dolorosos que en Sin MLOps, pero dependen del equipo de datos para cada nuevo modelo
    - Aún hay feedback limitado sobre cómo se comporta el modelo en producción
    - Difícil de rastrear/reproducir resultados

- **Aspectos Destacados**:
    - Construcciones automatizadas
    - Pruebas automatizadas para el código de la aplicación
    - Despliegues automatizados (a nivel de software engineering)
    - Unit & integration test
    - CI/CD
    - Métricas de Ops.
    - No hay tracking de experimentos
    - No hay reproducibilidad del modelo
    - Data Scientist aislado de los Software Engineering
    - Adecuado para pasar de PoC a Producción

### Nivel 2: Entrenamiento Automatizado
- **Descripción**:
    - El entorno de entrenamiento está completamente gestionado y es rastreable
    - Fácil de reproducir el modelo
    - Los despliegues son manuales, pero con poca fricción

- **Aspectos Destacados**:
    - Entrenamiento automatizado del modelo
    - Seguimiento centralizado del rendimiento del entrenamiento del modelo
    - Gestión del modelo
    - Pipeline de Entrenamiento
    - Tracking de  Experimento
    - Model Registry
    - Low Friction Deployment
    - Data Scientist trabajan en conjunto con los Software Engineering.


### Nivel 3: Despliegue Automático del Modelo
- **Descripción**:
    - Los despliegues tienen poca fricción y son automáticos
    - Rastreabilidad completa desde el despliegue hasta los datos originales
    - Todo el entorno gestionado: entrenamiento > prueba > producción
- **Aspectos Destacados**:
    - Pruebas A/B integradas del rendimiento del modelo para el despliegue
    - Pruebas automatizadas para todo el código
    - Seguimiento centralizado del rendimiento del entrenamiento del modelo

### Nivel 4: MLOps Completo con Operaciones Automatizadas
- **Descripción**:
    - Sistema completo automatizado y fácilmente monitoreado
    - Los sistemas de producción proporcionan información sobre cómo mejorar y, en algunos casos, mejorar automáticamente con nuevos modelos
    - Aproximándose a un sistema con cero tiempos de inactividad

- **Aspectos Destacados**:
    - Entrenamiento y pruebas automatizadas del modelo
    - Métricas detalladas y centralizadas del modelo desplegado