<div align="center">
   <img src="imgs/mlflow.png" alt="UI MLflow" width="250"/>
</div>

<div align="center">
  <h1 style="color:#0072CE; font-family:sans-serif;">
    Workshop MLflow
  </h1>
  27 de Marzo de 2025
</div>

👉 **Todo el contenido y archivos están en el repo:** `github.com/tmonreal/mlflow-workshop`

# Motivación
- La mayoría de los proyectos de machine learning no cuentan con un sistema dedicado para la gestión y el seguimiento de experimentos.
- Esto nos ayuda a hacer un seguimiento de:

1. La configuración del modelo: clave para la reproducibilidad.
2. El rendimiento del modelo: fundamental para comparar distintos modelos.

    ... a lo largo de todos los experimentos.

- Muchísimos data scientists/ingenieros de ML desarrollan modelos completos en notebooks de Jupyter, sin contar con protocolos bien definidos ni automatizados para asegurar la reproducibilidad o el seguimiento de performance.

<div align="center">
   <img src="imgs/image-1.png" alt="UI MLflow" width="700"/>
</div>

- Suelen depender fuertemente de sistemas de seguimiento ineficientes y manuales (como planillas, documentos, etc.) que rápidamente se vuelven difíciles de manejar.

<div align="center">
   <img src="imgs/image-2.png" alt="UI MLflow" width="700"/>
   <img src="imgs/image-3.png" alt="UI MLflow" width="700"/>
</div>

- MLflow se destaca como una herramienta muy valiosa para data scientists, ya que ofrece prácticas sólidas para estructurar y gestionar pipelines de ML.

- Se integra sin problemas con distintos servicios en la nube, lo que permite una gran flexibilidad en su uso, ya sea de forma local por una sola persona o de manera remota por un equipo grande de ingeniería de ML.

- Vamos a ver como podemos integrar MLflow en nuestros proyectos de machine learning existentes, lo que nos permite automatizar muchas tareas repetitivas y manuales.

## Desafíos tradicionales en proyectos de ML

### 1. Prácticas inadecuadas de control de versiones

- Uno de los desafíos más comunes en el modelado tradicional de ML es la ausencia de buenas prácticas de control de versiones.

   - Se suele versionar solo el código, pero no los datos ni los modelos entrenados.
   - Muchas veces no queda registro de con qué configuración se entrenó un modelo.
   - Si alguien vuelve a correr el mismo notebook semanas después, es muy probable que los resultados no sean exactamente iguales.

<div align="center">
   <img src="imgs/image-4.png" alt="UI MLflow" width="700"/>
</div>

### 2. Seguimiento manual de parámetros y datos

- En los flujos de trabajo tradicionales de ML, llevar el registro de los parámetros y los datos de forma manual representa un gran desafío.

- Este proceso, además de ser propenso a errores y muy poco eficiente, carece de trazabilidad real.

- Muchos practicantes de ML recurren a planillas de cálculo o documentos para anotar configuraciones de hiperparámetros y las fuentes de los datos utilizados. Pero este enfoque:

   - Complica la organización de los experimentos,
   - Dificulta mantener un historial completo y claro,
   - Y pone en riesgo la posibilidad de reproducir y validar los resultados más adelante.

<div align="center">
   <img src="imgs/image-5.png" alt="UI MLflow" width="700"/>
</div>

### 3. Obstáculos para la colaboración

- La colaboración en entornos tradicionales de ML suele enfrentar cuellos de botella debido a la falta de herramientas centralizadas y prácticas estandarizadas.

- En general, cada integrante del equipo trabaja de forma bastante aislada, y compartir modelos, experimentos o hallazgos se vuelve engorroso y desordenado.

- La ausencia de una plataforma unificada para colaborar produce:

   - Esfuerzos aislados, donde cada persona lleva su propio seguimiento
   - Dificultad para compartir conocimiento
   - Ciclos de desarrollo más lentos
   - Y un freno al progreso colectivo del equipo

<div align="center">
   <img src="imgs/image-6.png" alt="UI MLflow" width="700"/>
</div>

## Intro a MLflow

- Abordar estos desafíos es fundamental para construir flujos de trabajo de ML que sean __eficientes, escalables y reproducibles__.
- Estos desafíos pueden resolverse de forma elegante aplicando prácticas estándar de MLOps que permiten construir, entrenar, desplegar e incluso automatizar distintas etapas de un proyecto, con muy poca intervención manual.
- Una de las mejores herramientas en este sentido es MLflow, que además es completamente open-source.

<div align="center">
   <img src="imgs/mlflow.png" alt="UI MLflow" width="500"/>
</div>


### Componentes de MLflow

MLflow está compuesto por varios módulos, cada uno diseñado para resolver un problema específico dentro del ciclo de vida de un proyecto de machine learning.

**Componentes principales de MLflow:**

> **[1. MLflow Tracking](https://mlflow.org/docs/latest/tracking/)**
- Sirve para hacer el seguimiento de experimentos: código, datos, configuraciones de modelos y resultados.
- También permite comparar runs y elegir el mejor modelo.

> **[2. MLflow Projects](https://mlflow.org/docs/latest/projects/)**
- Permite empaquetar el código de proyectos de ML en un formato reproducible en cualquier plataforma.
- Ideal para compartir workflows de forma ordenada.

> **[3. MLflow Models](https://mlflow.org/docs/latest/model)**
- Facilita el deployment de modelos entrenados con distintas librerías (scikit-learn, XGBoost, PyTorch, etc.) en distintos entornos de servicio.

> **[4. MLflow Model Registry](https://mlflow.org/docs/latest/model-registry)**
- Es un sistema dedicado para gestionar, versionar y rastrear modelos, con estados (Staging, Production, etc.) y metadata asociada.

**Nuevos componentes de MLflow orientados a LLMs:**

> **[5. MLflow Deployments for LLMs](https://mlflow.org/docs/latest/llms/deployments/guides/index.html)**

> **[6. MLflow LLM Evaluate](https://mlflow.org/docs/latest/llms/llm-evaluate/index.html)**


### Terminología en MLflow

#### ¿Qué es un experiment y un run en MLflow?
- Un _experiment_ es un contenedor donde agrupás varias ejecuciones (runs) relacionadas con una misma tarea.
- Un _run_ es una ejecución concreta de un modelo con ciertos parámetros, datos y resultados

<div align="center">
   <img src="imgs/image-7.png" alt="UI MLflow" width="500"/>
   <img src="imgs/image-8.png" alt="UI MLflow" width="500"/>
</div>



### ⚙️ Instalación y setup

In [None]:
%pip install mlflow

In [2]:
# Verificamos instalación
import mlflow
print("Versión de MLflow:", mlflow.__version__)

Versión de MLflow: 2.21.1


### Interfaz web de MLflow

Para ver los experimentos registrados, corré este comando en tu terminal:

> ```bash
> mlflow ui

Una vez que corra, abrí tu navegador en: http://localhost:5000


#### 📖 Navegando la UI de MLflow

Una vez que levantás la UI con `mlflow ui`, vas a ver una pantalla como esta:

<div align="center">
    <img src="imgs/mlflow_1.png" alt="UI MLflow" width="900"/>
</div>

- En la parte superior derecha vas a encontrar un botón que dice ["Docs"](https://www.mlflow.org/docs/latest/index.html) que te lleva a la documentación oficial de MLflow.  
- Está bastante bien explicada y podés encontrar info sobre:
    - Cómo registrar parámetros, métricas, artefactos y modelos
    - Cómo comparar distintos runs
    - Cómo usar MLflow con distintos frameworks (sklearn, PyTorch, etc.)
    - Cómo desplegar modelos en producción
    - Cómo configurar MLflow en modo servidor compartido

💡 Si te interesa profundizar, este es un buen punto de partida para seguir aprendiendo.


### 🧪 Registrar experimentos en MLflow

Ahora sí, vamos a empezar a **registrar algunos experimentos con MLflow**.

Para eso, vamos a armar un ejemplo bien básico de clasificación, usando un **dataset sintético** con **desbalance de clases**. Esto nos va a permitir:

- Probar cómo se registran los parámetros del modelo
- Ver cómo guardar métricas de evaluación
- Dejar guardado el modelo entrenado
- Visualizar todo desde la UI de MLflow

💡 Este tipo de ejercicios es ideal para entender cómo usar MLflow en situaciones reales donde probamos varios modelos y queremos compararlos fácilmente.

##### ➡️ Vamos al notebook `first_experiment.ipynb`
##### ➡️ Vamos al notebook `second_experiment.ipynb`

### 📦 De Experiment Tracking a Model Registration

- Hasta ahora estuvimos usando MLflow para **hacer seguimiento de experimentos**: registramos métricas, parámetros, datasets y modelos entrenados.

- Ahora vamos a pasar a la siguiente etapa: **Model Registration**.

- Viendo las métricas obtenidas por cada modelo, podemos **elegir cuál fue el mejor** y registrar ese modelo en el **Model Registry** de MLflow.

- Esto nos permite:
    - Versionar modelos elegidos
    - Marcar modelos como "Staging", "Production" o "Archived"
    - Tener un punto centralizado para desplegar desde ahí

📚 Más info en la [documentación oficial.](https://www.mlflow.org/docs/latest/model-registry/)


##### ➡️ Vamos al notebook `register_model.ipynb`