# Quiz Clase 8 y 9 sobre MLOps siguiente semana 14 de Octubre de 2025 en clase.

# Seguimiento de Experimentos
https://neptune.ai/blog/ml-experiment-tracking

 <img style="display: block; margin: auto;" src="./images/mlops-experiment-tracking-excalidraw.png" width="1280" height="50">
 
## 1. Motivación

Imaginemos que se está tratando de desarrollar la receta perfecta para las mejores galletas con chispas de chocolate. 
- Después del primer intento, se decide aumentar la cantidad de harina. 
- En otro momento, se agregan más chispas de chocolate. 
- Luego, se prueba añadiendo nueces. 
- Al final, se habrán probado una docena de recetas, pero ¿cómo se sabría cuál fue la mejor?

Seguramente se estaría de acuerdo en que tomar notas durante este proceso sería una buena idea. Anotar los ingredientes y cómo resultaron las galletas ayudaría a saber qué funcionó mejor.

Ahora consideremos la siguiente historia:

    ... Hasta ahora, todo se ha estado haciendo de manera manual y algo ad hoc.
    
    Algunas personas están usando esto, otras personas están usando aquello; está todo desorganizado.
    
    No tenemos nada estandarizado.
    
    Pero ejecutamos muchos proyectos, el equipo está creciendo y estamos escalando muy rápido.
    
    Por lo tanto, nos encontramos con muchos problemas. ¿Cómo se entrenó el modelo? ¿Con qué datos? ¿Qué parámetros se usaron para las diferentes versiones? ¿Cómo podemos reproducirlos?
    
    Sentimos la necesidad de controlar nuestros experimentos…

La verdad es que, cuando se desarrollan modelos de Machine Learning (ML), se realizan muchos experimentos. 

Y esos experimentos pueden:

+ Usar diferentes modelos y hiperparámetros.
+ Emplear distintos datos de entrenamiento o evaluación.
+ Ejecutar diferentes códigos (incluyendo ese pequeño cambio que se quiso probar el otro día).
+ Correr el mismo código en un entorno diferente (sin saber qué versión de las librerías estaba instalada).

Como resultado, cada uno de estos experimentos puede producir métricas de evaluación completamente diferentes. Cada ajuste en los parámetros o cambios en el algoritmo puede tener un gran impacto en el rendimiento del modelo, al igual que las variaciones en la receta afectan el sabor de las galletas.

Mantener un seguimiento de toda esa información se vuelve realmente difícil muy rápidamente. Especialmente si se desea organizar y comparar muchos experimentos y sentirse seguro de haber seleccionado los mejores modelos para llevar a producción.

Aquí es donde entra el seguimiento de experimentos. Llevar un registro detallado de los experimentos permite guardar información sobre qué cambios produjeron mejores resultados y cuáles no, facilitando la identificación del enfoque más efectivo.

## 2. Definiciones

* **Seguimiento de Experimentos** en el contexto del aprendizaje automático se refiere al proceso de registrar y organizar sistemáticamente toda la información relevante sobre cada experimento realizado durante el desarrollo de modelos de ML. Un experimento de ML es un enfoque sistemático para probar una hipótesis, y su metadata relevante incluye los insumos y salidas del experimento.

* **Experiment**:
   - **Definición**: Un experimento es un grupo lógico de ejecuciones (runs). Es un contenedor para rastrear diferentes versiones de modelos o configuraciones dentro de un proyecto de aprendizaje automático. Cada experimento puede contener varias ejecuciones con distintos parámetros, algoritmos o conjuntos de datos, lo que facilita la comparación entre versiones del modelo.
   - **Ejemplo**: En un proyecto de clasificación de imágenes de gatos y perros, podrías tener un experimento llamado "Clasificador de Gatos y Perros". En este experimento, probarías diferentes modelos (`ResNet50`, `VGG16`, `MobileNet`) y ajustes de hiperparámetros, evaluando cuál ofrece el mejor rendimiento.

* **Run**:
   - **Definición**: Un run es la ejecución individual de un modelo de entrenamiento dentro de un experimento. Cada run registra detalles como parámetros (entradas), métricas (salidas), y otros metadatos importantes. Un nuevo run es creado cada vez que se ejecuta un trabajo de entrenamiento, y se le asigna un ID único para su seguimiento.
   - **Ejemplo**: Ejecutar un entrenamiento con `ResNet50` y una tasa de aprendizaje de 0.001 y un batch size de 32 se registraría como un _run_. Este run podría incluir:
     - **Modelo:** ResNet50
     - **Parámetros:**
       - `learning_rate = 0.001`
       - `batch_size = 32`
     - **Métricas:**
       - `accuracy = 0.89`
       - `loss = 0.35`
     - **Artefactos:** El modelo entrenado, un gráfico de la matriz de confusión, y los logs del proceso de entrenamiento.

* **Artifact**:
   - **Definición**: Un artefacto se refiere a cualquier archivo o dato generado como parte de un experimento de ML. Esto puede incluir el modelo entrenado, resultados de evaluación, gráficos, archivos de predicción, o conjuntos de datos usados.
   - **Ejemplo**: Después de un run, los artefactos generados podrían incluir:
     - El modelo entrenado (e.g., `model_resnet50_v1.pkl`).
     - Un gráfico de las curvas de aprendizaje (`learning_curves.png`).
     - Un archivo CSV con las predicciones (`predictions.csv`).
   
* **Metadata**:
   - **Definición**: Los metadatos son la información que describe las propiedades de un `experimento` o un `run`. Incluye los parámetros registrados, las métricas calculadas, las etiquetas asociadas, y detalles del entorno de entrenamiento, como las versiones de las librerías usadas. Los metadatos ayudan a organizar y entender los resultados, proporcionando contexto sobre las condiciones en las que se entrenaron los modelos.
   - **Ejemplo**: Para un `run` que entrena un modelo `VGG16`, los metadatos podrían incluir:
     - **Parámetros:**
       - `learning_rate = 0.0001`
       - `epochs = 20`
       - `batch_size = 64`
     - **Métricas:**
       - `accuracy = 0.92`
       - `precision = 0.91`
     - **Etiquetas:**
       - `experiment_type = hyperparameter_tuning`
       - `model_type = CNN`
     - **Entorno:** `Versión de Python 3.9, TensorFlow 2.6, CUDA 11.2.`

### 2.1 Componentes Clave del Seguimiento de Experimentos

1. **Hipótesis**: La suposición o prueba que se está evaluando. Por ejemplo, "Si aumento el número de épocas, la precisión de validación aumentará".

2. **Insumos**:
   - **Código**: Scripts y versiones del código utilizado para ejecutar el experimento.
   - **Datos de Entrenamiento y Validación**: Conjuntos de datos utilizados, incluyendo características.
   - **Arquitectura del Modelo e Hiperparámetros**: Configuración del modelo, como el tamaño de la red neuronal y el número de épocas.

3. **Salidas**:
   - **Métricas de Evaluación**: Precisión, recall, y otras métricas que indican el rendimiento del modelo.
   - **Parámetros del Modelo**: Los parámetros finales del modelo que se han entrenado.

### 2.2 Proceso y Propósito

El desarrollo de un modelo de ML busca encontrar la mejor configuración del modelo en términos de métricas, uso de recursos o tiempo de inferencia, según las restricciones del proyecto. Este proceso iterativo implica ejecutar numerosos experimentos, analizar y comparar sus resultados, y probar nuevas ideas para desarrollar la configuración de mejor rendimiento. 

El seguimiento de experimentos permite:
- **Registrar Parámetros**: Por ejemplo, tasa de aprendizaje, tamaño de lote.
- **Rastrear Métricas**: Como precisión, recall.
- **Almacenar Artefactos**: Archivos de modelos entrenados, gráficos.
- **Guardar Metadatos**: Detalles del entorno, versiones de bibliotecas.

Además, el seguimiento de experimentos facilita la comparación de modelos a lo largo del tiempo, la identificación de factores que afectan el rendimiento y la colaboración con colegas al compartir experimentos.

### 2.3 Información Adicional

Generalmente, el seguimiento de experimentos incluye:
- Scripts utilizados para el experimento.
- Archivos de configuración del entorno.
- Información sobre los datos utilizados (por ejemplo, estadísticas y versiones de los conjuntos de datos).
- Configuraciones del modelo y parámetros de entrenamiento.
- Métricas de evaluación de ML.
- Parámetros del modelo.
- Visualizaciones de rendimiento (como matrices de confusión o curvas ROC).
- Predicciones de ejemplo en el conjunto de validación (común en visión por computadora).

El seguimiento de experimentos asegura que cada versión o configuración del modelo esté bien documentada y sea trazable, facilitando la colaboración y la gestión de modelos a lo largo de múltiples versiones. Idealmente, esta información debe estar disponible tanto durante como después de la ejecución del experimento.

## 3. ¿Lo Necesito?

Un rastreador de experimentos permite reproducir cualquier modelo del pasado. Aunque no lo hace solo—para lograr una reproducibilidad completa también se necesita control de versiones de datos y control de versiones de código—un rastreador de experimentos es la única herramienta que combina toda la información relevante sobre un modelo.

Cuando el rendimiento de un modelo cambia, los rastreadores de experimentos te permiten retroceder y entender por qué, lo que a su vez significa que puedes tomar las decisiones correctas para mejorar tu modelo en el futuro.

Además, si tienes un experimento particular que deseas compartir con un colega para obtener su opinión o revisión, un rastreador de experimentos facilita que tu colega vea no solo el resultado final, sino exactamente cómo llegaste allí.

Como herramienta tanto para garantizar la reproducibilidad como para habilitar la colaboración, el seguimiento de experimentos es una pieza clave de una infraestructura de MLOps.

### 3.1 ¿Por Qué Necesitas Rastrear Tus Experimentos de ML?

Debido a que pequeños cambios en las entradas pueden llevar a resultados completamente diferentes, se realizarán muchos experimentos para desarrollar el mejor modelo. Sin registrar las entradas y salidas y organizar los experimentos, se puede perder rápidamente de vista lo que funcionó y lo que no.

Por lo tanto, rastrear tus experimentos de ML de manera organizada puede ayudar en los siguientes aspectos:

- **Visión General**: ¿Cuántos y qué experimentos se realizaron?
- **Detalles y Reproducibilidad**: ¿Cuáles fueron los detalles de los experimentos y cómo podemos reproducir los resultados?
- **Comparación**: ¿Qué ideas y cambios llevaron a mejoras?

Con la información obtenida, se puede centrar en nuevos enfoques y en mejorar los prototipos en lugar de tratar de dar sentido a una gran cantidad de experimentos desorganizados.

## 4. ¿Cómo Rastrear Experimentos de Machine Learning?

Se puede rastrear experimentos de machine learning de manera manual o automática utilizando diferentes herramientas. 

Se podría realizar el seguimiento manualmente con papel y bolígrafo o digitalmente en archivos de texto u hojas de cálculo. 

También puedes automatizar la tarea añadiendo funciones de registro a tu código o utilizando herramientas modernas de seguimiento de experimentos.

Hay algunas opciones, siendo las más populares:

* Hojas de cálculo y convención de nombres (Seguimiento Manual)
* Versionando todo con un repositorio de Git
* Uso moderno de herramientas para seguimiento de experimentos.

### 4.1 Seguimiento Manual de Experimentos (¡Por favor, NO!)

Un enfoque común para el seguimiento de experimentos es crear una hoja de cálculo gigante donde se coloca toda la información posible (métricas, parámetros, etc.) y una estructura de directorios donde las cosas son nombradas de una manera específica. Esos nombres suelen terminar siendo muy largos e intrincados, como `model_v1_lr01_batchsize64_no_preprocessing_result_accuracy082.h5`.

Cada vez que se ejecuta un experimento, los resultados son revisados y copiados en la hoja de cálculo.

Este enfoque es sencillo y una buena manera de que los experimentos sean rastreados cuando se está comenzando.

Sin embargo, se presentan varias desventajas:
- **Disciplina y tiempo son requeridos**: Registrar manualmente todos los metadatos relevantes de un experimento requiere disciplina y tiempo.
- **Errores son inevitablemente cometidos**: Los errores son inevitables durante el proceso de registro manual.
- **Las notas se pueden perder**: Si las notas de los experimentos registradas manualmente se pierden (similar a no usar control de versiones y perder el código), muchos, si no todos, los experimentos podrían tener que ser ejecutados nuevamente.
- **Escalabilidad es limitada**: Además, aunque esta tarea tediosa puede ser automatizada, el enfoque no escala bien cuando se necesitan ejecutar muchos experimentos.
- **Debe garantizarse que ni tú ni tu equipo sobrescribirán accidentalmente la información en la hoja de cálculo**. Las hojas de cálculo no son fáciles de versionar, por lo que si esto sucede, estarás en problemas.
- **Es necesario recordar rastrearlos**. Las cosas se complican si algo no sucede automáticamente, especialmente cuando hay más personas involucradas.
- **Es necesario recordar utilizar las convenciones de nombres**. Si alguien en el equipo comete un error con esto, rastrear los artefactos del experimento (pesos del modelo, gráficos de rendimiento) será doloroso.
- **Las carpetas de artefactos deben ser respaldadas independientemente y mantenidas en sincronía con la hoja de cálculo**. Incluso si un flujo de trabajo automático se configura para ejecutarse regularmente, inevitablemente llegará un momento en que falle.
- **Cuando la hoja de cálculo crece, se vuelve menos usable**. Buscar y comparar cientos de experimentos en una hoja de cálculo (especialmente si varias personas quieren usarla al mismo tiempo) no es una gran experiencia.

### 4.2 Seguimiento Automático de Experimentos Sin Herramientas de Seguimiento de Experimentos

Una forma popular de rastrear los experimentos de machine learning es automatizar el tedioso trabajo de registrar todo lo que podría ser importante, incluyendo funcionalidades de registro en tu código.

Aunque este enfoque requiere un poco más de esfuerzo para configurarlo en comparación con el seguimiento manual de experimentos, es fácil de implementar, directo y te ahorra tiempo a largo plazo porque es menos propenso a errores (por ejemplo, cometer errores durante el registro manual, perder notas, etc.) en comparación con el seguimiento manual de experimentos.

Veamos el flujo de trabajo aproximado del seguimiento automático de experimentos escribiendo código para registrar información en una hoja de cálculo.

1. **Configuración**
    Configura una hoja de cálculo. Existen varias formas diferentes de añadir funcionalidades de registro a tu código. En este ejemplo, leeremos la hoja de cálculo en un DataFrame de pandas y añadiremos una nueva fila para cada experimento.
    ```python
    import pandas as pd
    
    log_df = pd.read_csv('log.csv')
    ```

2. **Registro de Insumos y Salidas**
A continuación, registra toda la metadata relevante del experimento en un único diccionario. Luego, puedes añadir el diccionario del experimento al DataFrame de pandas como una nueva fila. Al final, puedes guardar el DataFrame de pandas de vuelta en la hoja de cálculo. También podrías automatizar el guardado de gráficos relevantes en una carpeta dedicada.
    ```python
    # Setup a new run
    experiment = {'Experiment ID': 1}
    
    # Log inputs, such as hyperparameters
    experiment['learning_rate'] = 1e-3
    
    # Model development here
    # ...
    
    # Log outputs, such as metrics
    experiment['val_acc'] = val_accuracy
    
    # ...
    
    # Save experiment details
    log_df = log_df.append(experiment, ignore_index = True)
    log_df.to_csv('log.csv', index = False)
    ```

3. **Recuperación de Información**
   En tu hoja de cálculo, ahora puedes buscar, filtrar y ordenar los resultados de diferentes experimentos.
    
   <img style="display: block; margin: auto;" src="./images/tracking-experiment-spreadsheet.png" width="680" height="50">

### 4.3 Seguimiento Automatizado de Experimentos con Herramientas de Seguimiento de Experimentos

Finalmente, existen herramientas modernas de seguimiento de experimentos, que son soluciones construidas específicamente para rastrear, organizar y comparar experimentos. 

Hay varias opciones populares, como:
https://neptune.ai/blog/best-ml-experiment-tracking-tools


* [MLFlow](https://mlflow.org/)
* [CometML](https://www.comet.ml/)
* [Neptune](https://neptune.ai/)
* [Weights & Biases](https://wandb.ai/)
* [TensorBoard](https://www.tensorflow.org/tensorboard)
* [Otras](https://neptune.ai/blog/best-ml-experiment-tracking-tools):

<img style="display: block; margin: auto;" src="./images/tracking-experiment-tools.png" width="880" height="500">

## 5. Mejores prácticas para el seguimiento de experimentos de ML

Hasta ahora, se ha cubierto qué es el seguimiento de experimentos de aprendizaje automático y por qué es importante.

Ahora es momento de entrar en detalles.

### 5.1 Qué deberías rastrear en cualquier experimento de ML:

Como se mencionó inicialmente, la información que se quiere rastrear depende en última instancia de las características del proyecto.

Sin embargo, hay algunas cosas que deberías rastrear independientemente del proyecto en el que estés trabajando. Estas son:

1. **Código**: Scripts de preprocesamiento, entrenamiento y evaluación, notebooks para ingeniería de características y otras utilidades. Y, por supuesto, todo el código necesario para ejecutar (y re-ejecutar) el experimento.

2. **Entorno**: La forma más fácil de mantener un registro del entorno es guardar los archivos de configuración del entorno como `Dockerfile` (Docker), `requirements.txt` (pip), `pyproject.toml` (por ejemplo, `hatch` y `poetry`), o `conda.yml` (conda). También puedes guardar imágenes Docker construidas en Docker Hub o en tu propio repositorio de contenedores, pero encuentro más fácil guardar archivos de configuración.

3. **Datos**: Guardar versiones de datos (como un hash o ubicaciones de recursos de datos inmutables) facilita ver en qué se entrenó tu modelo. También puedes usar herramientas modernas de versionado de datos como `DVC` (y guardar los archivos .dvc en tu herramienta de seguimiento de experimentos).

4. **Parámetros**: Guardar la configuración de la ejecución de tu experimento es crucial. Ten especial cuidado cuando pases parámetros a través de la línea de comandos (por ejemplo, a través de argparse, click o hydra), ya que este es un lugar donde puedes olvidar fácilmente rastrear información importante. 

5. **Métricas**: Registrar métricas de evaluación en conjuntos de entrenamiento, validación y prueba para cada ejecución es bastante obvio. Pero diferentes frameworks lo hacen de manera diferente, así que tal vez quieras revisar este artículo en profundidad sobre el seguimiento de métricas de modelos de ML.

Mantener un registro de estas cosas te permitirá reproducir experimentos, realizar depuraciones básicas y entender qué sucedió a un alto nivel.

Dicho esto, siempre se pueden registrar más cosas para obtener aún más información. Mientras se mantengan los datos que se rastrean en una estructura agradable, no hace daño recopilar información, incluso si no se sabe si podría ser relevante más adelante. Después de todo, la mayoría de los metadatos son solo números y cadenas que no ocupan mucho espacio.

### 5.2 Qué más podrías rastrear

Veamos algunas cosas adicionales que se podrían querer rastrear al trabajar en un tipo específico de proyecto.

A continuación se presentan algunas recomendaciones para varios tipos de proyectos de ML.

#### 5.2.1 Machine Learning

- Pesos del modelo
- Gráficos de evaluación (curvas ROC, matriz de confusión)
- Distribuciones de predicción

#### 5.2.2 Deep Learning

- Puntos de control del modelo (tanto durante como después del entrenamiento)
- Normas de gradiente (para controlar problemas de gradiente que desaparece o explota)
- Mejores/peores predicciones en el conjunto de validación y prueba después del entrenamiento
- Recursos de hardware: útil para depurar cargadores de datos y configuraciones multi-GPU

#### 5.2.3 Computer Vision

- Predicciones del modelo después de cada época (etiquetas, máscaras superpuestas o cuadros delimitadores)

#### 5.2.4 Procesamiento del Lenguaje Natural y Modelos de Lenguaje Grande (NLP y LLMs)

- Tiempo de inferencia
- Prompts (en el caso de LLMs generativos)
- Métricas de evaluación específicas (por ejemplo, ROUGE para resumen de texto o BLEU para traducción entre idiomas)
- Tamaño y dimensiones de incrustación, tipo de tokenizador y número de cabezas de atención (al entrenar modelos de transformadores desde cero)
- Importancia de características, explicaciones basadas en atención o basadas en ejemplos (ver esta visión general para algoritmos específicos y más ideas)

#### 5.2.5 Datos Estructurados

- Instantánea de datos de entrada (`.head()` en DataFrames si estás usando pandas)
- Importancia de características (por ejemplo, importancia de permutación)
- Explicaciones de predicción como `SHAP` o gráficos de dependencia parcial (todos están disponibles en DALEX)

#### 5.2.6 Reinforcement Learning

- Retorno de episodio y duración de episodio
- Pasos totales del entorno, tiempo de pared, pasos por segundo
- Pérdidas de función de valor y política
- Estadísticas agregadas sobre múltiples entornos y/o ejecuciones

#### 5.2.7 Optimización de Hiperparámetros

- Puntuación de ejecución: la métrica que estás optimizando después de cada iteración
- Parámetros de ejecución: configuración de parámetros probada en cada iteración
- Mejores parámetros: mejores parámetros hasta el momento y mejores parámetros generales después de que todas las ejecuciones hayan concluido
- Gráficos de comparación de parámetros: hay varias visualizaciones que podrías querer registrar durante o después del entrenamiento, como gráfico de coordenadas paralelas o gráfico de corte (todos están disponibles en Optuna, por cierto)

## 6. MLflow

<img style="display: block; margin: auto;" src="./images/mlflow-logo.png" width="480" height="500">

### 6.1 Introducción:
`MLflow` es una plataforma de código abierto indispensable para gestionar el ciclo de vida del aprendizaje automático. Aborda aspectos clave del proceso de aprendizaje automático, incluyendo la experimentación, la reproducibilidad, la implementación y el registro central de modelos.

En la práctica, es solamente un paquete de `Python` que puede ser instalado con `pip`, y contiene 3 módulos principales:

+ Tracking
+ Model Registry
+ Projects

### 6.2 ¿Por qué usar `MLflow`?

El proceso de aprendizaje automático (ML) es complejo, abarcando diversas etapas, desde el preprocesamiento de datos hasta el despliegue del modelo y su monitoreo. Asegurar la productividad y eficiencia a lo largo de este ciclo de vida plantea varios desafíos:

- **Gestión de Experimentos**: Es difícil llevar un registro de la miríada de experimentos, especialmente cuando se trabaja con archivos o cuadernos interactivos. Determinar qué combinación de datos, código y parámetros condujo a un resultado particular puede convertirse en una tarea desalentadora.

- **Reproducibilidad**: Asegurar resultados consistentes en diferentes ejecuciones no es trivial. Más allá de solo rastrear versiones de código y parámetros, capturar todo el entorno, incluyendo las dependencias de bibliotecas, es crítico. Esto se vuelve aún más desafiante al colaborar con otros científicos de datos o al escalar el código a diferentes plataformas.

- **Consistencia en el Despliegue**: Con la plétora de bibliotecas de ML disponibles, a menudo no hay una forma estandarizada de empaquetar y desplegar modelos. Las soluciones personalizadas pueden llevar a inconsistencias, y el vínculo crucial entre un modelo y el código y parámetros que lo produjeron podría perderse.

- **Gestión de Modelos**: A medida que los equipos de ciencia de datos producen numerosos modelos, gestionar, probar y desplegar continuamente estos modelos se convierte en un obstáculo significativo. Sin una plataforma centralizada, gestionar los ciclos de vida de los modelos se vuelve inmanejable.

- **Agnosticismo de Biblioteca**: Aunque las bibliotecas individuales de ML podrían ofrecer soluciones a algunos de los desafíos, lograr los mejores resultados a menudo implica experimentar a través de múltiples bibliotecas. Una plataforma que ofrezca compatibilidad con varias bibliotecas mientras asegura que los modelos sean utilizables como "cajas negras" reproducibles es esencial.

MLflow aborda estos desafíos ofreciendo una plataforma unificada diseñada para todo el ciclo de vida del ML. Sus beneficios incluyen:

- **Trazabilidad**: Con herramientas como el Servidor de Seguimiento, cada experimento se registra, asegurando que los equipos puedan rastrear y entender la evolución de los modelos.

- **Consistencia**: Ya sea accediendo a modelos a través de las Implementaciones de MLflow para LLMs o estructurando proyectos con Recetas de `MLflow`, `MLflow` promueve un enfoque consistente, reduciendo tanto la curva de aprendizaje como los posibles errores.

- **Flexibilidad**: El diseño agnóstico de bibliotecas de `MLflow` asegura compatibilidad con una amplia gama de bibliotecas de machine learning. Ofrece soporte integral a través de diferentes lenguajes de programación, respaldado por una robusta API REST, CLI y APIs para Python, R y Java.

Al simplificar el complejo paisaje de los flujos de trabajo de ML, `MLflow` empodera a los científicos de datos y desarrolladores a centrarse en construir y refinar modelos, asegurando un camino ágil desde la experimentación hasta la producción.

###  6.3 ¿Quién usa MLFlow?

Los Científicos de Datos aprovechan `MLflow` para:

- Seguimiento de experimentos y persistencia de pruebas de hipótesis.
- Estructuración de código para una mejor reproducibilidad.
- Empaquetado de modelos y gestión de dependencias.
- Evaluar los límites de selección de ajuste de hiperparámetros.
- Comparar los resultados de re-entrenamiento de modelos a lo largo del tiempo.
- Revisar y seleccionar modelos óptimos para el despliegue.

Los Profesionales de MLOps utilizan `MLflow` para:

- Gestionar los ciclos de vida de los modelos entrenados, tanto antes como después del despliegue.
- Desplegar modelos de forma segura en entornos de producción.
- Auditar y revisar modelos candidatos antes del despliegue.
- Gestionar las dependencias de despliegue.

Los Gerentes de Ciencia de Datos interactúan con `MLflow` mediante:

- Revisión de los resultados de la experimentación y las actividades de modelado.
- Colaboración con equipos para asegurar que los objetivos de modelado se alineen con los objetivos empresariales.

Los Usuarios de Ingeniería de Prompts usan `MLflow` para:

- Evaluar y experimentar con modelos de lenguaje de gran escala.
- Crear prompts personalizados y persistir sus creaciones candidatas.
- Decidir sobre el mejor modelo base adecuado para los requisitos específicos de su proyecto.

### 6.4 `MLflow` Tracking

`MLflow Tracking` es uno de los componentes principales de servicio de `MLflow`

<img style="display: block; margin: auto;" src="./images/mlflow-tracking-basics.png" width="880" height="500">


<img style="display: block; margin: auto;" src="./images/mlflow-run-comparison.png" width="880" height="500">

## 🧩 7. Hands-On — Tracking de experimentos con `MLflow`
https://mlflow.org/docs/latest/tracking/tracking-api.html

En esta práctica aprenderemos a **configurar desde cero** un pequeño proyecto para hacer _tracking_ de experimentos con MLflow.

💡 Este mismo repositorio lo usaremos durante el resto del curso, por lo tanto:
- Todo lo haremos sobre una **rama nueva** (no en `main`).
- Trabajaremos con **uv** para gestionar dependencias.
- Dejaremos la **estructura base del proyecto** lista para ampliarla más adelante.

### 7.1 Crear el repositorio y la rama de trabajo 🐙

1. Entra a tu cuenta de **GitHub** y crea un nuevo repositorio llamado: `nyc-taxi-predictions-2025`
2. En tu terminal, ejecuta los comandos para:
- Clonar el repositorio en tu equipo.
- Cambiarte al directorio del proyecto.
- Crear una rama de trabajo exclusiva para esta clase. `git checkout -b feat/01-mlflow-tracking-basics`

### 7.2 Inicializar el entorno con `uv` 🧰

Ahora configuraremos el entorno del proyecto con **uv**: crearemos el ambiente virtual, instalaremos las dependencias.

In [None]:
# Inicializar el proyecto con uv
uv init --python 3.11

# Crear y activar entorno virtual (si uv no lo hace automáticamente)
uv venv
source .venv/bin/activate   # macOS / Linux
# o:
# source .venv/Scripts/activate  # Windows / Git Bash

# Instalar librerías base
uv add mlflow scikit-learn pandas pyarrow fastparquet matplotlib jupyterlab ipykernel

### 7.3 Descargar los datos 🚕
Descargaremos los archivos de datos del **NYC Taxi Dataset** (enero y febrero 2025).

```bash
# Crear carpeta data si no existe
mkdir -p data

# Descargar datasets con curl
curl -o ./data/green_tripdata_2025-01.parquet https://d37ci6vzurychx.cloudfront.net/trip-data/green_tripdata_2025-01.parquet
curl -o ./data/green_tripdata_2025-02.parquet https://d37ci6vzurychx.cloudfront.net/trip-data/green_tripdata_2025-02.parquet
```

### 7.4 Preparar datos y definir features 🔧
Importaremos los datos y haremos un pequeño preprocesamiento antes de iniciar el tracking.


In [None]:
import pandas as pd
from sklearn.feature_extraction import DictVectorizer
from sklearn.linear_model import Lasso
from sklearn.metrics import root_mean_squared_error

def read_dataframe(path):
    df = pd.read_parquet(path)
    df["duration"] = (df.lpep_dropoff_datetime - df.lpep_pickup_datetime).dt.total_seconds() / 60
    df = df[(df.duration >= 1) & (df.duration <= 60)]
    df[["PULocationID", "DOLocationID"]] = df[["PULocationID", "DOLocationID"]].astype(str)
    return df

df_train = read_dataframe("data/green_tripdata_2025-01.parquet")
df_val = read_dataframe("data/green_tripdata_2025-02.parquet")

df_train["PU_DO"] = df_train["PULocationID"] + "_" + df_train["DOLocationID"]
df_val["PU_DO"] = df_val["PULocationID"] + "_" + df_val["DOLocationID"]

categorical = ["PU_DO"]
numerical = ["trip_distance"]

dv = DictVectorizer()
X_train = dv.fit_transform(df_train[categorical + numerical].to_dict(orient="records"))
X_val = dv.transform(df_val[categorical + numerical].to_dict(orient="records"))

y_train = df_train["duration"].values
y_val = df_val["duration"].values


### 7.5 Tracking con `MLflow` 🚀

Configuraremos MLflow para:
- Definir un experimento.
- Iniciar un run.
- Registrar parámetros, métricas y modelo.
- Visualizar resultados en la UI.


In [None]:
import mlflow

mlflow.set_tracking_uri("sqlite:///mlflow.db")
mlflow.set_experiment("class-nyc-taxi-experiment")

with mlflow.start_run(run_name="lasso_alpha_0.1"):
    alpha = 0.1
    mlflow.log_param("alpha", alpha)

    model = Lasso(alpha=alpha)
    model.fit(X_train, y_train)

    y_pred = model.predict(X_val)
    rmse = root_mean_squared_error(y_val, y_pred)

    mlflow.log_metric("rmse", rmse)
    mlflow.sklearn.log_model(model, "model")

    print(f"✅ Run finalizado. RMSE = {rmse:.4f}")


### 7.6 Visualizar el tracking server 🔍

Ejecuta en una terminal **aparte**:

```bash
mlflow ui --backend-store-uri sqlite:///mlflow.db
```

### 7.7 Cierre y entrega 🏁

1. Guarda tus cambios y haz commit desde tu rama:

```bash
git add .
git commit -m "feat: first MLflow tracking experiment"
git push origin feat/01-mlflow-tracking-basics
```

2. Abre un Pull Request (PR) en GitHub y apruebalo.

### 7.8 Tips para hacer Tracking con `MLflow`

https://mlflow.org/docs/latest/tracking/tracking-api.html#tracking-tips