# Quiz Clase 8 y 9 sobre MLOps siguiente semana 14 de Octubre de 2025 en clase.

# Seguimiento de Experimentos
https://neptune.ai/blog/ml-experiment-tracking

 <img style="display: block; margin: auto;" src="./images/mlops-experiment-tracking-excalidraw.png" width="1280" height="50">
 
## 1. Motivaci√≥n

Imaginemos que se est√° tratando de desarrollar la receta perfecta para las mejores galletas con chispas de chocolate. 
- Despu√©s del primer intento, se decide aumentar la cantidad de harina. 
- En otro momento, se agregan m√°s chispas de chocolate. 
- Luego, se prueba a√±adiendo nueces. 
- Al final, se habr√°n probado una docena de recetas, pero ¬øc√≥mo se sabr√≠a cu√°l fue la mejor?

Seguramente se estar√≠a de acuerdo en que tomar notas durante este proceso ser√≠a una buena idea. Anotar los ingredientes y c√≥mo resultaron las galletas ayudar√≠a a saber qu√© funcion√≥ mejor.

Ahora consideremos la siguiente historia:

    ... Hasta ahora, todo se ha estado haciendo de manera manual y algo ad hoc.
    
    Algunas personas est√°n usando esto, otras personas est√°n usando aquello; est√° todo desorganizado.
    
    No tenemos nada estandarizado.
    
    Pero ejecutamos muchos proyectos, el equipo est√° creciendo y estamos escalando muy r√°pido.
    
    Por lo tanto, nos encontramos con muchos problemas. ¬øC√≥mo se entren√≥ el modelo? ¬øCon qu√© datos? ¬øQu√© par√°metros se usaron para las diferentes versiones? ¬øC√≥mo podemos reproducirlos?
    
    Sentimos la necesidad de controlar nuestros experimentos‚Ä¶

La verdad es que, cuando se desarrollan modelos de Machine Learning (ML), se realizan muchos experimentos. 

Y esos experimentos pueden:

+ Usar diferentes modelos y hiperpar√°metros.
+ Emplear distintos datos de entrenamiento o evaluaci√≥n.
+ Ejecutar diferentes c√≥digos (incluyendo ese peque√±o cambio que se quiso probar el otro d√≠a).
+ Correr el mismo c√≥digo en un entorno diferente (sin saber qu√© versi√≥n de las librer√≠as estaba instalada).

Como resultado, cada uno de estos experimentos puede producir m√©tricas de evaluaci√≥n completamente diferentes. Cada ajuste en los par√°metros o cambios en el algoritmo puede tener un gran impacto en el rendimiento del modelo, al igual que las variaciones en la receta afectan el sabor de las galletas.

Mantener un seguimiento de toda esa informaci√≥n se vuelve realmente dif√≠cil muy r√°pidamente. Especialmente si se desea organizar y comparar muchos experimentos y sentirse seguro de haber seleccionado los mejores modelos para llevar a producci√≥n.

Aqu√≠ es donde entra el seguimiento de experimentos. Llevar un registro detallado de los experimentos permite guardar informaci√≥n sobre qu√© cambios produjeron mejores resultados y cu√°les no, facilitando la identificaci√≥n del enfoque m√°s efectivo.

## 2. Definiciones

* **Seguimiento de Experimentos** en el contexto del aprendizaje autom√°tico se refiere al proceso de registrar y organizar sistem√°ticamente toda la informaci√≥n relevante sobre cada experimento realizado durante el desarrollo de modelos de ML. Un experimento de ML es un enfoque sistem√°tico para probar una hip√≥tesis, y su metadata relevante incluye los insumos y salidas del experimento.

* **Experiment**:
   - **Definici√≥n**: Un experimento es un grupo l√≥gico de ejecuciones (runs). Es un contenedor para rastrear diferentes versiones de modelos o configuraciones dentro de un proyecto de aprendizaje autom√°tico. Cada experimento puede contener varias ejecuciones con distintos par√°metros, algoritmos o conjuntos de datos, lo que facilita la comparaci√≥n entre versiones del modelo.
   - **Ejemplo**: En un proyecto de clasificaci√≥n de im√°genes de gatos y perros, podr√≠as tener un experimento llamado "Clasificador de Gatos y Perros". En este experimento, probar√≠as diferentes modelos (`ResNet50`, `VGG16`, `MobileNet`) y ajustes de hiperpar√°metros, evaluando cu√°l ofrece el mejor rendimiento.

* **Run**:
   - **Definici√≥n**: Un run es la ejecuci√≥n individual de un modelo de entrenamiento dentro de un experimento. Cada run registra detalles como par√°metros (entradas), m√©tricas (salidas), y otros metadatos importantes. Un nuevo run es creado cada vez que se ejecuta un trabajo de entrenamiento, y se le asigna un ID √∫nico para su seguimiento.
   - **Ejemplo**: Ejecutar un entrenamiento con `ResNet50` y una tasa de aprendizaje de 0.001 y un batch size de 32 se registrar√≠a como un _run_. Este run podr√≠a incluir:
     - **Modelo:** ResNet50
     - **Par√°metros:**
       - `learning_rate = 0.001`
       - `batch_size = 32`
     - **M√©tricas:**
       - `accuracy = 0.89`
       - `loss = 0.35`
     - **Artefactos:** El modelo entrenado, un gr√°fico de la matriz de confusi√≥n, y los logs del proceso de entrenamiento.

* **Artifact**:
   - **Definici√≥n**: Un artefacto se refiere a cualquier archivo o dato generado como parte de un experimento de ML. Esto puede incluir el modelo entrenado, resultados de evaluaci√≥n, gr√°ficos, archivos de predicci√≥n, o conjuntos de datos usados.
   - **Ejemplo**: Despu√©s de un run, los artefactos generados podr√≠an incluir:
     - El modelo entrenado (e.g., `model_resnet50_v1.pkl`).
     - Un gr√°fico de las curvas de aprendizaje (`learning_curves.png`).
     - Un archivo CSV con las predicciones (`predictions.csv`).
   
* **Metadata**:
   - **Definici√≥n**: Los metadatos son la informaci√≥n que describe las propiedades de un `experimento` o un `run`. Incluye los par√°metros registrados, las m√©tricas calculadas, las etiquetas asociadas, y detalles del entorno de entrenamiento, como las versiones de las librer√≠as usadas. Los metadatos ayudan a organizar y entender los resultados, proporcionando contexto sobre las condiciones en las que se entrenaron los modelos.
   - **Ejemplo**: Para un `run` que entrena un modelo `VGG16`, los metadatos podr√≠an incluir:
     - **Par√°metros:**
       - `learning_rate = 0.0001`
       - `epochs = 20`
       - `batch_size = 64`
     - **M√©tricas:**
       - `accuracy = 0.92`
       - `precision = 0.91`
     - **Etiquetas:**
       - `experiment_type = hyperparameter_tuning`
       - `model_type = CNN`
     - **Entorno:** `Versi√≥n de Python 3.9, TensorFlow 2.6, CUDA 11.2.`

### 2.1 Componentes Clave del Seguimiento de Experimentos

1. **Hip√≥tesis**: La suposici√≥n o prueba que se est√° evaluando. Por ejemplo, "Si aumento el n√∫mero de √©pocas, la precisi√≥n de validaci√≥n aumentar√°".

2. **Insumos**:
   - **C√≥digo**: Scripts y versiones del c√≥digo utilizado para ejecutar el experimento.
   - **Datos de Entrenamiento y Validaci√≥n**: Conjuntos de datos utilizados, incluyendo caracter√≠sticas.
   - **Arquitectura del Modelo e Hiperpar√°metros**: Configuraci√≥n del modelo, como el tama√±o de la red neuronal y el n√∫mero de √©pocas.

3. **Salidas**:
   - **M√©tricas de Evaluaci√≥n**: Precisi√≥n, recall, y otras m√©tricas que indican el rendimiento del modelo.
   - **Par√°metros del Modelo**: Los par√°metros finales del modelo que se han entrenado.

### 2.2 Proceso y Prop√≥sito

El desarrollo de un modelo de ML busca encontrar la mejor configuraci√≥n del modelo en t√©rminos de m√©tricas, uso de recursos o tiempo de inferencia, seg√∫n las restricciones del proyecto. Este proceso iterativo implica ejecutar numerosos experimentos, analizar y comparar sus resultados, y probar nuevas ideas para desarrollar la configuraci√≥n de mejor rendimiento. 

El seguimiento de experimentos permite:
- **Registrar Par√°metros**: Por ejemplo, tasa de aprendizaje, tama√±o de lote.
- **Rastrear M√©tricas**: Como precisi√≥n, recall.
- **Almacenar Artefactos**: Archivos de modelos entrenados, gr√°ficos.
- **Guardar Metadatos**: Detalles del entorno, versiones de bibliotecas.

Adem√°s, el seguimiento de experimentos facilita la comparaci√≥n de modelos a lo largo del tiempo, la identificaci√≥n de factores que afectan el rendimiento y la colaboraci√≥n con colegas al compartir experimentos.

### 2.3 Informaci√≥n Adicional

Generalmente, el seguimiento de experimentos incluye:
- Scripts utilizados para el experimento.
- Archivos de configuraci√≥n del entorno.
- Informaci√≥n sobre los datos utilizados (por ejemplo, estad√≠sticas y versiones de los conjuntos de datos).
- Configuraciones del modelo y par√°metros de entrenamiento.
- M√©tricas de evaluaci√≥n de ML.
- Par√°metros del modelo.
- Visualizaciones de rendimiento (como matrices de confusi√≥n o curvas ROC).
- Predicciones de ejemplo en el conjunto de validaci√≥n (com√∫n en visi√≥n por computadora).

El seguimiento de experimentos asegura que cada versi√≥n o configuraci√≥n del modelo est√© bien documentada y sea trazable, facilitando la colaboraci√≥n y la gesti√≥n de modelos a lo largo de m√∫ltiples versiones. Idealmente, esta informaci√≥n debe estar disponible tanto durante como despu√©s de la ejecuci√≥n del experimento.

## 3. ¬øLo Necesito?

Un rastreador de experimentos permite reproducir cualquier modelo del pasado. Aunque no lo hace solo‚Äîpara lograr una reproducibilidad completa tambi√©n se necesita control de versiones de datos y control de versiones de c√≥digo‚Äîun rastreador de experimentos es la √∫nica herramienta que combina toda la informaci√≥n relevante sobre un modelo.

Cuando el rendimiento de un modelo cambia, los rastreadores de experimentos te permiten retroceder y entender por qu√©, lo que a su vez significa que puedes tomar las decisiones correctas para mejorar tu modelo en el futuro.

Adem√°s, si tienes un experimento particular que deseas compartir con un colega para obtener su opini√≥n o revisi√≥n, un rastreador de experimentos facilita que tu colega vea no solo el resultado final, sino exactamente c√≥mo llegaste all√≠.

Como herramienta tanto para garantizar la reproducibilidad como para habilitar la colaboraci√≥n, el seguimiento de experimentos es una pieza clave de una infraestructura de MLOps.

### 3.1 ¬øPor Qu√© Necesitas Rastrear Tus Experimentos de ML?

Debido a que peque√±os cambios en las entradas pueden llevar a resultados completamente diferentes, se realizar√°n muchos experimentos para desarrollar el mejor modelo. Sin registrar las entradas y salidas y organizar los experimentos, se puede perder r√°pidamente de vista lo que funcion√≥ y lo que no.

Por lo tanto, rastrear tus experimentos de ML de manera organizada puede ayudar en los siguientes aspectos:

- **Visi√≥n General**: ¬øCu√°ntos y qu√© experimentos se realizaron?
- **Detalles y Reproducibilidad**: ¬øCu√°les fueron los detalles de los experimentos y c√≥mo podemos reproducir los resultados?
- **Comparaci√≥n**: ¬øQu√© ideas y cambios llevaron a mejoras?

Con la informaci√≥n obtenida, se puede centrar en nuevos enfoques y en mejorar los prototipos en lugar de tratar de dar sentido a una gran cantidad de experimentos desorganizados.

## 4. ¬øC√≥mo Rastrear Experimentos de Machine Learning?

Se puede rastrear experimentos de machine learning de manera manual o autom√°tica utilizando diferentes herramientas. 

Se podr√≠a realizar el seguimiento manualmente con papel y bol√≠grafo o digitalmente en archivos de texto u hojas de c√°lculo. 

Tambi√©n puedes automatizar la tarea a√±adiendo funciones de registro a tu c√≥digo o utilizando herramientas modernas de seguimiento de experimentos.

Hay algunas opciones, siendo las m√°s populares:

* Hojas de c√°lculo y convenci√≥n de nombres (Seguimiento Manual)
* Versionando todo con un repositorio de Git
* Uso moderno de herramientas para seguimiento de experimentos.

### 4.1 Seguimiento Manual de Experimentos (¬°Por favor, NO!)

Un enfoque com√∫n para el seguimiento de experimentos es crear una hoja de c√°lculo gigante donde se coloca toda la informaci√≥n posible (m√©tricas, par√°metros, etc.) y una estructura de directorios donde las cosas son nombradas de una manera espec√≠fica. Esos nombres suelen terminar siendo muy largos e intrincados, como `model_v1_lr01_batchsize64_no_preprocessing_result_accuracy082.h5`.

Cada vez que se ejecuta un experimento, los resultados son revisados y copiados en la hoja de c√°lculo.

Este enfoque es sencillo y una buena manera de que los experimentos sean rastreados cuando se est√° comenzando.

Sin embargo, se presentan varias desventajas:
- **Disciplina y tiempo son requeridos**: Registrar manualmente todos los metadatos relevantes de un experimento requiere disciplina y tiempo.
- **Errores son inevitablemente cometidos**: Los errores son inevitables durante el proceso de registro manual.
- **Las notas se pueden perder**: Si las notas de los experimentos registradas manualmente se pierden (similar a no usar control de versiones y perder el c√≥digo), muchos, si no todos, los experimentos podr√≠an tener que ser ejecutados nuevamente.
- **Escalabilidad es limitada**: Adem√°s, aunque esta tarea tediosa puede ser automatizada, el enfoque no escala bien cuando se necesitan ejecutar muchos experimentos.
- **Debe garantizarse que ni t√∫ ni tu equipo sobrescribir√°n accidentalmente la informaci√≥n en la hoja de c√°lculo**. Las hojas de c√°lculo no son f√°ciles de versionar, por lo que si esto sucede, estar√°s en problemas.
- **Es necesario recordar rastrearlos**. Las cosas se complican si algo no sucede autom√°ticamente, especialmente cuando hay m√°s personas involucradas.
- **Es necesario recordar utilizar las convenciones de nombres**. Si alguien en el equipo comete un error con esto, rastrear los artefactos del experimento (pesos del modelo, gr√°ficos de rendimiento) ser√° doloroso.
- **Las carpetas de artefactos deben ser respaldadas independientemente y mantenidas en sincron√≠a con la hoja de c√°lculo**. Incluso si un flujo de trabajo autom√°tico se configura para ejecutarse regularmente, inevitablemente llegar√° un momento en que falle.
- **Cuando la hoja de c√°lculo crece, se vuelve menos usable**. Buscar y comparar cientos de experimentos en una hoja de c√°lculo (especialmente si varias personas quieren usarla al mismo tiempo) no es una gran experiencia.

### 4.2 Seguimiento Autom√°tico de Experimentos Sin Herramientas de Seguimiento de Experimentos

Una forma popular de rastrear los experimentos de machine learning es automatizar el tedioso trabajo de registrar todo lo que podr√≠a ser importante, incluyendo funcionalidades de registro en tu c√≥digo.

Aunque este enfoque requiere un poco m√°s de esfuerzo para configurarlo en comparaci√≥n con el seguimiento manual de experimentos, es f√°cil de implementar, directo y te ahorra tiempo a largo plazo porque es menos propenso a errores (por ejemplo, cometer errores durante el registro manual, perder notas, etc.) en comparaci√≥n con el seguimiento manual de experimentos.

Veamos el flujo de trabajo aproximado del seguimiento autom√°tico de experimentos escribiendo c√≥digo para registrar informaci√≥n en una hoja de c√°lculo.

1. **Configuraci√≥n**
    Configura una hoja de c√°lculo. Existen varias formas diferentes de a√±adir funcionalidades de registro a tu c√≥digo. En este ejemplo, leeremos la hoja de c√°lculo en un DataFrame de pandas y a√±adiremos una nueva fila para cada experimento.
    ```python
    import pandas as pd
    
    log_df = pd.read_csv('log.csv')
    ```

2. **Registro de Insumos y Salidas**
A continuaci√≥n, registra toda la metadata relevante del experimento en un √∫nico diccionario. Luego, puedes a√±adir el diccionario del experimento al DataFrame de pandas como una nueva fila. Al final, puedes guardar el DataFrame de pandas de vuelta en la hoja de c√°lculo. Tambi√©n podr√≠as automatizar el guardado de gr√°ficos relevantes en una carpeta dedicada.
    ```python
    # Setup a new run
    experiment = {'Experiment ID': 1}
    
    # Log inputs, such as hyperparameters
    experiment['learning_rate'] = 1e-3
    
    # Model development here
    # ...
    
    # Log outputs, such as metrics
    experiment['val_acc'] = val_accuracy
    
    # ...
    
    # Save experiment details
    log_df = log_df.append(experiment, ignore_index = True)
    log_df.to_csv('log.csv', index = False)
    ```

3. **Recuperaci√≥n de Informaci√≥n**
   En tu hoja de c√°lculo, ahora puedes buscar, filtrar y ordenar los resultados de diferentes experimentos.
    
   <img style="display: block; margin: auto;" src="./images/tracking-experiment-spreadsheet.png" width="680" height="50">

### 4.3 Seguimiento Automatizado de Experimentos con Herramientas de Seguimiento de Experimentos

Finalmente, existen herramientas modernas de seguimiento de experimentos, que son soluciones construidas espec√≠ficamente para rastrear, organizar y comparar experimentos. 

Hay varias opciones populares, como:
https://neptune.ai/blog/best-ml-experiment-tracking-tools


* [MLFlow](https://mlflow.org/)
* [CometML](https://www.comet.ml/)
* [Neptune](https://neptune.ai/)
* [Weights & Biases](https://wandb.ai/)
* [TensorBoard](https://www.tensorflow.org/tensorboard)
* [Otras](https://neptune.ai/blog/best-ml-experiment-tracking-tools):

<img style="display: block; margin: auto;" src="./images/tracking-experiment-tools.png" width="880" height="500">

## 5. Mejores pr√°cticas para el seguimiento de experimentos de ML

Hasta ahora, se ha cubierto qu√© es el seguimiento de experimentos de aprendizaje autom√°tico y por qu√© es importante.

Ahora es momento de entrar en detalles.

### 5.1 Qu√© deber√≠as rastrear en cualquier experimento de ML:

Como se mencion√≥ inicialmente, la informaci√≥n que se quiere rastrear depende en √∫ltima instancia de las caracter√≠sticas del proyecto.

Sin embargo, hay algunas cosas que deber√≠as rastrear independientemente del proyecto en el que est√©s trabajando. Estas son:

1. **C√≥digo**: Scripts de preprocesamiento, entrenamiento y evaluaci√≥n, notebooks para ingenier√≠a de caracter√≠sticas y otras utilidades. Y, por supuesto, todo el c√≥digo necesario para ejecutar (y re-ejecutar) el experimento.

2. **Entorno**: La forma m√°s f√°cil de mantener un registro del entorno es guardar los archivos de configuraci√≥n del entorno como `Dockerfile` (Docker), `requirements.txt` (pip), `pyproject.toml` (por ejemplo, `hatch` y `poetry`), o `conda.yml` (conda). Tambi√©n puedes guardar im√°genes Docker construidas en Docker Hub o en tu propio repositorio de contenedores, pero encuentro m√°s f√°cil guardar archivos de configuraci√≥n.

3. **Datos**: Guardar versiones de datos (como un hash o ubicaciones de recursos de datos inmutables) facilita ver en qu√© se entren√≥ tu modelo. Tambi√©n puedes usar herramientas modernas de versionado de datos como `DVC` (y guardar los archivos .dvc en tu herramienta de seguimiento de experimentos).

4. **Par√°metros**: Guardar la configuraci√≥n de la ejecuci√≥n de tu experimento es crucial. Ten especial cuidado cuando pases par√°metros a trav√©s de la l√≠nea de comandos (por ejemplo, a trav√©s de argparse, click o hydra), ya que este es un lugar donde puedes olvidar f√°cilmente rastrear informaci√≥n importante. 

5. **M√©tricas**: Registrar m√©tricas de evaluaci√≥n en conjuntos de entrenamiento, validaci√≥n y prueba para cada ejecuci√≥n es bastante obvio. Pero diferentes frameworks lo hacen de manera diferente, as√≠ que tal vez quieras revisar este art√≠culo en profundidad sobre el seguimiento de m√©tricas de modelos de ML.

Mantener un registro de estas cosas te permitir√° reproducir experimentos, realizar depuraciones b√°sicas y entender qu√© sucedi√≥ a un alto nivel.

Dicho esto, siempre se pueden registrar m√°s cosas para obtener a√∫n m√°s informaci√≥n. Mientras se mantengan los datos que se rastrean en una estructura agradable, no hace da√±o recopilar informaci√≥n, incluso si no se sabe si podr√≠a ser relevante m√°s adelante. Despu√©s de todo, la mayor√≠a de los metadatos son solo n√∫meros y cadenas que no ocupan mucho espacio.

### 5.2 Qu√© m√°s podr√≠as rastrear

Veamos algunas cosas adicionales que se podr√≠an querer rastrear al trabajar en un tipo espec√≠fico de proyecto.

A continuaci√≥n se presentan algunas recomendaciones para varios tipos de proyectos de ML.

#### 5.2.1 Machine Learning

- Pesos del modelo
- Gr√°ficos de evaluaci√≥n (curvas ROC, matriz de confusi√≥n)
- Distribuciones de predicci√≥n

#### 5.2.2 Deep Learning

- Puntos de control del modelo (tanto durante como despu√©s del entrenamiento)
- Normas de gradiente (para controlar problemas de gradiente que desaparece o explota)
- Mejores/peores predicciones en el conjunto de validaci√≥n y prueba despu√©s del entrenamiento
- Recursos de hardware: √∫til para depurar cargadores de datos y configuraciones multi-GPU

#### 5.2.3 Computer Vision

- Predicciones del modelo despu√©s de cada √©poca (etiquetas, m√°scaras superpuestas o cuadros delimitadores)

#### 5.2.4 Procesamiento del Lenguaje Natural y Modelos de Lenguaje Grande (NLP y LLMs)

- Tiempo de inferencia
- Prompts (en el caso de LLMs generativos)
- M√©tricas de evaluaci√≥n espec√≠ficas (por ejemplo, ROUGE para resumen de texto o BLEU para traducci√≥n entre idiomas)
- Tama√±o y dimensiones de incrustaci√≥n, tipo de tokenizador y n√∫mero de cabezas de atenci√≥n (al entrenar modelos de transformadores desde cero)
- Importancia de caracter√≠sticas, explicaciones basadas en atenci√≥n o basadas en ejemplos (ver esta visi√≥n general para algoritmos espec√≠ficos y m√°s ideas)

#### 5.2.5 Datos Estructurados

- Instant√°nea de datos de entrada (`.head()` en DataFrames si est√°s usando pandas)
- Importancia de caracter√≠sticas (por ejemplo, importancia de permutaci√≥n)
- Explicaciones de predicci√≥n como `SHAP` o gr√°ficos de dependencia parcial (todos est√°n disponibles en DALEX)

#### 5.2.6 Reinforcement Learning

- Retorno de episodio y duraci√≥n de episodio
- Pasos totales del entorno, tiempo de pared, pasos por segundo
- P√©rdidas de funci√≥n de valor y pol√≠tica
- Estad√≠sticas agregadas sobre m√∫ltiples entornos y/o ejecuciones

#### 5.2.7 Optimizaci√≥n de Hiperpar√°metros

- Puntuaci√≥n de ejecuci√≥n: la m√©trica que est√°s optimizando despu√©s de cada iteraci√≥n
- Par√°metros de ejecuci√≥n: configuraci√≥n de par√°metros probada en cada iteraci√≥n
- Mejores par√°metros: mejores par√°metros hasta el momento y mejores par√°metros generales despu√©s de que todas las ejecuciones hayan concluido
- Gr√°ficos de comparaci√≥n de par√°metros: hay varias visualizaciones que podr√≠as querer registrar durante o despu√©s del entrenamiento, como gr√°fico de coordenadas paralelas o gr√°fico de corte (todos est√°n disponibles en Optuna, por cierto)

## 6. MLflow

<img style="display: block; margin: auto;" src="./images/mlflow-logo.png" width="480" height="500">

### 6.1 Introducci√≥n:
`MLflow` es una plataforma de c√≥digo abierto indispensable para gestionar el ciclo de vida del aprendizaje autom√°tico. Aborda aspectos clave del proceso de aprendizaje autom√°tico, incluyendo la experimentaci√≥n, la reproducibilidad, la implementaci√≥n y el registro central de modelos.

En la pr√°ctica, es solamente un paquete de `Python` que puede ser instalado con `pip`, y contiene 3 m√≥dulos principales:

+ Tracking
+ Model Registry
+ Projects

### 6.2 ¬øPor qu√© usar `MLflow`?

El proceso de aprendizaje autom√°tico (ML) es complejo, abarcando diversas etapas, desde el preprocesamiento de datos hasta el despliegue del modelo y su monitoreo. Asegurar la productividad y eficiencia a lo largo de este ciclo de vida plantea varios desaf√≠os:

- **Gesti√≥n de Experimentos**: Es dif√≠cil llevar un registro de la mir√≠ada de experimentos, especialmente cuando se trabaja con archivos o cuadernos interactivos. Determinar qu√© combinaci√≥n de datos, c√≥digo y par√°metros condujo a un resultado particular puede convertirse en una tarea desalentadora.

- **Reproducibilidad**: Asegurar resultados consistentes en diferentes ejecuciones no es trivial. M√°s all√° de solo rastrear versiones de c√≥digo y par√°metros, capturar todo el entorno, incluyendo las dependencias de bibliotecas, es cr√≠tico. Esto se vuelve a√∫n m√°s desafiante al colaborar con otros cient√≠ficos de datos o al escalar el c√≥digo a diferentes plataformas.

- **Consistencia en el Despliegue**: Con la pl√©tora de bibliotecas de ML disponibles, a menudo no hay una forma estandarizada de empaquetar y desplegar modelos. Las soluciones personalizadas pueden llevar a inconsistencias, y el v√≠nculo crucial entre un modelo y el c√≥digo y par√°metros que lo produjeron podr√≠a perderse.

- **Gesti√≥n de Modelos**: A medida que los equipos de ciencia de datos producen numerosos modelos, gestionar, probar y desplegar continuamente estos modelos se convierte en un obst√°culo significativo. Sin una plataforma centralizada, gestionar los ciclos de vida de los modelos se vuelve inmanejable.

- **Agnosticismo de Biblioteca**: Aunque las bibliotecas individuales de ML podr√≠an ofrecer soluciones a algunos de los desaf√≠os, lograr los mejores resultados a menudo implica experimentar a trav√©s de m√∫ltiples bibliotecas. Una plataforma que ofrezca compatibilidad con varias bibliotecas mientras asegura que los modelos sean utilizables como "cajas negras" reproducibles es esencial.

MLflow aborda estos desaf√≠os ofreciendo una plataforma unificada dise√±ada para todo el ciclo de vida del ML. Sus beneficios incluyen:

- **Trazabilidad**: Con herramientas como el Servidor de Seguimiento, cada experimento se registra, asegurando que los equipos puedan rastrear y entender la evoluci√≥n de los modelos.

- **Consistencia**: Ya sea accediendo a modelos a trav√©s de las Implementaciones de MLflow para LLMs o estructurando proyectos con Recetas de `MLflow`, `MLflow` promueve un enfoque consistente, reduciendo tanto la curva de aprendizaje como los posibles errores.

- **Flexibilidad**: El dise√±o agn√≥stico de bibliotecas de `MLflow` asegura compatibilidad con una amplia gama de bibliotecas de machine learning. Ofrece soporte integral a trav√©s de diferentes lenguajes de programaci√≥n, respaldado por una robusta API REST, CLI y APIs para Python, R y Java.

Al simplificar el complejo paisaje de los flujos de trabajo de ML, `MLflow` empodera a los cient√≠ficos de datos y desarrolladores a centrarse en construir y refinar modelos, asegurando un camino √°gil desde la experimentaci√≥n hasta la producci√≥n.

###  6.3 ¬øQui√©n usa MLFlow?

Los Cient√≠ficos de Datos aprovechan `MLflow` para:

- Seguimiento de experimentos y persistencia de pruebas de hip√≥tesis.
- Estructuraci√≥n de c√≥digo para una mejor reproducibilidad.
- Empaquetado de modelos y gesti√≥n de dependencias.
- Evaluar los l√≠mites de selecci√≥n de ajuste de hiperpar√°metros.
- Comparar los resultados de re-entrenamiento de modelos a lo largo del tiempo.
- Revisar y seleccionar modelos √≥ptimos para el despliegue.

Los Profesionales de MLOps utilizan `MLflow` para:

- Gestionar los ciclos de vida de los modelos entrenados, tanto antes como despu√©s del despliegue.
- Desplegar modelos de forma segura en entornos de producci√≥n.
- Auditar y revisar modelos candidatos antes del despliegue.
- Gestionar las dependencias de despliegue.

Los Gerentes de Ciencia de Datos interact√∫an con `MLflow` mediante:

- Revisi√≥n de los resultados de la experimentaci√≥n y las actividades de modelado.
- Colaboraci√≥n con equipos para asegurar que los objetivos de modelado se alineen con los objetivos empresariales.

Los Usuarios de Ingenier√≠a de Prompts usan `MLflow` para:

- Evaluar y experimentar con modelos de lenguaje de gran escala.
- Crear prompts personalizados y persistir sus creaciones candidatas.
- Decidir sobre el mejor modelo base adecuado para los requisitos espec√≠ficos de su proyecto.

### 6.4 `MLflow` Tracking

`MLflow Tracking` es uno de los componentes principales de servicio de `MLflow`

<img style="display: block; margin: auto;" src="./images/mlflow-tracking-basics.png" width="880" height="500">


<img style="display: block; margin: auto;" src="./images/mlflow-run-comparison.png" width="880" height="500">

## üß© 7. Hands-On ‚Äî Tracking de experimentos con `MLflow`
https://mlflow.org/docs/latest/tracking/tracking-api.html

En esta pr√°ctica aprenderemos a **configurar desde cero** un peque√±o proyecto para hacer _tracking_ de experimentos con MLflow.

üí° Este mismo repositorio lo usaremos durante el resto del curso, por lo tanto:
- Todo lo haremos sobre una **rama nueva** (no en `main`).
- Trabajaremos con **uv** para gestionar dependencias.
- Dejaremos la **estructura base del proyecto** lista para ampliarla m√°s adelante.

### 7.1 Crear el repositorio y la rama de trabajo üêô

1. Entra a tu cuenta de **GitHub** y crea un nuevo repositorio llamado: `nyc-taxi-predictions-2025`
2. En tu terminal, ejecuta los comandos para:
- Clonar el repositorio en tu equipo.
- Cambiarte al directorio del proyecto.
- Crear una rama de trabajo exclusiva para esta clase. `git checkout -b feat/01-mlflow-tracking-basics`

### 7.2 Inicializar el entorno con `uv` üß∞

Ahora configuraremos el entorno del proyecto con **uv**: crearemos el ambiente virtual, instalaremos las dependencias.

In [None]:
# Inicializar el proyecto con uv
uv init --python 3.11

# Crear y activar entorno virtual (si uv no lo hace autom√°ticamente)
uv venv
source .venv/bin/activate   # macOS / Linux
# o:
# source .venv/Scripts/activate  # Windows / Git Bash

# Instalar librer√≠as base
uv add mlflow scikit-learn pandas pyarrow fastparquet matplotlib jupyterlab ipykernel

### 7.3 Descargar los datos üöï
Descargaremos los archivos de datos del **NYC Taxi Dataset** (enero y febrero 2025).

```bash
# Crear carpeta data si no existe
mkdir -p data

# Descargar datasets con curl
curl -o ./data/green_tripdata_2025-01.parquet https://d37ci6vzurychx.cloudfront.net/trip-data/green_tripdata_2025-01.parquet
curl -o ./data/green_tripdata_2025-02.parquet https://d37ci6vzurychx.cloudfront.net/trip-data/green_tripdata_2025-02.parquet
```

### 7.4 Preparar datos y definir features üîß
Importaremos los datos y haremos un peque√±o preprocesamiento antes de iniciar el tracking.


In [None]:
import pandas as pd
from sklearn.feature_extraction import DictVectorizer
from sklearn.linear_model import Lasso
from sklearn.metrics import root_mean_squared_error

def read_dataframe(path):
    df = pd.read_parquet(path)
    df["duration"] = (df.lpep_dropoff_datetime - df.lpep_pickup_datetime).dt.total_seconds() / 60
    df = df[(df.duration >= 1) & (df.duration <= 60)]
    df[["PULocationID", "DOLocationID"]] = df[["PULocationID", "DOLocationID"]].astype(str)
    return df

df_train = read_dataframe("data/green_tripdata_2025-01.parquet")
df_val = read_dataframe("data/green_tripdata_2025-02.parquet")

df_train["PU_DO"] = df_train["PULocationID"] + "_" + df_train["DOLocationID"]
df_val["PU_DO"] = df_val["PULocationID"] + "_" + df_val["DOLocationID"]

categorical = ["PU_DO"]
numerical = ["trip_distance"]

dv = DictVectorizer()
X_train = dv.fit_transform(df_train[categorical + numerical].to_dict(orient="records"))
X_val = dv.transform(df_val[categorical + numerical].to_dict(orient="records"))

y_train = df_train["duration"].values
y_val = df_val["duration"].values


### 7.5 Tracking con `MLflow` üöÄ

Configuraremos MLflow para:
- Definir un experimento.
- Iniciar un run.
- Registrar par√°metros, m√©tricas y modelo.
- Visualizar resultados en la UI.


In [None]:
import mlflow

mlflow.set_tracking_uri("sqlite:///mlflow.db")
mlflow.set_experiment("class-nyc-taxi-experiment")

with mlflow.start_run(run_name="lasso_alpha_0.1"):
    alpha = 0.1
    mlflow.log_param("alpha", alpha)

    model = Lasso(alpha=alpha)
    model.fit(X_train, y_train)

    y_pred = model.predict(X_val)
    rmse = root_mean_squared_error(y_val, y_pred)

    mlflow.log_metric("rmse", rmse)
    mlflow.sklearn.log_model(model, "model")

    print(f"‚úÖ Run finalizado. RMSE = {rmse:.4f}")


### 7.6 Visualizar el tracking server üîç

Ejecuta en una terminal **aparte**:

```bash
mlflow ui --backend-store-uri sqlite:///mlflow.db
```

### 7.7 Cierre y entrega üèÅ

1. Guarda tus cambios y haz commit desde tu rama:

```bash
git add .
git commit -m "feat: first MLflow tracking experiment"
git push origin feat/01-mlflow-tracking-basics
```

2. Abre un Pull Request (PR) en GitHub y apruebalo.

### 7.8 Tips para hacer Tracking con `MLflow`

https://mlflow.org/docs/latest/tracking/tracking-api.html#tracking-tips