In [1]:
import pandas as pd
import mlflow 

from plots import plot_confusion_matrix, plot_roc_curve

# MLFlow

## MLFlow Tracking

### Más conceptos sobre MLFlow Tracking

En esta notebook, haremos uso de otra característica muy útil: `mlflow.autolog()`. Esta función registra automáticamente información esencial durante el entrenamiento y la evaluación del modelo, evitando la necesidad de especificar manualmente qué elementos rastrear. Está implementada para varias de las principales librerías de machine learning, y la utilizaremos específicamente con Scikit-Learn.

Entre las cosas que `autolog()` registra automáticamente se encuentran:

- **Parámetros**: Los hiperparámetros utilizados para entrenar el modelo (por ejemplo, n_estimators, max_depth en un RandomForest).
- **Métricas**: Métricas de evaluación calculadas durante el entrenamiento o el testeo (por ejemplo, accuracy, precision, recall, F1-score, RMSE, R2).
- **Modelos**: El modelo entrenado en sí, lo que permite cargarlo y reutilizarlo fácilmente más adelante para hacer predicciones.
- **Artefactos**: Otros archivos relevantes, como gráficos (por ejemplo, curvas ROC, matrices de confusión) o resúmenes de datos importantes.
- **Código fuente**: El script que ejecutó el entrenamiento, lo cual facilita la reproducibilidad.
- **Entorno**: Información sobre el entorno de software, incluidas las versiones de las librerías, para ayudar a reproducir los resultados.

Se utiliza de la siguiente manera, y debe invocarse antes de comenzar el entrenamiento:

```python
mlflow.sklearn.autolog()
```

### Uso de MLFlow con un ejemplo: Iris Dataset y Random Forest

Vamos a emplear MLFlow para entrenar dos modelos utilizando el conjunto de datos Iris. Los modelos serán Logistic Regression y Random Forest, ambos de la librería Scikit-Learn. En esta notebook, nos enfocaremos en el modelo de Random Forest.

In [2]:
from sklearn.datasets import load_iris
from sklearn.model_selection import GridSearchCV, train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import precision_score, accuracy_score, recall_score

In [3]:
mlflow.set_tracking_uri('http://localhost:8888')

In [4]:
experiment_name = "experiment_iris"

if not mlflow.get_experiment_by_name(experiment_name):
    mlflow.create_experiment(name=experiment_name, 
                             tags={"project":"iris-dataset", 
                                   "team": "mlops1-fiuba"}) 

experiment = mlflow.get_experiment_by_name(experiment_name)

In [5]:
# Cargamos los datos
data = load_iris()

# Separamos entre evaluación y testeo
X_train, X_test, y_train, y_test = train_test_split(data['data'][:, :2], data['target'], test_size=0.2, random_state=42)

### Búsqueda de hiperparámetros

Aquí realizaremos la búsqueda de hiperparámetros para optimizar el rendimiento del modelo.

In [6]:
# Habilitamos el autologging para scikit-learn
mlflow.sklearn.autolog()

run_name = "random_forest_hyper_search"



In [7]:
# Iniciamos un run de MLflow
with mlflow.start_run(experiment_id = experiment.experiment_id, 
                      run_name=run_name,
                      tags={"model":"random_forest"}):
    model = RandomForestClassifier()

    # Definimos los hiperparámetros para la búsqueda
    grid = {
        'max_depth':[6,8,10], 
        'min_samples_split':[2,3,4,5],
        'min_samples_leaf':[2,3,4,5],
        'max_features': [2,3]
        }

    # Hacemos la búsqueda
    iris_grid = GridSearchCV(model, grid, cv=5) 
    iris_grid_results = iris_grid.fit(X_train, y_train)

    print(f'Los mejores parámetros son: {iris_grid_results.best_params_}')

2025/07/12 20:55:38 INFO mlflow.sklearn.utils: Logging the 5 best runs, 91 runs will be omitted.


🏃 View run serious-conch-581 at: http://localhost:8888/#/experiments/302891218595240518/runs/282b2472f1404e039ef09ed1b16e7c55
🧪 View experiment at: http://localhost:8888/#/experiments/302891218595240518
🏃 View run capricious-moose-830 at: http://localhost:8888/#/experiments/302891218595240518/runs/a268aac473a9458286231e9b74928064
🧪 View experiment at: http://localhost:8888/#/experiments/302891218595240518
🏃 View run useful-cod-724 at: http://localhost:8888/#/experiments/302891218595240518/runs/f39276e2650f47ff9459ec68aa62eb1c
🧪 View experiment at: http://localhost:8888/#/experiments/302891218595240518
🏃 View run blushing-eel-49 at: http://localhost:8888/#/experiments/302891218595240518/runs/e9d6e575004d48a7b36609b87784f9eb
🧪 View experiment at: http://localhost:8888/#/experiments/302891218595240518
🏃 View run victorious-quail-328 at: http://localhost:8888/#/experiments/302891218595240518/runs/778c41661a2347079a81b8edd99852d2
🧪 View experiment at: http://localhost:8888/#/experiments/302

### Entrenamiento del modelo Random Forest

Una vez realizada la búsqueda de hiperparámetros, registramos los datos del mejor modelo encontrado.

In [8]:
# Habilitamos el autologging para scikit-learn
run_name = "random_forest_training"

mlflow.sklearn.autolog()



In [9]:
# Iniciamos un run de MLflow
with mlflow.start_run(experiment_id = experiment.experiment_id, 
                      run_name=run_name,
                      tags={"model":"random_forest"}):
    
    # Usamos los mejores parámetros
    model = RandomForestClassifier(**iris_grid_results.best_params_)

    # Entrenamos el modelo
    model.fit(X_train, y_train)

    # Obtenemos la prediccion del set de evaluación
    y_pred = model.predict(X_test)

    # Se calculan las métricas
    accuracy = accuracy_score(y_test, y_pred)
    precision = precision_score(y_test, y_pred, average='weighted')
    recall = recall_score(y_test, y_pred, average='weighted')
    print(f'Accuracy: {accuracy}')
    print(f'Precision: {precision}')
    print(f'Recall: {recall}')

    # Como artefactos, obtenemos las gráficas de la curva ROC y la matriz de confusion
    matrix_plot = plot_confusion_matrix(y_test, y_pred, save_path=None)
    roc_plots = plot_roc_curve(y_test, model.predict_proba(X_test), save_path=None)

    # Podemos loggear lo que autolog no hace automaticomente
    metrics ={
        'accuracy': accuracy,
        'precision': precision, 
        'recall': recall 
        }
    
    mlflow.log_metrics(metrics)

    matrix_plot = plot_confusion_matrix(y_test, y_pred, save_path=None)
    roc_plots = plot_roc_curve(y_test, model.predict_proba(X_test), save_path=None)

    mlflow.log_figure(matrix_plot, artifact_file="matrix_plot.png")
    mlflow.log_figure(roc_plots[0], artifact_file="roc_curve_1_plot.png")
    mlflow.log_figure(roc_plots[1], artifact_file="roc_curve_2_plot.png")
    mlflow.log_figure(roc_plots[2], artifact_file="roc_curve_3_plot.png")



Accuracy: 0.7666666666666667
Precision: 0.7799999999999999
Recall: 0.7666666666666667
🏃 View run random_forest_training at: http://localhost:8888/#/experiments/302891218595240518/runs/80368fa6089043e9ac94c7b9a0882be7
🧪 View experiment at: http://localhost:8888/#/experiments/302891218595240518


#### Realizar predicciones con un modelo de MLFlow

Para obtener predicciones, debemos ir al apartado de *Artifacts*, donde MLFlow indica cómo realizar inferencias con el modelo, ya sea utilizando Spark o Python. Copiamos ese fragmento de código y lo ejecutamos, proporcionando los datos que deseamos predecir.

In [10]:
runs_df = mlflow.search_runs(
            experiment_ids=experiment.experiment_id,
            filter_string=f"tags.mlflow.runName = '{run_name}'"   
        )

run_id = runs_df["run_id"].iloc[0]
model_uri = f"runs:/{runs_df['run_id'].iloc[0]}/model" 

# Cargamos el modelo usando el modulo de scikit-learn
loaded_model = mlflow.sklearn.load_model(model_uri)

# Predecimos usando un dataframe de Pandas
loaded_model.predict(pd.DataFrame(X_test))

Downloading artifacts:   0%|          | 0/5 [00:00<?, ?it/s]

array([1, 0, 2, 1, 2, 0, 1, 2, 1, 2, 2, 0, 1, 0, 0, 2, 2, 1, 1, 2, 0, 1,
       0, 2, 2, 1, 1, 2, 0, 0])