# Seguimiento del entrenamiento de modelos en cuadernos con MLflow

Puede usar MLflow en un cuaderno para realizar un seguimiento de los modelos que entrene. Como ejecutará este cuaderno con una instancia de proceso de Azure Machine Learning, no es necesario configurar MLflow: ya está instalado e integrado. 

Preparará algunos datos y entrenará un modelo para predecir la diabetes. Usará el registro automático y el registro personalizado para explorar cómo puede usar MLflow en cuadernos.

## Antes de comenzar

Necesitará la versión más reciente del paquete **azureml-ai-ml** para ejecutar el código en este cuaderno. Ejecute la celda siguiente para comprobar que está instalada.

> **Nota**:
> Si el paquete **azure-ai-ml** no está instalado, ejecute `pip install azure-ai-ml` para instalarlo.

In [None]:
## Conexión con su área de trabajo

Con los paquetes de SDK necesarios instalados, ya está listo para conectarse al área de trabajo.

Para conectarse a un espacio de trabajo, se necesitan parámetros de identificación: un id. de suscripción, un nombre de grupo de recursos y un nombre de espacio de trabajo. El nombre del grupo de recursos y el nombre del área de trabajo ya se rellenan automáticamente. Solo necesita el identificador de suscripción para completar el comando.

Para buscar los parámetros necesarios, haga clic en la suscripción y el nombre del área de trabajo en la parte superior derecha de Studio. Se abrirá un panel a la derecha.

<p style="color:red;font-size:120%;background-color:yellow;font-weight:bold"> Copie el identificador de suscripción y reemplace **YOUR-SUBSCRIPTION-ID** por el valor que copió. </p>

## Configurar MLflow

Como está ejecutando este cuaderno en una instancia de proceso en el Estudio de Azure Machine Learning, no es necesario configurar MLflow. 

Aun así, es bueno comprobar que las bibliotecas necesarias están efectivamente instaladas:

In [None]:
## Preparación de los datos

Entrenará un modelo de clasificación de diabetes. Los datos de entrenamiento se almacenan en la carpeta **datos** como **diabetes.csv**. 

En primer lugar, se leerán los datos:

In [None]:
A continuación, dividirá los datos en características y la etiqueta (Diabetes):

Ahora tiene cuatro tramas de datos:

- `X_train`: conjunto de datos de entrenamiento que contiene las características.
- `X_test`: conjunto de datos de prueba que contiene las características.
- `y_train`: la etiqueta del conjunto de datos de entrenamiento.
- `y_test`: la etiqueta del conjunto de datos de prueba.

Los usará para entrenar y evaluar los modelos que entrenará.

## Creación de un experimento de MLflow

Ahora que está listo para entrenar modelos de Machine Learning, primero creará un experimento de MLflow. Al crear el experimento, puede agrupar todas las ejecuciones dentro de un experimento y facilitar la búsqueda de las ejecuciones en Studio.

In [None]:
## Entrenamiento y seguimiento de modelos

Para realizar un seguimiento de un modelo que entrene, puede usar MLflow y habilitar el registro automático. La celda siguiente entrenará un modelo de clasificación mediante la regresión logística. Observará que no es necesario calcular ninguna métrica de evaluación porque MLflow las crea y registra automáticamente.

In [None]:
También puede usar el registro personalizado con MLflow. Puede agregar un registro personalizado al registro automático o solo puede usar el registro personalizado.

Se entrenarán dos modelos más con scikit-learn. Como ejecutó el comando `mlflow.sklearn.autolog()` antes, MLflow registrará automáticamente cualquier modelo entrenado con scikit-learn. Para deshabilitar el autologging, ejecute la siguiente celda:

Ahora, puede entrenar y realizar un seguimiento de los modelos con solo el registro personalizado. 

Al ejecutar la celda siguiente, solo registrará un parámetro y una métrica.

In [None]:
La razón por la que desea realizar un seguimiento de los modelos podría ser comparar los resultados de los modelos que entrena con distintos valores de hiperparámetros. 

Por ejemplo, acaba de entrenar un modelo de regresión logística con una tasa de regularización de 0,1. Ahora, entrene otro modelo, pero esta vez con una tasa de regularización de 0,01. Dado que también está realizando un seguimiento de la precisión, puede comparar y decidir qué tasa da como resultado un modelo de mejor rendimiento.

Otro motivo para realizar un seguimiento de los resultados del modelo es cuando se prueba otro estimador. Todos los modelos que ha entrenado hasta ahora han usado el estimador de regresión logística. 

Ejecute la celda siguiente para entrenar un modelo con el estimador clasificador de árbol de decisión y revise si la precisión es mayor en comparación con las otras ejecuciones.

In [None]:
Por último, se intentará registrar un artefacto. Un artefacto puede ser cualquier archivo. Por ejemplo, puede trazar la curva ROC y almacenar el trazado como una imagen. La imagen se puede registrar como un artefacto. 

Ejecute la celda siguiente para registrar un parámetro, una métrica y un artefacto.

In [None]:
Revise los resultados del modelo en la página Trabajos del Estudio de Azure Machine Learning. 

- Encontrará los parámetros en **Parámetros** en la pestaña **Información general**.
- Encontrará las métricas en **Métricas** en la pestaña **Información general** y en la pestaña **Métricas**.
- Encontrará los artefactos en la pestaña **Salidas y registros**.

![Captura de pantalla de la pestaña Salidas y registros en la página Trabajos.](./images/output-logs.png)

You now have four dataframes:

- `X_train`: The training dataset containing the features.
- `X_test`: The test dataset containing the features.
- `y_train`: The label for the training dataset.
- `y_test`: The label for the test dataset.

You'll use these to train and evaluate the models you'll train.

## Create an MLflow experiment

Now that you're ready to train machine learning models, you'll first create an MLflow experiment. By creating the experiment, you can group all runs within one experiment and make it easier to find the runs in the studio.

In [None]:
import mlflow
experiment_name = "mlflow-experiment-diabetes"
mlflow.set_experiment(experiment_name)

## Train and track models

To track a model you train, you can use MLflow and enable autologging. The following cell will train a classification model using logistic regression. You'll notice that you don't need to calculate any evaluation metrics because they're automatically created and logged by MLflow.

In [None]:
from sklearn.linear_model import LogisticRegression

with mlflow.start_run():
    mlflow.sklearn.autolog()

    model = LogisticRegression(C=1/0.1, solver="liblinear").fit(X_train, y_train)


You can also use custom logging with MLflow. You can add custom logging to autologging, or you can use only custom logging.

Let's train two more models with scikit-learn. Since you ran the `mlflow.sklearn.autolog()` command before, MLflow will now automatically log any model trained with scikit-learn. To disable the autologging, run the following cell:

In [None]:
mlflow.sklearn.autolog(disable=True)

Now, you can train and track models using only custom logging. 

When you run the following cell, you'll only log one parameter and one metric.

In [None]:
from sklearn.linear_model import LogisticRegression
import numpy as np

with mlflow.start_run():
    model = LogisticRegression(C=1/0.1, solver="liblinear").fit(X_train, y_train)

    y_hat = model.predict(X_test)
    acc = np.average(y_hat == y_test)

    mlflow.log_param("regularization_rate", 0.1)
    mlflow.log_metric("Accuracy", acc)

The reason why you'd want to track models, could be to compare the results of models you train with different hyperparameter values. 

For example, you just trained a logistic regression model with a regularization rate of 0.1. Now, train another model, but this time with a regularization rate of 0.01. Since you're also tracking the accuracy, you can compare and decide which rate results in a better performing model.

In [None]:
from sklearn.linear_model import LogisticRegression
import numpy as np

with mlflow.start_run():
    model = LogisticRegression(C=1/0.01, solver="liblinear").fit(X_train, y_train)

    y_hat = model.predict(X_test)
    acc = np.average(y_hat == y_test)

    mlflow.log_param("regularization_rate", 0.01)
    mlflow.log_metric("Accuracy", acc)

Another reason to track your model's results is when you're testing another estimator. All models you've trained so far used the logistic regression estimator. 

Run the following cell to train a model with the decision tree classifier estimator and review whether the accuracy is higher compared to the other runs.

In [None]:
from sklearn.tree import DecisionTreeClassifier
import numpy as np

with mlflow.start_run():
    model = DecisionTreeClassifier().fit(X_train, y_train)

    y_hat = model.predict(X_test)
    acc = np.average(y_hat == y_test)

    mlflow.log_param("estimator", "DecisionTreeClassifier")
    mlflow.log_metric("Accuracy", acc)

Finally, let's try to log an artifact. An artifact can be any file. For example, you can plot the ROC curve and store the plot as an image. The image can be logged as an artifact. 

Run the following cell to log a parameter, metric, and an artifact.

In [None]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import roc_curve
import matplotlib.pyplot as plt
import numpy as np

with mlflow.start_run():
    model = DecisionTreeClassifier().fit(X_train, y_train)

    y_hat = model.predict(X_test)
    acc = np.average(y_hat == y_test)

    # plot ROC curve
    y_scores = model.predict_proba(X_test)

    fpr, tpr, thresholds = roc_curve(y_test, y_scores[:,1])
    fig = plt.figure(figsize=(6, 4))
    # Plot the diagonal 50% line
    plt.plot([0, 1], [0, 1], 'k--')
    # Plot the FPR and TPR achieved by our model
    plt.plot(fpr, tpr)
    plt.xlabel('False Positive Rate')
    plt.ylabel('True Positive Rate')
    plt.title('ROC Curve')
    plt.savefig("ROC-Curve.png")

    mlflow.log_param("estimator", "DecisionTreeClassifier")
    mlflow.log_metric("Accuracy", acc)
    mlflow.log_artifact("ROC-Curve.png")

Review the model's results on the Jobs page of the Azure Machine Learning studio. 

- You'll find the parameters under **Params** in the **Overview** tab.
- You'll find the metrics under **Metrics** in the **Overview** tab, and in the **Metrics** tab.
- You'll find the artifacts in the **Outputs + logs** tab.

![Screenshot of outputs and logs tab on the Jobs page.](./images/output-logs.png)