# Suivre l’entraînement des modèles dans des notebooks avec MLflow

Vous pouvez utiliser MLflow dans un notebook pour suivre tous les modèles que vous entraînez. Comme vous allez exécuter ce notebook avec une instance de calcul Azure Machine Learning, vous n’avez pas besoin de configurer MLflow : il est déjà installé et intégré. 

Vous allez préparer des données et entraîner un modèle pour prédire le diabète. Vous allez utiliser la journalisation automatique et la journalisation personnalisée pour découvrir comment utiliser MLflow dans des notebooks.

## Avant de commencer

Vous devez avoir la dernière version du package **azureml-ai-ml** pour exécuter le code dans ce notebook. Exécutez la cellule ci-dessous pour vérifier qu’il est installé.

> **Remarque** :
> Si le package **azure-ai-ml** n’est pas installé, exécutez `pip install azure-ai-ml` pour l’installer.

In [None]:
## Se connecter à un espace de travail

Une fois les packages requis du Kit de développement logiciel (SDK) installés, vous êtes prêt à vous connecter à votre espace de travail.

Pour vous connecter à un espace de travail, vous avez besoin de paramètres d’identificateur : un ID d’abonnement, un nom de groupe de ressources et un nom d’espace de travail. Le nom du groupe de ressources et le nom de l’espace de travail sont déjà renseignés pour vous. Vous avez seulement besoin de l’ID d’abonnement pour exécuter la commande.

Pour trouver les paramètres nécessaires, cliquez sur l’abonnement et le nom de l’espace de travail en haut à droite du studio. Un volet s’ouvre à droite.

<p style="color:red;font-size:120%;background-color:yellow;font-weight:bold"> Copiez l’ID d’abonnement et remplacez **YOUR-SUBSCRIPTION-ID** par la valeur que vous avez copiée. </p>

## Configurer MLflow

Comme vous exécutez ce notebook sur une instance de calcul dans le studio Azure Machine Learning, vous n’avez pas besoin de configurer MLflow. 

Néanmoins, il est bon de vérifier que les bibliothèques nécessaires sont bien installées :

In [None]:
## Préparer les données

Vous allez entraîner un modèle de classification pour le diabète. Les données d’entraînement sont stockées dans le dossier **data** comme **diabetes.csv**. 

Commençons par lire les données :

In [None]:
Ensuite, vous allez découper les données en caractéristiques et l’étiquette (Diabète) :

Vous avez maintenant quatre dataframes :

- `X_train` : jeu de données d’entraînement contenant les caractéristiques.
- `X_test` : jeu de données de test contenant les caractéristiques.
- `y_train` : étiquette du jeu de données d’entraînement.
- `y_test` : étiquette du jeu de données de test.

Vous les utiliserez pour entraîner et évaluer les modèles que vous allez entraîner.

## Créer une expérience MLflow

Maintenant que vous êtes prêt à entraîner des modèles Machine Learning, vous allez d’abord créer une expérience MLflow. En créant l’expérience, vous pouvez regrouper toutes les exécutions au sein d’une seule expérience et faciliter la recherche des exécutions dans le studio.

In [None]:
## Entraîner et suivre des modèles

Pour suivre un modèle que vous entraînez, vous pouvez utiliser MLflow et activer la journalisation automatique. La cellule suivante entraîne un modèle de classification en utilisant la régression logistique. Vous noterez que vous n’avez pas besoin de calculer de métriques d’évaluation parce qu’elles sont automatiquement créées et journalisées par MLflow.

In [None]:
Vous pouvez également utiliser la journalisation personnalisée avec MLflow. Vous pouvez ajouter la journalisation personnalisée à la journalisation automatique, ou vous pouvez utiliser uniquement la journalisation personnalisée.

Entraînons deux autres modèles avec scikit-learn. Étant donné que vous avez exécuté la commande `mlflow.sklearn.autolog()` avant, MLflow journalise automatiquement tous les modèles entraînés avec scikit-learn. Pour désactiver la journalisation automatique, exécutez la cellule suivante :

À présent, vous pouvez entraîner et suivre des modèles à l’aide de la journalisation personnalisée uniquement. 

Lorsque vous exécutez la cellule suivante, vous ne journalisez qu’un paramètre et qu’une métrique.

In [None]:
La raison pour laquelle vous voudriez éventuellement suivre les modèles pourrait être de comparer les résultats des modèles que vous entraînez avec différentes valeurs d’hyperparamètre. 

Par exemple, vous venez d’entraîner un modèle de régression logistique avec un taux de régularisation de 0,1. Maintenant, entraînez un autre modèle, mais cette fois avec un taux de régularisation de 0,01. Étant donné que vous suivez également la justesse, vous pouvez comparer et décider quel taux donne un modèle plus performant.

Une autre raison de suivre les résultats de votre modèle est lorsque vous testez un autre estimateur. Tous les modèles que vous avez entraînés jusqu’à présent ont utilisé l’estimateur de régression logistique. 

Exécutez la cellule suivante pour entraîner un modèle avec l’estimateur de classifieur d’arbre de décision et vérifiez si la justesse est plus élevée par rapport aux autres exécutions.

In [None]:
Enfin, essayons de journaliser un artefact. Un artefact peut être n’importe quel fichier. Par exemple, vous pouvez tracer la courbe ROC et stocker le tracé sous forme d’image. L’image peut être journalisée en tant qu’artefact. 

Exécutez la cellule suivante pour journaliser un paramètre, une métrique et un artefact.

In [None]:
Passez en revue les résultats du modèle dans la page Travaux du studio Azure Machine Learning. 

- Vous trouverez les paramètres sous **Paramètres** sous l’onglet **Vue d’ensemble**.
- Vous trouverez les métriques sous **Métriques** sous l’onglet **Vue d’ensemble** et sous l’onglet **Métriques**.
- Vous trouverez les artefacts sous l’onglet **Sorties + journaux**.

![Capture d’écran de l’onglet Sorties et journaux dans la page Travaux.](./images/output-logs.png)

You now have four dataframes:

- `X_train`: The training dataset containing the features.
- `X_test`: The test dataset containing the features.
- `y_train`: The label for the training dataset.
- `y_test`: The label for the test dataset.

You'll use these to train and evaluate the models you'll train.

## Create an MLflow experiment

Now that you're ready to train machine learning models, you'll first create an MLflow experiment. By creating the experiment, you can group all runs within one experiment and make it easier to find the runs in the studio.

In [None]:
import mlflow
experiment_name = "mlflow-experiment-diabetes"
mlflow.set_experiment(experiment_name)

## Train and track models

To track a model you train, you can use MLflow and enable autologging. The following cell will train a classification model using logistic regression. You'll notice that you don't need to calculate any evaluation metrics because they're automatically created and logged by MLflow.

In [None]:
from sklearn.linear_model import LogisticRegression

with mlflow.start_run():
    mlflow.sklearn.autolog()

    model = LogisticRegression(C=1/0.1, solver="liblinear").fit(X_train, y_train)


You can also use custom logging with MLflow. You can add custom logging to autologging, or you can use only custom logging.

Let's train two more models with scikit-learn. Since you ran the `mlflow.sklearn.autolog()` command before, MLflow will now automatically log any model trained with scikit-learn. To disable the autologging, run the following cell:

In [None]:
mlflow.sklearn.autolog(disable=True)

Now, you can train and track models using only custom logging. 

When you run the following cell, you'll only log one parameter and one metric.

In [None]:
from sklearn.linear_model import LogisticRegression
import numpy as np

with mlflow.start_run():
    model = LogisticRegression(C=1/0.1, solver="liblinear").fit(X_train, y_train)

    y_hat = model.predict(X_test)
    acc = np.average(y_hat == y_test)

    mlflow.log_param("regularization_rate", 0.1)
    mlflow.log_metric("Accuracy", acc)

The reason why you'd want to track models, could be to compare the results of models you train with different hyperparameter values. 

For example, you just trained a logistic regression model with a regularization rate of 0.1. Now, train another model, but this time with a regularization rate of 0.01. Since you're also tracking the accuracy, you can compare and decide which rate results in a better performing model.

In [None]:
from sklearn.linear_model import LogisticRegression
import numpy as np

with mlflow.start_run():
    model = LogisticRegression(C=1/0.01, solver="liblinear").fit(X_train, y_train)

    y_hat = model.predict(X_test)
    acc = np.average(y_hat == y_test)

    mlflow.log_param("regularization_rate", 0.01)
    mlflow.log_metric("Accuracy", acc)

Another reason to track your model's results is when you're testing another estimator. All models you've trained so far used the logistic regression estimator. 

Run the following cell to train a model with the decision tree classifier estimator and review whether the accuracy is higher compared to the other runs.

In [None]:
from sklearn.tree import DecisionTreeClassifier
import numpy as np

with mlflow.start_run():
    model = DecisionTreeClassifier().fit(X_train, y_train)

    y_hat = model.predict(X_test)
    acc = np.average(y_hat == y_test)

    mlflow.log_param("estimator", "DecisionTreeClassifier")
    mlflow.log_metric("Accuracy", acc)

Finally, let's try to log an artifact. An artifact can be any file. For example, you can plot the ROC curve and store the plot as an image. The image can be logged as an artifact. 

Run the following cell to log a parameter, metric, and an artifact.

In [None]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import roc_curve
import matplotlib.pyplot as plt
import numpy as np

with mlflow.start_run():
    model = DecisionTreeClassifier().fit(X_train, y_train)

    y_hat = model.predict(X_test)
    acc = np.average(y_hat == y_test)

    # plot ROC curve
    y_scores = model.predict_proba(X_test)

    fpr, tpr, thresholds = roc_curve(y_test, y_scores[:,1])
    fig = plt.figure(figsize=(6, 4))
    # Plot the diagonal 50% line
    plt.plot([0, 1], [0, 1], 'k--')
    # Plot the FPR and TPR achieved by our model
    plt.plot(fpr, tpr)
    plt.xlabel('False Positive Rate')
    plt.ylabel('True Positive Rate')
    plt.title('ROC Curve')
    plt.savefig("ROC-Curve.png")

    mlflow.log_param("estimator", "DecisionTreeClassifier")
    mlflow.log_metric("Accuracy", acc)
    mlflow.log_artifact("ROC-Curve.png")

Review the model's results on the Jobs page of the Azure Machine Learning studio. 

- You'll find the parameters under **Params** in the **Overview** tab.
- You'll find the metrics under **Metrics** in the **Overview** tab, and in the **Metrics** tab.
- You'll find the artifacts in the **Outputs + logs** tab.

![Screenshot of outputs and logs tab on the Jobs page.](./images/output-logs.png)