# Journaliser des modèles avec MLflow

Vous pouvez utiliser MLflow dans Azure Machine Learning pour journaliser des modèles. Lorsque vous journalisez un modèle en tant que modèle au lieu d’un artefact, un MLmodel est créé dans le répertoire de sortie. Le fichier MLmodel contient toutes les métadonnées du modèle. Vous pouvez personnaliser la signature du modèle lors de la journalisation du modèle.

## Avant de commencer

Vous devez avoir la dernière version du package **azureml-ai-ml** pour exécuter le code dans ce notebook. Exécutez la cellule ci-dessous pour vérifier qu’il est installé.

> **Remarque** :
> Si le package **azure-ai-ml** n’est pas installé, exécutez `pip install azure-ai-ml` pour l’installer.

In [None]:
## Se connecter à un espace de travail

Une fois les packages requis du Kit de développement logiciel (SDK) installés, vous êtes prêt à vous connecter à votre espace de travail.

Pour vous connecter à un espace de travail, vous avez besoin de paramètres d’identificateur : un ID d’abonnement, un nom de groupe de ressources et un nom d’espace de travail. Le nom du groupe de ressources et le nom de l’espace de travail sont déjà renseignés pour vous. Vous avez seulement besoin de l’ID d’abonnement pour exécuter la commande.

Pour trouver les paramètres nécessaires, cliquez sur l’abonnement et le nom de l’espace de travail en haut à droite du studio. Un volet s’ouvre à droite.

<p style="color:red;font-size:120%;background-color:yellow;font-weight:bold"> Copiez l’ID d’abonnement et remplacez **YOUR-SUBSCRIPTION-ID** par la valeur que vous avez copiée. </p>

## Journalisation automatique avec MLflow

Lorsque vous utilisez la journalisation automatique, votre modèle est automatiquement journalisé. La saveur et le schéma du modèle sont déduits. 

Exécutez la cellule suivante pour créer le script **train-model-autolog.py** dans le dossier **src**. Le script entraîne un modèle de classification avec le fichier **diabetes.csv** dans le même dossier, qui est passé comme argument. 

In [None]:
À présent, vous pouvez soumettre le script en tant que travail de commande.

Exécutez la cellule ci-dessous pour entraîner le modèle. 

In [None]:
Dans le studio, accédez au travail **diabetes-train-autolog** pour explorer la vue d’ensemble du travail de commande que vous avez exécuté. Recherchez les artefacts journalisés sous l’onglet **Sorties + journaux**. Sélectionnez le dossier `model` où rechercher le fichier `MLmodel` et explorer son contenu.

## Spécifier la saveur avec la journalisation automatique

Vous pouvez utiliser la journalisation automatique, tout en spécifiant la saveur du modèle. Dans l’exemple, la saveur du modèle est scikit-learn.

Exécutez la cellule suivante pour créer le script **train-model-sklearn.py** dans le dossier **src**. Le script entraîne un modèle de classification avec le fichier **diabetes.csv** dans le même dossier, qui est passé comme argument. 

In [None]:
À présent, vous pouvez soumettre le script en tant que travail de commande.

Exécutez la cellule ci-dessous pour entraîner le modèle. 

In [None]:
Dans le studio, accédez au travail **diabetes-train-sklearn** pour explorer la vue d’ensemble du travail de commande que vous avez exécuté. Recherchez les artefacts journalisés sous l’onglet **Sorties + journaux**. Sélectionnez le dossier `model` où rechercher le fichier `MLmodel` et explorer son contenu.

Comparez les fichiers `MLmodel` des deux exécutions précédentes. Vous remarquerez qu’ils sont identiques, preuve que la fonctionnalité de journalisation automatique de MLflow a correctement déduit la saveur du modèle.

## Personnaliser le modèle avec une signature déduite

Vous pouvez journaliser manuellement le modèle même quand vous utilisez la journalisation automatique. En spécifiant le paramètre « log_models=False », la journalisation automatique ne journalisera pas le modèle. Vous créez une signature en la déduisant du jeu de données d’entraînement et des résultats prédits. Pour finir, vous enregistrez le modèle scikit-learn.

Exécutez la cellule suivante pour créer le script **train-model-infer.py** dans le dossier **src**. Le script entraîne un modèle de classification avec le fichier **diabetes.csv** dans le même dossier, qui est passé comme argument. 

In [None]:
À présent, vous pouvez soumettre le script en tant que travail de commande.

Exécutez la cellule ci-dessous pour entraîner le modèle. 

Dans le studio, accédez au travail **diabetes-train-infer** pour explorer la vue d’ensemble du travail de commande que vous avez exécuté. Recherchez les artefacts journalisés sous l’onglet **Sorties + journaux**. Sélectionnez le dossier `model` où rechercher le fichier `MLmodel` et explorer son contenu.

Comparez les fichiers `MLmodel` avec les deux exécutions précédentes. Vous remarquerez qu’ils sont identiques, preuve que la fonctionnalité de journalisation automatique de MLflow a aussi correctement déduit la signature du modèle.

## Personnaliser le modèle avec une signature définie

Vous pouvez journaliser manuellement le modèle même quand vous utilisez la journalisation automatique. En spécifiant le paramètre « log_models=False », la journalisation automatique ne journalisera pas le modèle. Vous créez une signature en la déduisant du jeu de données d’entraînement et des résultats prédits. Pour finir, vous enregistrez le modèle scikit-learn.

Exécutez la cellule suivante pour créer le script **train-model-infer.py** dans le dossier **src**. Le script entraîne un modèle de classification avec le fichier **diabetes.csv** dans le même dossier, qui est passé comme argument. 

In [None]:
À présent, vous pouvez soumettre le script en tant que travail de commande.

Exécutez la cellule ci-dessous pour entraîner le modèle. 

Dans le studio, accédez au travail **diabetes-train-signature** pour explorer la vue d’ensemble du travail de commande que vous avez exécuté. Recherchez les artefacts journalisés sous l’onglet **Sorties + journaux**. Sélectionnez le dossier `model` où rechercher le fichier `MLmodel` et explorer son contenu.

Comparez les fichiers `MLmodel` avec les exécutions précédentes. Vous remarquerez que la signature est différente de celle des exécutions précédentes. Les exécutions précédentes utilisaient des signatures basées sur des tenseurs, tandis que la dernière exécution utilisait une signature basée sur des colonnes.

In [None]:
## Inscrire le modèle

Lorsque vous choisissez un modèle à déployer, commencez par inscrire le modèle. 

Pour inscrire le modèle le plus récent, vous référencez le nom de l’exécution du travail. En inscrivant le modèle en tant que modèle MLflow, vous pourrez le déployer facilement plus tard.

Dans le studio, accédez à la page **Modèles**. Dans la liste des modèles, recherchez le modèle `mlflow-diabetes` et sélectionnez-le pour l’explorer plus en détail.

- Sous l’onglet **Détails** du modèle `mlflow-diabetes`, vous voyez le type du modèle, `MLFLOW`, et le travail qui a entraîné le modèle.
- Sous l’onglet **Artefacts**, vous voyez le répertoire contenant le fichier `MLmodel`.

Si vous souhaitez explorer davantage le comportement du modèle, vous pouvez **éventuellement** choisir de déployer le modèle sur un point de terminaison en temps réel.

## Customize the model with an inferred signature

You can manually log the model when using autologging. By using 'log_models=False', autologging will not log the model. You'll create a signature by inferring it from the training dataset and predicted results. And finally, you'll log the scikit-learn model.

Run the following cell to create the **train-model-infer.py** script in the **src** folder. The script trains a classification model by using the **diabetes.csv** file in the same folder, which is passed as an argument. 

In [None]:
%%writefile $script_folder/train-model-infer.py
# import libraries
import mlflow
import argparse
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_auc_score
from sklearn.metrics import roc_curve
import matplotlib.pyplot as plt
import mlflow.sklearn
from mlflow.models.signature import infer_signature

def main(args):
    # enable autologging
    mlflow.autolog(log_models=False)

    # read data
    df = get_data(args.training_data)

    # split data
    X_train, X_test, y_train, y_test = split_data(df)

    # train model
    model = train_model(args.reg_rate, X_train, X_test, y_train, y_test)

    # evaluate model
    y_hat = eval_model(model, X_test, y_test)

    # create the signature by inferring it from the datasets
    signature = infer_signature(X_train, y_hat)

    # manually log the model
    mlflow.sklearn.log_model(model, "model", signature=signature)

# function that reads the data
def get_data(path):
    print("Reading data...")
    df = pd.read_csv(path)
    
    return df

# function that splits the data
def split_data(df):
    print("Splitting data...")
    X, y = df[['Pregnancies','PlasmaGlucose','DiastolicBloodPressure','TricepsThickness',
    'SerumInsulin','BMI','DiabetesPedigree','Age']].values, df['Diabetic'].values

    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=0)

    return X_train, X_test, y_train, y_test

# function that trains the model
def train_model(reg_rate, X_train, X_test, y_train, y_test):
    mlflow.log_param("Regularization rate", reg_rate)
    print("Training model...")
    model = LogisticRegression(C=1/reg_rate, solver="liblinear").fit(X_train, y_train)

    return model

# function that evaluates the model
def eval_model(model, X_test, y_test):
    # calculate accuracy
    y_hat = model.predict(X_test)
    acc = np.average(y_hat == y_test)
    print('Accuracy:', acc)
 
    return y_hat

def parse_args():
    # setup arg parser
    parser = argparse.ArgumentParser()

    # add arguments
    parser.add_argument("--training_data", dest='training_data',
                        type=str)
    parser.add_argument("--reg_rate", dest='reg_rate',
                        type=float, default=0.01)

    # parse args
    args = parser.parse_args()

    # return args
    return args

# run script
if __name__ == "__main__":
    # add space in logs
    print("\n\n")
    print("*" * 60)

    # parse args
    args = parse_args()

    # run main function
    main(args)

    # add space in logs
    print("*" * 60)
    print("\n\n")

Now, you can submit the script as a command job.

Run the cell below to train the model. 

In [None]:
from azure.ai.ml import command

# configure job

job = command(
    code="./src",
    command="python train-model-infer.py --training_data diabetes.csv",
    environment="AzureML-sklearn-0.24-ubuntu18.04-py37-cpu@latest",
    compute="aml-cluster",
    display_name="diabetes-train-infer",
    experiment_name="diabetes-training"
    )

# submit job
returned_job = ml_client.create_or_update(job)
aml_url = returned_job.studio_url
print("Monitor your job at", aml_url)

In the Studio, navigate to the **diabetes-train-infer** job to explore the overview of the command job you ran. Find the logged artifacts in the **Outputs + logs** tab. Select the `model` folder to find the `MLmodel` file and explore its contents.

Compare the `MLmodel` files with the previous two runs. You'll notice that they're all the same, indicating that MLflow's autolog feature correctly inferred the model's signature too.

## Customize the model with a defined signature

You can manually log the model when using autologging. By using 'log_models=False', autologging will not log the model. You'll create a signature by inferring it from the training dataset and predicted results. And finally, you'll log the scikit-learn model.

Run the following cell to create the **train-model-infer.py** script in the **src** folder. The script trains a classification model by using the **diabetes.csv** file in the same folder, which is passed as an argument. 

In [None]:
%%writefile $script_folder/train-model-signature.py
# import libraries
import mlflow
import argparse
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_auc_score
from sklearn.metrics import roc_curve
import matplotlib.pyplot as plt
import mlflow.sklearn
from mlflow.models.signature import ModelSignature
from mlflow.types.schema import Schema, ColSpec

def main(args):
    # enable autologging
    mlflow.autolog(log_models=False)

    # read data
    df = get_data(args.training_data)

    # split data
    X_train, X_test, y_train, y_test = split_data(df)

    # train model
    model = train_model(args.reg_rate, X_train, X_test, y_train, y_test)

    # evaluate model
    y_hat = eval_model(model, X_test, y_test)

    # create the signature manually
    input_schema = Schema([
    ColSpec("integer", "Pregnancies"),
    ColSpec("integer", "PlasmaGlucose"),
    ColSpec("integer", "DiastolicBloodPressure"),
    ColSpec("integer", "TricepsThickness"),
    ColSpec("integer", "DiastolicBloodPressure"),
    ColSpec("integer", "SerumInsulin"),
    ColSpec("double", "BMI"),
    ColSpec("double", "DiabetesPedigree"),
    ColSpec("integer", "Age"),
    ])

    output_schema = Schema([ColSpec("boolean")])

    # Create the signature object
    signature = ModelSignature(inputs=input_schema, outputs=output_schema)

    # manually log the model
    mlflow.sklearn.log_model(model, "model", signature=signature)

# function that reads the data
def get_data(path):
    print("Reading data...")
    df = pd.read_csv(path)
    
    return df

# function that splits the data
def split_data(df):
    print("Splitting data...")
    X, y = df[['Pregnancies','PlasmaGlucose','DiastolicBloodPressure','TricepsThickness',
    'SerumInsulin','BMI','DiabetesPedigree','Age']].values, df['Diabetic'].values

    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=0)

    return X_train, X_test, y_train, y_test

# function that trains the model
def train_model(reg_rate, X_train, X_test, y_train, y_test):
    mlflow.log_param("Regularization rate", reg_rate)
    print("Training model...")
    model = LogisticRegression(C=1/reg_rate, solver="liblinear").fit(X_train, y_train)

    return model

# function that evaluates the model
def eval_model(model, X_test, y_test):
    # calculate accuracy
    y_hat = model.predict(X_test)
    acc = np.average(y_hat == y_test)
    print('Accuracy:', acc)
 
    return y_hat

def parse_args():
    # setup arg parser
    parser = argparse.ArgumentParser()

    # add arguments
    parser.add_argument("--training_data", dest='training_data',
                        type=str)
    parser.add_argument("--reg_rate", dest='reg_rate',
                        type=float, default=0.01)

    # parse args
    args = parser.parse_args()

    # return args
    return args

# run script
if __name__ == "__main__":
    # add space in logs
    print("\n\n")
    print("*" * 60)

    # parse args
    args = parse_args()

    # run main function
    main(args)

    # add space in logs
    print("*" * 60)
    print("\n\n")

Now, you can submit the script as a command job.

Run the cell below to train the model. 

In [None]:
from azure.ai.ml import command

# configure job

job = command(
    code="./src",
    command="python train-model-signature.py --training_data diabetes.csv",
    environment="AzureML-sklearn-0.24-ubuntu18.04-py37-cpu@latest",
    compute="aml-cluster",
    display_name="diabetes-train-signature",
    experiment_name="diabetes-training"
    )

# submit job
returned_job = ml_client.create_or_update(job)
aml_url = returned_job.studio_url
print("Monitor your job at", aml_url)

In the Studio, navigate to the **diabetes-train-signature** job to explore the overview of the command job you ran. Find the logged artifacts in the **Outputs + logs** tab. Select the `model` folder to find the `MLmodel` file and explore its contents.

Compare the `MLmodel` files with the previous runs. You'll notice that the signature is different from the previous runs. Previous runs used tensor-based signatures, whereas the latest run used a column-based signature.

## Register the model

When you choose a model you want to deploy, you can first register the model. 

To register the latest model, you'll refer to the name of the job run. By registering the model as an MLflow model, you can easily deploy it later.

In [None]:
from azure.ai.ml.entities import Model
from azure.ai.ml.constants import AssetTypes

job_name = returned_job.name

run_model = Model(
    path=f"azureml://jobs/{job_name}/outputs/artifacts/paths/model/",
    name="mlflow-diabetes",
    description="Model created from run.",
    type=AssetTypes.MLFLOW_MODEL,
)
# Uncomment after adding required details above
ml_client.models.create_or_update(run_model)

In the Studio, navigate to the **Models** page. In the model list, find the `mlflow-diabetes` model and select it to explore it further.

- In the **Details** tab of the `mlflow-diabetes` model, you can review that it's a `MLFLOW` type model and the job that trained the model.
- In the **Artifacts** tab you can find the directory with the `MLmodel` file.

If you want to explore the model's behavior further, you can **optionally** choose to deploy the model to a real-time endpoint.