# Protokollieren von Modellen mit MLflow

Sie können mithilfe von MLflow in Azure Machine Learning Modelle protokollieren. Wenn Sie ein Modell als Modell und nicht als Artefakt protokollieren, wird im Ausgabeverzeichnis eine MLmodel-Datei erstellt. Die MLmodel-Datei enthält alle Metadaten des Modells. Sie können die Signatur des Modells anpassen, wenn Sie das Modell protokollieren.

## Vorbereitung

Sie benötigen die neueste Version des Pakets **azureml-ai-ml**, um den Code in diesem Notebook auszuführen. Führen Sie die folgende Zelle aus, um zu überprüfen, ob das Paket installiert ist.

> **Hinweis**:
> Wenn das Paket **azure-ai-ml** nicht installiert ist, führen Sie `pip install azure-ai-ml` aus, um es zu installieren.

In [None]:
## Herstellen einer Verbindung mit Ihrem Arbeitsbereich

Sie können nun eine Verbindung mit Ihrem Arbeitsbereich herstellen, nachdem Sie die erforderlichen SDK-Pakete installiert haben.

Um eine Verbindung mit einem Arbeitsbereich herzustellen, benötigen Sie Bezeichnerparameter: eine Abonnement-ID, einen Ressourcengruppennamen und einen Arbeitsbereichsnamen. Der Ressourcengruppenname und Arbeitsbereichsname sind bereits für Sie ausgefüllt. Sie müssen lediglich die Abonnement-ID angeben, um den Befehl zu vervollständigen.

Um die erforderlichen Parameter zu finden, klicken Sie rechts oben in Studio auf das Abonnement und den Namen des Arbeitsbereichs. Rechts wird ein Bereich geöffnet.

<p style="color:red;font-size:120%;background-color:yellow;font-weight:bold"> Kopieren Sie die Abonnement-ID, und ersetzen Sie **YOUR-SUBSCRIPTION-ID** durch den Wert, den Sie kopiert haben. </p>

## Automatische Protokollierung mit MLflow

Wenn Sie die automatische Protokollierung verwenden, wird Ihr Modell automatisch protokolliert. Modellvariante und -schema werden abgeleitet. 

Führen Sie die folgenden Zelle aus, um im Ordner **src** das Skript **train-model-autolog.py** zu erstellen. Das Skript trainiert ein Klassifizierungsmodell mithilfe der Datei **diabetes.csv** im selben Ordner, der als Argument übergeben wird. 

In [None]:
Nun können Sie das Skript als Befehlsauftrag übermitteln.

Führen Sie die folgende Zelle aus, um das Modell zu trainieren. 

In [None]:
Navigieren Sie in Studio zum Auftrag **diabetes-train-autolog**, um die Übersicht über den ausgeführten Befehlsauftrag zu erkunden. Sie finden die protokollierten Artefakte auf der Registerkarte **Ausgaben und Protokolle**. Wählen Sie den Ordner `model` aus, um zur `MLmodel`-Datei zu wechseln und den Inhalt zu erkunden.

## Angeben der Variante bei automatischer Protokollierung

Sie können die automatische Protokollierung verwenden, aber trotzdem die Variante des Modells angeben. Im Beispiel ist die Variante des Modells „scikit-learn“.

Führen Sie die folgenden Zelle aus, um im Ordner **src** das Skript **train-model-sklearn.py** zu erstellen. Das Skript trainiert ein Klassifizierungsmodell mithilfe der Datei **diabetes.csv** im selben Ordner, der als Argument übergeben wird. 

In [None]:
Nun können Sie das Skript als Befehlsauftrag übermitteln.

Führen Sie die folgende Zelle aus, um das Modell zu trainieren. 

In [None]:
Navigieren Sie in Studio zum Auftrag **diabetes-train-sklearn**, um die Übersicht über den ausgeführten Befehlsauftrag zu erkunden. Sie finden die protokollierten Artefakte auf der Registerkarte **Ausgaben und Protokolle**. Wählen Sie den Ordner `model` aus, um zur `MLmodel`-Datei zu wechseln und den Inhalt zu erkunden.

Vergleichen Sie die `MLmodel`-Dateien der beiden vorherigen Ausführungen. Sie werden feststellen, dass sie identisch sind, was darauf hinweist, dass das Feature für automatische Protokollierung von MLflow die Variante des Modells ordnungsgemäß abgeleitet hat.

## Anpassen des Modells mit einer abgeleiteten Signatur

Bei Verwendung der automatischen Protokollierung können Sie das Modell manuell protokollieren. Durch Angabe von „log_models=False“ wird das Modell von der automatischen Protokollierung nicht protokolliert. Sie erstellen eine Signatur, indem Sie sie aus dem Trainingsdataset und den vorhergesagten Ergebnissen ableiten. Und schließlich protokollieren Sie das scikit-learn-Modell.

Führen Sie die folgenden Zelle aus, um im Ordner **src** das Skript **train-model-infer.py** zu erstellen. Das Skript trainiert ein Klassifizierungsmodell mithilfe der Datei **diabetes.csv** im selben Ordner, der als Argument übergeben wird. 

In [None]:
Nun können Sie das Skript als Befehlsauftrag übermitteln.

Führen Sie die folgende Zelle aus, um das Modell zu trainieren. 

Navigieren Sie in Studio zum Auftrag **diabetes-train-infer**, um die Übersicht über den ausgeführten Befehlsauftrag zu erkunden. Sie finden die protokollierten Artefakte auf der Registerkarte **Ausgaben und Protokolle**. Wählen Sie den Ordner `model` aus, um zur `MLmodel`-Datei zu wechseln und den Inhalt zu erkunden.

Vergleichen Sie die `MLmodel`-Dateien mit den beiden vorherigen Ausführungen. Sie werden feststellen, dass sie identisch sind, was darauf hinweist, dass das Feature für automatische Protokollierung von MLflow auch die Signatur des Modells ordnungsgemäß abgeleitet hat.

## Anpassen des Modells mit einer definierten Signatur

Bei Verwendung der automatischen Protokollierung können Sie das Modell manuell protokollieren. Durch Angabe von „log_models=False“ wird das Modell von der automatischen Protokollierung nicht protokolliert. Sie erstellen eine Signatur, indem Sie sie aus dem Trainingsdataset und den vorhergesagten Ergebnissen ableiten. Und schließlich protokollieren Sie das scikit-learn-Modell.

Führen Sie die folgenden Zelle aus, um im Ordner **src** das Skript **train-model-infer.py** zu erstellen. Das Skript trainiert ein Klassifizierungsmodell mithilfe der Datei **diabetes.csv** im selben Ordner, der als Argument übergeben wird. 

In [None]:
Nun können Sie das Skript als Befehlsauftrag übermitteln.

Führen Sie die folgende Zelle aus, um das Modell zu trainieren. 

Navigieren Sie in Studio zum Auftrag **diabetes-train-signature**, um die Übersicht über den ausgeführten Befehlsauftrag zu erkunden. Sie finden die protokollierten Artefakte auf der Registerkarte **Ausgaben und Protokolle**. Wählen Sie den Ordner `model` aus, um zur `MLmodel`-Datei zu wechseln und den Inhalt zu erkunden.

Vergleichen Sie die `MLmodel`-Dateien mit den vorherigen Ausführungen. Sie werden feststellen, dass sich die Signatur von den vorherigen Ausführungen unterscheidet. Bei vorherigen Ausführungen wurden tensorbasierte Signaturen verwendet, während bei der letzten Ausführung eine spaltenbasierte Signatur genutzt wurde.

In [None]:
## Registrieren des Modells

Wenn Sie ein Modell wählen, das Sie bereitstellen möchten, können Sie das Modell zuerst registrieren. 

Um das neueste Modell zu registrieren, verweisen Sie auf den Namen der Auftragsausführung. Indem Sie das Modell als MLflow-Modell registrieren, können Sie es später problemlos bereitstellen.

Navigieren Sie in Studio zur Seite **Modelle**. Wechseln Sie in der Liste „Model“ zum Modell `mlflow-diabetes`, und wählen Sie es aus, um es weiter zu erkunden.

- Auf der Registerkarte **Details** des `mlflow-diabetes` Modells können Sie überprüfen, ob es sich um ein Modell des Typs `MLFLOW` und den Auftrag handelt, mit dem das Modell trainiert wurde.
- Auf der Registerkarte **Artefakte** finden Sie das Verzeichnis mit der `MLmodel`-Datei.

Wenn Sie das Verhalten des Modells weiter erkunden möchten, können Sie das Modell **optional** auf einem Echtzeitendpunkt bereitstellen.

## Customize the model with an inferred signature

You can manually log the model when using autologging. By using 'log_models=False', autologging will not log the model. You'll create a signature by inferring it from the training dataset and predicted results. And finally, you'll log the scikit-learn model.

Run the following cell to create the **train-model-infer.py** script in the **src** folder. The script trains a classification model by using the **diabetes.csv** file in the same folder, which is passed as an argument. 

In [None]:
%%writefile $script_folder/train-model-infer.py
# import libraries
import mlflow
import argparse
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_auc_score
from sklearn.metrics import roc_curve
import matplotlib.pyplot as plt
import mlflow.sklearn
from mlflow.models.signature import infer_signature

def main(args):
    # enable autologging
    mlflow.autolog(log_models=False)

    # read data
    df = get_data(args.training_data)

    # split data
    X_train, X_test, y_train, y_test = split_data(df)

    # train model
    model = train_model(args.reg_rate, X_train, X_test, y_train, y_test)

    # evaluate model
    y_hat = eval_model(model, X_test, y_test)

    # create the signature by inferring it from the datasets
    signature = infer_signature(X_train, y_hat)

    # manually log the model
    mlflow.sklearn.log_model(model, "model", signature=signature)

# function that reads the data
def get_data(path):
    print("Reading data...")
    df = pd.read_csv(path)
    
    return df

# function that splits the data
def split_data(df):
    print("Splitting data...")
    X, y = df[['Pregnancies','PlasmaGlucose','DiastolicBloodPressure','TricepsThickness',
    'SerumInsulin','BMI','DiabetesPedigree','Age']].values, df['Diabetic'].values

    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=0)

    return X_train, X_test, y_train, y_test

# function that trains the model
def train_model(reg_rate, X_train, X_test, y_train, y_test):
    mlflow.log_param("Regularization rate", reg_rate)
    print("Training model...")
    model = LogisticRegression(C=1/reg_rate, solver="liblinear").fit(X_train, y_train)

    return model

# function that evaluates the model
def eval_model(model, X_test, y_test):
    # calculate accuracy
    y_hat = model.predict(X_test)
    acc = np.average(y_hat == y_test)
    print('Accuracy:', acc)
 
    return y_hat

def parse_args():
    # setup arg parser
    parser = argparse.ArgumentParser()

    # add arguments
    parser.add_argument("--training_data", dest='training_data',
                        type=str)
    parser.add_argument("--reg_rate", dest='reg_rate',
                        type=float, default=0.01)

    # parse args
    args = parser.parse_args()

    # return args
    return args

# run script
if __name__ == "__main__":
    # add space in logs
    print("\n\n")
    print("*" * 60)

    # parse args
    args = parse_args()

    # run main function
    main(args)

    # add space in logs
    print("*" * 60)
    print("\n\n")

Now, you can submit the script as a command job.

Run the cell below to train the model. 

In [None]:
from azure.ai.ml import command

# configure job

job = command(
    code="./src",
    command="python train-model-infer.py --training_data diabetes.csv",
    environment="AzureML-sklearn-0.24-ubuntu18.04-py37-cpu@latest",
    compute="aml-cluster",
    display_name="diabetes-train-infer",
    experiment_name="diabetes-training"
    )

# submit job
returned_job = ml_client.create_or_update(job)
aml_url = returned_job.studio_url
print("Monitor your job at", aml_url)

In the Studio, navigate to the **diabetes-train-infer** job to explore the overview of the command job you ran. Find the logged artifacts in the **Outputs + logs** tab. Select the `model` folder to find the `MLmodel` file and explore its contents.

Compare the `MLmodel` files with the previous two runs. You'll notice that they're all the same, indicating that MLflow's autolog feature correctly inferred the model's signature too.

## Customize the model with a defined signature

You can manually log the model when using autologging. By using 'log_models=False', autologging will not log the model. You'll create a signature by inferring it from the training dataset and predicted results. And finally, you'll log the scikit-learn model.

Run the following cell to create the **train-model-infer.py** script in the **src** folder. The script trains a classification model by using the **diabetes.csv** file in the same folder, which is passed as an argument. 

In [None]:
%%writefile $script_folder/train-model-signature.py
# import libraries
import mlflow
import argparse
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_auc_score
from sklearn.metrics import roc_curve
import matplotlib.pyplot as plt
import mlflow.sklearn
from mlflow.models.signature import ModelSignature
from mlflow.types.schema import Schema, ColSpec

def main(args):
    # enable autologging
    mlflow.autolog(log_models=False)

    # read data
    df = get_data(args.training_data)

    # split data
    X_train, X_test, y_train, y_test = split_data(df)

    # train model
    model = train_model(args.reg_rate, X_train, X_test, y_train, y_test)

    # evaluate model
    y_hat = eval_model(model, X_test, y_test)

    # create the signature manually
    input_schema = Schema([
    ColSpec("integer", "Pregnancies"),
    ColSpec("integer", "PlasmaGlucose"),
    ColSpec("integer", "DiastolicBloodPressure"),
    ColSpec("integer", "TricepsThickness"),
    ColSpec("integer", "DiastolicBloodPressure"),
    ColSpec("integer", "SerumInsulin"),
    ColSpec("double", "BMI"),
    ColSpec("double", "DiabetesPedigree"),
    ColSpec("integer", "Age"),
    ])

    output_schema = Schema([ColSpec("boolean")])

    # Create the signature object
    signature = ModelSignature(inputs=input_schema, outputs=output_schema)

    # manually log the model
    mlflow.sklearn.log_model(model, "model", signature=signature)

# function that reads the data
def get_data(path):
    print("Reading data...")
    df = pd.read_csv(path)
    
    return df

# function that splits the data
def split_data(df):
    print("Splitting data...")
    X, y = df[['Pregnancies','PlasmaGlucose','DiastolicBloodPressure','TricepsThickness',
    'SerumInsulin','BMI','DiabetesPedigree','Age']].values, df['Diabetic'].values

    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=0)

    return X_train, X_test, y_train, y_test

# function that trains the model
def train_model(reg_rate, X_train, X_test, y_train, y_test):
    mlflow.log_param("Regularization rate", reg_rate)
    print("Training model...")
    model = LogisticRegression(C=1/reg_rate, solver="liblinear").fit(X_train, y_train)

    return model

# function that evaluates the model
def eval_model(model, X_test, y_test):
    # calculate accuracy
    y_hat = model.predict(X_test)
    acc = np.average(y_hat == y_test)
    print('Accuracy:', acc)
 
    return y_hat

def parse_args():
    # setup arg parser
    parser = argparse.ArgumentParser()

    # add arguments
    parser.add_argument("--training_data", dest='training_data',
                        type=str)
    parser.add_argument("--reg_rate", dest='reg_rate',
                        type=float, default=0.01)

    # parse args
    args = parser.parse_args()

    # return args
    return args

# run script
if __name__ == "__main__":
    # add space in logs
    print("\n\n")
    print("*" * 60)

    # parse args
    args = parse_args()

    # run main function
    main(args)

    # add space in logs
    print("*" * 60)
    print("\n\n")

Now, you can submit the script as a command job.

Run the cell below to train the model. 

In [None]:
from azure.ai.ml import command

# configure job

job = command(
    code="./src",
    command="python train-model-signature.py --training_data diabetes.csv",
    environment="AzureML-sklearn-0.24-ubuntu18.04-py37-cpu@latest",
    compute="aml-cluster",
    display_name="diabetes-train-signature",
    experiment_name="diabetes-training"
    )

# submit job
returned_job = ml_client.create_or_update(job)
aml_url = returned_job.studio_url
print("Monitor your job at", aml_url)

In the Studio, navigate to the **diabetes-train-signature** job to explore the overview of the command job you ran. Find the logged artifacts in the **Outputs + logs** tab. Select the `model` folder to find the `MLmodel` file and explore its contents.

Compare the `MLmodel` files with the previous runs. You'll notice that the signature is different from the previous runs. Previous runs used tensor-based signatures, whereas the latest run used a column-based signature.

## Register the model

When you choose a model you want to deploy, you can first register the model. 

To register the latest model, you'll refer to the name of the job run. By registering the model as an MLflow model, you can easily deploy it later.

In [None]:
from azure.ai.ml.entities import Model
from azure.ai.ml.constants import AssetTypes

job_name = returned_job.name

run_model = Model(
    path=f"azureml://jobs/{job_name}/outputs/artifacts/paths/model/",
    name="mlflow-diabetes",
    description="Model created from run.",
    type=AssetTypes.MLFLOW_MODEL,
)
# Uncomment after adding required details above
ml_client.models.create_or_update(run_model)

In the Studio, navigate to the **Models** page. In the model list, find the `mlflow-diabetes` model and select it to explore it further.

- In the **Details** tab of the `mlflow-diabetes` model, you can review that it's a `MLFLOW` type model and the job that trained the model.
- In the **Artifacts** tab you can find the directory with the `MLmodel` file.

If you want to explore the model's behavior further, you can **optionally** choose to deploy the model to a real-time endpoint.