# Nachverfolgen des Modelltrainings in Notebooks mit MLflow

Sie können MLflow in einem Notebook verwenden, um alle von Ihnen trainierten Modelle nachzuverfolgen. Da Sie dieses Notebook mit einer Azure Machine Learning-Compute-Instanz ausführen, müssen Sie MLflow nicht einrichten, da es bereits installiert und integriert ist. 

Sie bereiten einige Daten auf und trainieren ein Modell, um Diabetes vorherzusagen. Sie verwenden die automatische und benutzerdefinierte Protokollierung, um zu erkunden, wie Sie MLflow in Notebooks verwenden können.

## Vorbereitung

Sie benötigen die neueste Version des Pakets **azureml-ai-ml**, um den Code in diesem Notebook auszuführen. Führen Sie die folgende Zelle aus, um zu überprüfen, ob das Paket installiert ist.

> **Hinweis**:
> Wenn das Paket **azure-ai-ml** nicht installiert ist, führen Sie `pip install azure-ai-ml` aus, um es zu installieren.

In [None]:
## Herstellen einer Verbindung mit Ihrem Arbeitsbereich

Sie können nun eine Verbindung mit Ihrem Arbeitsbereich herstellen, nachdem Sie die erforderlichen SDK-Pakete installiert haben.

Um eine Verbindung mit einem Arbeitsbereich herzustellen, benötigen Sie Bezeichnerparameter: eine Abonnement-ID, einen Ressourcengruppennamen und einen Arbeitsbereichsnamen. Der Ressourcengruppenname und Arbeitsbereichsname sind bereits für Sie ausgefüllt. Sie müssen lediglich die Abonnement-ID angeben, um den Befehl zu vervollständigen.

Um die erforderlichen Parameter zu finden, klicken Sie rechts oben in Studio auf das Abonnement und den Namen des Arbeitsbereichs. Rechts wird ein Bereich geöffnet.

<p style="color:red;font-size:120%;background-color:yellow;font-weight:bold"> Kopieren Sie die Abonnement-ID, und ersetzen Sie **YOUR-SUBSCRIPTION-ID** durch den Wert, den Sie kopiert haben. </p>

## Konfigurieren von MLflow

Da Sie dieses Notebook auf einer Compute-Instanz in Azure Machine Learning Studio ausführen, müssen Sie MLflow nicht konfigurieren. 

Dennoch empfiehlt es sich zu prüfen, ob die erforderlichen Bibliotheken tatsächlich installiert sind:

In [None]:
## Vorbereiten der Daten

Sie trainieren ein Klassifizierungsmodell für Diabetes. Die Trainingsdaten werden im Ordner **data** als **diabetes.csv** gespeichert. 

Zunächst lesen Sie die Daten ein:

In [None]:
Als Nächstes teilen Sie die Daten in Features und die Bezeichnung (Diabetes) auf:

Sie haben nun vier DataFrames:

- `X_train`: das Trainingsdataset mit den Features.
- `X_test`: das Testdataset mit den Features.
- `y_train`: die Bezeichnung des Trainingsdatasets.
- `y_test`: die Bezeichnung des Testdatasets.

Sie verwenden diese zum Trainieren und Auswerten der von Ihnen trainierten Modelle.

## Erstellen eines MLflow-Experiments

Sie sind nun zum Trainieren von Machine Learning-Modellen bereit. Erstellen Sie dazu zunächst ein MLflow-Experiment. Indem Sie das Experiment erstellen, können Sie alle Ausführungen innerhalb eines Experiments gruppieren, wodurch es einfacher wird, die Ausführungen in Studio zu finden.

In [None]:
## Trainieren und Nachverfolgen von Modellen

Zum Nachverfolgen eines Modells, das Sie trainieren, können Sie MLflow verwenden und die automatische Protokollierung aktivieren. Die folgende Zelle trainiert ein Klassifizierungsmodell mithilfe logistischer Regression. Sie werden feststellen, dass Sie keine Auswertungsmetriken berechnen müssen, da sie von MLflow automatisch erstellt und protokolliert werden.

In [None]:
Sie können mit MLflow auch die benutzerdefinierte Protokollierung nutzen. Sie können die benutzerdefinierte der automatischen Protokollierung hinzufügen oder nur die benutzerdefinierte Protokollierung wählen.

Lassen Sie uns zwei weitere Modelle mit scikit-learn trainieren. Da Sie den Befehl `mlflow.sklearn.autolog()` zuvor ausgeführt haben, protokolliert MLflow jetzt automatisch jedes mit scikit-learn trainierte Modell. Um die automatische Protokollierung zu deaktivieren, führen Sie die folgende Zelle aus:

Jetzt können Sie Modelle nur mithilfe der benutzerdefinierten Protokollierung trainieren und nachverfolgen. 

Wenn Sie die folgende Zelle ausführen, protokollieren Sie nur einen Parameter und eine Metrik.

In [None]:
Der Hauptgrund zum Nachverfolgen von Modellen kann sein, dass Sie die Ergebnisse von Modellen vergleichen möchten, die Sie mit unterschiedlichen Hyperparameterwerten trainieren. 

Beispielsweise haben Sie gerade ein logistisches Regressionsmodell mit der Abgrenzungsrate 0,1 trainiert. Trainieren Sie nun ein anderes Modell, diesmal jedoch mit der Abgrenzungsrate 0,01. Da Sie auch die Genauigkeit nachverfolgen, können Sie vergleichen und entscheiden, welche Rate zu einem leistungsstärkeren Modell führt.

Ein weiterer Grund zum Nachverfolgen der Ergebnisse Ihres Modells ist das Testen eines anderen Schätzers. Alle Modelle, die Sie bisher trainiert haben, haben den Schätzer für logistische Regression verwendet. 

Führen Sie die folgende Zelle aus, um ein Modell mit dem Entscheidungsstrukturklassifizierer zu trainieren, und überprüfen Sie, ob die Genauigkeit im Vergleich zu den anderen Ausführungen höher ist.

In [None]:
Zum Schluss versuchen wir, ein Artefakt zu protokollieren. Ein Artefakt kann eine beliebige Datei sein. Beispielsweise können Sie die ROC-Kurve zeichnen und als Bild speichern. Das Bild kann als Artefakt protokolliert werden. 

Führen Sie die folgende Zelle aus, um einen Parameter, eine Metrik und ein Artefakt zu protokollieren.

In [None]:
Überprüfen Sie die Ergebnisse des Modells in Azure Machine Learning Studio auf der Seite „Aufträge“. 

- Die Parameter finden Sie auf der Registerkarte **Übersicht** unter **Parameter**.
- Sie finden die Metriken auf der Registerkarte **Übersicht** unter **Metriken** und auf der Registerkarte **Metriken**.
- Sie finden die Artefakte auf der Registerkarte **Ausgaben und Protokolle**.

![Screenshot der Registerkarte „Ausgaben und Protokolle“ auf der Seite „Aufträge“.](./images/output-logs.png)

You now have four dataframes:

- `X_train`: The training dataset containing the features.
- `X_test`: The test dataset containing the features.
- `y_train`: The label for the training dataset.
- `y_test`: The label for the test dataset.

You'll use these to train and evaluate the models you'll train.

## Create an MLflow experiment

Now that you're ready to train machine learning models, you'll first create an MLflow experiment. By creating the experiment, you can group all runs within one experiment and make it easier to find the runs in the studio.

In [None]:
import mlflow
experiment_name = "mlflow-experiment-diabetes"
mlflow.set_experiment(experiment_name)

## Train and track models

To track a model you train, you can use MLflow and enable autologging. The following cell will train a classification model using logistic regression. You'll notice that you don't need to calculate any evaluation metrics because they're automatically created and logged by MLflow.

In [None]:
from sklearn.linear_model import LogisticRegression

with mlflow.start_run():
    mlflow.sklearn.autolog()

    model = LogisticRegression(C=1/0.1, solver="liblinear").fit(X_train, y_train)


You can also use custom logging with MLflow. You can add custom logging to autologging, or you can use only custom logging.

Let's train two more models with scikit-learn. Since you ran the `mlflow.sklearn.autolog()` command before, MLflow will now automatically log any model trained with scikit-learn. To disable the autologging, run the following cell:

In [None]:
mlflow.sklearn.autolog(disable=True)

Now, you can train and track models using only custom logging. 

When you run the following cell, you'll only log one parameter and one metric.

In [None]:
from sklearn.linear_model import LogisticRegression
import numpy as np

with mlflow.start_run():
    model = LogisticRegression(C=1/0.1, solver="liblinear").fit(X_train, y_train)

    y_hat = model.predict(X_test)
    acc = np.average(y_hat == y_test)

    mlflow.log_param("regularization_rate", 0.1)
    mlflow.log_metric("Accuracy", acc)

The reason why you'd want to track models, could be to compare the results of models you train with different hyperparameter values. 

For example, you just trained a logistic regression model with a regularization rate of 0.1. Now, train another model, but this time with a regularization rate of 0.01. Since you're also tracking the accuracy, you can compare and decide which rate results in a better performing model.

In [None]:
from sklearn.linear_model import LogisticRegression
import numpy as np

with mlflow.start_run():
    model = LogisticRegression(C=1/0.01, solver="liblinear").fit(X_train, y_train)

    y_hat = model.predict(X_test)
    acc = np.average(y_hat == y_test)

    mlflow.log_param("regularization_rate", 0.01)
    mlflow.log_metric("Accuracy", acc)

Another reason to track your model's results is when you're testing another estimator. All models you've trained so far used the logistic regression estimator. 

Run the following cell to train a model with the decision tree classifier estimator and review whether the accuracy is higher compared to the other runs.

In [None]:
from sklearn.tree import DecisionTreeClassifier
import numpy as np

with mlflow.start_run():
    model = DecisionTreeClassifier().fit(X_train, y_train)

    y_hat = model.predict(X_test)
    acc = np.average(y_hat == y_test)

    mlflow.log_param("estimator", "DecisionTreeClassifier")
    mlflow.log_metric("Accuracy", acc)

Finally, let's try to log an artifact. An artifact can be any file. For example, you can plot the ROC curve and store the plot as an image. The image can be logged as an artifact. 

Run the following cell to log a parameter, metric, and an artifact.

In [None]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import roc_curve
import matplotlib.pyplot as plt
import numpy as np

with mlflow.start_run():
    model = DecisionTreeClassifier().fit(X_train, y_train)

    y_hat = model.predict(X_test)
    acc = np.average(y_hat == y_test)

    # plot ROC curve
    y_scores = model.predict_proba(X_test)

    fpr, tpr, thresholds = roc_curve(y_test, y_scores[:,1])
    fig = plt.figure(figsize=(6, 4))
    # Plot the diagonal 50% line
    plt.plot([0, 1], [0, 1], 'k--')
    # Plot the FPR and TPR achieved by our model
    plt.plot(fpr, tpr)
    plt.xlabel('False Positive Rate')
    plt.ylabel('True Positive Rate')
    plt.title('ROC Curve')
    plt.savefig("ROC-Curve.png")

    mlflow.log_param("estimator", "DecisionTreeClassifier")
    mlflow.log_metric("Accuracy", acc)
    mlflow.log_artifact("ROC-Curve.png")

Review the model's results on the Jobs page of the Azure Machine Learning studio. 

- You'll find the parameters under **Params** in the **Overview** tab.
- You'll find the metrics under **Metrics** in the **Overview** tab, and in the **Metrics** tab.
- You'll find the artifacts in the **Outputs + logs** tab.

![Screenshot of outputs and logs tab on the Jobs page.](./images/output-logs.png)