# Ausführen eines Trainingsskripts als Befehlsauftrag

Sie können das Python SDK für Azure Machine Learning verwenden, um Skripts als Befehlsaufträge zu übermitteln. Mithilfe von Aufträgen können Sie die Eingabeparameter und Ausgaben beim Trainieren eines Machine Learning-Modells problemlos nachverfolgen.

## Vorbereitung

Sie benötigen die neueste Version des Pakets **azureml-ai-ml**, um den Code in diesem Notebook auszuführen. Führen Sie die folgende Zelle aus, um zu überprüfen, ob das Paket installiert ist.

> **Hinweis**:
> Wenn das Paket **azure-ai-ml** nicht installiert ist, führen Sie `pip install azure-ai-ml` aus, um es zu installieren.

In [None]:
## Herstellen einer Verbindung mit Ihrem Arbeitsbereich

Sie können nun eine Verbindung mit Ihrem Arbeitsbereich herstellen, nachdem Sie die erforderlichen SDK-Pakete installiert haben.

Um eine Verbindung mit einem Arbeitsbereich herzustellen, benötigen Sie Bezeichnerparameter: eine Abonnement-ID, einen Ressourcengruppennamen und einen Arbeitsbereichsnamen. Der Ressourcengruppenname und Arbeitsbereichsname sind bereits für Sie ausgefüllt. Sie müssen lediglich die Abonnement-ID angeben, um den Befehl zu vervollständigen.

Um die erforderlichen Parameter zu finden, klicken Sie rechts oben in Studio auf das Abonnement und den Namen des Arbeitsbereichs. Rechts wird ein Bereich geöffnet.

<p style="color:red;font-size:120%;background-color:yellow;font-weight:bold"> Kopieren Sie die Abonnement-ID, und ersetzen Sie **YOUR-SUBSCRIPTION-ID** durch den Wert, den Sie kopiert haben. </p>

## Benutzerdefinierte Nachverfolgung mit MLflow

Wenn Sie ein Skript als Auftrag ausführen, können Sie MLflow in Ihrem Trainingsskript verwenden, um das Modell nachzuverfolgen. Mit MLflow können Sie alle benutzerdefinierten Parameter, Metriken oder Artefakte nachverfolgen, die Sie mit der Auftragsausgabe speichern möchten.

Führen Sie die folgenden Zellen aus, um im Ordner **src** das Skript **train-model-mlflow.py** zu erstellen. Das Skript trainiert ein Klassifizierungsmodell mithilfe der Datei **diabetes.csv** im selben Ordner, die als Argument übergeben wird. 

Überprüfen Sie den folgenden Code, um festzustellen, dass das Skript `mlflow` importiert und Folgendes protokolliert:

- Die Abgrenzungsrate als **Parameter**. 
- Die Genauigkeit und AUC als **Metriken**.
- Die gezeichnete ROC-Kurve als **Artefakt**.

In [None]:
Nun können Sie das Skript als Befehlsauftrag übermitteln.

Führen Sie die folgende Zelle aus, um das Modell zu trainieren. 

In [None]:
Navigieren Sie in Studio zum Auftrag **diabetes-train-mlflow**, um die Übersicht über den ausgeführten Befehlsauftrag zu erkunden:

- Sie finden die protokollierten Parameter auf der Registerkarte **Übersicht** unter **Parameter**.
- Sie finden die protokollierten Metriken auf der Registerkarte **Metriken**.
- Sie finden die protokollierten Artefakte auf der Registerkarte **Bilder** (speziell für Bilder) und auf der Registerkarte **Ausgaben und Protokolle** (alle Dateien).

## Automatische Protokollierung mit MLflow

Anstatt die benutzerdefinierte Protokollierung zu verwenden, kann MLflow auch alle Parameter, Metriken und Artefakte automatisch protokollieren. Für die automatische Protokollierung mit MLflow ist nur eine Codezeile erforderlich.

Führen Sie die folgenden Zelle aus, um im Ordner **src** das Skript **train-model-autolog.py** zu erstellen. Das Skript trainiert ein Klassifizierungsmodell mithilfe der Datei **diabetes.csv** im selben Ordner, der als Argument übergeben wird. 

Überprüfen Sie den folgenden Code, um festzustellen, dass das Skript `mlflow` importiert und die automatische Protokollierung über die folgende Zeile aktiviert: 

`mlflow.autolog()`

In [None]:
Nun können Sie das Skript als Befehlsauftrag übermitteln.

Führen Sie die folgende Zelle aus, um das Modell zu trainieren. 

In [None]:
Navigieren Sie in Studio zum Auftrag **diabetes-train-autolog**, um die Übersicht über den ausgeführten Befehlsauftrag zu erkunden:

- Sie finden die protokollierten Parameter auf der Registerkarte **Übersicht** unter **Parameter**.
- Sie finden die protokollierten Metriken auf der Registerkarte **Metriken**.
- Sie finden die protokollierten Artefakte auf der Registerkarte **Bilder** (speziell für Bilder) und auf der Registerkarte **Ausgaben und Protokolle** (alle Dateien samt Modelldateien).

## Verwenden von MLflow zum Anzeigen von und Suchen nach Experimenten

Azure Machine Learning Studio bietet eine benutzerfreundliche Benutzeroberfläche zum Anzeigen und Vergleichen von Auftragsausführungen. Alternativ können Sie mithilfe von MLflow Experimentaufträge anzeigen. 

Zum Auflisten der Aufträge im Arbeitsbereich können Sie die Experimente im Arbeitsbereich mit folgendem Befehl auflisten:


In [None]:
Ein bestimmtes Experiment können Sie anhand seines Namens abrufen:

Mithilfe eines Experimentnamens können Sie alle Aufträge dieses Experiments abrufen:

Um Auftragsausführungen und -ausgaben einfacher zu vergleichen, können Sie die Suche so konfigurieren, dass die Ergebnisse sortiert werden. Die folgende Zelle sortiert die Ergebnisse beispielsweise anhand von `start_time` und zeigt maximal `2` Ergebnisse: 

In [None]:
Sie können sogar eine Abfrage zum Filtern von Ausführungen erstellen. Abfragezeichenfolgen zum Filtern werden mit einer vereinfachten Version der SQL-Klausel `WHERE` geschrieben. 

Zum Filtern eignen sich zwei Klassen von Vergleichsoperatoren:

- Numerische Vergleichsoperatoren (Metriken): =, !=, >, >=, < und <=.
- Zeichenfolgenbasierte Vergleichsoperatoren (Parameter, Tags und Attribute): = und !=.

Weitere Informationen finden Sie unter [Nachverfolgen von ML-Modellen mit MLflow und Azure Machine Learning](https://learn.microsoft.com/azure/machine-learning/how-to-track-experiments-mlflow).

Now, you can submit the script as a command job.

Run the cell below to train the model. 

In [None]:
from azure.ai.ml import command

# configure job

job = command(
    code="./src",
    command="python train-model-autolog.py --training_data diabetes.csv",
    environment="AzureML-sklearn-0.24-ubuntu18.04-py37-cpu@latest",
    compute="aml-cluster",
    display_name="diabetes-train-autolog",
    experiment_name="diabetes-training"
    )

# submit job
returned_job = ml_client.create_or_update(job)
aml_url = returned_job.studio_url
print("Monitor your job at", aml_url)

In the Studio, navigate to the **diabetes-train-autolog** job to explore the overview of the command job you ran:

- Find the logged parameters in the **Overview** tab, under **Params**.
- Find the logged metrics in the **Metrics** tab.
- Find the logged artifacts in the **Images** tab (specifically for images), and in the **Outputs + logs** tab (all files, including the model files).

## Use MLflow to view and search for experiments

The Azure Machine Learning Studio is an easy-to-use UI to view and compare job runs. Alternatively, you can use MLflow to view experiment jobs. 

To list the jobs in the workspace, use the following command to list the experiments in the workspace:


In [None]:
import mlflow
experiments = mlflow.list_experiments()
for exp in experiments:
    print(exp.name)

To retrieve a specific experiment, you can get it by its name:

In [None]:
experiment_name = "diabetes-training"
exp = mlflow.get_experiment_by_name(experiment_name)
print(exp)

Using an experiment name, you can retrieve all jobs of that experiment:

In [None]:
mlflow.search_runs(exp.experiment_id)

To more easily compare job runs and outputs, you can configure the search to order the results. For example, the following cell orders the results by `start_time`, and only shows a maximum of `2` results: 

In [None]:
mlflow.search_runs(exp.experiment_id, order_by=["start_time DESC"], max_results=2)

You can even create a query to filter the runs. Filter query strings are written with a simplified version of the SQL `WHERE` clause. 

To filter, you can use two classes of comparators:

- Numeric comparators (metrics): =, !=, >, >=, <, and <=.
- String comparators (params, tags, and attributes): = and !=.

Learn more about [how to track experiments with MLflow](https://learn.microsoft.com/azure/machine-learning/how-to-track-experiments-mlflow).

In [None]:
query = "metrics.AUC > 0.8 and tags.model_type = 'LogisticRegression'"
mlflow.search_runs(exp.experiment_id, filter_string=query)