# Menjalankan skrip pelatihan sebagai pekerjaan perintah

Anda dapat menggunakan Python SDK untuk Azure Machine Learning untuk mengirimkan skrip sebagai pekerjaan perintah. Dengan menggunakan pekerjaan, Anda dapat dengan mudah melacak parameter input dan output saat melatih model pembelajaran mesin.

## Sebelum Anda memulai

Anda memerlukan versi terbaru paket **azureml-ai-ml** untuk menjalankan kode di notebook ini. Jalankan sel di bawah ini untuk memverifikasi bahwa sel diinstal.

> **Catatan:**
> Jika paket **azure-ai-ml** tidak diinstal, jalankan `pip install azure-ai-ml` untuk menginstalnya.

In [None]:
## Menyambungkan ke ruang kerja Anda

Dengan paket SDK yang diperlukan terinstal, sekarang Anda siap untuk terhubung ke ruang kerja Anda.

Untuk menyambungkan ke ruang kerja, kita memerlukan parameter pengidentifikasi - ID langganan, nama grup sumber daya, dan nama ruang kerja. Nama grup sumber daya dan nama ruang kerja sudah diisi untuk Anda. Anda hanya memerlukan ID langganan untuk menyelesaikan perintah.

Untuk menemukan parameter yang diperlukan, klik nama langganan dan ruang kerja di kanan atas Studio. Panel akan terbuka di sebelah kanan.

<p style="color:red;font-size:120%;background-color:yellow;font-weight:bold"> Salin ID langganan dan ganti **YOUR-SUBSCRIPTION-ID** dengan nilai yang Anda salin. </p>

## Pelacakan kustom dengan MLflow

Saat menjalankan skrip sebagai pekerjaan, Anda dapat menggunakan MLflow dalam skrip pelatihan Anda untuk melacak model. MLflow memungkinkan Anda melacak parameter, metrik, atau artefak kustom yang ingin Anda simpan dengan output pekerjaan Anda.

Jalankan sel berikut untuk membuat skrip **train-model-mlflow.py** di folder **src** . Skrip melatih model klasifikasi dengan menggunakan file **diabetes.csv** di folder yang sama, yang diteruskan sebagai argumen. 

Tinjau kode di bawah ini untuk menemukan bahwa skrip akan mengimpor `mlflow` dan mencatat:

- Tingkat regularisasi sebagai **parameter**. 
- Akurasi dan AUC sebagai **metrik**.
- Kurva ROC yang diplot sebagai **artefak**.

In [None]:
Sekarang, Anda dapat mengirimkan skrip sebagai pekerjaan perintah.

Jalankan sel di bawah ini untuk melatih model. 

In [None]:
Di Studio, navigasikan ke pekerjaan **diabetes-train-mlflow** untuk menjelajahi gambaran umum pekerjaan perintah yang Anda jalankan:

- Temukan parameter yang dicatat di tab **Gambaran Umum** , di bawah **Params**.
- Temukan metrik yang dicatat di tab **Metrik** .
- Temukan artefak yang dicatat di tab **Gambar** (khusus untuk gambar), dan di tab **Output + log** (semua file).

## Autologging dengan MLflow

Alih-alih menggunakan pengelogan kustom, MLflow juga dapat secara otomatis mencatat parameter, metrik, dan artefak apa pun. Autologging dengan MLflow hanya memerlukan satu baris kode.

Jalankan sel berikut untuk membuat skrip **train-model-autolog.py** di folder **src** . Skrip melatih model klasifikasi dengan menggunakan file **diabetes.csv** di folder yang sama, yang diteruskan sebagai argumen. 

Tinjau kode di bawah ini untuk menemukan bahwa skrip akan mengimpor `mlflow` dan mengaktifkan autologging dengan baris: 

`mlflow.autolog()`

In [None]:
Sekarang, Anda dapat mengirimkan skrip sebagai pekerjaan perintah.

Jalankan sel di bawah ini untuk melatih model. 

In [None]:
Di Studio, navigasikan ke pekerjaan **diabetes-train-autolog** untuk menjelajahi gambaran umum pekerjaan perintah yang Anda jalankan:

- Temukan parameter yang dicatat di tab **Gambaran Umum** , di bawah **Params**.
- Temukan metrik yang dicatat di tab **Metrik** .
- Temukan artefak yang dicatat di tab **Gambar** (khusus untuk gambar), dan di tab **Output + log** (semua file, termasuk file model).

## Menggunakan MLflow untuk melihat dan mencari eksperimen

Azure Machine Learning Studio adalah UI yang mudah digunakan untuk melihat dan membandingkan eksekusi pekerjaan. Atau, Anda dapat menggunakan MLflow untuk melihat pekerjaan eksperimen. 

Untuk mencantumkan pekerjaan di ruang kerja, gunakan perintah berikut untuk mencantumkan eksperimen di ruang kerja:


In [None]:
Untuk mengambil eksperimen tertentu, Anda bisa mendapatkannya dengan namanya:

Dengan menggunakan nama eksperimen, Anda dapat mengambil semua pekerjaan eksperimen tersebut:

Untuk lebih mudah membandingkan eksekusi dan output pekerjaan, Anda dapat mengonfigurasi pencarian untuk memesan hasilnya. Misalnya, sel berikut mengurutkan hasilnya menurut `start_time`, dan hanya memperlihatkan hasil maksimum `2` : 

In [None]:
Anda bahkan bisa membuat kueri untuk memfilter eksekusi. String kueri filter ditulis dengan versi klausa SQL `WHERE` yang disederhanakan. 

Untuk memfilter, Anda dapat menggunakan dua kelas komparator:

- Komparator numerik (metrik): =, !=, >, >=, <, dan <=.
- Komparat string (param, tag, dan atribut): = dan !=.

Pelajari selengkapnya tentang [cara melacak eksperimen dengan MLflow](https://learn.microsoft.com/azure/machine-learning/how-to-track-experiments-mlflow).

Now, you can submit the script as a command job.

Run the cell below to train the model. 

In [None]:
from azure.ai.ml import command

# configure job

job = command(
    code="./src",
    command="python train-model-autolog.py --training_data diabetes.csv",
    environment="AzureML-sklearn-0.24-ubuntu18.04-py37-cpu@latest",
    compute="aml-cluster",
    display_name="diabetes-train-autolog",
    experiment_name="diabetes-training"
    )

# submit job
returned_job = ml_client.create_or_update(job)
aml_url = returned_job.studio_url
print("Monitor your job at", aml_url)

In the Studio, navigate to the **diabetes-train-autolog** job to explore the overview of the command job you ran:

- Find the logged parameters in the **Overview** tab, under **Params**.
- Find the logged metrics in the **Metrics** tab.
- Find the logged artifacts in the **Images** tab (specifically for images), and in the **Outputs + logs** tab (all files, including the model files).

## Use MLflow to view and search for experiments

The Azure Machine Learning Studio is an easy-to-use UI to view and compare job runs. Alternatively, you can use MLflow to view experiment jobs. 

To list the jobs in the workspace, use the following command to list the experiments in the workspace:


In [None]:
import mlflow
experiments = mlflow.list_experiments()
for exp in experiments:
    print(exp.name)

To retrieve a specific experiment, you can get it by its name:

In [None]:
experiment_name = "diabetes-training"
exp = mlflow.get_experiment_by_name(experiment_name)
print(exp)

Using an experiment name, you can retrieve all jobs of that experiment:

In [None]:
mlflow.search_runs(exp.experiment_id)

To more easily compare job runs and outputs, you can configure the search to order the results. For example, the following cell orders the results by `start_time`, and only shows a maximum of `2` results: 

In [None]:
mlflow.search_runs(exp.experiment_id, order_by=["start_time DESC"], max_results=2)

You can even create a query to filter the runs. Filter query strings are written with a simplified version of the SQL `WHERE` clause. 

To filter, you can use two classes of comparators:

- Numeric comparators (metrics): =, !=, >, >=, <, and <=.
- String comparators (params, tags, and attributes): = and !=.

Learn more about [how to track experiments with MLflow](https://learn.microsoft.com/azure/machine-learning/how-to-track-experiments-mlflow).

In [None]:
query = "metrics.AUC > 0.8 and tags.model_type = 'LogisticRegression'"
mlflow.search_runs(exp.experiment_id, filter_string=query)