# Melacak pelatihan model di notebook dengan MLflow

Anda dapat menggunakan MLflow di notebook untuk melacak model apa pun yang Anda latih. Karena Anda akan menjalankan notebook ini dengan instans komputasi Azure Machine Learning, Anda tidak perlu menyiapkan MLflow: buku catatan tersebut sudah diinstal dan terintegrasi. 

Anda akan menyiapkan beberapa data dan melatih model untuk memprediksi diabetes. Anda akan menggunakan autologging, dan pengelogan kustom untuk menjelajahi bagaimana Anda bisa menggunakan MLflow di notebook.

## Sebelum Anda memulai

Anda akan memerlukan versi terbaru paket **azureml-ai-ml** untuk menjalankan kode di notebook ini. Jalankan sel di bawah ini untuk memverifikasi bahwa sel diinstal.

> **Catatan:**
> Jika paket **azure-ai-ml** tidak diinstal, jalankan `pip install azure-ai-ml` untuk menginstalnya.

In [None]:
## Menyambungkan ke ruang kerja Anda

Dengan paket SDK yang diperlukan terinstal, sekarang Anda siap untuk terhubung ke ruang kerja Anda.

Untuk menyambungkan ke ruang kerja, kita memerlukan parameter pengidentifikasi - ID langganan, nama grup sumber daya, dan nama ruang kerja. Nama grup sumber daya dan nama ruang kerja sudah diisi untuk Anda. Anda hanya memerlukan ID langganan untuk menyelesaikan perintah.

Untuk menemukan parameter yang diperlukan, klik nama langganan dan ruang kerja di kanan atas Studio. Panel akan terbuka di sebelah kanan.

<p style="color:red;font-size:120%;background-color:yellow;font-weight:bold"> Salin ID langganan dan ganti **YOUR-SUBSCRIPTION-ID** dengan nilai yang Anda salin. </p>

## Mengonfigurasi MLflow

Saat Anda menjalankan notebook ini pada instans komputasi di studio Azure Machine Learning, Anda tidak perlu mengonfigurasi MLflow. 

Namun, ada baiknya untuk memverifikasi bahwa pustaka yang diperlukan memang diinstal:

In [None]:
## Menyiapkan data

Anda akan melatih model klasifikasi diabetes. Data pelatihan disimpan di folder **data** sebagai **diabetes.csv**. 

Pertama, mari kita baca datanya:

In [None]:
Selanjutnya, Anda akan membagi data menjadi fitur dan label (Diabetes):

Anda sekarang memiliki empat kerangka data:

- `X_train`: Himpunan data pelatihan yang berisi fitur.
- `X_test`: Himpunan data pengujian yang berisi fitur.
- `y_train`: Label untuk himpunan data pelatihan.
- `y_test`: Label untuk himpunan data pengujian.

Anda akan menggunakannya untuk melatih dan mengevaluasi model yang akan Anda latih.

## Membuat eksperimen MLflow

Sekarang setelah Anda siap untuk melatih model pembelajaran mesin, Anda akan terlebih dahulu membuat eksperimen MLflow. Dengan membuat eksperimen, Anda dapat mengelompokkan semua eksekusi dalam satu eksperimen dan mempermudah menemukan eksekusi di studio.

In [None]:
## Melatih dan melacak model

Untuk melacak model yang Anda latih, Anda dapat menggunakan MLflow dan mengaktifkan pembuatan log otomatis. Sel berikut akan melatih model klasifikasi menggunakan regresi logistik. Anda akan melihat bahwa Anda tidak perlu menghitung metrik evaluasi apa pun karena metrik tersebut secara otomatis dibuat dan dicatat oleh MLflow.

In [None]:
Anda juga dapat menggunakan pengelogan kustom dengan MLflow. Anda dapat menambahkan pengelogan kustom ke pembuatan log otomatis, atau Anda hanya dapat menggunakan pengelogan kustom.

Mari kita latih dua model lagi dengan scikit-learn. Karena Anda menjalankan `mlflow.sklearn.autolog()` perintah sebelumnya, MLflow sekarang akan secara otomatis mencatat model apa pun yang dilatih dengan scikit-learn. Untuk menonaktifkan pembuatan log otomatis, jalankan sel berikut:

Sekarang, Anda dapat melatih dan melacak model hanya menggunakan pengelogan kustom. 

Saat menjalankan sel berikut, Anda hanya akan mencatat satu parameter dan satu metrik.

In [None]:
Alasan mengapa Anda ingin melacak model, bisa untuk membandingkan hasil model yang Anda latih dengan nilai hyperparameter yang berbeda. 

Misalnya, Anda baru saja melatih model regresi logistik dengan tingkat regularisasi 0,1. Sekarang, latih model lain, tetapi kali ini dengan tingkat regularisasi 0,01. Karena Anda juga melacak akurasi, Anda dapat membandingkan dan memutuskan tingkat mana yang menghasilkan model berkinerja lebih baik.

Alasan lain untuk melacak hasil model Anda adalah ketika Anda menguji estimator lain. Semua model yang telah Anda latih sejauh ini menggunakan estimator regresi logistik. 

Jalankan sel berikut untuk melatih model dengan estimator pengklasifikasi pohon keputusan dan tinjau apakah akurasinya lebih tinggi dibandingkan dengan eksekusi lainnya.

In [None]:
Terakhir, mari kita coba mencatat artefak. Artefak dapat berupa file apa pun. Misalnya, Anda dapat memplot kurva ROC dan menyimpan plot sebagai gambar. Gambar dapat dicatat sebagai artefak. 

Jalankan sel berikut untuk mencatat parameter, metrik, dan artefak.

In [None]:
Tinjau hasil model di halaman Pekerjaan studio Azure Machine Learning. 

- Anda akan menemukan parameter di bawah **Param di** tab **Gambaran Umum** .
- Anda akan menemukan metrik di bawah **Metrik** di tab **Gambaran Umum** , dan di tab **Metrik** .
- Anda akan menemukan artefak di tab **Output + log** .

![Cuplikan layar tab output dan log di halaman Pekerjaan.](./images/output-logs.png)

You now have four dataframes:

- `X_train`: The training dataset containing the features.
- `X_test`: The test dataset containing the features.
- `y_train`: The label for the training dataset.
- `y_test`: The label for the test dataset.

You'll use these to train and evaluate the models you'll train.

## Create an MLflow experiment

Now that you're ready to train machine learning models, you'll first create an MLflow experiment. By creating the experiment, you can group all runs within one experiment and make it easier to find the runs in the studio.

In [None]:
import mlflow
experiment_name = "mlflow-experiment-diabetes"
mlflow.set_experiment(experiment_name)

## Train and track models

To track a model you train, you can use MLflow and enable autologging. The following cell will train a classification model using logistic regression. You'll notice that you don't need to calculate any evaluation metrics because they're automatically created and logged by MLflow.

In [None]:
from sklearn.linear_model import LogisticRegression

with mlflow.start_run():
    mlflow.sklearn.autolog()

    model = LogisticRegression(C=1/0.1, solver="liblinear").fit(X_train, y_train)


You can also use custom logging with MLflow. You can add custom logging to autologging, or you can use only custom logging.

Let's train two more models with scikit-learn. Since you ran the `mlflow.sklearn.autolog()` command before, MLflow will now automatically log any model trained with scikit-learn. To disable the autologging, run the following cell:

In [None]:
mlflow.sklearn.autolog(disable=True)

Now, you can train and track models using only custom logging. 

When you run the following cell, you'll only log one parameter and one metric.

In [None]:
from sklearn.linear_model import LogisticRegression
import numpy as np

with mlflow.start_run():
    model = LogisticRegression(C=1/0.1, solver="liblinear").fit(X_train, y_train)

    y_hat = model.predict(X_test)
    acc = np.average(y_hat == y_test)

    mlflow.log_param("regularization_rate", 0.1)
    mlflow.log_metric("Accuracy", acc)

The reason why you'd want to track models, could be to compare the results of models you train with different hyperparameter values. 

For example, you just trained a logistic regression model with a regularization rate of 0.1. Now, train another model, but this time with a regularization rate of 0.01. Since you're also tracking the accuracy, you can compare and decide which rate results in a better performing model.

In [None]:
from sklearn.linear_model import LogisticRegression
import numpy as np

with mlflow.start_run():
    model = LogisticRegression(C=1/0.01, solver="liblinear").fit(X_train, y_train)

    y_hat = model.predict(X_test)
    acc = np.average(y_hat == y_test)

    mlflow.log_param("regularization_rate", 0.01)
    mlflow.log_metric("Accuracy", acc)

Another reason to track your model's results is when you're testing another estimator. All models you've trained so far used the logistic regression estimator. 

Run the following cell to train a model with the decision tree classifier estimator and review whether the accuracy is higher compared to the other runs.

In [None]:
from sklearn.tree import DecisionTreeClassifier
import numpy as np

with mlflow.start_run():
    model = DecisionTreeClassifier().fit(X_train, y_train)

    y_hat = model.predict(X_test)
    acc = np.average(y_hat == y_test)

    mlflow.log_param("estimator", "DecisionTreeClassifier")
    mlflow.log_metric("Accuracy", acc)

Finally, let's try to log an artifact. An artifact can be any file. For example, you can plot the ROC curve and store the plot as an image. The image can be logged as an artifact. 

Run the following cell to log a parameter, metric, and an artifact.

In [None]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import roc_curve
import matplotlib.pyplot as plt
import numpy as np

with mlflow.start_run():
    model = DecisionTreeClassifier().fit(X_train, y_train)

    y_hat = model.predict(X_test)
    acc = np.average(y_hat == y_test)

    # plot ROC curve
    y_scores = model.predict_proba(X_test)

    fpr, tpr, thresholds = roc_curve(y_test, y_scores[:,1])
    fig = plt.figure(figsize=(6, 4))
    # Plot the diagonal 50% line
    plt.plot([0, 1], [0, 1], 'k--')
    # Plot the FPR and TPR achieved by our model
    plt.plot(fpr, tpr)
    plt.xlabel('False Positive Rate')
    plt.ylabel('True Positive Rate')
    plt.title('ROC Curve')
    plt.savefig("ROC-Curve.png")

    mlflow.log_param("estimator", "DecisionTreeClassifier")
    mlflow.log_metric("Accuracy", acc)
    mlflow.log_artifact("ROC-Curve.png")

Review the model's results on the Jobs page of the Azure Machine Learning studio. 

- You'll find the parameters under **Params** in the **Overview** tab.
- You'll find the metrics under **Metrics** in the **Overview** tab, and in the **Metrics** tab.
- You'll find the artifacts in the **Outputs + logs** tab.

![Screenshot of outputs and logs tab on the Jobs page.](./images/output-logs.png)