# 使用 MLflow 追蹤筆記本中的模型定型

您可以在筆記本中使用 MLflow 來追蹤您定型的任何模型。 當您使用 Azure Machine Learning 計算實例執行此筆記本時，您不需要設定 MLflow：它已安裝並整合。 

您將準備一些資料，並定型模型以預測糖尿病。 您將使用自動記錄和自訂記錄來探索如何在筆記本中使用 MLflow。

## 開始之前

您將需要最新版的 **azureml-ai-ml** 套件，才能在此筆記本中執行程式碼。 執行下列資料格，以確認其已安裝。

> **注意**：
> 如果未安裝 **azure-ai-ml** 套件，請執行 `pip install azure-ai-ml` 加以安裝。

In [None]:
## 連線到您的工作區

安裝必要的 SDK 套件之後，您現在可以連線到您的工作區。

若要連線到工作區，我們需要識別碼參數 - 訂用帳戶識別碼、資源組名和工作區名稱。 資源組名和工作區名稱已為您填入。 您只需要訂用帳戶識別碼才能完成命令。

若要尋找必要的參數，請按一下 Studio 右上方的訂用帳戶和工作區名稱。 窗格會在右側開啟。

<p style="color:red;font-size:120%;background-color:yellow;font-weight:bold"> 複製訂用帳戶識別碼，並將 **YOUR-SUBSCRIPTION-ID** 取代為您複製的值。 </p>

## 設定 MLflow

當您在Azure Machine Learning 工作室中的計算實例上執行此筆記本時，您不需要設定 MLflow。 

不過，請務必確認確實已安裝必要的程式庫：

In [None]:
## 準備資料

您將訓練糖尿病分類模型。 定型資料會以**diabetes.csv**儲存在**資料**資料夾中。 

首先，讓我們讀取資料：

In [None]:
接下來，您將將資料分割成特徵，以及 (糖尿病) 標籤：

您現在有四個數據框架：

- `X_train`：包含功能的訓練資料集。
- `X_test`：包含特徵的測試資料集。
- `y_train`：訓練資料集的標籤。
- `y_test`：測試資料集的標籤。

您將使用這些方法來定型和評估您將定型的模型。

## 建立 MLflow 實驗

既然您已準備好定型機器學習模型，您必須先建立 MLflow 實驗。 藉由建立實驗，您可以將所有執行分組在一個實驗內，並更輕鬆地在 Studio 中尋找執行。

In [None]:
## 定型和追蹤模型

若要追蹤您定型的模型，您可以使用 MLflow 並啟用自動記錄。 下列資料格會使用羅吉斯回歸來定型分類模型。 您會發現，您不需要計算任何評估計量，因為它們會自動由 MLflow 建立和記錄。

In [None]:
您也可以搭配 MLflow 使用自訂記錄。 您可以將自訂記錄新增至自動記錄，或者只能使用自訂記錄。

讓我們使用 scikit-learn 來訓練兩個以上的模型。 由於您先前已執行 `mlflow.sklearn.autolog()` 命令，MLflow 現在會自動記錄使用 scikit-learn 定型的任何模型。 若要停用自動記錄，請執行下列儲存格：

現在，您只能使用自訂記錄來定型和追蹤模型。 

當您執行下列資料格時，您只會記錄一個參數和一個計量。

In [None]:
您想要追蹤模型的原因可能是比較您定型的模型結果與不同的超參數值。 

例如，您剛剛定型了具有 0.1 正規化速率的羅吉斯回歸模型。 現在，將另一個模型定型，但這次的正規化速率為 0.01。 由於您也會追蹤精確度，因此您可以比較並決定哪一個速率會產生較佳的執行模型。

追蹤模型結果的另一個原因是當您測試另一個估算器時。 到目前為止，您已定型的所有模型都會使用羅吉斯回歸估算器。 

執行下列資料格，使用決策樹分類器估算器來定型模型，並檢閱精確度是否比其他執行更高。

In [None]:
最後，讓我們嘗試記錄成品。 成品可以是任何檔案。 例如，您可以繪製 ROC 曲線，並將繪圖儲存為影像。 映射可以記錄為成品。 

執行下列資料格來記錄參數、計量和成品。

In [None]:
在Azure Machine Learning 工作室的 [作業] 頁面上檢閱模型的結果。 

- 您會在 [**概**觀] 索引標籤的 **[參數**] 底下找到參數。
- 您會在 [**概觀**] 索引標籤和 [計量] 索引標籤的 [**計量**] 底下找到**計量**。
- 您會在 [ **輸出 + 記錄** ] 索引標籤中找到成品。

![[作業] 頁面上輸出和記錄索引標籤的螢幕擷取畫面。](./images/output-logs.png)

You now have four dataframes:

- `X_train`: The training dataset containing the features.
- `X_test`: The test dataset containing the features.
- `y_train`: The label for the training dataset.
- `y_test`: The label for the test dataset.

You'll use these to train and evaluate the models you'll train.

## Create an MLflow experiment

Now that you're ready to train machine learning models, you'll first create an MLflow experiment. By creating the experiment, you can group all runs within one experiment and make it easier to find the runs in the studio.

In [None]:
import mlflow
experiment_name = "mlflow-experiment-diabetes"
mlflow.set_experiment(experiment_name)

## Train and track models

To track a model you train, you can use MLflow and enable autologging. The following cell will train a classification model using logistic regression. You'll notice that you don't need to calculate any evaluation metrics because they're automatically created and logged by MLflow.

In [None]:
from sklearn.linear_model import LogisticRegression

with mlflow.start_run():
    mlflow.sklearn.autolog()

    model = LogisticRegression(C=1/0.1, solver="liblinear").fit(X_train, y_train)


You can also use custom logging with MLflow. You can add custom logging to autologging, or you can use only custom logging.

Let's train two more models with scikit-learn. Since you ran the `mlflow.sklearn.autolog()` command before, MLflow will now automatically log any model trained with scikit-learn. To disable the autologging, run the following cell:

In [None]:
mlflow.sklearn.autolog(disable=True)

Now, you can train and track models using only custom logging. 

When you run the following cell, you'll only log one parameter and one metric.

In [None]:
from sklearn.linear_model import LogisticRegression
import numpy as np

with mlflow.start_run():
    model = LogisticRegression(C=1/0.1, solver="liblinear").fit(X_train, y_train)

    y_hat = model.predict(X_test)
    acc = np.average(y_hat == y_test)

    mlflow.log_param("regularization_rate", 0.1)
    mlflow.log_metric("Accuracy", acc)

The reason why you'd want to track models, could be to compare the results of models you train with different hyperparameter values. 

For example, you just trained a logistic regression model with a regularization rate of 0.1. Now, train another model, but this time with a regularization rate of 0.01. Since you're also tracking the accuracy, you can compare and decide which rate results in a better performing model.

In [None]:
from sklearn.linear_model import LogisticRegression
import numpy as np

with mlflow.start_run():
    model = LogisticRegression(C=1/0.01, solver="liblinear").fit(X_train, y_train)

    y_hat = model.predict(X_test)
    acc = np.average(y_hat == y_test)

    mlflow.log_param("regularization_rate", 0.01)
    mlflow.log_metric("Accuracy", acc)

Another reason to track your model's results is when you're testing another estimator. All models you've trained so far used the logistic regression estimator. 

Run the following cell to train a model with the decision tree classifier estimator and review whether the accuracy is higher compared to the other runs.

In [None]:
from sklearn.tree import DecisionTreeClassifier
import numpy as np

with mlflow.start_run():
    model = DecisionTreeClassifier().fit(X_train, y_train)

    y_hat = model.predict(X_test)
    acc = np.average(y_hat == y_test)

    mlflow.log_param("estimator", "DecisionTreeClassifier")
    mlflow.log_metric("Accuracy", acc)

Finally, let's try to log an artifact. An artifact can be any file. For example, you can plot the ROC curve and store the plot as an image. The image can be logged as an artifact. 

Run the following cell to log a parameter, metric, and an artifact.

In [None]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import roc_curve
import matplotlib.pyplot as plt
import numpy as np

with mlflow.start_run():
    model = DecisionTreeClassifier().fit(X_train, y_train)

    y_hat = model.predict(X_test)
    acc = np.average(y_hat == y_test)

    # plot ROC curve
    y_scores = model.predict_proba(X_test)

    fpr, tpr, thresholds = roc_curve(y_test, y_scores[:,1])
    fig = plt.figure(figsize=(6, 4))
    # Plot the diagonal 50% line
    plt.plot([0, 1], [0, 1], 'k--')
    # Plot the FPR and TPR achieved by our model
    plt.plot(fpr, tpr)
    plt.xlabel('False Positive Rate')
    plt.ylabel('True Positive Rate')
    plt.title('ROC Curve')
    plt.savefig("ROC-Curve.png")

    mlflow.log_param("estimator", "DecisionTreeClassifier")
    mlflow.log_metric("Accuracy", acc)
    mlflow.log_artifact("ROC-Curve.png")

Review the model's results on the Jobs page of the Azure Machine Learning studio. 

- You'll find the parameters under **Params** in the **Overview** tab.
- You'll find the metrics under **Metrics** in the **Overview** tab, and in the **Metrics** tab.
- You'll find the artifacts in the **Outputs + logs** tab.

![Screenshot of outputs and logs tab on the Jobs page.](./images/output-logs.png)