# 使用 MLflow 記錄模型

您可以在 Azure Machine Learning 中使用 MLflow 來記錄模型。 當您將模型記錄為模型而非成品時，會在輸出目錄中建立 MLmodel。 MLmodel 檔案包含所有模型的中繼資料。 您可以在記錄模型時自訂模型的簽章。

## 開始之前

您將需要最新版的 **azureml-ai-ml** 套件，才能在此筆記本中執行程式碼。 執行下列資料格，以確認其已安裝。

> **注意**：
> 如果未安裝 **azure-ai-ml** 套件，請執行 `pip install azure-ai-ml` 加以安裝。

In [None]:
## 連線到您的工作區

安裝必要的 SDK 套件之後，您現在可以連線到您的工作區。

若要連線到工作區，我們需要識別碼參數 - 訂用帳戶識別碼、資源組名和工作區名稱。 資源組名和工作區名稱已為您填入。 您只需要訂用帳戶識別碼才能完成命令。

若要尋找必要的參數，請按一下 Studio 右上方的訂用帳戶和工作區名稱。 窗格會在右側開啟。

<p style="color:red;font-size:120%;background-color:yellow;font-weight:bold"> 複製訂用帳戶識別碼，並將 **YOUR-SUBSCRIPTION-ID** 取代為您複製的值。 </p>

## 使用 MLflow 自動記錄

當您使用自動記錄時，會自動記錄您的模型。 推斷模型類別和架構。 

執行下列儲存格，以在**src**資料夾中建立**train-model-autolog.py**腳本。 腳本會使用 ** 相同資料夾中的diabetes.csv** 檔案來定型分類模型，該檔案會當做引數傳遞。 

In [None]:
現在，您可以將腳本提交為命令作業。

執行下列儲存格來定型模型。 

In [None]:
在 Studio 中，流覽至 **diabetes-train-autolog** 作業，以探索您所執行命令作業的概觀。 在 [ **輸出 + 記錄** ] 索引標籤中尋找記錄的成品。 `model` 選取資料夾以尋找 `MLmodel` 檔案並探索其內容。

## 使用自動記錄指定類別

您可以使用自動記錄，但仍指定模型的類別。 在此範例中，模型的類別是 scikit-learn。

執行下列儲存格，以在**src**資料夾中建立**train-model-sklearn.py**腳本。 腳本會使用 ** 相同資料夾中的diabetes.csv** 檔案來定型分類模型，該檔案會當做引數傳遞。 

In [None]:
現在，您可以將腳本提交為命令作業。

執行下列儲存格來定型模型。 

In [None]:
在 Studio 中，流覽至 **diabetes-train-sklearn** 作業，以探索您所執行命令作業的概觀。 在 [ **輸出 + 記錄** ] 索引標籤中尋找記錄的成品。 `model` 選取資料夾以尋找 `MLmodel` 檔案並探索其內容。

`MLmodel`比較前兩次執行的檔案。 您會發現它們相同，表示 MLflow 的自動記錄功能已正確推斷模型的類別。

## 使用推斷的簽章自訂模型

您可以使用自動記錄時手動記錄模型。 使用 'log_models=False'，自動記錄不會記錄模型。 您將透過從訓練資料集推斷簽章和預測結果來建立簽章。 最後，您將記錄 scikit-learn 模型。

執行下列儲存格，以在**src**資料夾中建立**train-model-infer.py**腳本。 腳本會使用 ** 相同資料夾中的diabetes.csv** 檔案來定型分類模型，該檔案會當做引數傳遞。 

In [None]:
現在，您可以將腳本提交為命令作業。

執行下列儲存格來定型模型。 

在 Studio 中，流覽至 **糖尿病-train-infer** 作業，以探索您所執行命令作業的概觀。 在 [ **輸出 + 記錄** ] 索引標籤中尋找記錄的成品。 `model` 選取資料夾以尋找 `MLmodel` 檔案並探索其內容。

比較檔案 `MLmodel` 與前兩個執行。 您會發現它們全都相同，表示 MLflow 的自動記錄功能也會正確地推斷模型的簽章。

## 使用已定義的簽章自訂模型

您可以使用自動記錄時手動記錄模型。 使用 'log_models=False'，自動記錄不會記錄模型。 您將透過從訓練資料集推斷簽章和預測結果來建立簽章。 最後，您將記錄 scikit-learn 模型。

執行下列儲存格，以在**src**資料夾中建立**train-model-infer.py**腳本。 腳本會使用 ** 相同資料夾中的diabetes.csv** 檔案來定型分類模型，該檔案會當做引數傳遞。 

In [None]:
現在，您可以將腳本提交為命令作業。

執行下列儲存格來定型模型。 

在 Studio 中，流覽至 **diabetes-train-signature** 作業，以探索您所執行命令作業的概觀。 在 [ **輸出 + 記錄** ] 索引標籤中尋找記錄的成品。 `model` 選取資料夾以尋找 `MLmodel` 檔案並探索其內容。

比較檔案 `MLmodel` 與先前的執行。 您會發現簽章與先前的執行不同。 先前的執行使用以 tensor 為基礎的簽章，而最新的執行則使用資料行型簽章。

In [None]:
## 註冊模型

當您選擇要部署的模型時，您可以先註冊模型。 

若要註冊最新的模型，您將參考作業執行的名稱。 藉由將模型註冊為 MLflow 模型，您稍後可以輕鬆地部署模型。

在 Studio 中，流覽至 [ **模型]** 頁面。 在模型清單中，尋找 `mlflow-diabetes` 模型並加以選取以進一步探索。

- 在模型的 [ **詳細資料** `mlflow-diabetes` ] 索引標籤中，您可以檢閱它是 `MLFLOW` 類型模型，以及定型模型的作業。
- 在 [ **成品] 索引** 標籤中，您可以使用 檔案找到目錄 `MLmodel` 。

如果您想要進一步探索模型的行為 **，您可以選擇將** 模型部署至即時端點。

## Customize the model with an inferred signature

You can manually log the model when using autologging. By using 'log_models=False', autologging will not log the model. You'll create a signature by inferring it from the training dataset and predicted results. And finally, you'll log the scikit-learn model.

Run the following cell to create the **train-model-infer.py** script in the **src** folder. The script trains a classification model by using the **diabetes.csv** file in the same folder, which is passed as an argument. 

In [None]:
%%writefile $script_folder/train-model-infer.py
# import libraries
import mlflow
import argparse
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_auc_score
from sklearn.metrics import roc_curve
import matplotlib.pyplot as plt
import mlflow.sklearn
from mlflow.models.signature import infer_signature

def main(args):
    # enable autologging
    mlflow.autolog(log_models=False)

    # read data
    df = get_data(args.training_data)

    # split data
    X_train, X_test, y_train, y_test = split_data(df)

    # train model
    model = train_model(args.reg_rate, X_train, X_test, y_train, y_test)

    # evaluate model
    y_hat = eval_model(model, X_test, y_test)

    # create the signature by inferring it from the datasets
    signature = infer_signature(X_train, y_hat)

    # manually log the model
    mlflow.sklearn.log_model(model, "model", signature=signature)

# function that reads the data
def get_data(path):
    print("Reading data...")
    df = pd.read_csv(path)
    
    return df

# function that splits the data
def split_data(df):
    print("Splitting data...")
    X, y = df[['Pregnancies','PlasmaGlucose','DiastolicBloodPressure','TricepsThickness',
    'SerumInsulin','BMI','DiabetesPedigree','Age']].values, df['Diabetic'].values

    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=0)

    return X_train, X_test, y_train, y_test

# function that trains the model
def train_model(reg_rate, X_train, X_test, y_train, y_test):
    mlflow.log_param("Regularization rate", reg_rate)
    print("Training model...")
    model = LogisticRegression(C=1/reg_rate, solver="liblinear").fit(X_train, y_train)

    return model

# function that evaluates the model
def eval_model(model, X_test, y_test):
    # calculate accuracy
    y_hat = model.predict(X_test)
    acc = np.average(y_hat == y_test)
    print('Accuracy:', acc)
 
    return y_hat

def parse_args():
    # setup arg parser
    parser = argparse.ArgumentParser()

    # add arguments
    parser.add_argument("--training_data", dest='training_data',
                        type=str)
    parser.add_argument("--reg_rate", dest='reg_rate',
                        type=float, default=0.01)

    # parse args
    args = parser.parse_args()

    # return args
    return args

# run script
if __name__ == "__main__":
    # add space in logs
    print("\n\n")
    print("*" * 60)

    # parse args
    args = parse_args()

    # run main function
    main(args)

    # add space in logs
    print("*" * 60)
    print("\n\n")

Now, you can submit the script as a command job.

Run the cell below to train the model. 

In [None]:
from azure.ai.ml import command

# configure job

job = command(
    code="./src",
    command="python train-model-infer.py --training_data diabetes.csv",
    environment="AzureML-sklearn-0.24-ubuntu18.04-py37-cpu@latest",
    compute="aml-cluster",
    display_name="diabetes-train-infer",
    experiment_name="diabetes-training"
    )

# submit job
returned_job = ml_client.create_or_update(job)
aml_url = returned_job.studio_url
print("Monitor your job at", aml_url)

In the Studio, navigate to the **diabetes-train-infer** job to explore the overview of the command job you ran. Find the logged artifacts in the **Outputs + logs** tab. Select the `model` folder to find the `MLmodel` file and explore its contents.

Compare the `MLmodel` files with the previous two runs. You'll notice that they're all the same, indicating that MLflow's autolog feature correctly inferred the model's signature too.

## Customize the model with a defined signature

You can manually log the model when using autologging. By using 'log_models=False', autologging will not log the model. You'll create a signature by inferring it from the training dataset and predicted results. And finally, you'll log the scikit-learn model.

Run the following cell to create the **train-model-infer.py** script in the **src** folder. The script trains a classification model by using the **diabetes.csv** file in the same folder, which is passed as an argument. 

In [None]:
%%writefile $script_folder/train-model-signature.py
# import libraries
import mlflow
import argparse
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_auc_score
from sklearn.metrics import roc_curve
import matplotlib.pyplot as plt
import mlflow.sklearn
from mlflow.models.signature import ModelSignature
from mlflow.types.schema import Schema, ColSpec

def main(args):
    # enable autologging
    mlflow.autolog(log_models=False)

    # read data
    df = get_data(args.training_data)

    # split data
    X_train, X_test, y_train, y_test = split_data(df)

    # train model
    model = train_model(args.reg_rate, X_train, X_test, y_train, y_test)

    # evaluate model
    y_hat = eval_model(model, X_test, y_test)

    # create the signature manually
    input_schema = Schema([
    ColSpec("integer", "Pregnancies"),
    ColSpec("integer", "PlasmaGlucose"),
    ColSpec("integer", "DiastolicBloodPressure"),
    ColSpec("integer", "TricepsThickness"),
    ColSpec("integer", "DiastolicBloodPressure"),
    ColSpec("integer", "SerumInsulin"),
    ColSpec("double", "BMI"),
    ColSpec("double", "DiabetesPedigree"),
    ColSpec("integer", "Age"),
    ])

    output_schema = Schema([ColSpec("boolean")])

    # Create the signature object
    signature = ModelSignature(inputs=input_schema, outputs=output_schema)

    # manually log the model
    mlflow.sklearn.log_model(model, "model", signature=signature)

# function that reads the data
def get_data(path):
    print("Reading data...")
    df = pd.read_csv(path)
    
    return df

# function that splits the data
def split_data(df):
    print("Splitting data...")
    X, y = df[['Pregnancies','PlasmaGlucose','DiastolicBloodPressure','TricepsThickness',
    'SerumInsulin','BMI','DiabetesPedigree','Age']].values, df['Diabetic'].values

    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=0)

    return X_train, X_test, y_train, y_test

# function that trains the model
def train_model(reg_rate, X_train, X_test, y_train, y_test):
    mlflow.log_param("Regularization rate", reg_rate)
    print("Training model...")
    model = LogisticRegression(C=1/reg_rate, solver="liblinear").fit(X_train, y_train)

    return model

# function that evaluates the model
def eval_model(model, X_test, y_test):
    # calculate accuracy
    y_hat = model.predict(X_test)
    acc = np.average(y_hat == y_test)
    print('Accuracy:', acc)
 
    return y_hat

def parse_args():
    # setup arg parser
    parser = argparse.ArgumentParser()

    # add arguments
    parser.add_argument("--training_data", dest='training_data',
                        type=str)
    parser.add_argument("--reg_rate", dest='reg_rate',
                        type=float, default=0.01)

    # parse args
    args = parser.parse_args()

    # return args
    return args

# run script
if __name__ == "__main__":
    # add space in logs
    print("\n\n")
    print("*" * 60)

    # parse args
    args = parse_args()

    # run main function
    main(args)

    # add space in logs
    print("*" * 60)
    print("\n\n")

Now, you can submit the script as a command job.

Run the cell below to train the model. 

In [None]:
from azure.ai.ml import command

# configure job

job = command(
    code="./src",
    command="python train-model-signature.py --training_data diabetes.csv",
    environment="AzureML-sklearn-0.24-ubuntu18.04-py37-cpu@latest",
    compute="aml-cluster",
    display_name="diabetes-train-signature",
    experiment_name="diabetes-training"
    )

# submit job
returned_job = ml_client.create_or_update(job)
aml_url = returned_job.studio_url
print("Monitor your job at", aml_url)

In the Studio, navigate to the **diabetes-train-signature** job to explore the overview of the command job you ran. Find the logged artifacts in the **Outputs + logs** tab. Select the `model` folder to find the `MLmodel` file and explore its contents.

Compare the `MLmodel` files with the previous runs. You'll notice that the signature is different from the previous runs. Previous runs used tensor-based signatures, whereas the latest run used a column-based signature.

## Register the model

When you choose a model you want to deploy, you can first register the model. 

To register the latest model, you'll refer to the name of the job run. By registering the model as an MLflow model, you can easily deploy it later.

In [None]:
from azure.ai.ml.entities import Model
from azure.ai.ml.constants import AssetTypes

job_name = returned_job.name

run_model = Model(
    path=f"azureml://jobs/{job_name}/outputs/artifacts/paths/model/",
    name="mlflow-diabetes",
    description="Model created from run.",
    type=AssetTypes.MLFLOW_MODEL,
)
# Uncomment after adding required details above
ml_client.models.create_or_update(run_model)

In the Studio, navigate to the **Models** page. In the model list, find the `mlflow-diabetes` model and select it to explore it further.

- In the **Details** tab of the `mlflow-diabetes` model, you can review that it's a `MLFLOW` type model and the job that trained the model.
- In the **Artifacts** tab you can find the directory with the `MLmodel` file.

If you want to explore the model's behavior further, you can **optionally** choose to deploy the model to a real-time endpoint.