# MLflow を使用してモデルをログする

Azure Machine Learning で MLflow を使用してモデルをログに記録できます。 成果物ではなくモデルとしてモデルをログに記録すると、出力ディレクトリに MLmodel が作成されます。 MLmodel ファイルには、モデルのすべてのメタデータが含まれています。 モデルの署名は、モデルのログ記録時にカスタマイズできます。

## 開始する前に

このノートブックでコードを実行するには、**azureml-ai-ml** パッケージの最新バージョンが必要です。 次のセルを実行して、パッケージがインストールされていることを確認します。

> **注**:
> **azure-ai-ml** パッケージがインストールされていない場合は、`pip install azure-ai-ml` を実行してインストールします。

In [None]:
## ワークスペースに接続する

必要な SDK パッケージがインストールされているため、ワークスペースに接続できます。

ワークスペースに接続するには、識別子パラメーター (サブスクリプション ID、リソース グループ名、ワークスペース名) が必要です。 リソース グループ名とワークスペース名は既に入力されています。 コマンドを完了するには、サブスクリプション ID のみが必要です。

必要なパラメーターを見つけるには、Studio の右上にあるサブスクリプションとワークスペース名をクリックします。 右側にペインが開きます。

<p style="color:red;font-size:120%;background-color:yellow;font-weight:bold"> サブスクリプション ID をコピーし、**YOUR-SUBSCRIPTION-ID** をコピーした値に置き換えます。 </p>

## MLflow を使用した自動ログ記録

自動ログを使用すると、モデルが自動的にログに記録されます。 モデルのフレーバーとスキーマが推論されます。 

次のセルを実行して、**src** フォルダーに **train-model-autolog.py** スクリプトを作成します。 スクリプトにより、同じフォルダー内の **diabetes.csv** ファイルを使用して分類モデルがトレーニングされます。これは引数として渡されます。 

In [None]:
これで、スクリプトをコマンド ジョブとして送信できます。

次のセルを実行してモデルをトレーニングします。 

In [None]:
Studio で **diabetes-train-autolog** ジョブに移動し、実行したコマンド ジョブの概要を確認します。 **[出力とログ]** タブで、ログに記録された成果物を見つけます。`model` フォルダーを選択して `MLmodel` ファイルを見つけ、その内容を確認します。

## 自動ログを使用してフレーバーを指定する

自動ログを使用しながら、モデルのフレーバーを指定することができます。 この例では、モデルのフレーバーは scikit-learn です。

次のセルを実行して、**src** フォルダーに **train-model-sklearn.py** スクリプトを作成します。 スクリプトにより、同じフォルダー内の **diabetes.csv** ファイルを使用して分類モデルがトレーニングされます。これは引数として渡されます。 

In [None]:
これで、スクリプトをコマンド ジョブとして送信できます。

次のセルを実行してモデルをトレーニングします。 

In [None]:
Studio で **diabetes-train-sklearn** ジョブに移動し、実行したコマンド ジョブの概要を確認します。 **[出力とログ]** タブで、ログに記録された成果物を見つけます。`model` フォルダーを選択して `MLmodel` ファイルを見つけ、その内容を確認します。

前の 2 回の実行の `MLmodel` ファイルを比較します。 それらは同じであり、MLflow の自動ログ機能によってモデルのフレーバーが正しく推論されたことを示します。

## 推論による署名を使用してモデルをカスタマイズする

自動ログを使用するときに、モデルを手動でログに記録できます。 'log_models=False' を使用すると、自動ログによってモデルはログに記録されません。 トレーニング データセットと予測結果から推論することで、署名を作成します。 最後に、scikit-learn モデルをログに記録します。

次のセルを実行して、**src** フォルダーに **train-model-infer.py** スクリプトを作成します。 スクリプトにより、同じフォルダー内の **diabetes.csv** ファイルを使用して分類モデルがトレーニングされます。これは引数として渡されます。 

In [None]:
これで、スクリプトをコマンド ジョブとして送信できます。

次のセルを実行してモデルをトレーニングします。 

Studio で **diabetes-train-infer** ジョブに移動して、実行したコマンド ジョブの概要を確認します。 **[出力とログ]** タブで、ログに記録された成果物を見つけます。`model` フォルダーを選択して `MLmodel` ファイルを見つけ、その内容を確認します。

`MLmodel` ファイルを前の 2 つの実行と比較します。 それらはすべて同じであり、MLflow の自動ログ機能によってモデルの署名も正しく推論されたことを示します。

## 定義された署名を使用してモデルをカスタマイズする

自動ログを使用するときに、モデルを手動でログに記録できます。 'log_models=False' を使用すると、自動ログによってモデルはログに記録されません。 トレーニング データセットと予測結果から推論することで、署名を作成します。 最後に、scikit-learn モデルをログに記録します。

次のセルを実行して、**src** フォルダーに **train-model-infer.py** スクリプトを作成します。 スクリプトにより、同じフォルダー内の **diabetes.csv** ファイルを使用して分類モデルがトレーニングされます。これは引数として渡されます。 

In [None]:
これで、スクリプトをコマンド ジョブとして送信できます。

次のセルを実行してモデルをトレーニングします。 

Studio で **diabetes-train-signature** ジョブに移動し、実行したコマンド ジョブの概要を確認します。 **[出力とログ]** タブで、ログに記録された成果物を見つけます。`model` フォルダーを選択して `MLmodel` ファイルを見つけ、その内容を確認します。

`MLmodel` ファイルを前の実行と比較します。 署名が前の実行とは異なることがわかります。 前の実行ではテンソルベースの署名が使用されましたが、最新の実行では列ベースの署名が使用されました。

In [None]:
## モデルを登録する

デプロイするモデルを選択するときは、まずモデルを登録できます。 

最新のモデルを登録するには、ジョブ実行の名前を参照します。 モデルを MLflow モデルとして登録することで、後で簡単にデプロイできます。

Studio で、 **[モデル]** ページに移動します。 モデルの一覧で `mlflow-diabetes` モデルを見つけて選択し、さらに詳しく確認します。

- `mlflow-diabetes` モデルの **[詳細]** タブで、それが `MLFLOW` 型モデルであり、モデルをトレーニングしたジョブであることを確認できます。
- **[成果物]** タブで、`MLmodel` ファイルを含むディレクトリを見つけることができます。

モデルの動作をさらに詳しく確認する場合は、**必要に応じて**、モデルをリアルタイム エンドポイントにデプロイすることを選択できます。

## Customize the model with an inferred signature

You can manually log the model when using autologging. By using 'log_models=False', autologging will not log the model. You'll create a signature by inferring it from the training dataset and predicted results. And finally, you'll log the scikit-learn model.

Run the following cell to create the **train-model-infer.py** script in the **src** folder. The script trains a classification model by using the **diabetes.csv** file in the same folder, which is passed as an argument. 

In [None]:
%%writefile $script_folder/train-model-infer.py
# import libraries
import mlflow
import argparse
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_auc_score
from sklearn.metrics import roc_curve
import matplotlib.pyplot as plt
import mlflow.sklearn
from mlflow.models.signature import infer_signature

def main(args):
    # enable autologging
    mlflow.autolog(log_models=False)

    # read data
    df = get_data(args.training_data)

    # split data
    X_train, X_test, y_train, y_test = split_data(df)

    # train model
    model = train_model(args.reg_rate, X_train, X_test, y_train, y_test)

    # evaluate model
    y_hat = eval_model(model, X_test, y_test)

    # create the signature by inferring it from the datasets
    signature = infer_signature(X_train, y_hat)

    # manually log the model
    mlflow.sklearn.log_model(model, "model", signature=signature)

# function that reads the data
def get_data(path):
    print("Reading data...")
    df = pd.read_csv(path)
    
    return df

# function that splits the data
def split_data(df):
    print("Splitting data...")
    X, y = df[['Pregnancies','PlasmaGlucose','DiastolicBloodPressure','TricepsThickness',
    'SerumInsulin','BMI','DiabetesPedigree','Age']].values, df['Diabetic'].values

    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=0)

    return X_train, X_test, y_train, y_test

# function that trains the model
def train_model(reg_rate, X_train, X_test, y_train, y_test):
    mlflow.log_param("Regularization rate", reg_rate)
    print("Training model...")
    model = LogisticRegression(C=1/reg_rate, solver="liblinear").fit(X_train, y_train)

    return model

# function that evaluates the model
def eval_model(model, X_test, y_test):
    # calculate accuracy
    y_hat = model.predict(X_test)
    acc = np.average(y_hat == y_test)
    print('Accuracy:', acc)
 
    return y_hat

def parse_args():
    # setup arg parser
    parser = argparse.ArgumentParser()

    # add arguments
    parser.add_argument("--training_data", dest='training_data',
                        type=str)
    parser.add_argument("--reg_rate", dest='reg_rate',
                        type=float, default=0.01)

    # parse args
    args = parser.parse_args()

    # return args
    return args

# run script
if __name__ == "__main__":
    # add space in logs
    print("\n\n")
    print("*" * 60)

    # parse args
    args = parse_args()

    # run main function
    main(args)

    # add space in logs
    print("*" * 60)
    print("\n\n")

Now, you can submit the script as a command job.

Run the cell below to train the model. 

In [None]:
from azure.ai.ml import command

# configure job

job = command(
    code="./src",
    command="python train-model-infer.py --training_data diabetes.csv",
    environment="AzureML-sklearn-0.24-ubuntu18.04-py37-cpu@latest",
    compute="aml-cluster",
    display_name="diabetes-train-infer",
    experiment_name="diabetes-training"
    )

# submit job
returned_job = ml_client.create_or_update(job)
aml_url = returned_job.studio_url
print("Monitor your job at", aml_url)

In the Studio, navigate to the **diabetes-train-infer** job to explore the overview of the command job you ran. Find the logged artifacts in the **Outputs + logs** tab. Select the `model` folder to find the `MLmodel` file and explore its contents.

Compare the `MLmodel` files with the previous two runs. You'll notice that they're all the same, indicating that MLflow's autolog feature correctly inferred the model's signature too.

## Customize the model with a defined signature

You can manually log the model when using autologging. By using 'log_models=False', autologging will not log the model. You'll create a signature by inferring it from the training dataset and predicted results. And finally, you'll log the scikit-learn model.

Run the following cell to create the **train-model-infer.py** script in the **src** folder. The script trains a classification model by using the **diabetes.csv** file in the same folder, which is passed as an argument. 

In [None]:
%%writefile $script_folder/train-model-signature.py
# import libraries
import mlflow
import argparse
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_auc_score
from sklearn.metrics import roc_curve
import matplotlib.pyplot as plt
import mlflow.sklearn
from mlflow.models.signature import ModelSignature
from mlflow.types.schema import Schema, ColSpec

def main(args):
    # enable autologging
    mlflow.autolog(log_models=False)

    # read data
    df = get_data(args.training_data)

    # split data
    X_train, X_test, y_train, y_test = split_data(df)

    # train model
    model = train_model(args.reg_rate, X_train, X_test, y_train, y_test)

    # evaluate model
    y_hat = eval_model(model, X_test, y_test)

    # create the signature manually
    input_schema = Schema([
    ColSpec("integer", "Pregnancies"),
    ColSpec("integer", "PlasmaGlucose"),
    ColSpec("integer", "DiastolicBloodPressure"),
    ColSpec("integer", "TricepsThickness"),
    ColSpec("integer", "DiastolicBloodPressure"),
    ColSpec("integer", "SerumInsulin"),
    ColSpec("double", "BMI"),
    ColSpec("double", "DiabetesPedigree"),
    ColSpec("integer", "Age"),
    ])

    output_schema = Schema([ColSpec("boolean")])

    # Create the signature object
    signature = ModelSignature(inputs=input_schema, outputs=output_schema)

    # manually log the model
    mlflow.sklearn.log_model(model, "model", signature=signature)

# function that reads the data
def get_data(path):
    print("Reading data...")
    df = pd.read_csv(path)
    
    return df

# function that splits the data
def split_data(df):
    print("Splitting data...")
    X, y = df[['Pregnancies','PlasmaGlucose','DiastolicBloodPressure','TricepsThickness',
    'SerumInsulin','BMI','DiabetesPedigree','Age']].values, df['Diabetic'].values

    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=0)

    return X_train, X_test, y_train, y_test

# function that trains the model
def train_model(reg_rate, X_train, X_test, y_train, y_test):
    mlflow.log_param("Regularization rate", reg_rate)
    print("Training model...")
    model = LogisticRegression(C=1/reg_rate, solver="liblinear").fit(X_train, y_train)

    return model

# function that evaluates the model
def eval_model(model, X_test, y_test):
    # calculate accuracy
    y_hat = model.predict(X_test)
    acc = np.average(y_hat == y_test)
    print('Accuracy:', acc)
 
    return y_hat

def parse_args():
    # setup arg parser
    parser = argparse.ArgumentParser()

    # add arguments
    parser.add_argument("--training_data", dest='training_data',
                        type=str)
    parser.add_argument("--reg_rate", dest='reg_rate',
                        type=float, default=0.01)

    # parse args
    args = parser.parse_args()

    # return args
    return args

# run script
if __name__ == "__main__":
    # add space in logs
    print("\n\n")
    print("*" * 60)

    # parse args
    args = parse_args()

    # run main function
    main(args)

    # add space in logs
    print("*" * 60)
    print("\n\n")

Now, you can submit the script as a command job.

Run the cell below to train the model. 

In [None]:
from azure.ai.ml import command

# configure job

job = command(
    code="./src",
    command="python train-model-signature.py --training_data diabetes.csv",
    environment="AzureML-sklearn-0.24-ubuntu18.04-py37-cpu@latest",
    compute="aml-cluster",
    display_name="diabetes-train-signature",
    experiment_name="diabetes-training"
    )

# submit job
returned_job = ml_client.create_or_update(job)
aml_url = returned_job.studio_url
print("Monitor your job at", aml_url)

In the Studio, navigate to the **diabetes-train-signature** job to explore the overview of the command job you ran. Find the logged artifacts in the **Outputs + logs** tab. Select the `model` folder to find the `MLmodel` file and explore its contents.

Compare the `MLmodel` files with the previous runs. You'll notice that the signature is different from the previous runs. Previous runs used tensor-based signatures, whereas the latest run used a column-based signature.

## Register the model

When you choose a model you want to deploy, you can first register the model. 

To register the latest model, you'll refer to the name of the job run. By registering the model as an MLflow model, you can easily deploy it later.

In [None]:
from azure.ai.ml.entities import Model
from azure.ai.ml.constants import AssetTypes

job_name = returned_job.name

run_model = Model(
    path=f"azureml://jobs/{job_name}/outputs/artifacts/paths/model/",
    name="mlflow-diabetes",
    description="Model created from run.",
    type=AssetTypes.MLFLOW_MODEL,
)
# Uncomment after adding required details above
ml_client.models.create_or_update(run_model)

In the Studio, navigate to the **Models** page. In the model list, find the `mlflow-diabetes` model and select it to explore it further.

- In the **Details** tab of the `mlflow-diabetes` model, you can review that it's a `MLFLOW` type model and the job that trained the model.
- In the **Artifacts** tab you can find the directory with the `MLmodel` file.

If you want to explore the model's behavior further, you can **optionally** choose to deploy the model to a real-time endpoint.