# MLflow を使用してノートブックでモデル トレーニングを追跡する

ノートブックで MLflow を使用して、トレーニングするすべてのモデルを追跡できます。 Azure Machine Learning コンピューティング インスタンスでこのノートブックを実行するので、MLflow を設定する必要はありません。既にインストールされ、統合されています。 

いくつかのデータを準備し、糖尿病を予測するモデルをトレーニングします。 自動ログ記録とカスタム ログを使用して、ノートブックで MLflow を使用する方法を確認します。

## 開始する前に

このノートブックでコードを実行するには、**azureml-ai-ml** パッケージの最新バージョンが必要です。 次のセルを実行して、パッケージがインストールされていることを確認します。

> **注**:
> **azure-ai-ml** パッケージがインストールされていない場合は、`pip install azure-ai-ml` を実行してインストールします。

In [None]:
## ワークスペースに接続する

必要な SDK パッケージがインストールされているため、ワークスペースに接続できます。

ワークスペースに接続するには、識別子パラメーター (サブスクリプション ID、リソース グループ名、ワークスペース名) が必要です。 リソース グループ名とワークスペース名は既に入力されています。 コマンドを完了するには、サブスクリプション ID のみが必要です。

必要なパラメーターを見つけるには、Studio の右上にあるサブスクリプションとワークスペース名をクリックします。 右側にペインが開きます。

<p style="color:red;font-size:120%;background-color:yellow;font-weight:bold"> サブスクリプション ID をコピーし、**YOUR-SUBSCRIPTION-ID** をコピーした値に置き換えます。 </p>

## MLflow を構成する

Azure Machine Learning スタジオのコンピューティング インスタンスでこのノートブックを実行しているので、MLflow を構成する必要はありません。 

それでも、必要なライブラリが実際にインストールされていることを確認することをお勧めします。

In [None]:
## データを準備する

糖尿病分類モデルをトレーニングします。 トレーニング データは、**diabetes.csv** として **data** フォルダーに格納されます。 

まず、データを読み取りましょう。

In [None]:
次に、データを特徴とラベル (糖尿病) に分割します。

これで、次の 4 つのデータフレームが作成されました。

- `X_train`: 特徴を含むトレーニング データセット。
- `X_test`: 特徴を含むテスト データセット。
- `y_train`: トレーニング データセットのラベル。
- `y_test`: テスト データセットのラベル。

これらを使用して、トレーニングするモデルのトレーニングと評価を行います。

## MLflow 実験を作成する

機械学習モデルをトレーニングする準備ができたので、まず MLflow 実験を作成します。 実験を作成すると、1 つの実験内のすべての実行をグループ化し、スタジオで実行をより簡単に見つけることができます。

In [None]:
## モデルをトレーニングおよび追跡する

トレーニングするモデルを追跡するには、MLflow を使用して自動ログを有効にします。 次のセルは、ロジスティック回帰を使用して分類モデルをトレーニングします。 評価メトリックは MLflow によって自動的に作成され、ログに記録されるため、計算する必要はありません。

In [None]:
MLflow でカスタム ログを使用することもできます。 自動ログにカスタム ログを追加することも、カスタム ログのみを使用することもできます。

scikit-learn を使用して、さらに 2 つのモデルをトレーニングしてみましょう。 前に `mlflow.sklearn.autolog()` コマンドを実行したので、MLflow は scikit-learn でトレーニングされたすべてのモデルを自動的にログするようになりました。 自動ログを無効にするには、次のセルを実行します。

これで、カスタム ログのみを使用してモデルをトレーニングおよび追跡できるようになりました。 

次のセルを実行すると、1 つのパラメーターと 1 つのメトリックのみがログされます。

In [None]:
モデルを追跡する理由は、トレーニングするモデルの結果をさまざまなハイパーパラメーター値と比較するためです。 

たとえば、正則化率が 0.1 のロジスティック回帰モデルをトレーニングしたとします。 次に、別のモデルをトレーニングしますが、今回は正則化率が 0.01 です。 正確性も追跡しているため、パフォーマンスの高いモデルの結果を比較して決定できます。

モデルの結果を追跡するもう 1 つの理由は、別の推定器をテストする場合です。 これまでにトレーニングしたすべてのモデルでは、ロジスティック回帰推定器を使用しました。 

次のセルを実行して、デシジョン ツリー分類子推定器を使用してモデルをトレーニングし、他の実行と比較して正確性が高いかどうかを確認します。

In [None]:
最後に、成果物をログに記録してみましょう。 成果物には、任意のファイルを指定できます。 たとえば、ROC 曲線をプロットし、プロットをイメージとして保存できます。 イメージは成果物としてログに記録できます。 

次のセルを実行して、パラメーター、メトリック、成果物をログします。

In [None]:
Azure Machine Learning スタジオの [ジョブ] ページでモデルの結果を確認します。 

- パラメーターは、 **[概要]** タブの **[パラメーター]** の下にあります。
- メトリックは、 **[概要]** タブの **[メトリック]** と **[メトリック]** タブにあります。
- 成果物は、 **[出力 + ログ]** タブにあります。

![[ジョブ] ページの [出力 + ログ] タブのスクリーンショット。](./images/output-logs.png)

You now have four dataframes:

- `X_train`: The training dataset containing the features.
- `X_test`: The test dataset containing the features.
- `y_train`: The label for the training dataset.
- `y_test`: The label for the test dataset.

You'll use these to train and evaluate the models you'll train.

## Create an MLflow experiment

Now that you're ready to train machine learning models, you'll first create an MLflow experiment. By creating the experiment, you can group all runs within one experiment and make it easier to find the runs in the studio.

In [None]:
import mlflow
experiment_name = "mlflow-experiment-diabetes"
mlflow.set_experiment(experiment_name)

## Train and track models

To track a model you train, you can use MLflow and enable autologging. The following cell will train a classification model using logistic regression. You'll notice that you don't need to calculate any evaluation metrics because they're automatically created and logged by MLflow.

In [None]:
from sklearn.linear_model import LogisticRegression

with mlflow.start_run():
    mlflow.sklearn.autolog()

    model = LogisticRegression(C=1/0.1, solver="liblinear").fit(X_train, y_train)


You can also use custom logging with MLflow. You can add custom logging to autologging, or you can use only custom logging.

Let's train two more models with scikit-learn. Since you ran the `mlflow.sklearn.autolog()` command before, MLflow will now automatically log any model trained with scikit-learn. To disable the autologging, run the following cell:

In [None]:
mlflow.sklearn.autolog(disable=True)

Now, you can train and track models using only custom logging. 

When you run the following cell, you'll only log one parameter and one metric.

In [None]:
from sklearn.linear_model import LogisticRegression
import numpy as np

with mlflow.start_run():
    model = LogisticRegression(C=1/0.1, solver="liblinear").fit(X_train, y_train)

    y_hat = model.predict(X_test)
    acc = np.average(y_hat == y_test)

    mlflow.log_param("regularization_rate", 0.1)
    mlflow.log_metric("Accuracy", acc)

The reason why you'd want to track models, could be to compare the results of models you train with different hyperparameter values. 

For example, you just trained a logistic regression model with a regularization rate of 0.1. Now, train another model, but this time with a regularization rate of 0.01. Since you're also tracking the accuracy, you can compare and decide which rate results in a better performing model.

In [None]:
from sklearn.linear_model import LogisticRegression
import numpy as np

with mlflow.start_run():
    model = LogisticRegression(C=1/0.01, solver="liblinear").fit(X_train, y_train)

    y_hat = model.predict(X_test)
    acc = np.average(y_hat == y_test)

    mlflow.log_param("regularization_rate", 0.01)
    mlflow.log_metric("Accuracy", acc)

Another reason to track your model's results is when you're testing another estimator. All models you've trained so far used the logistic regression estimator. 

Run the following cell to train a model with the decision tree classifier estimator and review whether the accuracy is higher compared to the other runs.

In [None]:
from sklearn.tree import DecisionTreeClassifier
import numpy as np

with mlflow.start_run():
    model = DecisionTreeClassifier().fit(X_train, y_train)

    y_hat = model.predict(X_test)
    acc = np.average(y_hat == y_test)

    mlflow.log_param("estimator", "DecisionTreeClassifier")
    mlflow.log_metric("Accuracy", acc)

Finally, let's try to log an artifact. An artifact can be any file. For example, you can plot the ROC curve and store the plot as an image. The image can be logged as an artifact. 

Run the following cell to log a parameter, metric, and an artifact.

In [None]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import roc_curve
import matplotlib.pyplot as plt
import numpy as np

with mlflow.start_run():
    model = DecisionTreeClassifier().fit(X_train, y_train)

    y_hat = model.predict(X_test)
    acc = np.average(y_hat == y_test)

    # plot ROC curve
    y_scores = model.predict_proba(X_test)

    fpr, tpr, thresholds = roc_curve(y_test, y_scores[:,1])
    fig = plt.figure(figsize=(6, 4))
    # Plot the diagonal 50% line
    plt.plot([0, 1], [0, 1], 'k--')
    # Plot the FPR and TPR achieved by our model
    plt.plot(fpr, tpr)
    plt.xlabel('False Positive Rate')
    plt.ylabel('True Positive Rate')
    plt.title('ROC Curve')
    plt.savefig("ROC-Curve.png")

    mlflow.log_param("estimator", "DecisionTreeClassifier")
    mlflow.log_metric("Accuracy", acc)
    mlflow.log_artifact("ROC-Curve.png")

Review the model's results on the Jobs page of the Azure Machine Learning studio. 

- You'll find the parameters under **Params** in the **Overview** tab.
- You'll find the metrics under **Metrics** in the **Overview** tab, and in the **Metrics** tab.
- You'll find the artifacts in the **Outputs + logs** tab.

![Screenshot of outputs and logs tab on the Jobs page.](./images/output-logs.png)