# 実験を実行する

Azure Machine Learning SDK を使用して、メトリックを記録して出力を生成するコード実験を実行できます。これは、Azure Machine Learning におけるほとんどの機械学習操作の中核です。

## ワークスペースに接続する

まず、Azure ML SDK を使用してワークスペースに接続する必要があります。

> **注**: 前回の演習を完了してから Azure サブスクリプションとの認証済みセッションの有効期限が切れている場合は、再認証を求めるメッセージが表示されます。

In [None]:
import azureml.core
from azureml.core import Workspace

# 保存した構成ファイルからワークスペースを読み込む
ws = Workspace.from_config()
print('Ready to use Azure ML {} to work with {}'.format(azureml.core.VERSION, ws.name))

## 実験を実行する

データ サイエンティストが実行する必要のある最も基本的なタスクの 1 つは、データを処理して分析する実験を作成して実行することです。この演習では、Azure ML の*実験*を使用して、Python コードを実行し、データから抽出された値を記録する方法を学習します。この場合、糖尿病の検査を受けた患者の詳細を含む単純なデータセットを使用します。データを探索し、統計情報、視覚化、およびデータ サンプルを抽出する実験を実行します。使用するコードのほとんどは、データ探索プロセスで実行されるなど、かなり汎用的な Python です。ただし、数行を追加すると、コードは Azure ML *実験*を使用して実行の詳細を記録します。

In [None]:
from azureml.core import Experiment
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline 

# ワークスペースで Azure 実験を作成する
experiment = Experiment(workspace = ws, name = "diabetes-experiment")

# 実験からデータの記録を開始する
run = experiment.start_logging()
print("Starting experiment:", experiment.name)

# ローカル ファイルからデータを読み込む
data = pd.read_csv('data/diabetes.csv')

# 行をカウントし、結果を記録する
row_count = (len(data))
run.log('observations', row_count)
print('Analyzing {} rows of data'.format(row_count))

# 糖尿病患者対非糖尿病患者の数をプロットし、記録する
diabetic_counts = data['Diabetic'].value_counts()
fig = plt.figure(figsize=(6,6))
ax = fig.gca()    
diabetic_counts.plot.bar(ax = ax) 
ax.set_title('Patients with Diabetes') 
ax.set_xlabel('Diagnosis') 
ax.set_ylabel('Patients')
plt.show()
run.log_image(name = 'label distribution', plot = fig)

# 明確な妊娠数を記録する
pregnancies = data.Pregnancies.unique()
run.log_list('pregnancy categories', pregnancies)

# 数値列の概要の統計情報を記録する
med_columns = ['PlasmaGlucose', 'DiastolicBloodPressure', 'TricepsThickness', 'SerumInsulin', 'BMI']
summary_stats = data[med_columns].describe().to_dict()
for col in summary_stats:
    keys = list(summary_stats[col].keys())
    values = list(summary_stats[col].values())
    for index in range(len(keys)):
        run.log_row(col, stat = keys[index], value = values[index])
        
# データのサンプルを保存し、実験出力にアップロードする
data.sample(100).to_csv('sample.csv', index=False, header=True)
run.upload_file(name = 'outputs/sample.csv', path_or_stream = './sample.csv')

# 実行を完了する
run.complete()

## デプロイメント結果を表示する

実験が終了したら、**run** オブジェクトを使用して、実行とその出力に関する情報を取得できます。

In [None]:
import json

# 実行の詳細を取得する
details = run.get_details()
print(details)

# 指標の記録を取得する
metrics = run.get_metrics()
print(json.dumps(metrics, indent=2))

# 出力ファイルを取得する
files = run.get_file_names()
print(json.dumps(files, indent=2))

Jupyter Notebook では、**RunDetails** ウィジェットを使用して、実行の詳細をより適切に視覚化できます。

In [None]:
from azureml.widgets import RunDetails

RunDetails(run).show()

**RunDetails** ウィジェットには、Azure Machine Learning Studio での実行を表示するためのリンクが含まれていることに注意してください。これをクリックすると、実行の詳細を表示する新しいブラウザー タブが開きます ([Azure Machine Learning Studio](https://ml.azure.com) を開いて、**実験**ページで実行を検索することもできます)。Azure Machine Learning Studio での実行を表示する場合は、次の点に注意してください。

- **「詳細」** タブには、実験実行の一般的なプロパティが含まれています。
- **メトリック** タブでは、記録されたメトリックを選択し、表またはグラフとして表示できます。
- **イメージ** タブでは、実験で記録された画像やプロットを選択して表示できます (この場合は、*ラベル分布*プロット)
- **子の実行** タブには、子の実行が一覧表示されます (この実験では、何も表示されません)。
- **「出力 + ログ」** タブには、実験で生成された出力ファイルまたはログ ファイルが表示されます。
- **「スナップショット」** タブには、実験コードが実行されたフォルダー内のすべてのファイル (この場合は、このノートブックと同じフォルダー内のすべてファイル) が含まれます。
- **説明** タブは、実験によって生成されたモデルの説明を表示するために使用されます (この場合は、何も表示されません)。
- **「均等化」** タブは、機械学習モデルの公平性の評価に役立つ予測パフォーマンスの格差を視覚化するために使用されます (この場合は、ありません)。

## 実験スクリプトの実行

前の例では、この Notebook で実験をインラインで実行しました。より柔軟なソリューションとして、実験用の別のスクリプトを作成し、必要な他のファイルと共にフォルダーに格納し、Azure ML を使用してフォルダー内のスクリプトに基づいて実験を実行します。

まず、実験ファイルのフォルダーを作成し、データをコピーします。

In [None]:
import os, shutil

# 実験ファイル用フォルダーを作成する
folder_name = 'diabetes-experiment-files'
experiment_folder = './' + folder_name
os.makedirs(folder_name, exist_ok=True)

# データ ファイルを実験フォルダーにコピーする
shutil.copy('data/diabetes.csv', os.path.join(folder_name, "diabetes.csv"))

次に、実験用のコードを含む Python スクリプトを作成し、実験フォルダーに保存します。

> **注**: 次のセルを実行するとスクリプト ファイルが*作成されます*が、動作しません。

In [None]:
%%writefile $folder_name/diabetes_experiment.py
from azureml.core import Run
import pandas as pd
import os

# 実験実行コンテキストを取得する
run = Run.get_context()

# 糖尿病データセットを読み込む
data = pd.read_csv('diabetes.csv')

# 行をカウントし、結果を記録する
row_count = (len(data))
run.log('observations', row_count)
print('Analyzing {} rows of data'.format(row_count))

# ラベル数のカウントし記録する
diabetic_counts = data['Diabetic'].value_counts()
print(diabetic_counts)
for k, v in diabetic_counts.items():
    run.log('Label:' + str(k), v)
      
# 出力フォルダーにデータのサンプルを保存する (自動的にアップロードされます)
os.makedirs('outputs', exist_ok=True)
data.sample(100).to_csv("outputs/sample.csv", index=False, header=True)

# 実行を完了する
run.complete()

このコードは、以前に使用したインライン コードの簡略化されたバージョンです。ただし、次の点に注意してください。
- スクリプトの実行時に実験の実行コンテキストを取得するために、'Run.get_context()' メソッドを使用します。
- スクリプトが配置されているフォルダーから糖尿病データを読み込みます。
- **outputs** という名前のフォルダーを作成し、サンプルファイルをそれに書き込みます - このフォルダーは自動的に実験実行にアップロードされます

これで、実験を実行する準備がほぼ整いました。スクリプトを実行するには、実験で実行する Python スクリプト ファイルを識別する **ScriptRunConfig** を作成し、それに基づいて実験を実行する必要があります。

> **注**: ScriptRunConfig は、コンピューティング先と Python 環境も決定します。これらを指定しない場合、デフォルト環境は、コードが実行されているローカル コンピューティング (この場合、このノートブックが実行されている場所) に自動的に作成されます。

次のセルは、スクリプトベースの実験を構成して送信します。

In [None]:
import os
import sys
from azureml.core import Experiment, ScriptRunConfig
from azureml.widgets import RunDetails


# スクリプト構成を作成する
script_config = ScriptRunConfig(source_directory=experiment_folder, 
                      script='diabetes_experiment.py') 

# 実験を送信する
experiment = Experiment(workspace = ws, name = 'diabetes-experiment')
run = experiment.submit(config=script_config)
RunDetails(run).show()
run.wait_for_completion()

以前と同様に、ウィジェットまたは [Azure Machine Learning Studio](https://ml.azure.com) の実験へのリンクを使用して、実験によって生成された出力を表示したり、生成されたメトリックとファイルを取得するコードを記述したりできます。

In [None]:
# 指標の記録を取得する
metrics = run.get_metrics()
for key in metrics.keys():
        print(key, metrics.get(key))
print('\n')
for file in run.get_file_names():
    print(file)

## 実験実行履歴の表示

同じ実験を複数回実行したので、[Azure Machine Learning Studio](https://ml.azure.com) で履歴を表示し、記録された各実行を調べることができます。または、SDK を使用して、ワークスペースから名前で実験を取得し、実行を反復処理することもできます。

In [None]:
from azureml.core import Experiment, Run

diabetes_experiment = ws.experiments['diabetes-experiment']
for logged_run in diabetes_experiment.get_runs():
    print('Run ID:', logged_run.id)
    metrics = logged_run.get_metrics()
    for key in metrics.keys():
        print('-', key, metrics.get(key))

## MLflow を使用する

MLflow は、機械学習プロセスを管理するためのオープンソース プラットフォームです。これは、実験を調整し、メトリックを追跡するために、Databricks 環境で一般的に使用されます (ただし、排他的ではありません)。Azure Machine Learning の実験では、必要に応じて、ネイティブ ログ機能の代わりに MLflow を使用して指標を追跡できます。

### インライン実験で MLflow を使用する

MLflow を使用してインライン実験の指標を追跡するには、実験が実行されているワークスペースに MLflow *トラッキング URI* を設定する必要があります。これにより、**mlflow** トラッキング メソッドを使用して、実験の実行にデータを記録できます。

In [None]:
from azureml.core import Experiment
import pandas as pd
import mlflow

# ワークスペースに MLflow トラッキング URI を設定する
mlflow.set_tracking_uri(ws.get_mlflow_tracking_uri())

# ワークスペースで Azure 実験を作成する
experiment = Experiment(workspace=ws, name='diabetes-mlflow-experiment')
mlflow.set_experiment(experiment.name)

# MLflow 実験を開始する
with mlflow.start_run():
    
    print("Starting experiment:", experiment.name)
    
    # データを読み込む
    data = pd.read_csv('data/diabetes.csv')

    # 行をカウントし、結果を記録する
    row_count = (len(data))
    print('observations:', row_count)
    mlflow.log_metric('observations', row_count)
    
# Azure ML Studio で実験へのリンクを取得する        
experiment_url = experiment.get_portal_url()
print('See details at', experiment_url)

上記のコードを実行した後、表示されるリンクを使用して、Azure Machine Learning Studio で実験を表示できます。次に、実験の最新の実行を選択し、その 「**指標**」 タブを表示して、ログに記録された指標を確認します。

### 実験スクリプトで MLflow を使用する

MLflow を使用して、実験スクリプトの指標を追跡することもできます。

次の 2 つのセルを実行して、MLflow を使用する実験用のフォルダーとスクリプトを作成します。

In [None]:
import os, shutil

# 実験ファイル用フォルダーを作成する
folder_name = 'mlflow-experiment-files'
experiment_folder = './' + folder_name
os.makedirs(folder_name, exist_ok=True)

# データ ファイルを実験フォルダーにコピーする
shutil.copy('data/diabetes.csv', os.path.join(folder_name, "diabetes.csv"))

In [None]:
%%writefile $folder_name/mlflow_diabetes.py
from azureml.core import Run
import pandas as pd
import mlflow

# MLflow 実験を開始する
with mlflow.start_run():
       
    # データを読み込む
    data = pd.read_csv('diabetes.csv')

    # 行をカウントし、結果を記録する
    row_count = (len(data))
    print('observations:', row_count)
    mlflow.log_metric('observations', row_count)

Azure ML 実験スクリプトで MLflow トラッキングを使用する場合、実験の実行を開始すると、MLflow トラッキング URI が自動的に設定されます。ただし、スクリプトを実行する環境には、必要な **mlflow** パッケージが含まれている必要があります。

In [None]:
from azureml.core import Experiment, ScriptRunConfig, Environment
from azureml.core.conda_dependencies import CondaDependencies
from azureml.widgets import RunDetails


# 実験用 Python 環境を作成する
mlflow_env = Environment("mlflow-env")

# 必要なパッケージがインストールされていることを確認する
packages = CondaDependencies.create(pip_packages=['mlflow', 'azureml-mlflow'])
mlflow_env.python.conda_dependencies = packages

# スクリプト構成を作成する
script_mlflow = ScriptRunConfig(source_directory=experiment_folder,
                      script='mlflow_diabetes.py',
                      environment=mlflow_env) 

# 実験を送信する
experiment = Experiment(workspace = ws, name = 'diabetes-mlflow-experiment')
run = experiment.submit(config=script_mlflow)
RunDetails(run).show()
run.wait_for_completion()

いつものように、実験の実行が終了すると、ログに記録されたメトリックを取得できます。

In [None]:
# 指標の記録を取得する
metrics = run.get_metrics()
for key in metrics.keys():
        print(key, metrics.get(key))

> **詳細情報**: 実験の実行の詳細については、Azure ML のドキュメントの[このトピック](https://docs.microsoft.com/azure/machine-learning/how-to-manage-runs)を参照してください。実行でのメトリックの記録方法の詳細については、[このトピック](https://docs.microsoft.com/azure/machine-learning/how-to-track-experiments)を参照してください。Azure ML の実験と MLflow の統合の詳細については、[このトピック](https://docs.microsoft.com/en-us/azure/machine-learning/how-to-use-mlflow)を参照してください。