# 執行實驗

您可以使用 Azure Machine Learning SDK 來執行程式碼實驗，該實驗會記錄計量和產生輸出。這是在 Azure Machine Learning 中大多數機器學習作業的核心。

## 連線到您的工作區

在 Azure Machine Learning 工作區中管理所有實驗和相關的資源。在大多數案例中，您應將工作區設定儲存在 JSON 設定檔中。如此使得重新連接變得更簡單，而不需要記憶 Azure 訂用帳戶識別碼等詳細資料。您可以在 Azure 入口網站中，從工作區的刀鋒視窗中下載 JSON 設定檔，但如果您使用的是工作區中的計算執行個體，則系統已將設定檔下載至根資料夾。

以下程式碼使用設定檔，來連接至工作區。

> **附註**：如果您尚未使用 Azure 訂用帳戶建立已驗證的工作階段，系統會提示您透過按一下連結、輸入驗證碼並登入 Azure 來進行驗證。

In [None]:
import azureml.core
from azureml.core import Workspace

# Load the workspace from the saved config file
ws = Workspace.from_config()
print('Ready to use Azure ML {} to work with {}'.format(azureml.core.VERSION, ws.name))

## 執行實驗

資料科學家需要執行的其中一個基本工作就是建立並執行資料處理和分析的實驗。在此練習中，您將學習如何使用 Azure ML *實驗* 來執行 Python 程式碼並記錄從資料中擷取的值。在本案例中，您將使用簡單的資料集，其中包含測試是否有糖尿病的病患詳細資料。您將執行實驗，來探索資料、擷取統計資料、視覺效果和資料樣本。您將使用的大多數程式碼是相當一般的 Python，例如您在任何資料探索程序中可能執行的程式碼。然而，在新增幾行後，程式碼會使用 Azure ML *實驗*，來記錄執行的詳細資料。

In [None]:
from azureml.core import Experiment
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline 

# Create an Azure ML experiment in your workspace
experiment = Experiment(workspace=ws, name="mslearn-diabetes")

# Start logging data from the experiment, obtaining a reference to the experiment run
run = experiment.start_logging()
print("Starting experiment:", experiment.name)

# load the data from a local file
data = pd.read_csv('data/diabetes.csv')

# Count the rows and log the result
row_count = (len(data))
run.log('observations', row_count)
print('Analyzing {} rows of data'.format(row_count))

# Plot and log the count of diabetic vs non-diabetic patients
diabetic_counts = data['Diabetic'].value_counts()
fig = plt.figure(figsize=(6,6))
ax = fig.gca()    
diabetic_counts.plot.bar(ax = ax) 
ax.set_title('Patients with Diabetes') 
ax.set_xlabel('Diagnosis') 
ax.set_ylabel('Patients')
plt.show()
run.log_image(name='label distribution', plot=fig)

# log distinct pregnancy counts
pregnancies = data.Pregnancies.unique()
run.log_list('pregnancy categories', pregnancies)

# Log summary statistics for numeric columns
med_columns = ['PlasmaGlucose', 'DiastolicBloodPressure', 'TricepsThickness', 'SerumInsulin', 'BMI']
summary_stats = data[med_columns].describe().to_dict()
for col in summary_stats:
    keys = list(summary_stats[col].keys())
    values = list(summary_stats[col].values())
    for index in range(len(keys)):
        run.log_row(col, stat=keys[index], value = values[index])
        
# Save a sample of the data and upload it to the experiment output
data.sample(100).to_csv('sample.csv', index=False, header=True)
run.upload_file(name='outputs/sample.csv', path_or_stream='./sample.csv')

# Complete the run
run.complete()

## 檢視執行詳細資料

在 Jupyter Notebooks 中，您可以使用 **RunDetails** 小工具來查看執行詳細資料的視覺效果。

In [None]:
from azureml.widgets import RunDetails

RunDetails(run).show()

### 在 Azure Machine Learning 工作室中檢視更多詳細資料

請留意，**RunDetails** 小工具在 Azure Machine Learning 工作室中包含 **檢視執行詳細資料** 連結。按一下此項以開啟新的瀏覽器索引標籤，內含執行詳細資料 (您也可以只開啟 [Azure Machine Learning 工作室](https://ml.azure.com) 並在 **實驗** 頁面尋找執行)。在 Azure Machine Learning 工作室檢視執行時，請記下以下幾點：

- **詳細資料** 索引標籤包含實驗執行的一般屬性。
- **計量** 索引標籤可讓您選取記錄的計量，並以資料表或圖表的形式檢視這些計量。
- **影像** 索引標籤可讓您選取和檢視在實驗中記錄的任何影像和繪圖 (在此案例中，即為 *標籤分佈* 繪圖)
- **子執行** 索引標籤列出任何子執行 (在此實驗中沒有任何子執行)。
- **輸出 + 記錄** 索引標籤顯示實驗所產生的輸出或記錄檔。
- **快照集** 索引標籤包含實驗程式碼執行所在資料夾中的所有檔案 (在此案例中，所有項目都在與此筆記本相同的資料夾中)。
- **說明** 索引標籤用來顯示實驗產生的模型說明 (在此案例中，沒有任何說明)。
- **公平性** 索引標籤用來視覺化預測效能差異，可協助您評估機器學習模型的公平性 (在此案例中，沒有任何公平性)。

### 使用 SDK 擷取實驗詳細資料

您先前執行的程式碼中的 **執行** 變數是 **執行** 物件的執行個體，也就是 Azure Machine Learning 中個別實驗執行的參考。您可以使用此參考，來取得與執行和其輸出相關的資訊：

In [None]:
import json

# Get logged metrics
print("Metrics:")
metrics = run.get_metrics()
for metric_name in metrics:
    print(metric_name, ":", metrics[metric_name])

# Get output files
print("\nFiles:")
files = run.get_file_names()
for file in files:
    print(file)

您可以使用 **download_file** 方法個別下載實驗產生的檔案、或使用 **download_files** 方法擷取多個檔案。以下程式碼會將所有檔案下載至執行的 **輸出** 資料夾：

In [None]:
import os

download_folder = 'downloaded-files'

# Download files in the "outputs" folder
run.download_files(prefix='outputs', output_directory=download_folder)

# Verify the files have been downloaded
for root, directories, filenames in os.walk(download_folder): 
    for filename in filenames:  
        print (os.path.join(root,filename))

如果您需要針對實驗執行進行疑難排解，您可以使用 **get_details** 方法來擷取執行的相關基本詳細資料，或者您可以使用 **get_details_with_logs** 方法，來擷取執行詳細資料以及在執行期間產生的記錄檔內容：

In [None]:
run.get_details_with_logs()

請留意，詳細資料包含計算目標的資訊，說明實驗的執行所在、實驗的開始和結束日期和時間。此外，因為包含實驗程式碼 (這一個) 的筆記本是在複製的 Git 存放庫、關於存放庫、分支和狀態的詳細資料會記錄在執行歷程記錄中。

在此案例中，詳細資料中的 **logFiles** 輸入會指出未產生任何記錄檔。這對於像您執行的內嵌實驗是很常見的，但當您以實驗的形式執行指令碼時，事情就變得更有趣了，而這就是我們接下來要查看的內容。

## 執行實驗指令碼

在先前的範例中，您已在此筆記本中執行內嵌實驗。更彈性的解決方案是為實驗建立個別的指令碼，並將其與所需的任何其他檔案儲存在資料夾中，接著使用 Azure ML，根據資料夾中的指令碼執行實驗。

首先，讓我們為實驗檔案建立資料夾，並將資料複製到其中：

In [None]:
import os, shutil

# Create a folder for the experiment files
folder_name = 'diabetes-experiment-files'
experiment_folder = './' + folder_name
os.makedirs(folder_name, exist_ok=True)

# Copy the data file into the experiment folder
shutil.copy('data/diabetes.csv', os.path.join(folder_name, "diabetes.csv"))

現在，我們會建立內含實驗程式碼的 Python 指令碼，並將其儲存在實驗資料夾中。

> **附註**：執行以下儲存格只會 *建立* 指令碼檔案 - 而不會執行該檔案！

In [None]:
%%writefile $folder_name/diabetes_experiment.py
from azureml.core import Run
import pandas as pd
import os

# Get the experiment run context
run = Run.get_context()

# load the diabetes dataset
data = pd.read_csv('diabetes.csv')

# Count the rows and log the result
row_count = (len(data))
run.log('observations', row_count)
print('Analyzing {} rows of data'.format(row_count))

# Count and log the label counts
diabetic_counts = data['Diabetic'].value_counts()
print(diabetic_counts)
for k, v in diabetic_counts.items():
    run.log('Label:' + str(k), v)
      
# Save a sample of the data in the outputs folder (which gets uploaded automatically)
os.makedirs('outputs', exist_ok=True)
data.sample(100).to_csv("outputs/sample.csv", index=False, header=True)

# Complete the run
run.complete()

此程式碼是先前使用的內嵌程式碼簡化版。然而，請注意以下事項：
- 其使用 `Run.get_context()` 方法，在指令碼執行時擷取實驗執行內容。
- 其從指令碼所在的資料夾載入糖尿病資料。
- 其建立名為 **輸出** 的資料夾並將樣本檔案寫入其中 - 此資料夾會自動上傳至實驗執行

現在您已幾乎做好準備，可執行實驗。若要執行指令碼，您必須建立 **ScriptRunConfig**，其會識別要在實驗中執行的 Python 指令碼檔案，並根據該檔案執行實驗。

> **附註**：ScriptRunConfig 也會判斷計算目標和 Python 環境。在這個案例中，會定義 Python 環境以包含一些 Conda 和 pip 套件，但計算目標已省略，因此會使用預設本地計算。

以下儲存格會設定和提交以指令碼為基礎的實驗。

In [None]:
from azureml.core import Experiment, ScriptRunConfig, Environment
from azureml.core.runconfig import DockerConfiguration
from azureml.widgets import RunDetails

# Create a Python environment for the experiment (from a .yml file)
env = Environment.from_conda_specification("experiment_env", "environment.yml")

# Create a script config
script_config = ScriptRunConfig(source_directory=experiment_folder,
                                script='diabetes_experiment.py',
                                environment=env,
                                docker_runtime_config=DockerConfiguration(use_docker=True))

# submit the experiment
experiment = Experiment(workspace=ws, name='mslearn-diabetes')
run = experiment.submit(config=script_config)
RunDetails(run).show()
run.wait_for_completion()

如前所述，您可以在 [Azure Machine Learning 工作室] (https://ml.azure.com) 中使用小工具或實驗的連結，以檢視實驗所產生的輸出，而且您也可以撰寫程式碼來擷取計量和其產生的檔案：

In [None]:
# Get logged metrics
metrics = run.get_metrics()
for key in metrics.keys():
        print(key, metrics.get(key))
print('\n')
for file in run.get_file_names():
    print(file)

請留意，此時執行會產生一些記錄檔。您可以在小工具中加以檢視，也可以像之前一樣使用 **get_details_with_logs** 方法，只是這次輸出會包含記錄資料。

In [None]:
run.get_details_with_logs()

雖然您可以在上述輸出中檢視記錄詳細資料，但下載記錄檔案並在文字編輯器中進行檢視通常會簡單得多。

In [None]:
import os

log_folder = 'downloaded-logs'

# Download all files
run.get_all_logs(destination=log_folder)

# Verify the files have been downloaded
for root, directories, filenames in os.walk(log_folder): 
    for filename in filenames:  
        print (os.path.join(root,filename))

# # 檢視實驗執行歷程記錄

現在您已多次執行相同的實驗，您可以在 [Azure Machine Learning 工作室](https://ml.azure.com) 中檢視歷程記錄並探索每個記錄的執行。或者您可以從工作區依名稱擷取實驗，並使用 SDK 逐一查看其執行：

In [None]:
from azureml.core import Experiment, Run

diabetes_experiment = ws.experiments['mslearn-diabetes']
for logged_run in diabetes_experiment.get_runs():
    print('Run ID:', logged_run.id)
    metrics = logged_run.get_metrics()
    for key in metrics.keys():
        print('-', key, metrics.get(key))

## 使用 MLflow

MLflow 是開放原始碼平台，可管理機器學習流程。其通常 (但不是專門) 用於 Databricks 環境，以協調實驗並追蹤計量。在 Azure Machine Learning 實驗中，您可以使用 MLflow 來追蹤計量，做為原生記錄功能的替代。

若要利用此功能，您需要 **azureml-mlflow** 套件，讓我們確保已安裝該套件。

In [None]:
pip show azureml-mlflow

### 使用 MLflow 與內嵌實驗

若要使用 MLflow 來追蹤內嵌實驗的計量，您必須將 MLflow *追蹤 URI* 設為實驗執行所在的工作區。這可讓您使用 **mlflow** 追蹤方法，將資料記錄到實驗執行。

In [None]:
from azureml.core import Experiment
import pandas as pd
import mlflow

# Set the MLflow tracking URI to the workspace
mlflow.set_tracking_uri(ws.get_mlflow_tracking_uri())

# Create an Azure ML experiment in your workspace
experiment = Experiment(workspace=ws, name='mslearn-diabetes-mlflow')
mlflow.set_experiment(experiment.name)

# start the MLflow experiment
with mlflow.start_run():
    
    print("Starting experiment:", experiment.name)
    
    # Load data
    data = pd.read_csv('data/diabetes.csv')

    # Count the rows and log the result
    row_count = (len(data))
    mlflow.log_metric('observations', row_count)
    print("Run complete")

現在，讓我們查看在執行期間記錄的計量

In [None]:
# Get the latest run of the experiment
run = list(experiment.get_runs())[0]

# Get logged metrics
print("\nMetrics:")
metrics = run.get_metrics()
for key in metrics.keys():
        print(key, metrics.get(key))
    
# Get a link to the experiment in Azure ML studio   
experiment_url = experiment.get_portal_url()
print('See details at', experiment_url)

執行以上程式碼後，您就可以使用顯示的連結，在 Azure Machine Learning 工作室中檢視實驗。然後選取最新的實驗執行，並查看其 **計量** 索引標籤，以查看記錄的計量。

## 在實驗指令碼中使用 MLflow

您也可在實驗指令碼中使用 MLflow 來追蹤計量。

執行下列兩個儲存格，為使用 MLflow 的實驗建立資料夾和指令碼。

In [None]:
import os, shutil

# Create a folder for the experiment files
folder_name = 'mlflow-experiment-files'
experiment_folder = './' + folder_name
os.makedirs(folder_name, exist_ok=True)

# Copy the data file into the experiment folder
shutil.copy('data/diabetes.csv', os.path.join(folder_name, "diabetes.csv"))

In [None]:
%%writefile $folder_name/mlflow_diabetes.py
from azureml.core import Run
import pandas as pd
import mlflow


# start the MLflow experiment
with mlflow.start_run():
       
    # Load data
    data = pd.read_csv('diabetes.csv')

    # Count the rows and log the result
    row_count = (len(data))
    print('observations:', row_count)
    mlflow.log_metric('observations', row_count)

當您在 Azure ML 實驗指令碼中使用 MLflow 追蹤時，會在您開始實驗執行自動設定 MLflow 追蹤 URI。不過，指令碼執行所在的環境必須包含必要的 **mlflow** 套件。

In [None]:
from azureml.core import Experiment, ScriptRunConfig, Environment
from azureml.core.runconfig import DockerConfiguration
from azureml.widgets import RunDetails


# Create a Python environment for the experiment (from a .yml file)
env = Environment.from_conda_specification("experiment_env", "environment.yml")

# Create a script config
script_mlflow = ScriptRunConfig(source_directory=experiment_folder,
                                script='mlflow_diabetes.py',
                                environment=env,
                                docker_runtime_config=DockerConfiguration(use_docker=True)) 

# submit the experiment
experiment = Experiment(workspace=ws, name='mslearn-diabetes-mlflow')
run = experiment.submit(config=script_mlflow)
RunDetails(run).show()
run.wait_for_completion()

和平常一樣，您可以在結束時從實驗執行取得記錄的計量。

In [None]:
# Get logged metrics
metrics = run.get_metrics()
for key in metrics.keys():
        print(key, metrics.get(key))

> **更多資訊**：若要尋找更多執行中實驗的資訊，請在 Azure ML 文件參閱 [此主題](https://docs.microsoft.com/azure/machine-learning/how-to-manage-runs)。如需如何在執行中記錄計量的詳細資料，請參閱 [此主題](https://docs.microsoft.com/azure/machine-learning/how-to-track-experiments)。如需整合 Azure ML 實驗與 MLflow 的詳細資訊，請參閱 [本主題] (https://docs.microsoft.com/en-us/azure/machine-learning/how-to-use-mlflow)。