# 使用計算服務

當您以 Azure Machine Learning 實驗的形式執行指令碼時，您必須定義實驗執行的執行內容。執行內容是由下列各項所組成：

* 指令碼的 Python 環境，其必須包含指令碼中使用的所有 Python 套件。
* 將要執行指令碼的計算目標。這可以是起始實驗執行的本機工作站，或遠端計算目標 (例如隨選佈建的定型叢集)。

在此筆記本中，您將探索實驗的 [環境] 和 [計算目標]。

## 連線到您的工作區

若要開始進行，請連線到您的工作區。

> **注意**：如果您尚未使用 Azure 訂閱建立已驗證的工作階段，系統會提示您透過按一下連結、輸入驗證碼並登入 Azure 來進行驗證。

In [None]:
import azureml.core
from azureml.core import Workspace

# Load the workspace from the saved config file
ws = Workspace.from_config()
print('Ready to use Azure ML {} to work with {}'.format(azureml.core.VERSION, ws.name))

## 準備資料進行實驗

在此筆記本中，您將使用包含糖尿病病患詳細資料的資料集。執行以下儲存格來建立此資料集 (如果已經存在，程式碼會尋找現有的版本)

In [None]:
from azureml.core import Dataset
from azureml.data.datapath import DataPath

default_ds = ws.get_default_datastore()

if 'diabetes dataset' not in ws.datasets:
    Dataset.File.upload_directory(src_dir='data',
                              target=DataPath(default_ds, 'diabetes-data/')
                              )

    #Create a tabular dataset from the path on the datastore (this may take a short while)
    tab_data_set = Dataset.Tabular.from_delimited_files(path=(default_ds, 'diabetes-data/*.csv'))

    # Register the tabular dataset
    try:
        tab_data_set = tab_data_set.register(workspace=ws, 
                                name='diabetes dataset',
                                description='diabetes data',
                                tags = {'format':'CSV'},
                                create_new_version=True)
        print('Dataset registered.')
    except Exception as ex:
        print(ex)
else:
    print('Dataset already registered.')

## 建立定型指令碼

執行下列兩個儲存格來建立：

1.新實驗的資料夾
2.定型指令檔，其使用 **scikit-learn** 來定型模型及使用 **matplotlib** 來繪出 ROC 曲線。

In [None]:
import os

# Create a folder for the experiment files
experiment_folder = 'diabetes_training_logistic'
os.makedirs(experiment_folder, exist_ok=True)
print(experiment_folder, 'folder created')

In [None]:
%%writefile $experiment_folder/diabetes_training.py
# Import libraries
import argparse
from azureml.core import Run
import pandas as pd
import numpy as np
import joblib
import os
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_auc_score
from sklearn.metrics import roc_curve
import matplotlib.pyplot as plt

# Get script arguments
parser = argparse.ArgumentParser()
parser.add_argument('--regularization', type=float, dest='reg_rate', default=0.01, help='regularization rate')
parser.add_argument("--input-data", type=str, dest='training_dataset_id', help='training dataset')
args = parser.parse_args()

# Set regularization hyperparameter
reg = args.reg_rate

# Get the experiment run context
run = Run.get_context()

# load the diabetes data (passed as an input dataset)
print("Loading Data...")
diabetes = run.input_datasets['training_data'].to_pandas_dataframe()

# Separate features and labels
X, y = diabetes[['Pregnancies','PlasmaGlucose','DiastolicBloodPressure','TricepsThickness','SerumInsulin','BMI','DiabetesPedigree','Age']].values, diabetes['Diabetic'].values

# Split data into training set and test set
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=0)

# Train a logistic regression model
print('Training a logistic regression model with regularization rate of', reg)
run.log('Regularization Rate',  np.float(reg))
model = LogisticRegression(C=1/reg, solver="liblinear").fit(X_train, y_train)

# calculate accuracy
y_hat = model.predict(X_test)
acc = np.average(y_hat == y_test)
print('Accuracy:', acc)
run.log('Accuracy', np.float(acc))

# calculate AUC
y_scores = model.predict_proba(X_test)
auc = roc_auc_score(y_test,y_scores[:,1])
print('AUC: ' + str(auc))
run.log('AUC', np.float(auc))

# plot ROC curve
fpr, tpr, thresholds = roc_curve(y_test, y_scores[:,1])
fig = plt.figure(figsize=(6, 4))
# Plot the diagonal 50% line
plt.plot([0, 1], [0, 1], 'k--')
# Plot the FPR and TPR achieved by our model
plt.plot(fpr, tpr)
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('ROC Curve')
run.log_image(name = "ROC", plot = fig)
plt.show()

os.makedirs('outputs', exist_ok=True)
# note file saved in the outputs folder is automatically uploaded into experiment record
joblib.dump(value=model, filename='outputs/diabetes_model.pkl')

run.complete()

## 定義環境

當您以 Azure Machine Learning 的實驗形式執行 Python 指令碼時，系統會建立 Conda 環境以定義指令碼的執行內容。Azure Machine Learning 提供的預設環境包含許多一般封裝；包括 **azureml-defaults** 套件，其中含有處理實驗執行所需的程式庫，以及 **pandas** 和 **numpy** 等熱門套件。

您也可以在 Conda 規格檔案中定義自己的環境，使用 **conda** 或 **pip** 來新增套件，以確保您的實驗可以存取其所需的所有程式庫。

> **注意**：conda 相依項會先行安裝，接著安裝 pip 相依項。因為安裝 pip 相依項需要 **pip** 套件，所以將其包含在 conda 相依項中是很好的做法。

執行以下儲存格，在與此筆記本相同的資料夾中建立名為 *experiment_env.yml* 的 Conda 規格檔案。

In [None]:
%%writefile $experiment_folder/experiment_env.yml
name: experiment_env
dependencies:
  # The python interpreter version.
  # Currently Azure ML only supports 3.5.2 and later.
- python=3.6.2
- scikit-learn
- ipykernel
- matplotlib
- pandas
- pip
- pip:
  - azureml-defaults
  - pyarrow

您現在可以使用自訂的 conda 規格檔案，為您的實驗建立環境

In [None]:
from azureml.core import Environment

# Create a Python environment for the experiment (from a .yml file)
experiment_env = Environment.from_conda_specification("experiment_env", experiment_folder + "/experiment_env.yml")

# Let Azure ML manage dependencies
experiment_env.python.user_managed_dependencies = False 

# Print the environment details
print(experiment_env.name, 'defined.')
print(experiment_env.python.conda_dependencies.serialize_to_string())

您現在可以使用此環境，以實驗的形式執行指令碼。

下列程式碼會將您建立的環境指派給 ScriptRunConfig，並提交實驗。當實驗執行時，請觀察小工具中的執行詳細資料，而在 **azureml_logs/60_control_log.txt** 輸出記錄中，您會看到正在建置的 conda 環境。

> **注意**：下方程式碼會建立指令碼執行的 **DockerConfiguration**，並將其 **use_docker** 屬性設為 **True**，以便在 Docker 容器中裝載指令碼的環境。這是預設行為，因此您可省略此動作；但我們為了清楚說明而在此納入。

In [None]:
from azureml.core import Experiment, ScriptRunConfig
from azureml.core.runconfig import DockerConfiguration
from azureml.widgets import RunDetails

# Get the training dataset
diabetes_ds = ws.datasets.get("diabetes dataset")

# Create a script config
script_config = ScriptRunConfig(source_directory=experiment_folder,
                                script='diabetes_training.py',
                                arguments = ['--regularization', 0.1, # Regularizaton rate parameter
                                             '--input-data', diabetes_ds.as_named_input('training_data')], # Reference to dataset
                                environment=experiment_env,
                                docker_runtime_config=DockerConfiguration(use_docker=True)) # Use docker to host environment

# submit the experiment
experiment_name = 'mslearn-train-diabetes'
experiment = Experiment(workspace=ws, name=experiment_name)
run = experiment.submit(config=script_config)
RunDetails(run).show()
run.wait_for_completion()

實驗已成功使用環境，其中包含所需的所有套件- 您可以在 Azure Machine Learning 工作室中檢視實驗執行的計量和輸出，或是執行下方程式碼 (包括使用 **scikit-learn** 定型的模型，以及使用 **matplotlib** 產生的 ROC 圖表影像)。

In [None]:
# Get logged metrics
metrics = run.get_metrics()
for key in metrics.keys():
        print(key, metrics.get(key))
print('\n')
for file in run.get_file_names():
    print(file)

## 註冊環境

當您不怕麻煩地使用所需的套件來定義環境時，您可在工作區中加以註冊。

In [None]:
# Register the environment
experiment_env.register(workspace=ws)

請注意，環境會使用您第一次建立時指派的名稱進行註冊 (在此案例中為 *diabetes-experiment-env*)。

註冊環境後，您可以針對任何具有相同需求的指令碼重複使用。例如，讓我們使用不同的演算法來建立資料夾和指令碼，以定型糖尿病模型：

In [None]:
import os

# Create a folder for the experiment files
experiment_folder = 'diabetes_training_tree'
os.makedirs(experiment_folder, exist_ok=True)
print(experiment_folder, 'folder created')

In [None]:
%%writefile $experiment_folder/diabetes_training.py
# Import libraries
import argparse
from azureml.core import Run
import pandas as pd
import numpy as np
import joblib
import os
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import roc_auc_score
from sklearn.metrics import roc_curve
import matplotlib.pyplot as plt

# Get script arguments
parser = argparse.ArgumentParser()
parser.add_argument("--input-data", type=str, dest='training_dataset_id', help='training dataset')
args = parser.parse_args()

# Get the experiment run context
run = Run.get_context()

# load the diabetes data (passed as an input dataset)
print("Loading Data...")
diabetes = run.input_datasets['training_data'].to_pandas_dataframe()

# Separate features and labels
X, y = diabetes[['Pregnancies','PlasmaGlucose','DiastolicBloodPressure','TricepsThickness','SerumInsulin','BMI','DiabetesPedigree','Age']].values, diabetes['Diabetic'].values

# Split data into training set and test set
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=0)

# Train a decision tree model
print('Training a decision tree model')
model = DecisionTreeClassifier().fit(X_train, y_train)

# calculate accuracy
y_hat = model.predict(X_test)
acc = np.average(y_hat == y_test)
print('Accuracy:', acc)
run.log('Accuracy', np.float(acc))

# calculate AUC
y_scores = model.predict_proba(X_test)
auc = roc_auc_score(y_test,y_scores[:,1])
print('AUC: ' + str(auc))
run.log('AUC', np.float(auc))

# plot ROC curve
fpr, tpr, thresholds = roc_curve(y_test, y_scores[:,1])
fig = plt.figure(figsize=(6, 4))
# Plot the diagonal 50% line
plt.plot([0, 1], [0, 1], 'k--')
# Plot the FPR and TPR achieved by our model
plt.plot(fpr, tpr)
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('ROC Curve')
run.log_image(name = "ROC", plot = fig)
plt.show()

os.makedirs('outputs', exist_ok=True)
# note file saved in the outputs folder is automatically uploaded into experiment record
joblib.dump(value=model, filename='outputs/diabetes_model.pkl')

run.complete()

您現在可以擷取已註冊的環境，並在執行替代定型指令碼的新實驗中使用 (這次沒有任何正規化參數，因為決策樹分類器不需要)。

In [None]:
# get the registered environment
registered_env = Environment.get(ws, 'experiment_env')

# Get the training dataset
diabetes_ds = ws.datasets.get("diabetes dataset")

# Create a script config
script_config = ScriptRunConfig(source_directory=experiment_folder,
                              script='diabetes_training.py',
                              arguments = ['--input-data', diabetes_ds.as_named_input('training_data')], # Reference to dataset
                              environment=registered_env,
                              docker_runtime_config=DockerConfiguration(use_docker=True)) # Use docker to host environment 

# submit the experiment
experiment_name = 'mslearn-train-diabetes'
experiment = Experiment(workspace=ws, name=experiment_name)
run = experiment.submit(config=script_config)
RunDetails(run).show()
run.wait_for_completion()

這次實驗執行的速度更快，因為已從前一次執行快取相符的環境，所以不需要在本機計算上重新建立。不過，即使在不同的計算目標上，也會建立和使用相同的環境 - 確保您的實驗指令碼執行內容一致。

讓我們查看來自實驗的計量和輸出。

In [None]:
# Get logged metrics
metrics = run.get_metrics()
for key in metrics.keys():
        print(key, metrics.get(key))
print('\n')
for file in run.get_file_names():
    print(file)

## 檢視已註冊的環境

除了註冊您自己的環境，您還可將預先建立的「策劃」環境用於一般實驗類型。以下程式碼會列出所有已註冊的環境：

In [None]:
from azureml.core import Environment

envs = Environment.list(workspace=ws)
for env in envs:
    print("Name",env)

所有策劃環境的名稱開頭均為 ***AzureML-*** (您無法將此前置詞用於自己的環境)。

## 建立計算叢集

在許多情況下，您的本機計算資源可能不足以處理需要處理大量資料的複雜或長時間執行實驗；而您可以利用在雲端動態建立和使用計算資源的功能。Azure Machine Learning 支援各種計算目標，您可在工作區中定義目標並用於執行實驗；只有在使用資源時才需付費。

您可以在 [Azure Machine Learning 工作室](https://ml.azure.com) 中建立計算叢集，或使用 Azure Machine Learning SDK。以下程式碼儲存格會檢查您的工作區中是否存在指定名稱的計算叢集，若不存在，則會加以建立。

> **重要**：在執行之前，將下方程式碼中的 *your-compute-cluster* 變更為適合您計算叢集的名稱 - 您可以指定現有叢集的名稱 (如果有的話)。叢集名稱必須是全域唯一且長度介於 2 到 16 個字元的名稱。有效字元包括字母、數字及 - 字元。

In [None]:
from azureml.core.compute import ComputeTarget, AmlCompute
from azureml.core.compute_target import ComputeTargetException

cluster_name = "your-compute-cluster"

try:
    # Check for existing compute target
    training_cluster = ComputeTarget(workspace=ws, name=cluster_name)
    print('Found existing cluster, use it.')
except ComputeTargetException:
    # If it doesn't already exist, create it
    try:
        compute_config = AmlCompute.provisioning_configuration(vm_size='STANDARD_DS11_V2', max_nodes=2)
        training_cluster = ComputeTarget.create(ws, cluster_name, compute_config)
        training_cluster.wait_for_completion(show_output=True)
    except Exception as ex:
        print(ex)

> **附註**：計算執行個體和叢集是以標準 Azure 虛擬機器映像為基礎。針對此練習，建議使用 *Standard_DS11_v2* 映像，以達到成本與效能的最佳平衡。如果您的訂用帳戶具有不包含此映像的配額，請選擇替代映像；但請記得，較大的映像可能會產生較高的成本，而較小的映像可能不足以完成工作。或者，請要求您的 Azure 系統管理員擴大您的配額。

## 在原端計算上執行實驗

您現在已準備好重新執行您先前執行的實驗，但這次是在您所建立的計算叢集上執行。

> **注意**：實驗會花費較長的時間，因為容器映像必須以 conda 環境建置，然後必須啟動叢集節點，而且先部署映像才能執行指令碼。對於糖尿病定型指令碼之類的簡單實驗，這可能看起來沒效率；但是，假設您需要執行需耗費數小時的更複雜實驗 - 動態建立更具擴充性的計算可能會大幅降低整體時間。

In [None]:
# Create a script config
script_config = ScriptRunConfig(source_directory=experiment_folder,
                                script='diabetes_training.py',
                                arguments = ['--input-data', diabetes_ds.as_named_input('training_data')],
                                environment=registered_env,
                                compute_target=cluster_name) 

# submit the experiment
experiment_name = 'mslearn-train-diabetes'
experiment = Experiment(workspace=ws, name=experiment_name)
run = experiment.submit(config=script_config)
RunDetails(run).show()

在您等待實驗執行時，您可以在上述小工具或 [Azure Machine Learning 工作室](https://ml.azure.com) 中檢查計算的狀態。您也可以使用下列程式碼來檢查計算的狀態。

In [None]:
cluster_state = training_cluster.get_status()
print(cluster_state.allocation_state, cluster_state.current_node_count)

請注意，狀態從「穩定」變成「調整大小」會需要一段時間 (現在可能是休息一下的好時機！)。若要封鎖核心直到執行完成，請執行下方儲存格。

In [None]:
run.wait_for_completion()

請留意頁面右上方的核心指標，當指標從 **&#9899;** 變成 **&#9711;** 時，就代表程式碼已完成執行。

實驗完成後，您可取得實驗執行所產生的計量和檔案。這次，檔案將包含用來建立影像和管理計算的記錄。

In [None]:
# Get logged metrics
metrics = run.get_metrics()
for key in metrics.keys():
        print(key, metrics.get(key))
print('\n')
for file in run.get_file_names():
    print(file)

您現在可以註冊由實驗定型的模型。

In [None]:
from azureml.core import Model

# Register the model
run.register_model(model_path='outputs/diabetes_model.pkl', model_name='diabetes_model',
                   tags={'Training context':'Compute cluster'}, properties={'AUC': run.get_metrics()['AUC'], 'Accuracy': run.get_metrics()['Accuracy']})

# List registered models
for model in Model.list(ws):
    print(model.name, 'version:', model.version)
    for tag_name in model.tags:
        tag = model.tags[tag_name]
        print ('\t',tag_name, ':', tag)
    for prop_name in model.properties:
        prop = model.properties[prop_name]
        print ('\t',prop_name, ':', prop)
    print('\n')

> **詳細資訊**：
>
> - 如需 Azure Machine Learning 中環境的詳細資訊，請參閱 [在 Azure Machine Learning 中建立和使用軟體環境](https://docs.microsoft.com/azure/machine-learning/how-to-use-environments)
> - 如需 Azure Machine Learning 中計算目標的詳細資訊，請參閱 [Azure Machine Learning 中的計算目標是什麼？](https://docs.microsoft.com/azure/machine-learning/concept-compute-target)。