# 使用自動化機器學習

您可以用來定型模型的機器學習演算法有許多種類，有時候，要判斷對特定資料和預測需求最有效的運算法並不容易。此外，您可以使用正規化、遺漏功能插補等技術，藉由前置處理定型資料，大幅影響模型的預測效能。在您想要尋找需求的 *最佳* 模型時，您可能需要嘗試許多演算法和前置處理轉換的組合；這需要大量時間和計算資源。

Azure Machine Learning 可讓您自動化比較使用不同的演算法和前置處理選項定型的模型。您可以使用 [Azure Machine Learning 工作室](https://ml/azure.com) 或 SDK 中的視覺化介面來運用這項功能。SDK 可讓您更充分掌控自動化機器學習實驗的設定，但視覺化介面較容易使用。

## 開始之前

除了最新版本的 **azureml-sdk** 和 **azureml-widgets** 套件之外，您還需要 **azureml-train-automl** 套件來執行此筆記本中的程式碼。執行下列的儲存格以驗證是否已安裝。

In [None]:
pip show azureml-train-automl

## 連線到您的工作區

安裝所需的 SDK 套件後，您就可以開始連線到工作區。

> **附註**：如果您尚未使用 Azure 訂用帳戶建立已驗證的工作階段，系統會提示您透過按一下連結、輸入驗證碼並登入 Azure 來進行驗證。

In [None]:
import azureml.core
from azureml.core import Workspace

# Load the workspace from the saved config file
ws = Workspace.from_config()
print('Ready to use Azure ML {} to work with {}'.format(azureml.core.VERSION, ws.name))

## 準備資料

您不需要為自動化機器學習建立定型指令碼，但您必須載入定型資料。在此案例下，您將使用包含糖尿病病患詳細資料的資料集，然後將其分割成兩個資料集：一個用於定型，另一個用於模型驗證。

In [None]:
from azureml.core import Dataset

default_ds = ws.get_default_datastore()

if 'diabetes dataset' not in ws.datasets:
    default_ds.upload_files(files=['./data/diabetes.csv', './data/diabetes2.csv'], # Upload the diabetes csv files in /data
                        target_path='diabetes-data/', # Put it in a folder path in the datastore
                        overwrite=True, # Replace existing files of the same name
                        show_progress=True)

    #Create a tabular dataset from the path on the datastore (this may take a short while)
    tab_data_set = Dataset.Tabular.from_delimited_files(path=(default_ds, 'diabetes-data/*.csv'))

    # Register the tabular dataset
    try:
        tab_data_set = tab_data_set.register(workspace=ws, 
                                name='diabetes dataset',
                                description='diabetes data',
                                tags = {'format':'CSV'},
                                create_new_version=True)
        print('Dataset registered.')
    except Exception as ex:
        print(ex)
else:
    print('Dataset already registered.')


# Split the dataset into training and validation subsets
diabetes_ds = ws.datasets.get("diabetes dataset")
train_ds, test_ds = diabetes_ds.random_split(percentage=0.7, seed=123)
print("Data ready!")

## 準備計算

雲端計算其中一個好處是能夠隨著需求調整規模，讓您能夠佈建足夠的計算資源，平行處理自動化機器學習實驗的多個子執行。

使用下列程式碼，指定 Azure Machine Learning 運算叢集 (如果尚不存在，則系統會加以建立)…

> **重要**：在執行前，請先將下列程式碼 *your-compute-cluster* 的內容變更為您的計算叢集名稱！叢集名稱必須是全域唯一且長度介於 2 到 16 個字元的名稱。有效字元包括字母、數字及 - 字元。

In [None]:
from azureml.core.compute import ComputeTarget, AmlCompute
from azureml.core.compute_target import ComputeTargetException

cluster_name = "your-compute-cluster"

try:
    # Check for existing compute target
    training_cluster = ComputeTarget(workspace=ws, name=cluster_name)
    print('Found existing cluster, use it.')
except ComputeTargetException:
    # If it doesn't already exist, create it
    try:
        compute_config = AmlCompute.provisioning_configuration(vm_size='STANDARD_DS11_V2', max_nodes=2)
        training_cluster = ComputeTarget.create(ws, cluster_name, compute_config)
        training_cluster.wait_for_completion(show_output=True)
    except Exception as ex:
        print(ex)
    

> **附註**：計算執行個體和叢集是以標準 Azure 虛擬機器映像為基礎。針對此練習，建議使用 *Standard_DS11_v2* 映像，以達到成本與效能的最佳平衡。如果您的訂用帳戶具有不包含此映像的配額，請選擇替代映像；但請記得，較大的映像可能會產生較高的成本，而較小的映像可能不足以完成工作。或者，請要求您的 Azure 系統管理員擴大您的配額。

## 設定自動化機器學習

現在您已準備好設定自動化機器學習實驗。

最重要的設定之一，就是評估模型效能的計量。您可以擷取計量清單，那些計量是由自動化機器學習針對類似於此的特定類型模型工作 (分類或回歸) 計算的：

In [None]:
import azureml.train.automl.utilities as automl_utils

for metric in automl_utils.get_primary_metrics('classification'):
    print(metric)

決定您要最佳化的計量 (在此範例中，*AUC_weighted*)，您可以設定自動化的機器學習執行。若要這樣做，您將需要 AutoML 設定來指定目標計量，以及要使用的資料、要嘗試的組合數目等等的選項。

> **附註**：在此範例中，您會將實驗限制在 4 次反覆運算，以縮短所需的時間。事實上，您可能會嘗試更多反覆運算。

In [None]:
from azureml.train.automl import AutoMLConfig

automl_config = AutoMLConfig(name='Automated ML Experiment',
                             task='classification',
                             compute_target=training_cluster,
                             training_data = train_ds,
                             validation_data = test_ds,
                             label_column_name='Diabetic',
                             iterations=4,
                             primary_metric = 'AUC_weighted',
                             max_concurrent_iterations=2,
                             featurization='auto'
                             )

print("Ready for Auto ML run.")

## 執行自動化機器學習實驗

很好，您已準備好開始使用。讓我們執行自動化機器學習實驗。

> **附註**：這可能需要一些時間！

In [None]:
from azureml.core.experiment import Experiment
from azureml.widgets import RunDetails

print('Submitting Auto ML experiment...')
automl_experiment = Experiment(ws, 'mslearn-diabetes-automl-sdk')
automl_run = automl_experiment.submit(automl_config)
RunDetails(automl_run).show()
automl_run.wait_for_completion(show_output=True)

## 檢視子執行詳細資料

當實驗完成時，在小工具中檢視輸出，並按一下產生最佳結果的執行，來查看其詳細資料。

接著按一下連結，在 Azure Machine Learning 工作室來檢視實驗詳細資料，並檢視整體實驗詳細資料，再檢視產生最佳結果的個別執行詳細資料。這裡有產生模型效能的許多資訊。

您也可以使用 SDK，擷取所有子執行並檢視其計量：

In [None]:
for run in automl_run.get_children():
    print('Run ID', run.id)
    for metric in run.get_metrics():
        print('\t', run.get_metrics(metric))

## 取得最佳執行

您可以擷取效能最佳執行，並像這樣檢視其詳細資料：

In [None]:
best_run, fitted_model = automl_run.get_output()
print(best_run)
print('\nBest Model Definition:')
print(fitted_model)
print('\nBest Run Transformations:')
for step in fitted_model.named_steps:
    print(step)
print('\nBest Run Metrics:')
best_run_metrics = best_run.get_metrics()
for metric_name in best_run_metrics:
    metric = best_run_metrics[metric_name]
    print(metric_name, metric)

最後，找到效能最佳的模型之後，您就可以加以註冊。

In [None]:
from azureml.core import Model

# Register model
best_run.register_model(model_path='outputs/model.pkl', model_name='diabetes_model',
                        tags={'Training context':'Auto ML'},
                        properties={'AUC': best_run_metrics['AUC_weighted'], 'Accuracy': best_run_metrics['accuracy']})

# List registered models
for model in Model.list(ws):
    print(model.name, 'version:', model.version)
    for tag_name in model.tags:
        tag = model.tags[tag_name]
        print ('\t',tag_name, ':', tag)
    for prop_name in model.properties:
        prop = model.properties[prop_name]
        print ('\t',prop_name, ':', prop)
    print('\n')

> **更多資訊**：如需在自動化機器學習的詳細資訊，請參閱 [Azure ML 文件](https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train)。