# 训练模型

机器学习的主要目标在于训练可用于应用程序的预测模型。在 Azure 机器学习中，可以借助脚本来利用常见机器学习框架（例如 Scikit-Learn、Tensorflow、PyTorch、SparkML 等）训练模型。可以将这些训练脚本作为试验运行，以跟踪指标和输出 - 特别是训练后模型。

## 连接到工作区

你首先需要使用 Azure ML SDK 连接到工作区。

> **注意**：如果 Azure 订阅的身份验证会话在你完成上一练习后已过期，系统将提示你重新进行身份验证。

In [None]:
import azureml.core
from azureml.core import Workspace

# 从保存的配置文件加载工作区
ws = Workspace.from_config()
print('Ready to use Azure ML {} to work with {}'.format(azureml.core.VERSION, ws.name))

## 创建训练脚本

你将要使用 Python 脚本基于糖尿病数据训练机器学习模型，因此接下来先为脚本和数据文件创建文件夹。

In [None]:
import os, shutil

# 为试验文件创建文件夹
training_folder = 'diabetes-training'
os.makedirs(training_folder, exist_ok=True)

# 将数据文件复制到试验文件夹
shutil.copy('data/diabetes.csv', os.path.join(training_folder, "diabetes.csv"))

现在即可创建训练脚本并将其保存到文件夹。

In [None]:
%%writefile $training_folder/diabetes_training.py
# 导入库
from azureml.core import Run
import pandas as pd
import numpy as np
import joblib
import os
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_auc_score
from sklearn.metrics import roc_curve

# 获取试验运行上下文
run = Run.get_context()

# 加载糖尿病数据集
print("Loading Data...")
diabetes = pd.read_csv('diabetes.csv')

# 分隔特征和标签
X, y = diabetes[['Pregnancies','PlasmaGlucose','DiastolicBloodPressure','TricepsThickness','SerumInsulin','BMI','DiabetesPedigree','Age']].values, diabetes['Diabetic'].values

# 将数据拆分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=0)

# 设置正则化超参数
reg = 0.01

# 训练逻辑回归模型
print('Training a logistic regression model with regularization rate of', reg)
run.log('Regularization Rate',  np.float(reg))
model = LogisticRegression(C=1/reg, solver="liblinear").fit(X_train, y_train)

# 计算精度
y_hat = model.predict(X_test)
acc = np.average(y_hat == y_test)
print('Accuracy:', acc)
run.log('Accuracy', np.float(acc))

# 计算 AUC
y_scores = model.predict_proba(X_test)
auc = roc_auc_score(y_test,y_scores[:,1])
print('AUC: ' + str(auc))
run.log('AUC', np.float(auc))

# 将训练后模型保存到输出文件夹
os.makedirs('outputs', exist_ok=True)
joblib.dump(value=model, filename='outputs/diabetes_model.pkl')

run.complete()

## 使用估算器将脚本作为试验运行

以前运行试验脚本使用的是 **RunConfiguration** 和 **ScriptRunConfig**。现在也可以使用相同方法运行训练脚本，但使用**估算器**通常会更容易，因为它可以将这两个配置都抽象到一个对象中。

这种情况下，我们将使用通用的**“估算器”**对象来运行训练试验。请注意，此估算器的默认环境不包含 **scikit-learn** 包，因此需要将其显式添加到配置中。Conda 环境是首次使用估算器时按需构建的，缓存后用于采用相同配置的后续运行。因此，首次运行耗时较长。

In [None]:
from azureml.train.estimator import Estimator
from azureml.core import Experiment

# 创建估算器
estimator = Estimator(source_directory=training_folder,
                      entry_script='diabetes_training.py',
                      compute_target='local',
                      conda_packages=['scikit-learn']
                      )

# 创建试验
experiment_name = 'diabetes-training'
experiment = Experiment(workspace = ws, name = experiment_name)

# 基于估算器运行试验
run = experiment.submit(config=estimator)
run.wait_for_completion(show_output=True)

与所有试验运行一样，可以使用**“运行详细信息”**小组件查看有关运行的信息，并在 Azure 机器学习工作室中获取指向该运行的链接。

In [None]:
from azureml.widgets import RunDetails

RunDetails(run).show()

你还可以从 **Run** 对象检索指标和输出。

In [None]:
# 获取记录的指标
metrics = run.get_metrics()
for key in metrics.keys():
        print(key, metrics.get(key))
print('\n')
for file in run.get_file_names():
    print(file)

## 注册训练后模型

请注意，试验输出包括训练后模型文件 (**diabetes_model.pkl**)。可以在 Azure 机器学习工作区中注册此模型，这样即可跟踪模型版本并在以后检索它们。

In [None]:
from azureml.core import Model

# 注册模型
run.register_model(model_path='outputs/diabetes_model.pkl', model_name='diabetes_model',
                   tags={'Training context':'Estimator'},
                   properties={'AUC': run.get_metrics()['AUC'], 'Accuracy': run.get_metrics()['Accuracy']})

# 列出已注册的模型
for model in Model.list(ws):
    print(model.name, 'version:', model.version)
    for tag_name in model.tags:
        tag = model.tags[tag_name]
        print ('\t',tag_name, ':', tag)
    for prop_name in model.properties:
        prop = model.properties[prop_name]
        print ('\t',prop_name, ':', prop)
    print('\n')

## 创建参数化的训练脚本

可以向脚本添加参数以提高训练试验的灵活性，从而可以使用各种设置重复进行相同的训练试验。这种情况下，你将在训练模型时为逻辑回归算法所使用的正则化率添加一个参数。

同样，先为参数化脚本和训练数据创建一个文件夹。

In [None]:
import os, shutil

# 为试验文件创建文件夹
training_folder = 'diabetes-training-params'
os.makedirs(training_folder, exist_ok=True)

# 将数据文件复制到试验文件夹
shutil.copy('data/diabetes.csv', os.path.join(training_folder, "diabetes.csv"))

接下来为正则化率超参数创建包含参数的脚本。

In [None]:
%%writefile $training_folder/diabetes_training.py
# 导入库
from azureml.core import Run
import pandas as pd
import numpy as np
import joblib
import argparse
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_auc_score
from sklearn.metrics import roc_curve

# 获取试验运行上下文
run = Run.get_context()

# 设置正则化超参数
parser = argparse.ArgumentParser()
parser.add_argument('--reg_rate', type=float, dest='reg', default=0.01)
args = parser.parse_args()
reg = args.reg

# 加载糖尿病数据集
print("Loading Data...")
# 加载糖尿病数据集
diabetes = pd.read_csv('diabetes.csv')

# 分隔特征和标签
X, y = diabetes[['Pregnancies','PlasmaGlucose','DiastolicBloodPressure','TricepsThickness','SerumInsulin','BMI','DiabetesPedigree','Age']].values, diabetes['Diabetic'].values

# 将数据拆分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=0)

# 训练逻辑回归模型
print('Training a logistic regression model with regularization rate of', reg)
run.log('Regularization Rate',  np.float(reg))
model = LogisticRegression(C=1/reg, solver="liblinear").fit(X_train, y_train)

# 计算精度
y_hat = model.predict(X_test)
acc = np.average(y_hat == y_test)
print('Accuracy:', acc)
run.log('Accuracy', np.float(acc))

# 计算 AUC
y_scores = model.predict_proba(X_test)
auc = roc_auc_score(y_test,y_scores[:,1])
print('AUC: ' + str(auc))
run.log('AUC', np.float(auc))

os.makedirs('outputs', exist_ok=True)
joblib.dump(value=model, filename='outputs/diabetes_model.pkl')

run.complete()

## 使用特定于框架的估算器

你使用了通用的**“估算器”**类来运行训练脚本，但你还可以利用特定于框架的估算器，其中包括常见机器学习框架的环境定义。这种情况下，你使用的是 Scikit-Learn，因此可以使用 **SKLearn** 估算器。这意味着无需在配置中指定 **scikit-learn** 包。

In [None]:
from azureml.train.sklearn import SKLearn
from azureml.widgets import RunDetails

# 创建估算器
estimator = SKLearn(source_directory=training_folder,
                    entry_script='diabetes_training.py',
                    script_params = {'--reg_rate': 0.1},
                    compute_target='local'
                    )

# 创建试验
experiment_name = 'diabetes-training'
experiment = Experiment(workspace = ws, name = experiment_name)

# 运行试验
run = experiment.submit(config=estimator)

# 在运行时显示运行详细信息
RunDetails(run).show()
run.wait_for_completion()

同样，我们可以从已完成运行获取指标和输出。

In [None]:
# 获取记录的指标
metrics = run.get_metrics()
for key in metrics.keys():
        print(key, metrics.get(key))
print('\n')
for file in run.get_file_names():
    print(file)

## 注册模型的新版本

训练新模型后，可以在工作区中将其注册为新版本。

In [None]:
from azureml.core import Model

# 注册模型
run.register_model(model_path='outputs/diabetes_model.pkl', model_name='diabetes_model',
                   tags={'Training context':'Parameterized SKLearn Estimator'},
                   properties={'AUC': run.get_metrics()['AUC'], 'Accuracy': run.get_metrics()['Accuracy']})

# 列出已注册的模型
for model in Model.list(ws):
    print(model.name, 'version:', model.version)
    for tag_name in model.tags:
        tag = model.tags[tag_name]
        print ('\t',tag_name, ':', tag)
    for prop_name in model.properties:
        prop = model.properties[prop_name]
        print ('\t',prop_name, ':', prop)
    print('\n')

浏览完毕后，可以关闭此笔记本并关闭计算实例。