# 处理环境

目前为止，你已在 Azure 机器学习工作区中运行了许多试验，并且在某些情况下，你还指定了运行试验代码的环境所需的特定 Python 包。在本实验中，你将更详细地了解环境。

## 连接到工作区

你首先需要使用 Azure ML SDK 连接到工作区。

> **注意**：如果 Azure 订阅的身份验证会话在你完成上一练习后已过期，系统将提示你重新进行身份验证。

In [None]:
import azureml.core
from azureml.core import Workspace

# 从保存的配置文件加载工作区
ws = Workspace.from_config()
print('Ready to use Azure ML {} to work with {}'.format(azureml.core.VERSION, ws.name))

## 准备试验数据

在本实验中，你将使用包含糖尿病患者详细信息的数据集。运行以下单元格以创建此数据集（如果在上一个实验中创建了此数据集，则代码将创建一个新版本）

In [None]:
from azureml.core import Dataset

default_ds = ws.get_default_datastore()
default_ds.upload_files(files=['./data/diabetes.csv', './data/diabetes2.csv'], # 将糖尿病 csv 文件上传到 /data 中
                       target_path='diabetes-data/', # 将其放在数据存储的文件夹路径中
                       overwrite=True, # 替换名称相同的现有文件
                       show_progress=True)

#从数据存储上的路径创建表格数据集（这可能需要一些时间）
tab_data_set = Dataset.Tabular.from_delimited_files(path=(default_ds, 'diabetes-data/*.csv'))

# 注册表格数据集
tab_data_set = tab_data_set.register(workspace=ws, 
                           name='diabetes dataset',
                           description='diabetes data',
                           tags = {'format':'CSV'},
                           create_new_version=True)

print('Dataset ready.')

## 创建训练脚本

运行以下两个单元格，创建以下内容：
1.用于新试验的文件夹
2.训练脚本文件，可使用 **scikit-learn** 训练模型且可使用 **matplotlib** 绘制 ROC 曲线。

In [None]:
import os

# 为试验文件创建文件夹
experiment_folder = 'diabetes_training_logistic'
os.makedirs(experiment_folder, exist_ok=True)
print(experiment_folder, 'folder created')

In [None]:
%%writefile $experiment_folder/diabetes_training.py
# 导入库
import argparse
from azureml.core import Run
import pandas as pd
import numpy as np
import joblib
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_auc_score
from sklearn.metrics import roc_curve
import matplotlib.pyplot as plt

# 设置正则化超参数（作为参数传递给脚本）
parser = argparse.ArgumentParser()
parser.add_argument('--regularization', type=float, dest='reg_rate', default=0.01, help='regularization rate')
args = parser.parse_args()
reg = args.reg_rate

# 获取试验运行上下文
run = Run.get_context()

# 加载糖尿病数据（作为输入数据集传递）
print("Loading Data...")
diabetes = run.input_datasets['diabetes'].to_pandas_dataframe()

# 分隔特征和标签
X, y = diabetes[['Pregnancies','PlasmaGlucose','DiastolicBloodPressure','TricepsThickness','SerumInsulin','BMI','DiabetesPedigree','Age']].values, diabetes['Diabetic'].values

# 将数据拆分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=0)

# 训练逻辑回归模型
print('Training a logistic regression model with regularization rate of', reg)
run.log('Regularization Rate',  np.float(reg))
model = LogisticRegression(C=1/reg, solver="liblinear").fit(X_train, y_train)

# 计算精度
y_hat = model.predict(X_test)
acc = np.average(y_hat == y_test)
print('Accuracy:', acc)
run.log('Accuracy', np.float(acc))

# 计算 AUC
y_scores = model.predict_proba(X_test)
auc = roc_auc_score(y_test,y_scores[:,1])
print('AUC: ' + str(auc))
run.log('AUC', np.float(auc))

# 绘制 ROC 曲线
fpr, tpr, thresholds = roc_curve(y_test, y_scores[:,1])
fig = plt.figure(figsize=(6, 4))
# 绘制 50% 对角线
plt.plot([0, 1], [0, 1], 'k--')
# 绘制模型实现的 FPR 和 TPR
plt.plot(fpr, tpr)
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('ROC Curve')
run.log_image(name = "ROC", plot = fig)
plt.show()

os.makedirs('outputs', exist_ok=True)
# 注意，保存在输出文件夹中的文件会自动上传到试验记录
joblib.dump(value=model, filename='outputs/diabetes_model.pkl')

run.complete()

## 定义环境

在 Azure 机器学习中将 Python 脚本作为试验运行时，系统将创建 Conda 环境，用于定义脚本的执行上下文。Azure 机器学习提供了一个默认环境，其中包括许多常见包；例如，**azureml-defaults** 包，其中包含处理试验运行所需的库，以及 **pandas** 和 **numpy** 等常用包。

你还可以定义自己的环境，并使用 **conda** 或 **pip** 添加包，以确保试验可以访问其所需的所有库。 

In [None]:
from azureml.core import Environment
from azureml.core.conda_dependencies import CondaDependencies

# 创建用于试验的 Python 环境
diabetes_env = Environment("diabetes-experiment-env")
diabetes_env.python.user_managed_dependencies = False # 让 Azure ML 管理依赖项
diabetes_env.docker.enabled = True # 使用 docker 容器

# 创建一组包依赖项（conda 或 pip，具体视情况而定）
diabetes_packages = CondaDependencies.create(conda_packages=['scikit-learn','ipykernel','matplotlib', 'pandas'],
                                          pip_packages=['azureml-sdk','pyarrow'])

# 将依赖项添加到环境
diabetes_env.python.conda_dependencies = diabetes_packages

print(diabetes_env.name, 'defined.')

现在可以通过将环境分配给估算器（或 RunConfig）来使用环境进行试验。

以下代码将创建的环境分配给通用估算器，然后提交试验。试验运行期间，注意小组件和 **azureml_logs/60_control_log.txt** 输出日志中的运行详细信息，你将看到构建中的 conda 环境。

In [None]:
from azureml.train.estimator import Estimator
from azureml.core import Experiment
from azureml.widgets import RunDetails

# 设置脚本参数
script_params = {
    '--regularization': 0.1
}

# 获取训练数据集
diabetes_ds = ws.datasets.get("diabetes dataset")

# 创建估算器
estimator = Estimator(source_directory=experiment_folder,
              inputs=[diabetes_ds.as_named_input('diabetes')], # 将数据集作为输入传递
              script_params=script_params,
              compute_target = 'local',
              environment_definition = diabetes_env,
              entry_script='diabetes_training.py')

# 创建试验
experiment = Experiment(workspace = ws, name = 'diabetes-training')

# 运行试验
run = experiment.submit(config=estimator)
# 在运行时显示运行详细信息
RunDetails(run).show()
run.wait_for_completion()

试验成功使用了环境，其中包括其所需的所有包 - 你可以根据 Azure 机器学习工作室中运行的试验或通过运行以下代码来查看指标和输出 - 包括使用 **scikit-learn** 训练的模型和使用 **matplotlib** 生成的 ROC 图表图像。

In [None]:
# 获取记录的指标
metrics = run.get_metrics()
for key in metrics.keys():
        print(key, metrics.get(key))
print('\n')
for file in run.get_file_names():
    print(file)

## 注册环境

使用所需包定义环境后，可以在工作区中注册它。

In [None]:
# 注册环境
diabetes_env.register(workspace=ws)

请注意，该环境的注册名称为首次创建时所分配的名称（本例中为 *diabetes-experiment-env*）。

注册环境后，可以将其重用于需求相同的任何脚本。例如，创建文件夹和脚本以使用其他算法训练糖尿病模型：

In [None]:
import os

# 为试验文件创建文件夹
experiment_folder = 'diabetes_training_tree'
os.makedirs(experiment_folder, exist_ok=True)
print(experiment_folder, 'folder created')

In [None]:
%%writefile $experiment_folder/diabetes_training.py
# 导入库
from azureml.core import Run
import pandas as pd
import numpy as np
import joblib
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import roc_auc_score
from sklearn.metrics import roc_curve
import matplotlib.pyplot as plt

# 获取试验运行上下文
run = Run.get_context()

# 加载糖尿病数据（作为输入数据集传递）
print("Loading Data...")
diabetes = run.input_datasets['diabetes'].to_pandas_dataframe()

# 分隔特征和标签
X, y = diabetes[['Pregnancies','PlasmaGlucose','DiastolicBloodPressure','TricepsThickness','SerumInsulin','BMI','DiabetesPedigree','Age']].values, diabetes['Diabetic'].values

# 将数据拆分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=0)

# 训练决策树模型
print('Training a decision tree model')
model = DecisionTreeClassifier().fit(X_train, y_train)

# 计算精度
y_hat = model.predict(X_test)
acc = np.average(y_hat == y_test)
print('Accuracy:', acc)
run.log('Accuracy', np.float(acc))

# 计算 AUC
y_scores = model.predict_proba(X_test)
auc = roc_auc_score(y_test,y_scores[:,1])
print('AUC: ' + str(auc))
run.log('AUC', np.float(auc))

# 绘制 ROC 曲线
fpr, tpr, thresholds = roc_curve(y_test, y_scores[:,1])
fig = plt.figure(figsize=(6, 4))
# 绘制 50% 对角线
plt.plot([0, 1], [0, 1], 'k--')
# 绘制模型实现的 FPR 和 TPR
plt.plot(fpr, tpr)
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('ROC Curve')
run.log_image(name = "ROC", plot = fig)
plt.show()

os.makedirs('outputs', exist_ok=True)
# 注意，保存在输出文件夹中的文件会自动上传到试验记录
joblib.dump(value=model, filename='outputs/diabetes_model.pkl')

run.complete()

现在可以检索已注册的环境，并使用它为运行替代训练脚本的新试验配置估算器（此时没有脚本参数，这是因为“决策树”分类器不需要任何超参数值）。

In [None]:
from azureml.train.estimator import Estimator
from azureml.core import Environment, Experiment
from azureml.widgets import RunDetails

registered_env = Environment.get(ws, 'diabetes-experiment-env')

# 获取训练数据集
diabetes_ds = ws.datasets.get("diabetes dataset")

# 创建估算器
estimator = Estimator(source_directory=experiment_folder,
              inputs=[diabetes_ds.as_named_input('diabetes')], # 将数据集作为输入传递
              compute_target = 'local',
              environment_definition = registered_env,
              entry_script='diabetes_training.py')

# 创建试验
experiment = Experiment(workspace = ws, name = 'diabetes-training')

# 运行试验
run = experiment.submit(config=estimator)
# 在运行时显示运行详细信息
RunDetails(run).show()
run.wait_for_completion()

此时试验运行速度更快，这是因为上次运行中缓存有匹配环境，因此无需在本地计算机上重建。但即使是在不同的计算目标上，也会创建和使用相同的环境 - 确保试验脚本执行上下文的一致性。

接下来看一下试验的指标和输出。

In [None]:
# 获取记录的指标
metrics = run.get_metrics()
for key in metrics.keys():
        print(key, metrics.get(key))
print('\n')
for file in run.get_file_names():
    print(file)

此模型似乎比逻辑回归模型好一点，因此我们将注册它。

In [None]:
from azureml.core import Model

run.register_model(model_path='outputs/diabetes_model.pkl', model_name='diabetes_model',
                   tags={'Training context':'Estimator + Environment (Decision Tree)'}, properties={'AUC': run.get_metrics()['AUC'], 'Accuracy': run.get_metrics()['Accuracy']})

for model in Model.list(ws):
    print(model.name, 'version:', model.version)
    for tag_name in model.tags:
        tag = model.tags[tag_name]
        print ('\t',tag_name, ':', tag)
    for prop_name in model.properties:
        prop = model.properties[prop_name]
        print ('\t',prop_name, ':', prop)
    print('\n')

## 查看已注册的环境

除注册自己的环境以外，你还可以将预建的“策展”环境用于常见类型的试验。以下代码列出了所有已注册的环境：

In [None]:
from azureml.core import Environment

envs = Environment.list(workspace=ws)
for env in envs:
    print("Name",env)

所有策展环境的名称都以 ***AzureML-*** 开头（不能将此前缀用于自己的环境）。

接下来更深入地了解策展环境，了解每个环境中包含的包。

In [None]:
for env in envs:
    if env.startswith("AzureML"):
        print("Name",env)
        print("packages", envs[env].python.conda_dependencies.serialize_to_string())

> **更多信息**：若要详细了解 Azure 机器学习中的环境，请参阅 [Azure 机器学习文档](https://docs.microsoft.com/azure/machine-learning/how-to-use-environments)