#使用数据存储

在之前的实验中，你连接到 Azure ML 工作区并根据运行试验脚本的本地 CSV 文件中的数据运行了一个简单试验。现在是时候使用存储在云中的数据了。

> **重要事项**：本笔记本中的代码假定你已完成[实验 4A](labdocs/Lab04A.md) 中的前两个任务。如果尚未完成，请立即完成！

##连接到工作区

你首先需要使用 Azure ML SDK 连接到工作区。

> **注意**：如果 Azure 订阅的身份验证会话在你完成上一练习后已过期，系统将提示你重新进行身份验证。

In [None]:
import azureml.core
from azureml.core import Workspace

#从保存的配置文件加载工作区
ws = Workspace.from_config()
print('Ready to use Azure ML {} to work with {}'.format(azureml.core.VERSION, ws.name))

##查看工作区中的数据存储

工作区包含多个数据存储，其中包括[上一任务](labdocs/Lab04A.md)中创建的 **aml_data** 数据存储。

运行以下代码检索*默认*数据存储，然后列出所有数据存储，指出默认项。

In [None]:
#获取默认数据存储
default_ds = ws.get_default_datastore()

#枚举所有数据存储，指出默认项
for ds_name in ws.datastores:
    print(ds_name, "- Default =", ds_name == default_ds.name)

##获取要使用的数据存储

你需要使用 **aml_data** 数据存储，因此需按名称获取它：

In [None]:
from azureml.core import Datastore

aml_datastore = Datastore.get(ws, 'aml_data')
print(aml_datastore.name,":", aml_datastore.datastore_type + " (" + aml_datastore.account_name + ")")

##设置默认数据存储

你将主要使用本课程中的 **aml_data** 数据存储；因此，为方便起见，可以将其设置为默认数据存储：

In [None]:
ws.set_default_datastore('aml_data')
default_ds = ws.get_default_datastore()
print(default_ds.name)

##将数据上传到数据存储

确定要使用的数据存储后，可以从本地文件系统上传文件，使工作区中运行的试验可以对文件进行访问，无论试验脚本运行位置是什么，都是如此。

In [None]:
default_ds.upload_files(files=['./data/diabetes.csv', './data/diabetes2.csv'], #将糖尿病 csv 文件上传到 /data 中
                       target_path='diabetes-data/', #将其放在数据存储的文件夹路径中
                       overwrite=True, #替换名称相同的现有文件
                       show_progress=True)

##从数据存储训练模型

上传上述代码单元格中的文件时，请注意该代码返回了*数据引用*。数据引用可以将数据存储中的文件夹的路径传递到脚本（无论脚本运行位置是什么），使脚本可以访问数据存储位置中的数据。

以下代码可引用其中上传了糖尿病 CSV 文件的 **diabetes-data** 文件夹，还可专门配置用于*下载*的数据引用 - 换句话说，它可用于将文件夹的内容下载到使用数据引用的计算上下文中。对于将在本地计算机上处理的少量数据，下载数据效果很好。使用远程计算时，你还可以将数据引用配置为*装载*数据存储位置并直接从数据源读取数据。

> **更多信息**：有关使用数据存储的更多详细信息，请参阅 [Azure ML 文档](https://docs.microsoft.com/azure/machine-learning/how-to-access-data)。

In [None]:
data_ref = default_ds.path('diabetes-data').as_download(path_on_compute='diabetes_data')
print(data_ref)

若要在训练脚本中使用数据引用，则必须为其定义参数。运行以下两个代码单元格，创建以下内容：

1.名为 **diabetes_training_from_datastore** 的文件夹
2.使用训练数据来训练分类模型的脚本，该数据位于数据引用参数（传递给脚本）所引用的文件夹的所有 CSV 文件中。

In [None]:
import os

#为试验文件创建文件夹
experiment_folder = 'diabetes_training_from_datastore'
os.makedirs(experiment_folder, exist_ok=True)
print(experiment_folder, 'folder created.')

In [None]:
%%writefile $experiment_folder/diabetes_training.py
#导入库
import os
import argparse
from azureml.core import Run
import pandas as pd
import numpy as np
import joblib
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_auc_score
from sklearn.metrics import roc_curve

#获取参数
parser = argparse.ArgumentParser()
parser.add_argument('--regularization', type=float, dest='reg_rate', default=0.01, help='regularization rate')
parser.add_argument('--data-folder', type=str, dest='data_folder', help='data folder reference')
args = parser.parse_args()
reg = args.reg_rate

#获取试验运行上下文
run = Run.get_context()

#从数据引用加载糖尿病数据
data_folder = args.data_folder
print("Loading data from", data_folder)
#加载所有文件并将其内容连接为单个数据帧
all_files = os.listdir(data_folder)
diabetes = pd.concat((pd.read_csv(os.path.join(data_folder,csv_file)) for csv_file in all_files))

#分隔特征和标签
X, y = diabetes[['Pregnancies','PlasmaGlucose','DiastolicBloodPressure','TricepsThickness','SerumInsulin','BMI','DiabetesPedigree','Age']].values, diabetes['Diabetic'].values

#将数据拆分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=0)

#训练逻辑回归模型
print('Training a logistic regression model with regularization rate of', reg)
run.log('Regularization Rate',  np.float(reg))
model = LogisticRegression(C=1/reg, solver="liblinear").fit(X_train, y_train)

#计算精度
y_hat = model.predict(X_test)
acc = np.average(y_hat == y_test)
print('Accuracy:', acc)
run.log('Accuracy', np.float(acc))

#计算 AUC
y_scores = model.predict_proba(X_test)
auc = roc_auc_score(y_test,y_scores[:,1])
print('AUC: ' + str(auc))
run.log('AUC', np.float(auc))

os.makedirs('outputs', exist_ok=True)
#注意，保存在输出文件夹中的文件会自动上传到试验记录
joblib.dump(value=model, filename='outputs/diabetes_model.pkl')

run.complete()

脚本将从数据引用（作为参数传递给脚本）加载训练数据，因此现在只需设置脚本参数，以便运行试验时传递文件引用。

In [None]:
from azureml.train.sklearn import SKLearn
from azureml.core import Experiment
from azureml.widgets import RunDetails

#设置参数
script_params = {
    '--regularization': 0.1, #正则化率
    '--data-folder': data_ref #从数据存储下载文件的数据引用
}


#创建估算器
estimator = SKLearn(source_directory=experiment_folder,
                    entry_script='diabetes_training.py',
                    script_params=script_params,
                    compute_target = 'local'
                   )

#创建试验
experiment_name = 'diabetes-training'
experiment = Experiment(workspace = ws, name = experiment_name)

#运行试验
run = experiment.submit(config=estimator)
#在运行时显示运行详细信息
RunDetails(run).show()
run.wait_for_completion()

首次运行试验时，可能需要一些时间来设置 Python 环境 - 后续运行会更快。

试验完成后，在小组件中查看 **azureml-logs/70_driver_log.txt** 输出日志以验证是否已下载数据文件。

与所有试验一样，可以在 [Azure 机器学习工作室](https://ml.azure.com)中查看试验运行的详细信息，还可以编写代码检索生成的指标和文件：

In [None]:
#获取记录的指标
metrics = run.get_metrics()
for key in metrics.keys():
        print(key, metrics.get(key))
print('\n')
for file in run.get_file_names():
    print(file)

同样，可以注册由试验训练的模型。

In [None]:
from azureml.core import Model

#注册模型
run.register_model(model_path='outputs/diabetes_model.pkl', model_name='diabetes_model',
                   tags={'Training context':'SKLearn Estimator (using Datastore)'}, properties={'AUC': run.get_metrics()['AUC'], 'Accuracy': run.get_metrics()['Accuracy']})

#列出已注册的模型
print("Registered Models:")
for model in Model.list(ws):
    print(model.name, 'version:', model.version)
    for tag_name in model.tags:
        tag = model.tags[tag_name]
        print ('\t',tag_name, ':', tag)
    for prop_name in model.properties:
        prop = model.properties[prop_name]
        print ('\t',prop_name, ':', prop)
    print('\n')

在本练习中，你了解了一些用于使用*数据存储*形式的数据的选项。

Azure 机器学习可对数据集形式的数据进行进一*步地*抽象，接下来我们将对此进行了解。