# 处理数据

数据是构建机器学习模型的基础。 在云中集中管理数据，并使在多个工作站上运行试验和训练模型的数据科学家团队能够访问这些数据以及计算目标，这是任何专业数据科学解决方案的重要组成部分。

在该笔记本中，你将探索两个用于数据处理的 Azure 机器学习对象：数据存储和数据资产 。

## 准备工作

需要最新版本的 azureml-ai-ml 包才能运行此笔记本中的代码。 运行下面的单元以验证是否已安装它。

> **注意**：
> 如果未安装 azure-ai-ml 包，请运行 `pip install azure-ai-ml` 以进行安装。

In [None]:
## 连接到工作区

安装必需的 SDK 包后，就可以连接到工作区了。

若要连接到工作区，我们需要标识符参数 - 订阅 ID、资源组名称和工作区名称。 已为你填写资源组名称和工作区名称。 只需订阅 ID 即可完成命令。

若要查找所需的参数，请单击工作室右上角的订阅和工作区名称。 右侧将打开一个窗格。

<p style="color:red;font-size:120%;background-color:yellow;font-weight:bold"> 复制订阅 ID，并将“YOUR-SUBSCRIPTION-ID”替换为复制的值。 </p>

## 列出数据存储

创建 Azure 机器学习工作区时，还会创建 Azure 存储帐户。 存储帐户包括 Blob 和文件存储，并作为“数据存储”自动与工作区连接。 可以列出连接到工作区的所有数据存储：

In [None]:
请注意连接到你之前浏览的“azureml-blobstore-...”容器的 `workspaceblobstore`。 `workspacefilestore` 连接到“code-...”文件共享。

In [None]:
## 创建数据存储

每当要将另一个 Azure 存储服务与 Azure 机器学习工作区连接时，都可以创建数据存储。 请注意，创建数据存储会在工作区和存储之间创建连接，而不会创建存储服务本身。 

若要创建数据存储并连接到（现有的）存储，需要指定：

- 一个类，用于指示要连接的存储服务类型。 以下示例连接到 Blob 存储 (`AzureBlobDatastore`)。
- `name`：Azure 机器学习工作区中数据存储的显示名称。
- `description`：可选说明，用于提供有关数据存储的详细信息。
- `account_name`：Azure 存储帐户的名称。
- `container_name`：容器的名称，用于在 Azure 存储帐户中存储 Blob。
- `credentials`：提供身份验证方法和身份验证凭据。 以下示例使用帐户密钥。

**重要提示**： 
- 将“YOUR-STORAGE-ACCOUNT-NAME”替换为自动创建的存储帐户的名称。 
- 将 `account_key` 的 XXXX-XXXX 替换为 Azure 存储帐户的帐户密钥。 

请记住，可以通过导航到 [Azure 门户](https://portal.azure.com)来检索帐户密钥，从“访问密钥”选项卡转到存储帐户，复制 key1 或 key2 的密钥值 。 

再次列出数据存储，验证是否已创建名为 `blob_training_data` 的新数据存储：

In [None]:
## 创建数据资产

若要指向数据存储中的特定文件夹或文件，可以创建数据资产。 数据资产有三种类型：

- `URI_FILE` 指向特定文件。
- `URI_FOLDER` 指向特定文件夹。
- `MLTABLE` 指向 MLTable 文件，该文件指定如何读取文件夹中的一个或多个文件。

你将创建所有三种类型的数据资产来体验它们之间的差异。

若要创建 `URI_FILE` 数据资产，必须指定指向特定文件的路径。 该路径可以是本地路径或云路径。

在下面的示例中，你将通过引用本地路径来创建数据资产。 为了确保在使用 Azure 机器学习工作区时数据始终可用，本地文件将自动上传到默认数据存储。 在这种情况下，`diabetes.csv` 文件将上传到 workspaceblobstore 数据存储中的 LocalUpload 文件夹 。 

若要从本地文件创建数据资产，请运行以下单元：

若要创建 `URI_FOLDER` 数据资产，必须指定指向特定文件夹的路径。 该路径可以是本地路径或云路径。

在下面的示例中，你将通过引用云路径来创建数据资产。 该路径尚不一定存在。 将数据上传到路径时，会创建该文件夹。

In [None]:
若要创建 `MLTable` 数据资产，必须指定指向包含 MLTable 文件的文件夹的路径。 该路径可以是本地路径或云路径。 

在以下示例中，你将通过引用包含 MLTable 和 CSV 文件的本地路径来创建数据资产。 

若要验证是否已创建新的数据资产，可以再次列出工作区中的所有数据资产：

In [None]:
## 读取笔记本中的数据

最开始可能希望使用笔记本中的数据资产，以浏览数据并试验机器学习模型。 任何 `URI_FILE` 或 `URI_FOLDER` 类型的数据资产都按正常读取数据的方式进行读取。 例如，若要读取数据资产所指向的 CSV 文件，可以使用 pandas 函数 `read_csv()`。 

`MLTable` 类型的数据资产已由 MLTable 文件读取，该文件指定架构以及如何解析数据。 由于数据已读取，因此可以轻松地将 MLTable 数据资产转换为 pandas 数据帧。 

需要安装 `mltable` 库（已在终端中进行安装）。 然后，可以将数据资产转换为数据帧并将数据可视化。  

## 使用作业中的数据

使用笔记本进行试验后。 可以使用脚本来训练机器学习模型。 脚本可以作为作业运行，你可以为每个作业指定输入和输出。 

可以使用“数据资产”或“数据存储路径”作为作业的输入或输出 。 

下面的单元会在 src 文件夹中创建 move-data.py 脚本 。 该脚本使用 `read_csv()` 函数读取输入数据。 然后，脚本将数据以 CSV 文件形式存储在输出路径中。

若要提交运行 move-data.py 脚本的作业，请运行以下单元。 

作业配置为使用数据资产 `diabetes-local`，指向本地 diabetes.csv 文件作为输入。 输出是指向新数据存储 `blob_training_data` 中的文件夹的路径。

In [None]:
from azure.ai.ml.entities import Data
from azure.ai.ml.constants import AssetTypes

my_path = './data/diabetes.csv'

my_data = Data(
    path=my_path,
    type=AssetTypes.URI_FILE,
    description="Data asset pointing to a local file, automatically uploaded to the default datastore",
    name="diabetes-local"
)

ml_client.data.create_or_update(my_data)

To create a `URI_FOLDER` data asset, you have to specify a path that points to a specific folder. The path can be a local path or cloud path.

In the example below, you'll create a data asset by referencing a *cloud* path. The path doesn't have to exist yet. The folder will be created when data is uploaded to the path.

In [None]:
from azure.ai.ml.entities import Data
from azure.ai.ml.constants import AssetTypes

datastore_path = 'azureml://datastores/blob_training_data/paths/data-asset-path/'

my_data = Data(
    path=datastore_path,
    type=AssetTypes.URI_FOLDER,
    description="Data asset pointing to data-asset-path folder in datastore",
    name="diabetes-datastore-path"
)

ml_client.data.create_or_update(my_data)

To create a `MLTable` data asset, you have to specify a path that points to a folder which contains a MLTable file. The path can be a local path or cloud path. 

In the example below, you'll create a data asset by referencing a *local* path which contains an MLTable and CSV file. 

In [None]:
from azure.ai.ml.entities import Data
from azure.ai.ml.constants import AssetTypes

local_path = 'data/'

my_data = Data(
    path=local_path,
    type=AssetTypes.MLTABLE,
    description="MLTable pointing to diabetes.csv in data folder",
    name="diabetes-table"
)

ml_client.data.create_or_update(my_data)

To verify that the new data assets have been created, you can list all data assets in the workspace again:

In [None]:
datasets = ml_client.data.list()
for ds_name in datasets:
    print(ds_name.name)

## Read data in notebook

Initially, you may want to work with data assets in notebooks, to explore the data and experiment with machine learning models. Any `URI_FILE` or `URI_FOLDER` type data assets are read as you would normally read data. For example, to read a CSV file a data asset points to, you can use the pandas function `read_csv()`. 

A `MLTable` type data asset is already *read* by the **MLTable** file, which specifies the schema and how to interpret the data. Since the data is already *read*, you can easily convert a MLTable data asset to a pandas dataframe. 

You'll need to install the `mltable` library (which you did in the terminal). Then, you can convert the data asset to a dataframe and visualize the data.  

In [None]:
import mltable

registered_data_asset = ml_client.data.get(name='diabetes-table', version=1)
tbl = mltable.load(f"azureml:/{registered_data_asset.id}")
df = tbl.to_pandas_dataframe()
df.head(5)

## Use data in a job

After using a notebook for experimentation. You can use scripts to train machine learning models. A script can be run as a job, and for each job you can specify inputs and outputs. 

You can use either **data assets** or **datastore paths** as inputs or outputs of a job. 

The cells below creates the **move-data.py** script in the **src** folder. The script reads the input data with the `read_csv()` function. The script then stores the data as a CSV file in the output path.

In [None]:
import os

# create a folder for the script files
script_folder = 'src'
os.makedirs(script_folder, exist_ok=True)
print(script_folder, 'folder created')

In [None]:
%%writefile $script_folder/move-data.py
# import libraries
import argparse
import pandas as pd
import numpy as np
from pathlib import Path

def main(args):
    # read data
    df = get_data(args.input_data)

    output_df = df.to_csv((Path(args.output_datastore) / "diabetes.csv"), index = False)

# function that reads the data
def get_data(path):
    df = pd.read_csv(path)

    # Count the rows and print the result
    row_count = (len(df))
    print('Analyzing {} rows of data'.format(row_count))
    
    return df

def parse_args():
    # setup arg parser
    parser = argparse.ArgumentParser()

    # add arguments
    parser.add_argument("--input_data", dest='input_data',
                        type=str)
    parser.add_argument("--output_datastore", dest='output_datastore',
                        type=str)

    # parse args
    args = parser.parse_args()

    # return args
    return args

# run script
if __name__ == "__main__":
    # add space in logs
    print("\n\n")
    print("*" * 60)

    # parse args
    args = parse_args()

    # run main function
    main(args)

    # add space in logs
    print("*" * 60)
    print("\n\n")


To submit a job that runs the **move-data.py** script, run the cell below. 

The job is configured to use the data asset `diabetes-local`, pointing to the local **diabetes.csv** file as input. The output is a path pointing to a folder in the new datastore `blob_training_data`.

In [None]:
from azure.ai.ml import Input, Output
from azure.ai.ml.constants import AssetTypes
from azure.ai.ml import command

# configure input and output
my_job_inputs = {
    "local_data": Input(type=AssetTypes.URI_FILE, path="azureml:diabetes-local:1")
}

my_job_outputs = {
    "datastore_data": Output(type=AssetTypes.URI_FOLDER, path="azureml://datastores/blob_training_data/paths/datastore-path")
}

# configure job
job = command(
    code="./src",
    command="python move-data.py --input_data ${{inputs.local_data}} --output_datastore ${{outputs.datastore_data}}",
    inputs=my_job_inputs,
    outputs=my_job_outputs,
    environment="AzureML-sklearn-0.24-ubuntu18.04-py37-cpu@latest",
    compute="aml-cluster",
    display_name="move-diabetes-data",
    experiment_name="move-diabetes-data"
)

# submit job
returned_job = ml_client.create_or_update(job)
aml_url = returned_job.studio_url
print("Monitor your job at", aml_url)