# 使用資料

資料是建置機器學習模型的基礎。 集中管理雲端中的資料，並讓在多個工作站和計算目標上執行實驗和定型模型的資料科學家小組成為任何專業資料科學解決方案的重要部分。

在此筆記本中，您將探索兩個 Azure Machine Learning 物件來處理資料： *資料存放*區和 *資料資產*。

## 開始之前

您將需要最新版的 **azureml-ai-ml** 套件，才能在此筆記本中執行程式碼。 執行下列資料格以確認已安裝它。

> **注意**：
> 如果未安裝 **azure-ai-ml** 套件，請執行 `pip install azure-ai-ml` 以安裝它。

In [None]:
## 連線到您的工作區

安裝必要的 SDK 套件之後，現在您已準備好連線到您的工作區。

若要連線到工作區，我們需要識別碼參數 - 訂用帳戶識別碼、資源組名和工作區名稱。 資源組名和工作區名稱已為您填入。 您只需要訂用帳戶識別碼才能完成命令。

若要尋找必要的參數，請按一下 Studio 右上方的訂用帳戶和工作區名稱。 窗格會在右側開啟。

<p style="color:red;font-size:120%;background-color:yellow;font-weight:bold"> 複製訂用帳戶識別碼，並將 **YOUR-SUBSCRIPTION-ID** 取代為您複製的值。 </p>

## 列出資料存放區

當您建立 Azure Machine Learning 工作區時，也會建立 Azure 儲存體帳戶。 儲存體帳戶包含 Blob 和檔案儲存體，並會自動與您的工作區連線為數據存放 **區**。 您可以列出連線到工作區的所有資料存放區：

In [None]:
請注意，這會 `workspaceblobstore` 連線到您稍早探索的 **azureml-blobstore-...** 容器。 會 `workspacefilestore` 連線到 **程式碼-...** 檔案共用。

In [None]:
## 建立資料存放區

每當您想要將另一個 Azure 儲存體服務與 Azure Machine Learning 工作區連線時，您可以建立資料存放區。 請注意，建立資料存放區、建立工作區與儲存體之間的連線，它不會建立儲存體服務本身。 

若要建立資料存放區並聯機到已存在的) 儲存體 (，您必須指定：

- 類別，用來指出您想要連線的儲存體服務類型。 下列範例會連線到 Blob 儲存體 (`AzureBlobDatastore`) 。
- `name`：Azure Machine Learning 工作區中資料存放區的顯示名稱。
- `description`：選擇性描述，以提供資料存放區的詳細資訊。
- `account_name`：Azure 儲存體帳戶的名稱。
- `container_name`：要儲存 Azure 儲存體帳戶中 Blob 的容器名稱。
- `credentials`：提供驗證的方法和要驗證的認證。 下列範例使用帳戶金鑰。

**重要**： 
- 將 **YOUR-STORAGE-ACCOUNT-NAME** 取代為您自動建立的儲存體帳戶名稱。 
- 將 的 `account_key` **XXXX-XXXX**取代為您 Azure 儲存體帳戶的帳戶金鑰。 

請記住，您可以流覽至[[Azure 入口網站](https://portal.azure.com)]、從 [**存取金鑰**] 索引標籤，複製 key1 或 key2 的 [**金鑰**] 值，以擷取帳戶金鑰。 

再次列出資料存放區，以確認已建立名為 的新資料存放 `blob_training_data` 區：

In [None]:
## 建立資料資產

若要指向資料存放區中的特定資料夾或檔案，您可以建立資料資產。 資料資產有三種類型：

- `URI_FILE` 指向特定檔案。
- `URI_FOLDER` 指向特定資料夾。
- `MLTABLE` 指向 MLTable 檔案，指定如何讀取資料夾中的一或多個檔案。

您將建立這三種類型的資料資產，以體驗它們之間的差異。

若要建立 `URI_FILE` 資料資產，您必須指定指向特定檔案的路徑。 路徑可以是本機路徑或雲端路徑。

在下列範例中，您將藉由參考 *本機* 路徑來建立資料資產。 為了確保使用 Azure Machine Learning 工作區時一律可使用資料，本機檔案會自動上傳至預設資料存放區。 在此情況下，檔案 `diabetes.csv` 會上傳至**workspaceblobstore**資料存放區中的**LocalUpload**資料夾。 

若要從本機檔案建立資料資產，請執行下列資料格：

若要建立 `URI_FOLDER` 資料資產，您必須指定指向特定資料夾的路徑。 路徑可以是本機路徑或雲端路徑。

在下列範例中，您將藉由參考 *雲端* 路徑來建立資料資產。 路徑尚未存在。 資料上傳至路徑時，將會建立資料夾。

In [None]:
若要建立 `MLTable` 資料資產，您必須指定指向包含 MLTable 檔案之資料夾的路徑。 路徑可以是本機路徑或雲端路徑。 

在下列範例中，您將藉由參考包含 MLTable 和 CSV 檔案的 *本機* 路徑來建立資料資產。 

若要確認已建立新的資料資產，您可以再次列出工作區中的所有資料資產：

In [None]:
## 讀取筆記本中的資料

一開始，您可能想要使用筆記本中的資料資產，以探索資料並實驗機器學習模型。 任何 `URI_FILE` 或 `URI_FOLDER` 類型資料資產都會讀取，就像您通常會讀取資料一樣。 例如，若要讀取資料資產指向的 CSV 檔案，您可以使用 pandas 函式 `read_csv()` 。 

`MLTable` **MLTable**檔案已經*讀取*類型資料資產，它會指定架構以及如何解譯資料。 由於資料已經 *讀取*，因此您可以輕鬆地將 MLTable 資料資產轉換成 pandas 資料框架。 

您必須在 `mltable` 終端機) 安裝程式庫 (。 然後，您可以將資料資產轉換成資料框架，並將資料視覺化。  

## 在作業中使用資料

使用筆記本進行實驗之後。 您可以使用腳本來定型機器學習模型。 腳本可以當做作業執行，而針對每個作業，您可以指定輸入和輸出。 

您可以使用 **資料資產或資料** 存放 **區路徑** 作為作業的輸入或輸出。 

下列儲存格會在**src**資料夾中建立**move-data.py**腳本。 腳本會使用 `read_csv()` 函式讀取輸入資料。 然後，腳本會將資料儲存為輸出路徑中的 CSV 檔案。

若要提交執行 **move-data.py** 腳本的作業，請執行下列儲存格。 

作業已設定為使用資料資產 `diabetes-local` ，指向本機 **diabetes.csv** 檔案作為輸入。 輸出是指向新 `blob_training_data` 資料存放區 中資料夾的路徑。

In [None]:
from azure.ai.ml.entities import Data
from azure.ai.ml.constants import AssetTypes

my_path = './data/diabetes.csv'

my_data = Data(
    path=my_path,
    type=AssetTypes.URI_FILE,
    description="Data asset pointing to a local file, automatically uploaded to the default datastore",
    name="diabetes-local"
)

ml_client.data.create_or_update(my_data)

To create a `URI_FOLDER` data asset, you have to specify a path that points to a specific folder. The path can be a local path or cloud path.

In the example below, you'll create a data asset by referencing a *cloud* path. The path doesn't have to exist yet. The folder will be created when data is uploaded to the path.

In [None]:
from azure.ai.ml.entities import Data
from azure.ai.ml.constants import AssetTypes

datastore_path = 'azureml://datastores/blob_training_data/paths/data-asset-path/'

my_data = Data(
    path=datastore_path,
    type=AssetTypes.URI_FOLDER,
    description="Data asset pointing to data-asset-path folder in datastore",
    name="diabetes-datastore-path"
)

ml_client.data.create_or_update(my_data)

To create a `MLTable` data asset, you have to specify a path that points to a folder which contains a MLTable file. The path can be a local path or cloud path. 

In the example below, you'll create a data asset by referencing a *local* path which contains an MLTable and CSV file. 

In [None]:
from azure.ai.ml.entities import Data
from azure.ai.ml.constants import AssetTypes

local_path = 'data/'

my_data = Data(
    path=local_path,
    type=AssetTypes.MLTABLE,
    description="MLTable pointing to diabetes.csv in data folder",
    name="diabetes-table"
)

ml_client.data.create_or_update(my_data)

To verify that the new data assets have been created, you can list all data assets in the workspace again:

In [None]:
datasets = ml_client.data.list()
for ds_name in datasets:
    print(ds_name.name)

## Read data in notebook

Initially, you may want to work with data assets in notebooks, to explore the data and experiment with machine learning models. Any `URI_FILE` or `URI_FOLDER` type data assets are read as you would normally read data. For example, to read a CSV file a data asset points to, you can use the pandas function `read_csv()`. 

A `MLTable` type data asset is already *read* by the **MLTable** file, which specifies the schema and how to interpret the data. Since the data is already *read*, you can easily convert a MLTable data asset to a pandas dataframe. 

You'll need to install the `mltable` library (which you did in the terminal). Then, you can convert the data asset to a dataframe and visualize the data.  

In [None]:
import mltable

registered_data_asset = ml_client.data.get(name='diabetes-table', version=1)
tbl = mltable.load(f"azureml:/{registered_data_asset.id}")
df = tbl.to_pandas_dataframe()
df.head(5)

## Use data in a job

After using a notebook for experimentation. You can use scripts to train machine learning models. A script can be run as a job, and for each job you can specify inputs and outputs. 

You can use either **data assets** or **datastore paths** as inputs or outputs of a job. 

The cells below creates the **move-data.py** script in the **src** folder. The script reads the input data with the `read_csv()` function. The script then stores the data as a CSV file in the output path.

In [None]:
import os

# create a folder for the script files
script_folder = 'src'
os.makedirs(script_folder, exist_ok=True)
print(script_folder, 'folder created')

In [None]:
%%writefile $script_folder/move-data.py
# import libraries
import argparse
import pandas as pd
import numpy as np
from pathlib import Path

def main(args):
    # read data
    df = get_data(args.input_data)

    output_df = df.to_csv((Path(args.output_datastore) / "diabetes.csv"), index = False)

# function that reads the data
def get_data(path):
    df = pd.read_csv(path)

    # Count the rows and print the result
    row_count = (len(df))
    print('Analyzing {} rows of data'.format(row_count))
    
    return df

def parse_args():
    # setup arg parser
    parser = argparse.ArgumentParser()

    # add arguments
    parser.add_argument("--input_data", dest='input_data',
                        type=str)
    parser.add_argument("--output_datastore", dest='output_datastore',
                        type=str)

    # parse args
    args = parser.parse_args()

    # return args
    return args

# run script
if __name__ == "__main__":
    # add space in logs
    print("\n\n")
    print("*" * 60)

    # parse args
    args = parse_args()

    # run main function
    main(args)

    # add space in logs
    print("*" * 60)
    print("\n\n")


To submit a job that runs the **move-data.py** script, run the cell below. 

The job is configured to use the data asset `diabetes-local`, pointing to the local **diabetes.csv** file as input. The output is a path pointing to a folder in the new datastore `blob_training_data`.

In [None]:
from azure.ai.ml import Input, Output
from azure.ai.ml.constants import AssetTypes
from azure.ai.ml import command

# configure input and output
my_job_inputs = {
    "local_data": Input(type=AssetTypes.URI_FILE, path="azureml:diabetes-local:1")
}

my_job_outputs = {
    "datastore_data": Output(type=AssetTypes.URI_FOLDER, path="azureml://datastores/blob_training_data/paths/datastore-path")
}

# configure job
job = command(
    code="./src",
    command="python move-data.py --input_data ${{inputs.local_data}} --output_datastore ${{outputs.datastore_data}}",
    inputs=my_job_inputs,
    outputs=my_job_outputs,
    environment="AzureML-sklearn-0.24-ubuntu18.04-py37-cpu@latest",
    compute="aml-cluster",
    display_name="move-diabetes-data",
    experiment_name="move-diabetes-data"
)

# submit job
returned_job = ml_client.create_or_update(job)
aml_url = returned_job.studio_url
print("Monitor your job at", aml_url)