# データを処理する

データは、機械学習モデルが構築される基盤です。 クラウドで一元的にデータを管理し、複数のワークステーションとコンピューティング ターゲットで実験を実行してモデルをトレーニングしているデータ サイエンティストのチームがアクセスできるようにすることは、プロフェッショナルなデータ サイエンス ソリューションでは重要です。

このノートブックでは、データを操作するための 2 つの Azure Machine Learning オブジェクト、*データストア*と*データ資産*について学びます。

## 開始する前に

このノートブックでコードを実行するには、**azureml-ai-ml** パッケージの最新バージョンが必要です。 次のセルを実行して、パッケージがインストールされていることを確認します。

> **注**:
> **azure-ai-ml** パッケージがインストールされていない場合は、`pip install azure-ai-ml` を実行してインストールします。

In [None]:
## ワークスペースに接続する

必要な SDK パッケージがインストールされているため、ワークスペースに接続できます。

ワークスペースに接続するには、識別子パラメーター (サブスクリプション ID、リソース グループ名、ワークスペース名) が必要です。 リソース グループ名とワークスペース名は既に入力されています。 コマンドを完了するには、サブスクリプション ID のみが必要です。

必要なパラメーターを見つけるには、スタジオの右上にあるサブスクリプションとワークスペース名をクリックします。 右側にペインが開きます。

<p style="color:red;font-size:120%;background-color:yellow;font-weight:bold"> サブスクリプション ID をコピーし、**YOUR-SUBSCRIPTION-ID** をコピーした値に置き換えます。 </p>

## データストアを一覧表示する

Azure Machine Learning ワークスペースを作成すると、Azure ストレージ アカウントも作成されます。 ストレージ アカウントには BLOB ストレージとファイル ストレージが含まれており、**データストア**としてワークスペースに自動的に接続されます。 ワークスペースに接続されているすべてのデータストアを一覧表示できます。

In [None]:
先ほど調べた **azureml-blobstore-...** コンテナーに接続する `workspaceblobstore` に注意してください。 `workspacefilestore` は **code-...** ファイル共有に接続します。

In [None]:
## データストアを作成する

別の Azure ストレージ サービスを Azure Machine Learning ワークスペースに接続する場合は常に、データストアを作成できます。 データストアを作成すると、ワークスペースとストレージの間の接続が作成され、ストレージ サービス自体は作成されません。 

データストアを作成し、(既に存在する) ストレージに接続するには、次のものを指定する必要があります。

- 接続するストレージ サービスの種類を示すクラス。 次の例では、BLOB ストレージ (`AzureBlobDatastore`) に接続します。
- `name`: Azure Machine Learning ワークスペース内のデータストアの表示名。
- `description`: データストアに関する詳細情報を提供する説明 (省略可能)。
- `account_name`: Azure ストレージ アカウントの名前。
- `container_name`: Azure ストレージ アカウントに BLOB を格納するコンテナーの名前。
- `credentials`: 認証方法と認証する資格情報を指定します。 次の例では、アカウント キーを使います。

**重要**: 
- **YOUR-STORAGE-ACCOUNT-NAME** は、自動的に作成されたストレージ アカウントの名前に置き換えます。 
- `account_key` の **XXXX-XXXX** は、Azure ストレージ アカウントのアカウント キーに置き換えます。 

アカウント キーは、[Azure portal](https://portal.azure.com) に移動し、使用するストレージ アカウントに移動して、 **[アクセス キー]** タブから key1 または key2 の **[キー]** の値をコピーすることによって取得できることに注意してください。 

データストアをもう一度一覧表示して、`blob_training_data` という名前の新しいデータストアが作成されたことを確認します。

In [None]:
## データ資産を作成する

データストア内の特定のフォルダーまたはファイルをポイントするには、データ資産を作成します。 データ資産には次の 3 種類があります。

- `URI_FILE`: 特定のファイルを指します。
- `URI_FOLDER`: 特定のフォルダーを指します。
- `MLTABLE` は、フォルダー内の 1 つ以上のファイルを読み取る方法を指定する MLTable ファイルを指します。

3 種類のデータ資産すべてを作成して、それらの違いを体験しましょう。

`URI_FILE` データ資産を作成するには、特定のファイルを指すパスを指定する必要があります。 パスは、ローカル パスまたはクラウド パスにすることができます。

次の例では、"ローカル" パスを参照してデータ資産を作成します。** Azure Machine Learning ワークスペースを使用するときにデータを常に使用できるようにするために、ローカル ファイルは既定のデータストアに自動的にアップロードされます。 この例では、`diabetes.csv` ファイルは **workspaceblobstore** データストアの **LocalUpload** フォルダーにアップロードされます。 

ローカル ファイルからデータ資産を作成するには、次のセルを実行します。

`URI_FOLDER` データ資産を作成するには、特定のフォルダーを指すパスを指定する必要があります。 パスは、ローカル パスまたはクラウド パスにすることができます。

次の例では、"クラウド" パスを参照してデータ資産を作成します。** パスはまだ存在していなくてかまいません。 フォルダーは、データがパスにアップロードされるときに作成されます。

In [None]:
`MLTable` データ資産を作成するには、MLTable ファイルを含むフォルダーを指すパスを指定する必要があります。 パスは、ローカル パスまたはクラウド パスにすることができます。 

次の例では、MLTable の CSV ファイルを含む "ローカル" パスを参照して、データ資産を作成します。** 

新しいデータ資産が作成されたことを確認するには、ワークスペース内のすべてのデータ資産をもう一度一覧表示します。

In [None]:
## ノートブック内のデータを読み取る

最初は、ノートブック内のデータ資産を操作して、データを探索し、機械学習モデルを試すことができます。 種類が `URI_FILE` または `URI_FOLDER` のデータ資産は、通常のデータ読み取りの場合と同様に読み取ることができます。 たとえば、データ資産が指す CSV ファイルを読み込む場合は、pandas 関数 `read_csv()` を使用できます。 

種類が `MLTable` のデータ資産は、スキーマとデータの解釈方法を指定した **MLTable** ファイルによって既に "読み取り済み" です。** データは既に "読み取り済み" であるため、MLTable データ資産を pandas のデータフレームに簡単に変換できます。** 

`mltable` ライブラリをインストールする必要があります (ターミナルで行いました)。 その後、データ資産をデータフレームに変換し、データを視覚化できます。  

## ジョブでデータを使用する

実験にノートブックを使用した後。 スクリプトを使用して機械学習モデルをトレーニングできます。 スクリプトはジョブとして実行でき、ジョブごとに入力と出力を指定できます。 

ジョブの入力または出力として、**データ資産**または**データストア パス**のどちらでも使用できます。 

次に示すセルの場合、**src** フォルダーに **move-data.py** スクリプトを作成します。 スクリプトは、`read_csv()` 関数を使用して入力データを読み取ります。 その後、スクリプトはデータを CSV ファイルとして出力パスに格納します。

**move-data.py** スクリプトを実行するジョブを送信するには、次のセルを実行します。 

このジョブは、入力としてローカル **diabetes.csv** ファイルを指すデータ資産 `diabetes-local` を使用するように構成されています。 出力は、新しいデータストア `blob_training_data` 内のフォルダーを指すパスです。

In [None]:
from azure.ai.ml.entities import Data
from azure.ai.ml.constants import AssetTypes

my_path = './data/diabetes.csv'

my_data = Data(
    path=my_path,
    type=AssetTypes.URI_FILE,
    description="Data asset pointing to a local file, automatically uploaded to the default datastore",
    name="diabetes-local"
)

ml_client.data.create_or_update(my_data)

To create a `URI_FOLDER` data asset, you have to specify a path that points to a specific folder. The path can be a local path or cloud path.

In the example below, you'll create a data asset by referencing a *cloud* path. The path doesn't have to exist yet. The folder will be created when data is uploaded to the path.

In [None]:
from azure.ai.ml.entities import Data
from azure.ai.ml.constants import AssetTypes

datastore_path = 'azureml://datastores/blob_training_data/paths/data-asset-path/'

my_data = Data(
    path=datastore_path,
    type=AssetTypes.URI_FOLDER,
    description="Data asset pointing to data-asset-path folder in datastore",
    name="diabetes-datastore-path"
)

ml_client.data.create_or_update(my_data)

To create a `MLTable` data asset, you have to specify a path that points to a folder which contains a MLTable file. The path can be a local path or cloud path. 

In the example below, you'll create a data asset by referencing a *local* path which contains an MLTable and CSV file. 

In [None]:
from azure.ai.ml.entities import Data
from azure.ai.ml.constants import AssetTypes

local_path = 'data/'

my_data = Data(
    path=local_path,
    type=AssetTypes.MLTABLE,
    description="MLTable pointing to diabetes.csv in data folder",
    name="diabetes-table"
)

ml_client.data.create_or_update(my_data)

To verify that the new data assets have been created, you can list all data assets in the workspace again:

In [None]:
datasets = ml_client.data.list()
for ds_name in datasets:
    print(ds_name.name)

## Read data in notebook

Initially, you may want to work with data assets in notebooks, to explore the data and experiment with machine learning models. Any `URI_FILE` or `URI_FOLDER` type data assets are read as you would normally read data. For example, to read a CSV file a data asset points to, you can use the pandas function `read_csv()`. 

A `MLTable` type data asset is already *read* by the **MLTable** file, which specifies the schema and how to interpret the data. Since the data is already *read*, you can easily convert a MLTable data asset to a pandas dataframe. 

You'll need to install the `mltable` library (which you did in the terminal). Then, you can convert the data asset to a dataframe and visualize the data.  

In [None]:
import mltable

registered_data_asset = ml_client.data.get(name='diabetes-table', version=1)
tbl = mltable.load(f"azureml:/{registered_data_asset.id}")
df = tbl.to_pandas_dataframe()
df.head(5)

## Use data in a job

After using a notebook for experimentation. You can use scripts to train machine learning models. A script can be run as a job, and for each job you can specify inputs and outputs. 

You can use either **data assets** or **datastore paths** as inputs or outputs of a job. 

The cells below creates the **move-data.py** script in the **src** folder. The script reads the input data with the `read_csv()` function. The script then stores the data as a CSV file in the output path.

In [None]:
import os

# create a folder for the script files
script_folder = 'src'
os.makedirs(script_folder, exist_ok=True)
print(script_folder, 'folder created')

In [None]:
%%writefile $script_folder/move-data.py
# import libraries
import argparse
import pandas as pd
import numpy as np
from pathlib import Path

def main(args):
    # read data
    df = get_data(args.input_data)

    output_df = df.to_csv((Path(args.output_datastore) / "diabetes.csv"), index = False)

# function that reads the data
def get_data(path):
    df = pd.read_csv(path)

    # Count the rows and print the result
    row_count = (len(df))
    print('Analyzing {} rows of data'.format(row_count))
    
    return df

def parse_args():
    # setup arg parser
    parser = argparse.ArgumentParser()

    # add arguments
    parser.add_argument("--input_data", dest='input_data',
                        type=str)
    parser.add_argument("--output_datastore", dest='output_datastore',
                        type=str)

    # parse args
    args = parser.parse_args()

    # return args
    return args

# run script
if __name__ == "__main__":
    # add space in logs
    print("\n\n")
    print("*" * 60)

    # parse args
    args = parse_args()

    # run main function
    main(args)

    # add space in logs
    print("*" * 60)
    print("\n\n")


To submit a job that runs the **move-data.py** script, run the cell below. 

The job is configured to use the data asset `diabetes-local`, pointing to the local **diabetes.csv** file as input. The output is a path pointing to a folder in the new datastore `blob_training_data`.

In [None]:
from azure.ai.ml import Input, Output
from azure.ai.ml.constants import AssetTypes
from azure.ai.ml import command

# configure input and output
my_job_inputs = {
    "local_data": Input(type=AssetTypes.URI_FILE, path="azureml:diabetes-local:1")
}

my_job_outputs = {
    "datastore_data": Output(type=AssetTypes.URI_FOLDER, path="azureml://datastores/blob_training_data/paths/datastore-path")
}

# configure job
job = command(
    code="./src",
    command="python move-data.py --input_data ${{inputs.local_data}} --output_datastore ${{outputs.datastore_data}}",
    inputs=my_job_inputs,
    outputs=my_job_outputs,
    environment="AzureML-sklearn-0.24-ubuntu18.04-py37-cpu@latest",
    compute="aml-cluster",
    display_name="move-diabetes-data",
    experiment_name="move-diabetes-data"
)

# submit job
returned_job = ml_client.create_or_update(job)
aml_url = returned_job.studio_url
print("Monitor your job at", aml_url)