# データストアを操作する

データは、機械学習モデルが構築される基盤です。クラウドで一元的にデータを管理し、複数のワークステーションとコンピューティング先で実験を実行してモデルをトレーニングしているデータ サイエンティストのチームがアクセスできるようにすることは、プロフェッショナルなデータ サイエンス ソリューションでは重要です。

このノートブックでは、データを操作するための 2 つの Azure Machine Learning オブジェクト、*データストア*と*データセット*について学びます。

## Azure Machine Learning SDK をインストールする

Azure Machine Learning SDK は頻繁に更新されます。以下のセルを実行し、ノートブック ウィジェットをサポートする追加パッケージとともに最新のリリースにアップグレードします。

In [None]:
!pip install --upgrade azureml-sdk azureml-widgets

## ワークスペースに接続する

最新バージョンの SDK がインストールされているため、ワークスペースに接続できます。

> **注**: Azure サブスクリプションでまだ認証済みのセッションを確立していない場合は、リンクをクリックして認証コードを入力し、Azure にサインインして認証するよう指示されます。

In [None]:
import azureml.core
from azureml.core import Workspace

# 保存した構成ファイルからワークスペースを読み込む
ws = Workspace.from_config()
print('Ready to use Azure ML {} to work with {}'.format(azureml.core.VERSION, ws.name))

## データストアを操作する

Azure ML では、*データストア* は、Azure Storage Blob コンテナーのようなストレージ場所への参照です。あらゆるワークスペースには既定のデータストアがあります。通常は、ワークスペースで作成された Azure Storage Blob コンテナーです。  異なる場所に格納されているデータを使用する必要がある場合は、ワークスペースにカスタム データストアを追加して、既定に設定することができます。

### データストアを表示する

次のコードを実行してワークスペースでデータストアを判定します:

In [None]:
# 既定のデータストアを取得する
default_ds = ws.get_default_datastore()

# すべてのデータストアを列挙し、どちらが既定かを示す
for ds_name in ws.datastores:
    print(ds_name, "- Default =", ds_name == default_ds.name)

また、[Azure Machine Learning Studio](https://ml.azure.com) のワークスペースに関する 「**データストア**」 ページでワークスペースのデータストアを表示して管理することもできます。

### データストアにデータをアップロードする

利用可能なデータストアを特定したので、実際に実験スクリプトが実行されている場所に関係なく、ワークスペースで実行中の実験にアクセスできるように、ローカル ファイル システムからファイルをアップロードできます。

In [None]:
default_ds.upload_files(files=['./data/diabetes.csv', './data/diabetes2.csv'], # 糖尿病 CSV ファイルを /data にアップロードする
                       target_path='diabetes-data/', # データストアのフォルダー パスに入れる
                       overwrite=True, # 同じ名前の既存のファイルを置き換える
                       show_progress=True)