# Machine Learning Service - AML ComputeでChainer MNISTを実行する

## SDKのインストール
Azure Notebookで実行する際は、SDKのインストールから開始することができます。
自分のJupyter環境を利用する場合は、別途環境設定が必要です。
詳細は下記をご参照ください。
https://docs.microsoft.com/ja-jp/azure/machine-learning/service/how-to-configure-environment

In [2]:
# Check core SDK version number
import azureml.core

print("SDK version:", azureml.core.VERSION)

SDK version: 1.0.8


## 診断ツールのインストール

In [3]:
from azureml.telemetry import set_diagnostics_collection

set_diagnostics_collection(send_diagnostics=True)

Turning diagnostics collection on. 


## ワークスペースの作成
Azure Machine Learning Serviceでは、ワークスペースという管理単位でジョブやクラスターなどを管理します。また、最初にワークスペースを作成する際には、ワークスペースを含むリソースグループの中に、Azure Storage Account, Azure Container Registry, Azure Application Insightsが一緒に作成され、裏側で連携するようになっています。
下記のいずれかから、ワークスペースを作成・設定します。なお、下記のプロセスではAzure ADの認証が発生する場合があります。

In [2]:
# ワークスペースを新規に作成する
# ワークスペースの作成には引数として、名前、サブスクリプションID、リソースグループ名、ロケーション（リージョン）が必要です。
from azureml.core.workspace import Workspace

ws = Workspace.create(name='WS-EastUS',
                      subscription_id='<サブスクリプションID>',
                      resource_group='ML-EastUS',
                      create_resource_group=True,
                      location='eastus' # or other supported Azure region
                     )

WorkspaceException: You have access to more than one subscriptions. Please specify one from this list = [SubscriptionInfo(subscription_name='Microsoft Azure 社内従量課金プラン', subscription_id='d36d3e26-1efc-45c9-9af2-b4c3fc712ef9'), SubscriptionInfo(subscription_name='Cost Management Demo', subscription_id='1caaa5a3-2b66-438e-8ab4-bce37d518c5d'), SubscriptionInfo(subscription_name='Services Hub Demo Open', subscription_id='1b0a5c20-7373-41a2-8fec-7364cceb7bbf'), SubscriptionInfo(subscription_name='Contoso IT – SH360 – Prod', subscription_id='e93d3ee6-fac1-412f-92d6-bfb379e81af2'), SubscriptionInfo(subscription_name='Contoso IT - demo', subscription_id='e4272367-5645-4c4e-9c67-3b74b59a6982'), SubscriptionInfo(subscription_name='Contoso IT – Retail - DevTest', subscription_id='35ad74f4-0b37-44a7-ba94-91b6ec6026cd'), SubscriptionInfo(subscription_name='Contoso Infra3', subscription_id='66ee64da-2532-4d9a-a36b-d745327d20d9'), SubscriptionInfo(subscription_name='Contoso IT – SH360 - DevTest', subscription_id='0745e7d2-1e06-4d9e-9b9b-f42442b8b92f'), SubscriptionInfo(subscription_name='Contoso IT - Retail - Prod', subscription_id='45f9252d-e27e-4ed8-ab4e-dc5054de13fa'), SubscriptionInfo(subscription_name='Contoso IT – SH360 – Pre-Prod', subscription_id='71578c6b-75ba-4865-8f52-3e66d70389fd'), SubscriptionInfo(subscription_name='ASC DEMO', subscription_id='212f9889-769e-45ae-ab43-6da33674bd26'), SubscriptionInfo(subscription_name='Trey Research Alpha Dev', subscription_id='64e355d7-997c-491d-b0c1-8414dccfcf42'), SubscriptionInfo(subscription_name='Trey Research Alpha Lab', subscription_id='586f1d47-9dd9-43d5-b196-6e28f8405ff8'), SubscriptionInfo(subscription_name='Trey Research Beta Lab', subscription_id='ed570627-0265-4620-bb42-bae06bcfa914'), SubscriptionInfo(subscription_name='Trey Research Gamma Lab', subscription_id='9ec51cfd-5ca7-4d76-8101-dd0a4abc5674'), SubscriptionInfo(subscription_name='Trey Research Epsilon Lab', subscription_id='73c0021f-a37d-433f-8baa-7450cb54eea6'), SubscriptionInfo(subscription_name='Trey Research Delta Lab', subscription_id='d08df488-ca06-43c1-936c-23ed0a5126f4')]

In [20]:
# 既存のワークスペースをつなげる
from azureml.core.workspace import Workspace
ws = Workspace.get(name='WS-EastUS',
                      subscription_id='<サブスクリプションID>',
                      resource_group='ML-EastUS'
                     )

In [32]:
# ワークスペース情報をconfigファイルに設定する
ws.write_config()

Wrote the config file config.json to: /home/nbuser/library/training/02.distributed-pytorch-with-horovod/aml_config/config.json


In [33]:
# configファイルから既存のワークスペース情報を取得し、つなげる
ws = Workspace.from_config()

Found the config file in: /home/nbuser/library/training/02.distributed-pytorch-with-horovod/aml_config/config.json


## AML Computeクラスターの作成
Azure Machine Learning Serviceの中で、AML Computeクラスターを作成します。
下記では、既存のクラスターが存在する場合はクラスターを接続、ない場合は新規にクラスターを作成します。

In [6]:
from azureml.core.compute import ComputeTarget, AmlCompute
from azureml.core.compute_target import ComputeTargetException

# choose a name for your cluster
cluster_name = "gpucluster1"
compute_target = ComputeTarget(workspace=ws, name=cluster_name)
print(compute_target.status.serialize())

{'allocationState': 'Steady', 'allocationStateTransitionTime': '2019-02-07T14:40:11.523000+00:00', 'creationTime': '2019-02-07T14:39:31.155770+00:00', 'currentNodeCount': 0, 'errors': None, 'modifiedTime': '2019-02-07T14:40:14.701803+00:00', 'nodeStateCounts': {'idleNodeCount': 0, 'leavingNodeCount': 0, 'preemptedNodeCount': 0, 'preparingNodeCount': 0, 'runningNodeCount': 0, 'unusableNodeCount': 0}, 'provisioningState': 'Succeeded', 'provisioningStateTransitionTime': None, 'scaleSettings': {'minNodeCount': 0, 'maxNodeCount': 2, 'nodeIdleTimeBeforeScaleDown': 'PT120S'}, 'targetNodeCount': 0, 'vmPriority': 'LowPriority', 'vmSize': 'STANDARD_NC6'}


## サンプルコードの用意
ローカル（この例では、Azure Notebookの動いている環境（コンテナー）上）にディレクトリと実際に使うコードを用意します。
この例では、カレントディレクトリの配下にchainer-distrを作成します。

In [7]:
import os

project_folder = './chainer-distr'
os.makedirs(project_folder, exist_ok=True)

### ChainerのMNISTのサンプルコードをダウンロードします

In [8]:
import shutil

!wget "https://raw.githubusercontent.com/chainer/chainer/v5.1.0/examples/chainermn/mnist/train_mnist.py"
shutil.copy('train_mnist.py', project_folder)

--2019-02-07 15:16:49--  https://raw.githubusercontent.com/chainer/chainer/v5.1.0/examples/chainermn/mnist/train_mnist.py
Resolving webproxy (webproxy)... 10.36.47.1
Connecting to webproxy (webproxy)|10.36.47.1|:3128... connected.
Proxy request sent, awaiting response... 200 OK
Length: 4716 (4.6K) [text/plain]
Saving to: ‘train_mnist.py’


2019-02-07 15:16:51 (19.5 KB/s) - ‘train_mnist.py’ saved [4716/4716]



'./chainer-distr/train_mnist.py'

## Experiment (ワークスペース配下のジョブの管理単位）を作成します

In [9]:
from azureml.core import Experiment

experiment_name = 'chainer-distr'
experiment = Experiment(ws, name=experiment_name)

## Estimator（ジョブの実行情報やコンテナーの環境情報をまとめて記載した設定）を作成します
現在、ML Serviceでは、TensorFlowとPytorchには専用のEstimatorが用意されています。そのほかのフレームワークに関してはEstimatorからカスタムで作成します。

まず、ジョブ実行時の引数を設定します

In [11]:
script_params = {
    '-g': '',
    '--communicator': 'non_cuda_aware',
    '-o': './outputs'
}

In [12]:
from azureml.train.estimator import *

estimator = Estimator(source_directory=project_folder,
                      compute_target=compute_target,
                      entry_script='train_mnist.py',
                      script_params=script_params,
                      node_count=2,
                      process_count_per_node=1,
                      distributed_backend='mpi',     
                      pip_packages=['cupy-cuda90', 'mpi4py', 'cython', 'chainer==5.1', 'chainermn', 'chainercv'],
                      use_gpu=True)

## ジョブの実行
上記Estimatorに沿って、下記コマンドでジョブを実行できます。

In [13]:
run = experiment.submit(estimator)
print(run)

Run(Experiment: chainer-distr,
Id: chainer-distr_1549552824194,
Type: azureml.scriptrun,
Status: Queued)


### ジョブの監視

### 非同期の監視 
10-15秒単位で、非同期にジョブ情報を収集します。グラフィカルな表示とログの表示ができます。

In [36]:
from azureml.widgets import RunDetails

RunDetails(run).show()

_UserRunWidget(widget_settings={'childWidgetDisplay': 'popup', 'send_telemetry': True, 'log_level': 'INFO', 's…

MSI: Failed to retrieve a token from 'http://localhost:25198/nb/api/nbsvc/oauth2/token' with an error of 'HTTPConnectionPool(host='localhost', port=25198): Max retries exceeded with url: /nb/api/nbsvc/oauth2/token (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x7f7bd4e99e48>: Failed to establish a new connection: [Errno -3] Temporary failure in name resolution',))'. This could be caused by the MSI extension not yet fullly provisioned.


### ログの監視
Jupyterをブロックしてログを表示します。

In [14]:
run.wait_for_completion(show_output=True)

RunId: chainer-distr_1549552824194

Streaming azureml-logs/60_control_log_rank_0.txt

This is an MPI job. Rank:0
Streaming log file azureml-logs/60_control_log_rank_0.txt
Streaming log file azureml-logs/80_driver_log_rank_0.txt

Streaming azureml-logs/80_driver_log_rank_0.txt

Num process (COMM_WORLD): 2
Using GPUs
Using non_cuda_aware communicator
Num unit: 1000
Num Minibatch-size: 100
Num epoch: 20
Downloading from http://yann.lecun.com/exdb/mnist/train-images-idx3-ubyte.gz...
Downloading from http://yann.lecun.com/exdb/mnist/train-labels-idx1-ubyte.gz...
Downloading from http://yann.lecun.com/exdb/mnist/t10k-images-idx3-ubyte.gz...
Downloading from http://yann.lecun.com/exdb/mnist/t10k-labels-idx1-ubyte.gz...
epoch       main/loss   validation/main/loss  main/accuracy  validation/main/accuracy  elapsed_time
[J     total [..................................................]  1.67%
this epoch [################..................................] 33.33%
       100 iter, 0 epoch / 20 epo

this epoch [################..................................] 33.33%
      3700 iter, 12 epoch / 20 epochs
    32.081 iters/sec. Estimated time to finish: 0:01:11.692765.
[4A
this epoch [#################################.................] 66.67%
      3800 iter, 12 epoch / 20 epochs
     32.13 iters/sec. Estimated time to finish: 0:01:08.472421.
[4A
[J     total [################################..................] 65.00%
this epoch [..................................................]  0.00%
      3900 iter, 13 epoch / 20 epochs
    32.057 iters/sec. Estimated time to finish: 0:01:05.509142.
[4A
this epoch [################..................................] 33.33%
      4000 iter, 13 epoch / 20 epochs
    32.096 iters/sec. Estimated time to finish: 0:01:02.313822.
[4A
this epoch [#################################.................] 66.67%
      4100 iter, 13 epoch / 20 epochs
    32.141 iters/sec. Estimated time to finish: 0:00:59.114901.
[4A
[J     total [#####################

{'runId': 'chainer-distr_1549552824194',
 'target': 'gpucluster1',
 'status': 'Completed',
 'startTimeUtc': '2019-02-07T15:27:07.77745Z',
 'endTimeUtc': '2019-02-07T15:33:49.625616Z',
 'properties': {'azureml.runsource': 'experiment',
  'ContentSnapshotId': '14250e18-4875-4c68-8e47-5b0687b2f66c'},
 'runDefinition': {'Script': 'train_mnist.py',
  'Arguments': ['-g', '--communicator', 'non_cuda_aware', '-o', './outputs'],
  'SourceDirectoryDataStore': None,
  'Framework': 0,
  'Communicator': 5,
  'Target': 'gpucluster1',
  'DataReferences': {},
  'JobName': None,
  'AutoPrepareEnvironment': True,
  'MaxRunDurationSeconds': None,
  'NodeCount': 2,
  'Environment': {'Python': {'InterpreterPath': 'python',
    'UserManagedDependencies': False,
    'CondaDependencies': {'name': 'project_environment',
     'dependencies': ['python=3.6.2',
      {'pip': ['azureml-defaults',
        'cupy-cuda90',
        'mpi4py',
        'cython',
        'chainer==5.1',
        'chainermn',
        'chainer