# パラメータ設定

---

OpenHPC環境を構築するのに必要となるパラメータを設定します。

## 概要

VCP SDKを用いてクラウド上に仮想サーバを作成し、OpenHPC環境の構築を行います。

![構成](images/ohpc-000.png)

このNotebookでは以下に示すパラメータを設定します。

* VCP SDKに関するパラメータ
* VCノードに共通するパラメータ
* 割り当てリソース量に関するパラメータ
    - 計算ノード
    - マスターノード
    - NFS用ディスク
* VCノードのホスト名とIPアドレス
* Slurmに関するパラメータ

## VCP SDK

VCP SDKを利用する際に必要となるパラメータを設定します。


### VCCアクセストークンの入力

![VCP SDK](images/ohpc-001.png)

VCノードを起動するにはVC Controller(VCC)にアクセスして、操作を行う必要があります。VCCにアクセスするために必要となるアクセストークンをここで入力します。

次のセルを実行すると入力枠が表示されるのでアクセストークンの値を入力してください。

> アクセストークン入力後に Enter キーを押すことで入力が完了します。

In [None]:
from getpass import getpass
vcc_access_token = getpass()

入力されたアクセストークンが正しいことを、実際にVCCにアクセスして確認します。

In [None]:
from vcpsdk.vcpsdk import VcpSDK
vcp = VcpSDK(vcc_access_token)

上のセルの実行結果がエラーとなり以下のようなメッセージが表示されている場合は、入力されたアクセストークンに誤りがあります。

```
config vc failed: http_status(403)
2019/XX/XX XX:XX:XX UTC: VCPAuthException: xxxxxxx:token lookup is failed: permission denied
```

エラーになった場合はこの節のセルを全て `unfreeze` してから、もう一度アクセストークンの入力を行ってください。

> `unfreeze`するにはNotebookのツールバーにある`unfreeze below in section`ボタンなどを利用してください。

### UnitGroup名の指定

このアプリケーションテンプレートで構築するOpenHPC環境に対して、名前を付けます。指定した名前はVCPのUnitGroup名となります。

VCPの構成要素は以下のようになっています。

* VCノード
  - クラウドにおける計算資源(VM/BM)
  - 例えば Amazon EC2インスタンス, Microsoft Azure VM など
* Unit
  - 同質のVCノードにより構成されている要素
  - 同じUnitに属するVCノードはCPU,メモリ等の計算資源が全て同じ設定になっている
* UnitGroup
  - 複数のUnitにより構成されている要素
  - 使用目的、ライフサイクルなどに合わせて、複数のUnitをまとめて扱うための要素  

VCP SDKで作成した他の環境と区別するために UnitGroupに名前を付けます。UnitGroup名は既存のものと異なる値を指定する必要があります。
既存のUnitGroupを確認するために一覧を表示します。

In [None]:
vcp.df_ugroups()

この構築環境のUnitGroup名を次のセルで指定してください。

In [None]:
# (例)
# ugroup_name = 'OpenHPC'

ugroup_name = 'OpenHPC'

### パラメータの保存

この章で指定したパラメータの値をファイルに保存します。

後の手順でVCノードに対する操作を、構成管理ツールの[Ansible](https://www.ansible.com/)で行います。そこで、パラメータの保存形式は `Ansible` のフォーマットに従うことにします。Ansible では `group_vars/`というディレクトリに YAML フォーマットのファイルを配置すると、そのファイルに記録されている値を変数として利用することができます。このNotebookでは `group_vars/` にあるファイルを `group_vars ファイル`と呼ぶことにします。

値の保存を行う前に、入力されたパラメータに対して簡易なチェックを行います。エラーになった場合はその後に表示される指示に従ってください。

In [None]:
%run scripts/utils.py

check_parameters(
    _params=dict(vcp=vcp),
    ugroup_name=ugroup_name,
)

次のセルを実行すると、この章で指定したパラメータが group_vars ファイルに保存されます。

> YAMLフォーマットでファイルに値を保存するために、事前に作成した Python のスクリプト `scripts/group.py` を利用しています。

In [None]:
%run scripts/group.py
from pathlib import Path

update_group_vars(
    ugroup_name,
    ugroup_name=ugroup_name,
)

`group_vars`ファイルの内容を確認してみます。

In [None]:
!cat group_vars/{ugroup_name}.yml

## VCノードに共通するパラメータ

マスターノード、計算ノードに共通するパラメータを指定します。

### クラウドプロバイダの指定

VCノードを作成するプロバイダ名を指定します。

In [None]:
# (例)
# vc_provider = 'aws'
# vc_provider = 'azure'

vc_provider = 'aws'

### SSH公開鍵認証の鍵ファイルの指定

起動したVCノードにはsshでログインして操作を行います。sshでログインできるようにするために、事前に公開鍵をVCノードに登録します。

VCノードに登録するSSHの公開鍵ファイルのパスを次のセルで指定してください。

In [None]:
# (例)
# ssh_public_key_path = '~/.ssh/id_rsa.pub'

ssh_public_key_path = '~/.ssh/id_rsa.pub'

公開鍵に対応する秘密鍵のパスを次のセルで指定してください。

In [None]:
# (例)
# ssh_private_key_path = '~/.ssh/id_rsa'

ssh_private_key_path = '~/.ssh/id_rsa'

### パラメータの保存

この章で指定したパラメータの値をファイルに保存します。

値の保存を行う前に、入力されたパラメータに対して簡易なチェックを行います。エラーになった場合はその後に表示される指示に従ってください。

In [None]:
%run scripts/utils.py
from pathlib import Path

check_parameters(
    _params=dict(vcp=vcp),
    vc_provider=vc_provider,
    ssh_public_key_path=str(Path(ssh_public_key_path).expanduser()),
    ssh_private_key_path=str(Path(ssh_private_key_path).expanduser()),
)

この章で指定したパラメータを group_vars ファイルに保存します。

In [None]:
%run scripts/group.py
from pathlib import Path

update_group_vars(
    ugroup_name,
    vc_provider=vc_provider,
    ssh_public_key_path=str(Path(ssh_public_key_path).expanduser()),
    ssh_private_key_path=str(Path(ssh_private_key_path).expanduser()),
)

`group_vars`ファイルの内容を確認してみます。

In [None]:
!cat group_vars/{ugroup_name}.yml

## 構築環境に割り当てるリソース量

各VCノード、VCディスクに割り当てるリソース量を指定します。

### 計算ノード

計算ノードに割り当てるリソース量を指定します。

![計算ノード](images/ohpc-002.png)

#### 計算ノードのノード数

計算ノードとして作成するノード数を指定します。

In [None]:
# (例)
# compute_nodes = 4

compute_nodes =

#### 計算ノードのflavor

VCノードの`spec`に対して種々のパラメータを毎回設定するのは煩雑な作業になります。そこでVCP SDKでは典型的なパラメータセットを事前に定義しています。事前に定義したパラメータセットのことをVCP SDKでは`flavor`と呼んでいます。`spec`に設定できるパラメータはクラウドプロバイダ毎に異なるので `flavor`もプロバイダ毎に定義されています。

次のセルを実行すると、先ほど`vc_provider`で指定したクラウドプロバイダ名に対応する `flavor` の一覧が表示されます。

In [None]:
vcp.df_flavors(vc_provider)

上に表示された表の `flavor` の欄の値から、計算ノードとして利用するVCノードの `flavor` を選んで次のセルで指定してください。

In [None]:
# (例)
# compute_flavor = 'medium'

compute_flavor =

#### 計算ノードのインスタンスタイプ

`flavor`で定義されている以外のインスタンスタイプを計算ノードで利用したい場合は次のセルのコメントを外してインスタンスタイプを指定してください。

In [None]:
# (例)
# compute_instance_type = 'c5.xlarge'

#### 計算ノードのルートボリュームサイズ

計算ノードのルートボリュームサイズを変更する必要がある場合は、次のセルのコメントを外してサイズ(GB)を指定してください。

In [None]:
# (例)
# compute_root_size = 16

### マスターノード

マスターノードに割り当てるリソース量を指定します。

![マスターノード](images/ohpc-003.png)

#### マスターノードのflavor

マスターノードに割り当てるリソース量に対応する `flavor` の値を指定してください。

`flavor`の一覧を表示します。

In [None]:
vcp.df_flavors(vc_provider)

上に表示された表の `flavor` の欄の値から、マスターノードとして利用するVCノードの `flavor` を選んで次のセルで指定してください。

In [None]:
# (例)
# master_flavor = 'small'

master_flavor =

#### マスターノードのインスタンスタイプ

`flavor`で定義されている以外のインスタンスタイプをマスターノードで利用したい場合は次のセルのコメントを外してインスタンスタイプを指定してください。

In [None]:
# (例)
# master_instance_type = 'm5.xlarge'

#### マスターノードのルートボリュームサイズ

マスターノード用VCノードのルートボリュームサイズ(GB)を指定します。

OpenHPCのマスターノードのルートボリュームサイズには20GB以上の値を指定してください。 

In [None]:
# (例)
# master_root_size = 20

master_root_size =

### NFS用ディスク

NFS用ディスクに割り当てるリソース量を指定します。

> NFS用に仮想ディスクを作成しない構成にする場合は、この節をスキップしてください。

![NFS](images/ohpc-004.png)

ディスクサイズ(GB)を指定してください。16GB 以上の値を指定してください。

In [None]:
# (例)
# nfs_disk_size = 64

nfs_disk_size =

ディスクのデバイス名を指定してください。デバイス名はプロバイダやインスタンスタイプによって異なる値となります。

> AWSの[Nitroベースのインスタンス](https://docs.aws.amazon.com/ja_jp/AWSEC2/latest/UserGuide/instance-types.html#ec2-nitro-instances)ではEBSボリュームはNVMeブロックデバイスとして公開されます。そのためデバイス名は`/dev/nvme1n1`などになります。

In [None]:
# (例)
# nfs_device = '/dev/xvdf'    # AWS
# nfs_device = '/dev/nvme1n1' # AWS(Nitroベース)
# nfs_device = '/dev/sdc'     # Azure

nfs_device =

NFS用に仮想ディスクを作成しない構成の場合、誤ってディスクに関するパラメータを設定してしまった場合は、次のセルのコメントを外して実行してください。

In [None]:
# del(nfs_disk_size)
# del(nfs_device)

### パラメータの保存

この章で指定したパラメータの値をファイルに保存します。

値の保存を行う前に、入力されたパラメータに対して簡易なチェックを行います。エラーになった場合はその後に表示される指示に従ってください。

In [None]:
%run scripts/utils.py
from pathlib import Path

if 'nfs_disk_size' in vars():
    check_parameters(
        _params=dict(vc_provider=vc_provider),
        nfs_disk_size=nfs_disk_size,
        nfs_device=nfs_device,
    )

check_parameters(
    _params=dict(
        vcp=vcp, 
        vc_provider=vc_provider,
        nfs_disk_size=nfs_disk_size if 'nfs_disk_size' in vars() else 0,
    ),
    compute_nodes=compute_nodes,
    compute_flavor=compute_flavor,
    master_flavor=master_flavor,
    master_root_size=master_root_size,
)

この章で指定したパラメータを `group_vars` ファイルに保存します。

In [None]:
%run scripts/group.py

update_group_vars(
    ugroup_name,
    compute_nodes=compute_nodes,
    compute_flavor=compute_flavor,
    master_flavor=master_flavor,
    master_root_size=master_root_size,
)

if 'compute_instance_type' in vars():
    update_group_vars(
        ugroup_name, 
        compute_instance_type=compute_instance_type,
    )

if 'compute_root_size' in vars():
    update_group_vars(
        ugroup_name, 
        compute_root_size=compute_root_size,
    )
    
if 'master_instance_type' in vars():
    update_group_vars(
        ugroup_name, 
        master_instance_type=master_instance_type,
    )

if 'nfs_disk_size' in vars():
    update_group_vars(
        ugroup_name,
        nfs_disk_size=nfs_disk_size,
        nfs_device=nfs_device,
    )

`group_vars`ファイルの内容を確認してみます。

In [None]:
!cat group_vars/{ugroup_name}.yml

## IPアドレスとホスト名

各ノードに設定するIPアドレスとホスト名を指定します。

![etc_hosts](images/ohpc-005.png)

### マスターノードのIPアドレスとホスト名

マスターノードに割り当てるIPアドレスを指定してください。

In [None]:
# (例)
# master_ipaddress = '172.30.2.120'

master_ipaddress =

マスターノードに設定するホスト名を指定してください。

In [None]:
# (例)
# master_hostname = 'master'

master_hostname = 'master'

### 計算ノードのIPアドレスとホスト名

計算ノードに割り当てるIPアドレスとホスト名を指定します。

計算ノードの先頭のIPアドレスを指定してください。他のノードは連番のアドレスが指定されます。

In [None]:
# (例)
# c_ip_address = '172.30.2.121'

c_ip_address =

計算ノードのホスト名のプレフィックスを指定してください。

例えば `c_hostname_prefix` に `c` を指定した場合、計算ノードのホスト名は以下のようになります。

* c1
* c2
* c3
* ...

In [None]:
# (例)
# c_hostname_prefix = 'c'

c_hostname_prefix = 'c'

ここまでに指定したパラメータから計算ノードのIPアドレスとホスト名のdict型変数を作成します。

In [None]:
import ipaddress

c_addr = ipaddress.ip_address(c_ip_address)
compute_etc_hosts = dict([
    (f'{c_addr + x}', f'{c_hostname_prefix}{x + 1}')
    for x in range(compute_nodes)   
])

import json
print(json.dumps(compute_etc_hosts, indent=2))

### パラメータの保存

この章で指定したパラメータの値をファイルに保存します。

値の保存を行う前に、入力されたパラメータに対して簡易なチェックを行います。エラーになった場合はその後に表示される指示に従ってください。

> IPアドレスに到達可能なものがあるかをチェックするので、ある程度時間が掛かります。

In [None]:
%run scripts/utils.py

check_parameters(
    _params=dict(
        vc_provider=vc_provider,
        compute_nodes=compute_nodes,
    ),
    master_ipaddress=master_ipaddress,
    master_hostname=master_hostname,
    compute_etc_hosts=compute_etc_hosts,
)

この章で指定したパラメータを `group_vars` ファイルに保存します。

In [None]:
%run scripts/group.py

update_group_vars(
    ugroup_name,
    master_ipaddress=master_ipaddress,
    master_hostname=master_hostname,
    compute_etc_hosts=compute_etc_hosts,
)

`group_vars`ファイルの内容を確認してみます。

In [None]:
!cat group_vars/{ugroup_name}.yml

## Slurm

Slurmに関連するパラメータを指定します。

![etc_hosts](images/ohpc-006.png)

### munge.key

`munge.key` に書き込む内容を乱数から生成します。

In [None]:
import secrets

munge_key = secrets.token_bytes(1024)

`munge.key` の内容は秘匿情報になるので、`group_vars`ファイルではなく VC Controller の HashiCorp Vault に保存します。
HashiCorp Vault は秘密情報を保存するための Key Valueストアです。保持する情報は暗号化されます。


HashiCorp Valutのなかの記録場所となるパスを次のセルで指定します。

In [None]:
vault_path_munge_key = f'cubbyhole/OpenHPC/{ugroup_name}/munge.key'
print(vault_path_munge_key)

### slurm.conf

`slurm.conf`の計算ノードに関するパラメータを設定します。OpenHPC環境を構築した後に編集し直すことができますので、ここで設定するのは起動するための仮の値でも問題ありません。

In [None]:
slurm_conf = {
    'NodeName': f'{c_hostname_prefix}[1-{compute_nodes}]' if compute_nodes > 1 else f'{c_hostname_prefix}1',
# (例)
#    'CPUs': 2,
}

### パラメータの保存

この章で指定したパラメータの値をファイルに保存します。`munge.key`は秘匿情報のため、暗号化され記録される HashiCorp Vaultに保存します。他のパラメータについては `group_vars`ファイルに保存します。

`munge.key`の内容をVCCのHashiCorp Valutに保存します。次のセルを実行してください。

> 保存に成功すると `<Response [204]>` と表示されます。

In [None]:
import requests
import base64

payload = {
    'munge.key': base64.b64encode(munge_key).decode('UTF-8'),
}

vault_url = f'{vcp.vcc_info()["vault_url"]}/v1/{vault_path_munge_key}'

custom_headers = {
    'X-Vault-Token': vcc_access_token,
}

r = requests.post(vault_url, headers=custom_headers, json=payload)
r

他の値を `group_vars`ファイルに保存します。

In [None]:
%run scripts/group.py

update_group_vars(
    ugroup_name,
    vault_path_munge_key=vault_path_munge_key,
    slurm_conf=slurm_conf,
)

`group_vars`ファイルの内容を確認してみます。

In [None]:
!cat group_vars/{ugroup_name}.yml

## チェック

設定項目漏れがないことを確認します。

次のセルを実行しエラーとならないことを確認してください。エラーになった場合は、このNotebookの中に実行していないセルがないかを確認してください。

In [None]:
%run scripts/group.py
gvars = load_group_vars(ugroup_name)
require_params = [
    'compute_etc_hosts', 'compute_flavor', 'compute_nodes',
    'master_flavor', 'master_hostname', 'master_ipaddress',
    'master_root_size', 'slurm_conf', 'ugroup_name',
    'ssh_private_key_path', 'ssh_public_key_path',
    'vault_path_munge_key', 'vc_provider',
]

for x in require_params:
    if x not in gvars:
        raise RuntimeError("ERROR: not set {}".format(x))