# 分子動力学プログラム LAMMPS を Amazon SageMaker Processing で GPU を用いて動かすサンプル

* [LAMMPS](https://www.lammps.org/) を Amazon SageMaker Processing で動かす。細かい情報は下記を参照。
    * [LAMMPSのマニュアル](https://docs.lammps.org/Manual.html)
    * [ポリエチレン分子をシミュレーション](https://winmostar.com/jp/tutorials/LAMMPS_tutorial_8%28Polymer_Elongation%29.pdf)
    * [SageMaker SDK doc](https://sagemaker.readthedocs.io/en/stable/amazon_sagemaker_processing.html)
    * [SageMaker Processing 開発者ガイド](https://docs.aws.amazon.com/sagemaker/latest/dg/processing-job.html)

このノートブックは Amazon SageMaker Notebook(≠Studio) の GPU インスタンス(g4dn.xlargeなど)で実行することを前提とする。理由は以下の通り。

1. docker コマンドを使うため(Studioを使う場合は sm-docker コマンドに修正の必要あり)
2. ビルドしたコンテナをローカル(SageMaker Notebook内)でテスト実行するのにあたり、GPU で動かす必要があるため

In [None]:
pip install sagemaker -U

In [None]:
# 使用するライブラリを読み込み
import boto3, sagemaker, os, shutil, re
from sagemaker.tensorflow import TensorFlow
import pandas as pd
from matplotlib import pyplot as plt
from io import StringIO

## コンテナイメージのビルド
まずは SageMaker Processing で LAMMPS が動かせるよう、コンテナイメージの中で LAMMPS をビルドする。  
### ビルド環境のセットアップ
ビルドは、`/var/lib/docker`を利用するが、SageMaker Notebook では該当領域は`/` にマウントされた 15GB では、ビルドに耐えられないので、別途 EBS をマウントしている`/home/ec2-user/SageMaker`以下の領域を使うように変更するスクリプトを実行する

In [None]:
!sudo /etc/init.d/docker stop
!sudo mv /var/lib/docker /home/ec2-user/SageMaker/docker
!sudo ln -s /home/ec2-user/SageMaker/docker /var/lib/docker
!sudo /etc/init.d/docker start

### ビルド

In [None]:
%%time

IMAGE_NAME = 'lampps'
TAG=':v1'

!$(aws ecr get-login --region ap-northeast-1 --registry-ids 763104351884 --no-include-email)

%cd ./container
# !docker stop $(docker ps -q)
# !docker rm $(docker ps -q -a)
# !docker rmi -f $(docker images -a -q)
!docker build -t {IMAGE_NAME}{TAG} .
%cd ../

### Image Test
ビルドしたイメージをテストする。  
このインスタンスでコンテナを動かし、mpirunコマンド(`./lmp_equiliv.sh`に内包)を実行し実際にシミュレーションを行う。  

jupyter notebook の new -> terminal から下記セルの出力をコピーして実行

In [None]:
command_str = f"""
cd {os.getcwd()} # clone した先のディレクトリに cd

docker run --gpus all -v {os.getcwd()}/test/:/test -it --rm --entrypoint "bash" {IMAGE_NAME}{TAG}

cd /test

./lmp_equiliv.sh

tail -n1 lmp_equiliv.log # 実行時間が出ていたらOK, 概ね g4dn.xlarge で 6 分弱で完了

tail -n1 lmp2data_equiliv.log  # finish replica が出ていたらOK

exit # 終わったら exit でコンテナから抜ける(コンテナも終了する)
"""
print(command_str)

### Push

In [None]:
%%time

MY_ACCOUNT_ID = boto3.client('sts').get_caller_identity().get('Account')
# PUBLIC_ACCOUNT_ID = '763104351884'

REGION = boto3.session.Session().region_name

MY_ECR_ENDPOINT = f'{MY_ACCOUNT_ID}.dkr.ecr.{REGION}.amazonaws.com/'



MY_REPOSITORY_URI = f'{MY_ECR_ENDPOINT}sagemaker-{IMAGE_NAME}'
MY_IMAGE_URI = f'{MY_REPOSITORY_URI}{TAG}'

!$(aws ecr get-login --region {REGION} --registry-ids {MY_ACCOUNT_ID} --no-include-email)
 
# リポジトリの作成
!aws ecr delete-repository --repository-name sagemaker-{IMAGE_NAME} --force # 同名のリポジトリがあった場合削除
!aws ecr create-repository --repository-name sagemaker-{IMAGE_NAME}
 
!docker tag {IMAGE_NAME}{TAG} {MY_IMAGE_URI}
!docker push {MY_IMAGE_URI}

print(f'コンテナイメージは {MY_IMAGE_URI} へ登録されています。')

## SageMaker Processing で ポリエチレンのシミュレーション
* コンテナイメージの作成が完了したので、シミュレーションのジョブを投入する
* 以降重い処理はこのノートブックインスタンスで実行することはなく、ただジョブの投入を行うだけなので、t3.mediumなどでも十分動く

### 必要なデータ(パラメータファイルなど)を S3 にアップロード

In [None]:
prefix = 'lammps_simple_training'
input_s3_uri = sagemaker.session.Session().upload_data(path='param/', key_prefix=prefix)
print(input_s3_uri)

### ローカルモードでシミュレーションを実行
* debug 用途
    * トレーニングインスタンスは立ち上げに時間がかかるため、ノートブックインスタンスでトレーニングジョブを動かすことができる
    * 本来ノートブックインスタンスは低スペック（コード記述とAPI実行用）なため、ローカルモードでの本番運用はすべきでない
* src/run.py の実行確認
* シミュレーションは軽めにしておいて、run.pyの動作確認を行う

In [None]:
BASE_JOB_NAME='LAMMPS-polyethylene-simple'
local_estimator = sagemaker.tensorflow.TensorFlow(
    base_job_name=BASE_JOB_NAME,
    entry_point='src/run.py',
    role=sagemaker.get_execution_role(),
    image_uri=MY_IMAGE_URI,
    instance_count=1,
    instance_type='local_gpu',
    hyperparameters={
        'np':'2',
        'gpu':'1'
    }
)
local_estimator.fit({
    'param': input_s3_uri
})

### トレーニングインスタンスでシミュレーションを実行
* GPU インスタンスで実行
* 成功していたら最後に `finish replica` と表示される

In [None]:
BASE_JOB_NAME='LAMMPS-polyethylene-simple'
estimator = TensorFlow(
    base_job_name=BASE_JOB_NAME,
    entry_point='src/run.py',
    role=sagemaker.get_execution_role(),
    image_uri=MY_IMAGE_URI,
    instance_count=1,
    instance_type='ml.g4dn.xlarge',
    hyperparameters={
        'np':'2',
        'gpu':'1'
    }
)
estimator.fit(inputs={'param': input_s3_uri})

## シミュレーション結果の確認
### ジョブの結果詳細確認

In [None]:
# 実行したジョブの詳細確認
estimator.latest_training_job.describe()

### ジョブの出力結果を取得

In [None]:
job_name = estimator.latest_training_job.describe()['TrainingJobName']
output_s3_uri = estimator.latest_training_job.describe()['ModelArtifacts']['S3ModelArtifacts']
print(job_name, output_s3_uri)

In [None]:
# ローカル(ノートブックインスタンス)にダウンロード
!mkdir ./{job_name}
!aws s3 cp {output_s3_uri} ./{job_name}
!tar zxvf {job_name}/model.tar.gz -C ./{job_name}

## (応用編1)ポリエチレンのシミュレーションをグリッドサーチ
* パラメータを変えながら一気にジョブを投入する
* シミュレーションの開始時の温度を 2パターン (540K,550K)用意して、一気にジョブを流す
* param_base/lmp_equliv.in に変数を変えるためのプレースホルダを事前に用意し、実行する時に書き換えてジョブを流す

In [None]:
# tmpe1_1_variable という文字列がプレースホルダで、動的に書き換える
!head -n12 ./param_base/lmp_equiliv.in

In [None]:
prefix = 'lammps_grid_training'
input_s3_uri = sagemaker.session.Session().upload_data(path='param_base/', key_prefix=prefix)
print(input_s3_uri)
BASE_JOB_NAME='LAMMPS-polyethylene-grid'
estimators = []
for i,kervin in enumerate([540,550]):
    estimator = TensorFlow(
        base_job_name=BASE_JOB_NAME,
        entry_point='src_grid/run.py',
        role=sagemaker.get_execution_role(),
        image_uri=MY_IMAGE_URI,
        instance_count=1,
        instance_type='ml.g4dn.xlarge',
        hyperparameters={
            'np':'2',
            'gpu':'1',
            'tempe1-1-variable': str(kervin),
            'tempe1-2-variable':'550',
            'dt1-variable'     :'1.6',
            'nrun1-variable'   :'ceil(1e5)'
        }
    )
    estimator.fit(
        inputs={'param': input_s3_uri},
        wait=False
    )
    estimators.append(estimator)

In [None]:
# ジョブが終わるまで待つ
for estimator in estimators:
    for job in estimator.jobs:
        job.wait()

In [None]:
# ジョブの結果を手元にダウンロード
for estimator in estimators:
    for job in estimator.jobs:
        job_name = job.describe()['TrainingJobName']
        output_s3_uri = job.describe()['ModelArtifacts']['S3ModelArtifacts']
        !mkdir -p {job_name}
        !aws s3 cp {output_s3_uri} {job_name}
        !tar zxvf {job_name}/model.tar.gz -C ./{job_name}

In [None]:
# 可視化
dfs = {}
for estimator in estimators:
    for job in estimator.jobs:
        directory = job.describe()['TrainingJobName']
        dfs[directory] = pd.read_csv(f'{directory}/1.csv')
fig = plt.figure(figsize=(20,16))
for i,column in enumerate(dfs[directory].columns[1:]):
    ax = fig.add_subplot(3,3,i+1)
    ax.set_title(column)
    for key in dfs:
        ax.plot(dfs[key]['Step'],dfs[key][column],label=key)
    ax.legend()

## SageMaker Experiments を用いてシミュレーションの実験管理を行う
* シミュレーションの入力と出力を一元管理

In [None]:
# sagemaker experiments SDK のインストール
!pip install sagemaker-experiments

In [None]:
from smexperiments import experiment
from smexperiments.experiment import Experiment
from sagemaker.analytics import ExperimentAnalytics
from smexperiments.trial import Trial
from smexperiments.trial_component import TrialComponent
import time

In [None]:
my_lammps_experiment = experiment.Experiment.create(experiment_name='my-LAMMPS-experiments')

In [None]:
my_trial = my_lammps_experiment.create_trial(trial_name='simple-trial')

In [None]:
# 標準出力から回収する定義

metric_definitions = [
    {'Name':'Step','Regex': '([0-9\\.]+)'},
    {'Name':'Time','Regex': '([0-9\\.]+)'},
    {'Name':'Temp','Regex': '([0-9\\.]+)'},
    {'Name':'PotEng','Regex': '([0-9\\.]+)'},
    {'Name':'KinEng','Regex': '([0-9\\.]+)'},
    {'Name':'TotEng','Regex': '([0-9\\.]+)'},
    {'Name':'Enthalpy','Regex': '([0-9\\.]+)'},
    {'Name':'Press','Regex': '([0-9\\.]+)'},
    {'Name':'Volume','Regex': '([0-9\\.]+)'},
    {'Name':'Density','Regex': '([0-9\\.]+)'}
]

In [None]:
prefix = 'lammps_grid_training'
input_s3_uri = sagemaker.session.Session().upload_data(path='param_base/', key_prefix=prefix)
print(input_s3_uri)
BASE_JOB_NAME='LAMMPS-polyethylene-grid'
estimators = []
for i,kervin in enumerate([540,550]):
    estimator = TensorFlow(
        base_job_name=BASE_JOB_NAME,
        entry_point='src_experiments/run.py',
        role=sagemaker.get_execution_role(),
        image_uri=MY_IMAGE_URI,
        instance_count=1,
        instance_type='ml.g4dn.xlarge',
        hyperparameters={
            'np':'2',
            'gpu':'1',
            'tempe1-1-variable': str(kervin),
            'tempe1-2-variable':'550',
            'dt1-variable'     :'1.6',
            'nrun1-variable'   :'ceil(1e5)'
        },
        metric_definitions=metric_definitions, # metrics 定義を指定
    )
    estimator.fit(
        inputs={'param': input_s3_uri},
        wait=False,
        experiment_config={
            "ExperimentName": my_lammps_experiment.experiment_name,
            "TrialName": my_trial.trial_name,
            "TrialComponentDisplayName": "polyethylene-simulation"
        }
    )
    estimators.append(estimator)

In [None]:
# ジョブが終わるまで待つ
for estimator in estimators:
    for job in estimator.jobs:
        job.wait()

In [None]:
trial_component_analytics = ExperimentAnalytics(
    experiment_name=my_lammps_experiment.experiment_name,
)

analytic_table = trial_component_analytics.dataframe()

In [58]:
pd.set_option('display.max_rows', None)
pd.set_option('display.max_columns', None)
analytic_table

Unnamed: 0,TrialComponentName,DisplayName,SourceArn,SageMaker.ImageUri,SageMaker.InstanceCount,SageMaker.InstanceType,SageMaker.VolumeSizeInGB,dt1-variable,gpu,model_dir,np,nrun1-variable,sagemaker_container_log_level,sagemaker_job_name,sagemaker_program,sagemaker_region,sagemaker_submit_directory,tempe1-1-variable,tempe1-2-variable,Temp - Min,Temp - Max,Temp - Avg,Temp - StdDev,Temp - Last,Temp - Count,Volume - Min,Volume - Max,Volume - Avg,Volume - StdDev,Volume - Last,Volume - Count,Enthalpy - Min,Enthalpy - Max,Enthalpy - Avg,Enthalpy - StdDev,Enthalpy - Last,Enthalpy - Count,KinEng - Min,KinEng - Max,KinEng - Avg,KinEng - StdDev,KinEng - Last,KinEng - Count,Time - Min,Time - Max,Time - Avg,Time - StdDev,Time - Last,Time - Count,Step - Min,Step - Max,Step - Avg,Step - StdDev,Step - Last,Step - Count,TotEng - Min,TotEng - Max,TotEng - Avg,TotEng - StdDev,TotEng - Last,TotEng - Count,PotEng - Min,PotEng - Max,PotEng - Avg,PotEng - StdDev,PotEng - Last,PotEng - Count,Density - Min,Density - Max,Density - Avg,Density - StdDev,Density - Last,Density - Count,Press - Min,Press - Max,Press - Avg,Press - StdDev,Press - Last,Press - Count,param - MediaType,param - Value,SageMaker.DebugHookOutput - MediaType,SageMaker.DebugHookOutput - Value,SageMaker.ModelArtifact - MediaType,SageMaker.ModelArtifact - Value,Trials,Experiments
0,LAMMPS-polyethylene-grid-2021-10-18-08-16-16-6...,polyethylene-simulation,arn:aws:sagemaker:ap-northeast-1:155580384669:...,155580384669.dkr.ecr.ap-northeast-1.amazonaws....,1.0,ml.g4dn.xlarge,30.0,"""1.6""","""1""","""s3://sagemaker-ap-northeast-1-155580384669/LA...","""2""","""ceil(1e5)""",20.0,"""LAMMPS-polyethylene-grid-2021-10-18-08-16-16-...","""run.py""","""ap-northeast-1""","""s3://sagemaker-ap-northeast-1-155580384669/LA...","""550""","""550""",0.0,310980.0,0.0,0.0,2021.0,0,0.0,310980.0,0.0,0.0,2021.0,0,0.0,310980.0,0.0,0.0,2021.0,0,0.0,310980.0,0.0,0.0,2021.0,0,0.0,310980.0,0.0,0.0,2021.0,0,0.0,310980.0,0.0,0.0,2021.0,0,0.0,310980.0,0.0,0.0,2021.0,0,0.0,310980.0,0.0,0.0,2021.0,0,0.0,310980.0,0.0,0.0,2021.0,0,0.0,310980.0,0.0,0.0,2021.0,0,,s3://sagemaker-ap-northeast-1-155580384669/lam...,,s3://sagemaker-ap-northeast-1-155580384669/,,s3://sagemaker-ap-northeast-1-155580384669/LAM...,[simple-trial],[my-LAMMPS-experiments]
1,LAMMPS-polyethylene-grid-2021-10-18-08-16-15-8...,polyethylene-simulation,arn:aws:sagemaker:ap-northeast-1:155580384669:...,155580384669.dkr.ecr.ap-northeast-1.amazonaws....,1.0,ml.g4dn.xlarge,30.0,"""1.6""","""1""","""s3://sagemaker-ap-northeast-1-155580384669/LA...","""2""","""ceil(1e5)""",20.0,"""LAMMPS-polyethylene-grid-2021-10-18-08-16-15-...","""run.py""","""ap-northeast-1""","""s3://sagemaker-ap-northeast-1-155580384669/LA...","""540""","""550""",0.0,302612.0,6675.891837,43168.566337,1.0,49,0.0,302612.0,6675.891837,43168.566337,1.0,49,0.0,302612.0,6675.891837,43168.566337,1.0,49,0.0,302612.0,6675.891837,43168.566337,1.0,49,0.0,302612.0,6675.891837,43168.566337,1.0,49,0.0,302612.0,6675.891837,43168.566337,1.0,49,0.0,302612.0,6675.891837,43168.566337,1.0,49,0.0,302612.0,6675.891837,43168.566337,1.0,49,0.0,302612.0,6675.891837,43168.566337,1.0,49,0.0,302612.0,6675.891837,43168.566337,1.0,49,,s3://sagemaker-ap-northeast-1-155580384669/lam...,,s3://sagemaker-ap-northeast-1-155580384669/,,s3://sagemaker-ap-northeast-1-155580384669/LAM...,[simple-trial],[my-LAMMPS-experiments]


In [None]:
def cleanup_sme_sdk(experiment):
    for trial_summary in experiment.list_trials():
        trial = Trial.load(trial_name=trial_summary.trial_name)
        for trial_component_summary in trial.list_trial_components():
            tc = TrialComponent.load(
                trial_component_name=trial_component_summary.trial_component_name)
            trial.remove_trial_component(tc)
            try:
                # comment out to keep trial components
                tc.delete()
            except:
                # tc is associated with another trial
                continue
            # to prevent throttling
            time.sleep(.5)
        trial.delete()
        experiment_name = experiment.experiment_name
    experiment.delete()
    print(f"\nExperiment {experiment_name} deleted")

In [None]:
experiment_to_cleanup = Experiment.load(
    # Use experiment name not display name
    experiment_name=my_lammps_experiment.experiment_name)

cleanup_sme_sdk(experiment_to_cleanup)