# [Module 4] Distributed training with horovod

Horovod는 MPI(Message Passing Interface; 메세지 전달 인터페이스)를 기반으로 하는 분산 학습 프레임워크(distributed training framework)입니다. Horovod는 TensorFlow 버전 1.12 이상에서만 사용할 수 있습니다. 자세한 내용은 [Horovod README](https://github.com/uber/horovod)에서 확인할 수 있습니다.

Horovod를 활성화하려면 학습 스크립트를 약간 수정해야 합니다. 본 실습에서 이를 직접 수행해 보겠습니다.

## Create a training script that support Horovod distributed training

`training_script/cifar10_keras_sm.py`의 사본을 생성 후 **<font color='red'>(주의: `training_script/cifar10_keras_pipe.py`의 사본이 아닙니다)</font>**, `training_script/cifar10_keras_dist.py` 로 저장하세요.

스크립트 사본을 생성하였다면 단계별로 아래의 작업들을 직접 시도합니다.

----
### TODO 1. Start horovod
Horovod에 대응하기 위해 `main()` 함수에 아래 코드를 추가합니다.

```python
    import horovod.keras as hvd
    hvd.init()
    config = tf.ConfigProto()
    config.gpu_options.allow_growth = True
    config.gpu_options.visible_device_list = str(hvd.local_rank())
    K.set_session(tf.Session(config=config))
```

----
### TODO 2. Configure callbacks
`main()` 함수에서 callbacks을 추가합니다.

```python
    callbacks.append(hvd.callbacks.BroadcastGlobalVariablesCallback(0))
    callbacks.append(hvd.callbacks.MetricAverageCallback())
    callbacks.append(hvd.callbacks.LearningRateWarmupCallback(warmup_epochs=5, verbose=1))
```

`hvd.rank () == 0` 에서만 실행되도록 체크포인트 및 TensorBoard 콜백을 변경해 주세요.
```python
    if hvd.rank() == 0:
        callbacks.append(ModelCheckpoint(args.output_dir + '/checkpoint-{epoch}.h5'))
        callbacks.append(TensorBoard(log_dir=args.model_output_dir,update_freq='epoch'))
```

----
### TODO 3. Configure the optimizer
Horovod에 대응하기 위해 아래의 절차들을 진행합니다.


1) `keras_model_fn` 함수에 hvd 인수를 추가합니다.
```python
# Add hvd to the function. also add it in the function call
def keras_model_fn(learning_rate, weight_decay, optimizer, momentum, hvd): 
```

2) `size=1`을 `size=hvd.size()`로 변경해 주세요.

3) 코드를 아래와 같이 수정합니다.

```python
 model.compile(loss='categorical_crossentropy',
                  optimizer=opt,
                  metrics=['accuracy'])
```
바로 앞에
```python
opt = hvd.DistributedOptimizer(opt)
```
라인을 추가해 주세요.

4) `main()` 함수에서 model 인스턴스를 만들 때 hvd를 인수로 전달하도록 수정합니다.

```python
model = keras_model_fn(args.learning_rate, args.weight_decay, args.optimizer, args.momentum, hvd)
```

<font color='blue'>**본 노트북 실습에 어려움이 있다면 솔루션 파일 `training_script/cifar10_keras_dist_solution.py`을 참조하시면 됩니다.**</font>

## Run Distributed training
아래의 설정을 Estimator 객체에 전달하여 Horovod 분산 학습에 대한 설정을 할 수 있습니다.
```python
distributions = {'mpi': {
                    'enabled': True,
                    'processes_per_host': # Number of Horovod processes per host
                        }
                }
```

In [1]:
import os
import sagemaker
from sagemaker import get_execution_role

sagemaker_session = sagemaker.Session()

role = get_execution_role()

In [2]:
prefix = 'data/DEMO-cifar10'
dataset_location = os.path.join('s3://', sagemaker_session.default_bucket(), prefix)

In [3]:
metric_definitions = [
    {'Name': 'train:loss', 'Regex': 'loss: (.*?) '},
    {'Name': 'train:accuracy', 'Regex': 'acc: (.*?) '},
    {'Name': 'validation:loss', 'Regex': 'val_loss: (.*?) '},
    {'Name': 'validation:accuracy', 'Regex': 'val_acc: (.*?) '}
]

`train_instance_count` 인자값을 2로 설정하고 `distribution` 인자값을 추가합니다.<br>
이번에는 5 epoch 대신 10 epoch를 학습합니다.

In [4]:
from sagemaker.tensorflow import TensorFlow

distributions = {
    'mpi': {
        'enabled': True, 
        'custom_mpi_options': '-verbose --NCCL_DEBUG=INFO',
        'processes_per_host': 1
    }
}

# Change base_job_name to 'cifar10-dist' for console visibility
estimator = TensorFlow(base_job_name='cifar10-dist',
                       entry_point='cifar10_keras_dist.py',
                       source_dir='training_script',
                       role=role,
                       framework_version='1.14.0',
                       py_version='py3',
                       script_mode=True,                            
                       hyperparameters={'epochs': 10},
                       train_instance_count=2,   # 변경
                       train_instance_type='ml.p2.xlarge',
                       metric_definitions=metric_definitions, # 1_Monitoring_your_TensorFlow_scripts.ipynb 참조                         
                       distributions=distributions # 추가
                      )

학습 완료 후 Billable seconds도 확인해 보세요. Billable seconds는 실제로 학습 수행 시 과금되는 시간입니다.
```
Billable seconds: <time>
```

참고로, `ml.p2.xlarge` 인스턴스로 10 epoch 학습 시 전체 6분~7분이 소요되고, 실제 학습에 소요되는 시간은 3분~4분이 소요됩니다.

In [5]:
%%time
estimator.fit({'train':'{}/train'.format(dataset_location),
              'validation':'{}/validation'.format(dataset_location),
              'eval':'{}/eval'.format(dataset_location)})

2019-10-21 07:59:04 Starting - Starting the training job...
2019-10-21 07:59:07 Starting - Launching requested ML instances......
2019-10-21 08:00:07 Starting - Preparing the instances for training......
2019-10-21 08:01:15 Downloading - Downloading input data...
2019-10-21 08:01:58 Training - Downloading the training image...
  _np_qint8 = np.dtype([("qint8", np.int8, 1)])[0m
  _np_quint8 = np.dtype([("quint8", np.uint8, 1)])[0m
  _np_qint16 = np.dtype([("qint16", np.int16, 1)])[0m
  _np_quint16 = np.dtype([("quint16", np.uint16, 1)])[0m
  _np_qint32 = np.dtype([("qint32", np.int32, 1)])[0m
  np_resource = np.dtype([("resource", np.ubyte, 1)])[0m
  _np_qint8 = np.dtype([("qint8", np.int8, 1)])[0m
  _np_quint8 = np.dtype([("quint8", np.uint8, 1)])[0m
  _np_qint16 = np.dtype([("qint16", np.int16, 1)])[0m
  _np_quint16 = np.dtype([("quint16", np.uint16, 1)])[0m
  _np_qint32 = np.dtype([("qint32", np.int32, 1)])[0m
  np_resource = np.dtype([("resource", np.ubyte, 1)])[0m
[31m

[31m[1,1]<stderr>:I1021 08:02:42.275452 140285834823424 cifar10_keras_dist.py:220] configuring model[0m
[31m[1,0]<stderr>:I1021 08:02:42.289049 139980435289856 cifar10_keras_dist.py:220] configuring model[0m
[31m[ip-10-2-159-196.ec2.internal:00036] 1 more process has sent help message help-orte-odls-default.txt / memory not bound[0m
[31m[ip-10-2-159-196.ec2.internal:00036] Set MCA parameter "orte_base_help_aggregate" to 0 to see all help / error messages[0m
[31m[1,0]<stderr>:W1021 08:02:43.943424 139980435289856 deprecation_wrapper.py:119] From /usr/local/lib/python3.6/site-packages/keras/backend/tensorflow_backend.py:1834: The name tf.nn.fused_batch_norm is deprecated. Please use tf.compat.v1.nn.fused_batch_norm instead.[0m
[31m[1,0]<stderr>:[0m
[31m[1,0]<stderr>:W1021 08:02:44.120131 139980435289856 deprecation_wrapper.py:119] From /usr/local/lib/python3.6/site-packages/keras/backend/tensorflow_backend.py:3976: The name tf.nn.max_pool is deprecated. Please use tf.nn.max_

[31m[1,1]<stdout>:Epoch 2/5[0m
[31m[1,0]<stdout>:Epoch 2/5[0m


[31m[1,1]<stdout>:Epoch 3/5[0m
[31m[1,0]<stdout>:Epoch 3/5[0m


[31m[1,1]<stdout>:Epoch 4/5[0m
[31m[1,0]<stdout>:Epoch 4/5[0m


[31m[1,1]<stdout>:Epoch 5/5[0m
[31m[1,0]<stdout>:Epoch 5/5[0m




[31m[1,0]<stdout>:[0m
[31m[1,0]<stdout>:Epoch 5: finished gradual learning rate warmup to 0.002.[0m
[31m[1,1]<stdout>:[0m
[31m[1,1]<stdout>:Epoch 5: finished gradual learning rate warmup to 0.002.[0m
[31m[1,1]<stderr>:I1021 08:04:03.898949 140285834823424 cifar10_keras_dist.py:254] Test loss:1.267791929997896[0m
[31m[1,1]<stderr>:I1021 08:04:03.899198 140285834823424 cifar10_keras_dist.py:255] Test accuracy:0.5448190789473685[0m
[31m[1,1]<stderr>:W1021 08:04:03.899377 140285834823424 deprecation_wrapper.py:119] From cifar10_keras_dist.py:193: The name tf.saved_model.signature_def_utils.predict_signature_def is deprecated. Please use tf.compat.v1.saved_model.signature_def_utils.predict_signature_def instead.[0m
[31m[1,1]<stderr>:[0m
[31m[1,1]<stderr>:W1021 08:04:03.899547 140285834823424 deprecation.py:323] From /usr/local/lib/python3.6/site-packages/tensorflow/python/saved_model/signature_def_utils_impl.py:201: build_tensor_info (from tensorflow.python.saved_model.util


2019-10-21 08:04:56 Uploading - Uploading generated training model
2019-10-21 08:04:56 Completed - Training job completed
Training seconds: 442
Billable seconds: 442
CPU times: user 926 ms, sys: 71.1 ms, total: 997 ms
Wall time: 6min 14s


**잘 하셨습니다.**  

여러 분은 이제 분산 학습에 SageMaker 학습 작업을 사용할 수 있습니다.
다음 노트북으로 계속 진행하기 전에 CloudWatch 및 TensorBoard의 distribution job metrics를 살펴 보세요.
TensorBoard를 사용하여 여러분이 실행한 다른 작업을 비교할 수 있습니다.

TensorBoard 실행 시 아래의 인자값을 참조해 주세요.<br>
`--logdir dist:dist_model_dir,pipe:pipe_model_dir,file:normal_job_model_dir`