# PyTorch 및 SMDataParallel을 사용한 분산 데이터 병렬 MNIST 훈련

## 배경
SMDataParallel은 Amazon SageMaker의 새로운 기능으로 딥러닝 모델을 더 빠르고 저렴하게 훈련할 수 있습니다. SMDataParallel은 TensorFlow2, PyTorch, MXNet을 위한 분산 데이터 병렬 훈련 프레임워크입니다.

이 노트북 예제는 MNIST 데이터셋을 사용하여 SageMaker에서 PyTorch와 함께 SMDataParallel을 사용하는 방법을 보여줍니다.

자세한 내용은 아래 자료들을 참조해 주세요.
1. [PyTorch in SageMaker](https://sagemaker.readthedocs.io/en/stable/frameworks/pytorch/using_pytorch.html)
2. [SMDataParallel PyTorch API Specification](https://sagemaker.readthedocs.io/en/stable/api/training/smd_data_parallel_pytorch.html)
3. [Getting started with SMDataParallel on SageMaker](https://docs.aws.amazon.com/sagemaker/latest/dg/distributed-training.html)

**참고:** 이 예제는 SageMaker Python SDK v2.X가 필요합니다.


### 데이터셋
이 예에서는 MNIST 데이터셋을 사용합니다. MNIST는 손글씨 숫자 분류에 널리 사용되는 데이터셋으로 손으로 쓴 숫자의 70,000 개의 레이블이 있는 28x28 픽셀 그레이스케일 이미지로 구성됩니다. 데이터셋은 60,000개의 훈련 이미지와 10,000개의 테스트 이미지로 분할되며, 0~9까지의 10 개의 클래스가 존재합니다.

### SageMaker execution roles

IAM 역할 arn은 데이터에 대한 훈련 및 호스팅 액세스 권한을 부여하는 데 사용됩니다. 이를 생성하는 방법은 [Amazon SageMaker 역할](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-roles.html) 을 참조하세요. 노트북 인스턴스, 훈련 및 호스팅에 둘 이상의 역할이 필요한 경우 `sagemaker.get_execution_role()`을 적절한 전체 IAM 역할 arn 문자열로 변경해 주세요.

In [1]:
pip install sagemaker --upgrade

Collecting sagemaker
  Downloading sagemaker-2.19.0.tar.gz (395 kB)
[K     |████████████████████████████████| 395 kB 32.1 MB/s eta 0:00:01
Collecting boto3>=1.16.32
  Downloading boto3-1.16.35-py2.py3-none-any.whl (129 kB)
[K     |████████████████████████████████| 129 kB 52.3 MB/s eta 0:00:01
Collecting smdebug_rulesconfig>=1.0.0
  Downloading smdebug_rulesconfig-1.0.0-py3-none-any.whl (14 kB)
Collecting botocore<1.20.0,>=1.19.35
  Downloading botocore-1.19.35-py2.py3-none-any.whl (7.1 MB)
[K     |████████████████████████████████| 7.1 MB 58.3 MB/s eta 0:00:01
Building wheels for collected packages: sagemaker
  Building wheel for sagemaker (setup.py) ... [?25ldone
[?25h  Created wheel for sagemaker: filename=sagemaker-2.19.0-py2.py3-none-any.whl size=553629 sha256=2f7eddb3ce029e581af2003a844a49aa51f6cefe6fb4317c89a6872acd998db7
  Stored in directory: /root/.cache/pip/wheels/ce/7f/6d/2662642ee8d267b1d14ece57f66d8d110f5da4ef302fe7a481
Successfully built sagemaker
[31mERROR: awscli 1

In [2]:
import sagemaker

sagemaker_session = sagemaker.Session()
role = sagemaker.get_execution_role()

## SMDataParallel을 사용한 모델 훈련

### 훈련 스크립트

MNIST 데이터셋은 `torchvision.datasets` PyTorch 모듈을 사용하여 다운로드됩니다. 다음 코드 셀에 출력되는 `train_pytorch_smdataparallel_mnist.py` 학습 스크립트에서  구현 방법을 확인할 수 있습니다.

훈련 스크립트는 SMDataParallel을 사용하는 분산 데이터 병렬 (DDP) 훈련에 필요한 코드를 제공합니다. 훈련 스크립트는 SageMaker 외부에서 실행할 수 있는 PyTorch 훈련 스크립트와 매우 유사하지만 SMDataParallel과 함께 실행되도록 수정되었습니다. SMDataParallel의 PyTorch 클라이언트는 PyTorch의 기본 DDP에 대한 대안을 제공합니다. 네이티브 PyTorch 스크립트에서 SMDataParallel의 DDP를 사용하는 방법에 대한 자세한 내용은 SMDataParallel 시작하기 자습서를 참조하세요.

In [3]:
!pygmentize code/train_pytorch_smdataparallel_mnist.py

[37m# Copyright 2020 Amazon.com, Inc. or its affiliates. All Rights Reserved.[39;49;00m
[37m#[39;49;00m
[37m# Licensed under the Apache License, Version 2.0 (the "License"). You[39;49;00m
[37m# may not use this file except in compliance with the License. A copy of[39;49;00m
[37m# the License is located at[39;49;00m
[37m#[39;49;00m
[37m#     http://aws.amazon.com/apache2.0/[39;49;00m
[37m#[39;49;00m
[37m# or in the "license" file accompanying this file. This file is[39;49;00m
[37m# distributed on an "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF[39;49;00m
[37m# ANY KIND, either express or implied. See the License for the specific[39;49;00m
[37m# language governing permissions and limitations under the License.[39;49;00m

[34mfrom[39;49;00m [04m[36m__future__[39;49;00m [34mimport[39;49;00m print_function

[34mimport[39;49;00m [04m[36mos[39;49;00m
[34mimport[39;49;00m [04m[36margparse[39;49;00m
[34mimport[39;49;00m [04m[36mtime[39;49;00m


### Estimator function options

다음 코드 블록에서 다른 인스턴스 유형, 인스턴스 수 및 분산 전략을 사용하도록 estimator 함수를 업데이트할 수 있습니다. 이전 코드 셀에서 검토한 훈련 스크립트도 estimator 함수로 전달합니다.

**인스턴스 유형**

SMDataParallel은 아래 인스턴스 유형들만 SageMaker 상에서의 모델 훈련을 지원합니다.
1. ml.p3.16xlarge
1. ml.p3dn.24xlarge [권장]
1. ml.p4d.24xlarge [권장]

**인스턴스 수**

최상의 성능과 SMDataParallel을 최대한 활용하려면 2개 이상의 인스턴스를 사용해야 하지만, 이 예제를 테스트하는 데 1개를 사용할 수도 있습니다.

**배포 전략**

DDP 모드를 사용하려면 `distribution` 전략을 업데이트하고 `smdistributed dataparallel`을 사용하도록 설정해야 합니다.

In [4]:
from sagemaker.pytorch import PyTorch
estimator = PyTorch(base_job_name='pytorch-smdataparallel-mnist',
                        source_dir='code',
                        entry_point='train_pytorch_smdataparallel_mnist.py',
                        role=role,
                        framework_version='1.6.0',
                        py_version='py36',
                        # For training with multinode distributed training, set this count. Example: 2
                        instance_count=2,
                        # For training with p3dn instance use - ml.p3dn.24xlarge
                        instance_type= 'ml.p3.16xlarge',
                        sagemaker_session=sagemaker_session,
                        # Training using SMDataParallel Distributed Training Framework
                        distribution={'smdistributed':{
                                            'dataparallel':{
                                                    'enabled': True
                                                 }
                                          }
                                      },
                        debugger_hook_config=False)

In [5]:
%%time
estimator.fit()

2020-12-13 06:52:40 Starting - Starting the training job...
2020-12-13 06:53:04 Starting - Launching requested ML instancesProfilerReport-1607842360: InProgress
............
2020-12-13 06:55:05 Starting - Preparing the instances for training.........
2020-12-13 06:56:30 Downloading - Downloading input data
2020-12-13 06:56:30 Training - Downloading the training image.................[35mbash: cannot set terminal process group (-1): Inappropriate ioctl for device[0m
[35mbash: no job control in this shell[0m
[35m2020-12-13 06:59:15,271 sagemaker-training-toolkit INFO     Imported framework sagemaker_pytorch_container.training[0m
[35m2020-12-13 06:59:15,349 sagemaker_pytorch_container.training INFO     Block until all host DNS lookups succeed.[0m
[35m2020-12-13 06:59:18,411 sagemaker_pytorch_container.training INFO     Invoking SMDataParallel[0m
[35m2020-12-13 06:59:18,411 sagemaker_pytorch_container.training INFO     Invoking user training script.[0m
[35m2020-12-13 06:59:18,

## Next steps

이제 훈련된 모델이 있으므로, 모델을 호스팅하는 엔드포인트를 배포할 수 있습니다. 엔드포인트를 배포한 후 추론 요청으로 테스트할 수 있습니다. 다음 셀은 추론 노트북과 함께 사용할 model_data 변수를 저장합니다.

In [6]:
model_data = estimator.model_data
print("Storing {} as model_data".format(model_data))
%store model_data

Storing s3://sagemaker-us-east-1-143656149352/pytorch-smdataparallel-mnist-2020-12-13-06-52-40-335/output/model.tar.gz as model_data
Stored 'model_data' (str)
