# [모듈 1.1] 노트북 인스턴스에서 분산 훈련 하기

이 노트북은 커널을 'conda_python3' 를 사용합니다.
---
세이지 메이커의 훈련 잡으로 모델 훈련을 하기 전에, 노트북에서 훈련 코드 (TFT_Train.py) 를 실행합니다. 현재 이 노트북 인스턴스가 보유한 모든 GPUs 를 사용 합니다.

# 1. 환경 설정


## 파라미터 세팅

In [1]:
import torch
import os

epochs = 1
num_gpus = torch.cuda.device_count()
model_dir = 'model'
# num_gpus = 4
train_notebook = True

print("num_gpus: ", num_gpus)
print("epochs: ", epochs)
print("model_dir: ", model_dir)


num_gpus:  8
epochs:  1
model_dir:  model


## 환경 변수 설정

- 아래의 세이지 메이커 도커 컨테이너의 환경 변수 (에: SM_MODEL_DIR) 는 이 노트북에서는 실제 필요 하지 않습니다.
- 아래의 환경 변수는 추후에 세이지 메이커의 도커 컨테이너안에서는 자동으로 환경 변수가 설정이 됩니다. 여기서는 추후에 훈련 스크립트인 'scripts/TFT_Train.py' 의 수정없이 사용을 하기 위해서 세이지 메이커 관련 환경 변수를 설정 합니다. 

In [2]:
if train_notebook:


    os.makedirs(model_dir, exist_ok=True)
        
    src_dir = os.getcwd()
    os.environ['SM_MODEL_DIR'] = f'{src_dir}/{model_dir}'
    os.environ['SM_NUM_GPUS'] = str(num_gpus)
    

# 2. 훈련 코드를 직접 로컬에서 실행
- --n_gpus {num_gpus} --epochs {epochs} 와 같은 파이라미터를 전달하여 실행 합니다.
- 실행 완료 후에 model_dir 경로에 모델 가중치 파일이 저장 됩니다.

In [3]:
! python src/TFT_Train.py --n_gpus {num_gpus} --epochs {epochs}

Not running on notebook
***** Arguments *****
epochs=1
seed=100
train_batch_size=64
model_dir=/home/ec2-user/SageMaker/Forecasting-with-Transformer-On-SageMaker/1_Training/model
n_gpus=8

GPU available: True, used: True
TPU available: False, using: 0 TPU cores
IPU available: False, using: 0 IPUs
HPU available: False, using: 0 HPUs
Number of parameters in network: 29.7k
Initializing distributed: GLOBAL_RANK: 0, MEMBER: 1/8
Initializing distributed: GLOBAL_RANK: 1, MEMBER: 2/8
Initializing distributed: GLOBAL_RANK: 2, MEMBER: 3/8
Initializing distributed: GLOBAL_RANK: 3, MEMBER: 4/8
Initializing distributed: GLOBAL_RANK: 4, MEMBER: 5/8
Initializing distributed: GLOBAL_RANK: 5, MEMBER: 6/8
Initializing distributed: GLOBAL_RANK: 6, MEMBER: 7/8
Initializing distributed: GLOBAL_RANK: 7, MEMBER: 8/8
----------------------------------------------------------------------------------------------------
distributed_backend=nccl
All distributed processes registered. Starting with 8 processes
------

# 3. 모델 가중치 파일 확인

In [4]:
os.listdir(model_dir)

['model.pth']