# AI/ML 프로세스 매뉴얼(4) - SageMaker Training Job 학습 가이드

## 1) 조건 확인

* 작업 실행 환경 필수 리스트
    * build-and-push.sh
    * container 폴더 존재
    * container 폴더 내부 Dockerfile 존재
    * container 폴더 내부 train 파일 존재

* build-and-push.sh
    * AWS에서 제공하는 base이미지를 기반으로 Dockerfile에 있는 이미지 생성
    * container 폴더의 Dockerfile로 이미지 생성 후 ECR 컨테이너로 빌드
    * 이때, container 폴더의 Train 이미지도 함께 이미지로 빌드

## 2) 컨테이너 빌드

* 1) 조건 확인 의 모든 사항이 준비되었을 경우 아래의 코드 실행

In [108]:
! ./build-and-push.sh ultralytics-yolov5 ## 컨테이너 빌드

https://docs.docker.com/engine/reference/commandline/login/#credentials-store

Login Succeeded
https://docs.docker.com/engine/reference/commandline/login/#credentials-store

Login Succeeded
base_img:763104351884.dkr.ecr.ap-northeast-2.amazonaws.com/pytorch-training:1.6.0-gpu-py36-cu101-ubuntu16.04
Sending build context to Docker daemon  8.704kB
Step 1/9 : FROM ultralytics/yolov5:latest
 ---> af646691f79c
Step 2/9 : ENV PATH="/usr/src/app:${PATH}"
 ---> Using cache
 ---> 2664a3465cc5
Step 3/9 : ENV PATH="/opt/code:${PATH}"
 ---> Using cache
 ---> a820bb8984eb
Step 4/9 : RUN apt-get update && apt-get install -y --no-install-recommends --allow-unauthenticated jq && apt-get install libc6-i386
 ---> Using cache
 ---> 7a91c0449819
Step 5/9 : RUN pip install -r requirements.txt
 ---> Using cache
 ---> 87da25ed7bb2
Step 6/9 : RUN curl "https://awscli.amazonaws.com/awscli-exe-linux-x86_64.zip" -o "awscliv2.zip" && apt-get install unzip
 ---> Using cache
 ---> 0080e98cd5eb
Step 7/9 : RUN unzip a



## 3) SageMaker Training Job 실행

* 필요 라이프러리 불러오기

In [7]:
from datetime import datetime
import sagemaker
import boto3
from sagemaker import get_execution_role
from sagemaker.estimator import Estimator

* 빌드 된 ECR 이미지(URI) 가져오기

In [None]:
role = get_execution_role() ## SageMaker 실행 역할 가져오기
sm = boto3.client('sagemaker')

## ECR URI 가져오기
account=boto3.client('sts').get_caller_identity().get('Account')
region = boto3.session.Session().region_name
repositoryUri="{}.dkr.ecr.{}.amazonaws.com/ultralytics-yolov5".format(account, region)

* 데이터 경로 설정

In [110]:
bucket = 'posco-test-20221011' ## 버킷명 설정
job_name = 'yolov5-' + datetime.now().strftime("%Y-%m-%d-%H-%M-%S") ## Training Job 이름 설정
input_path ='s3://{}/input_data'.format(bucket) ## 학습 데이터 저장 경로
output_path ='s3://{}/results'.format(bucket) ## 학습 모델 저장 경로

* Training Job 모델 학습 실행

In [111]:
## Training Job 설정
estimator = Estimator(image_uri=repositoryUri, ## 학습 시킬 컨테이너 이미지
                      role=get_execution_role(), ## SageMaker 실행 역할
                      instance_count = 1, ## 사용 인트턴스 수
                      output_path = output_path, ## 모델 출력 경로
                      instance_type = 'ml.g4dn.xlarge', ## 사용 인스턴스 종류
                      use_spot_instances = True, ## Spot Training --local에서 진행할 경우 사용 불가
                      max_wait = 360000,
                      max_run = 100000,
#                       instance_type='local', ## 사용 인스턴스 종류                                            
                     )
## 학습 실행
estimator.fit(inputs={'input_data' : input_path}, job_name=job_name)

Creating 2rfwu3dk2z-algo-1-6kxm0 ... 
Creating 2rfwu3dk2z-algo-1-6kxm0 ... done
Attaching to 2rfwu3dk2z-algo-1-6kxm0
[36m2rfwu3dk2z-algo-1-6kxm0 |[0m 
[36m2rfwu3dk2z-algo-1-6kxm0 |[0m == PyTorch ==
[36m2rfwu3dk2z-algo-1-6kxm0 |[0m 
[36m2rfwu3dk2z-algo-1-6kxm0 |[0m NVIDIA Release 22.08 (build 42105213)
[36m2rfwu3dk2z-algo-1-6kxm0 |[0m PyTorch Version 1.13.0a0+d321be6
[36m2rfwu3dk2z-algo-1-6kxm0 |[0m 
[36m2rfwu3dk2z-algo-1-6kxm0 |[0m Container image Copyright (c) 2022, NVIDIA CORPORATION & AFFILIATES. All rights reserved.
[36m2rfwu3dk2z-algo-1-6kxm0 |[0m 
[36m2rfwu3dk2z-algo-1-6kxm0 |[0m Copyright (c) 2014-2022 Facebook Inc.
[36m2rfwu3dk2z-algo-1-6kxm0 |[0m Copyright (c) 2011-2014 Idiap Research Institute (Ronan Collobert)
[36m2rfwu3dk2z-algo-1-6kxm0 |[0m Copyright (c) 2012-2014 Deepmind Technologies    (Koray Kavukcuoglu)
[36m2rfwu3dk2z-algo-1-6kxm0 |[0m Copyright (c) 2011-2012 NEC Laboratories America (Koray Kavukcuoglu)
[36m2rfwu3dk2z-algo-1-6kxm0 |[0m Copyri

RuntimeError: Failed to run: ['docker-compose', '-f', '/tmp/tmptcearl57/docker-compose.yaml', 'up', '--build', '--abort-on-container-exit'], Process exited with code: 1

In [110]:
bucket = 'poc-2208-posco' ## 버킷명 설정
job_name = 'yolov5-' + datetime.now().strftime("%Y-%m-%d-%H-%M-%S") ## Training Job 이름 설정

inpath='s3://{}/input_data'.format(bucket) ## 학습 데이터 저장 경로
outpath='s3://{}/results'.format(bucket) ## 학습 모델 저장 경로
cfg = 's3://poc-2208-posco/input_data/train_args.json'

In [111]:
## Training Job 설정
estimator = Estimator(image_uri=repositoryUri, ## 학습 시킬 컨테이너 이미지
                      role=get_execution_role(), ## SageMaker 실행 역할
                      instance_count = 1,
                      instance_type='local', ## 사용 인스턴스 종류                      
                      output_path = outpath, ## 모델 출력 
                     )
## 학습 실행
estimator.fit(inputs={'cfg' : cfg, 'input_data' : inpath}, job_name=job_name)

Creating 2rfwu3dk2z-algo-1-6kxm0 ... 
Creating 2rfwu3dk2z-algo-1-6kxm0 ... done
Attaching to 2rfwu3dk2z-algo-1-6kxm0
[36m2rfwu3dk2z-algo-1-6kxm0 |[0m 
[36m2rfwu3dk2z-algo-1-6kxm0 |[0m == PyTorch ==
[36m2rfwu3dk2z-algo-1-6kxm0 |[0m 
[36m2rfwu3dk2z-algo-1-6kxm0 |[0m NVIDIA Release 22.08 (build 42105213)
[36m2rfwu3dk2z-algo-1-6kxm0 |[0m PyTorch Version 1.13.0a0+d321be6
[36m2rfwu3dk2z-algo-1-6kxm0 |[0m 
[36m2rfwu3dk2z-algo-1-6kxm0 |[0m Container image Copyright (c) 2022, NVIDIA CORPORATION & AFFILIATES. All rights reserved.
[36m2rfwu3dk2z-algo-1-6kxm0 |[0m 
[36m2rfwu3dk2z-algo-1-6kxm0 |[0m Copyright (c) 2014-2022 Facebook Inc.
[36m2rfwu3dk2z-algo-1-6kxm0 |[0m Copyright (c) 2011-2014 Idiap Research Institute (Ronan Collobert)
[36m2rfwu3dk2z-algo-1-6kxm0 |[0m Copyright (c) 2012-2014 Deepmind Technologies    (Koray Kavukcuoglu)
[36m2rfwu3dk2z-algo-1-6kxm0 |[0m Copyright (c) 2011-2012 NEC Laboratories America (Koray Kavukcuoglu)
[36m2rfwu3dk2z-algo-1-6kxm0 |[0m Copyri

RuntimeError: Failed to run: ['docker-compose', '-f', '/tmp/tmptcearl57/docker-compose.yaml', 'up', '--build', '--abort-on-container-exit'], Process exited with code: 1

In [33]:
## Training Job 설정
estimator = Estimator(image_uri=repositoryUri, ## 학습 시킬 컨테이너 이미지
                      role=get_execution_role(), ## SageMaker 실행 역할
                      instance_count=1, ## 사용 인스턴스 개수
#                       instance_type='ml.g4dn.16xlarge', ## 사용 인스턴스 종류
                      instance_type='local', ## 사용 인스턴스 종류                      
                      output_path = output_path, ## 모델 출력 경로
#                       use_spot_instances=True, ## Spot Training -- Local에서 진행할 경우 사용 불가
#                       max_wait=360000,
#                       max_run=100000       
                     )
## 학습 실행
estimator.fit(inputs={'input_data' : input_path}, job_name=job_name)

Creating uxtvtgkujc-algo-1-2l9c8 ... 
Creating uxtvtgkujc-algo-1-2l9c8 ... done
Attaching to uxtvtgkujc-algo-1-2l9c8
[36muxtvtgkujc-algo-1-2l9c8 |[0m 
[36muxtvtgkujc-algo-1-2l9c8 |[0m == PyTorch ==
[36muxtvtgkujc-algo-1-2l9c8 |[0m 
[36muxtvtgkujc-algo-1-2l9c8 |[0m NVIDIA Release 22.08 (build 42105213)
[36muxtvtgkujc-algo-1-2l9c8 |[0m PyTorch Version 1.13.0a0+d321be6
[36muxtvtgkujc-algo-1-2l9c8 |[0m 
[36muxtvtgkujc-algo-1-2l9c8 |[0m Container image Copyright (c) 2022, NVIDIA CORPORATION & AFFILIATES. All rights reserved.
[36muxtvtgkujc-algo-1-2l9c8 |[0m 
[36muxtvtgkujc-algo-1-2l9c8 |[0m Copyright (c) 2014-2022 Facebook Inc.
[36muxtvtgkujc-algo-1-2l9c8 |[0m Copyright (c) 2011-2014 Idiap Research Institute (Ronan Collobert)
[36muxtvtgkujc-algo-1-2l9c8 |[0m Copyright (c) 2012-2014 Deepmind Technologies    (Koray Kavukcuoglu)
[36muxtvtgkujc-algo-1-2l9c8 |[0m Copyright (c) 2011-2012 NEC Laboratories America (Koray Kavukcuoglu)
[36muxtvtgkujc-algo-1-2l9c8 |[0m Copyri