# [모듈 3.3] 모델 훈련 스텝 개발 (SageMaker Model Building Pipeline 훈련 스텝)

이 노트북은 아래와 같은 목차로 진행 됩니다. 전체를 모두 실행시에 완료 시간은 약 5분-10분 소요 됩니다.

- 1. 모델 훈련 스텝 개요
- 2. 기본 라이브러리 로딩
- 3. 훈련에 사용할 전처리된 파일을 확인
- 4. 모델 빌딩 파이프라인 의 스텝(Step) 생성
- 5. 파리마터, 단계, 조건을 조합하여 최종 파이프라인 정의 및 실행
- 6. 세이지 메이커 스튜디오에서 확인하기
- 7. 모델 아티펙트 경로 추출
    
---
### 노트북 커널
- 이 워크샵은 노트북 커널이 `conda_python3` 를 사용합니다. 다른 커널일 경우 변경 해주세요.
---



# 1. 모델 훈련 스텝 개요
- 모델 훈련 및 등록 단계의 개발자 가이드 
    - [모델 훈련 스텝](https://docs.aws.amazon.com/ko_kr/sagemaker/latest/dg/build-and-manage-steps.html#step-type-training)



# 2. 기본 라이브러리 로딩

세이지 메이커 관련 라이브러리를 로딩 합니다.

In [None]:
import boto3
import sagemaker
import pandas as pd
import os

sagemaker_session = sagemaker.session.Session()
role = sagemaker.get_execution_role()


%store -r 
# 노트북에 저장되어 있는 변수를 보기 위해서는 주석을 제거하고 실행하시면 됩니다.
%store  

# 3. 훈련에 사용할 전처리된 파일을 확인
이후에 훈련에서 사용할 S3의 저장된 전처리 데이터를 확인 합니다.

## 3.1. 데이터 세트 로딩
- 이전 단계(전처리)에서 결과 파일을 로딩 합니다. 실제 훈련에 제공되는 데이터를 확인하기 위함 입니다.
- 로딩힐 데이터 파일이 S3에 있는지 변수의 경로를 확인 합니다. (train_preproc_dir_artifact)

In [None]:
train_preproc_dir_artifact_file = os.path.join(train_preproc_dir_artifact,'train.csv')
print("train_preproc_dir_artifact_file: \n", train_preproc_dir_artifact_file)
train_prep_df = pd.read_csv(train_preproc_dir_artifact_file)
train_prep_df

#### [참고] AioClientError 발생시

* pip uninstall boto3
* pip uninstall botocore
* pip uninstall aiobotocore

실행후

* pip install boto3==1.17.106
* pip install s3fs==2021.11.1

# 4. 모델 빌딩 파이프라인 의 스텝(Step) 생성



## 4.1 모델 빌딩 파이프라인 변수 생성

파이프라인에서 사용할 파이프라인 파라미터를 정의합니다. 파이프라인을 스케줄하고 실행할 때 파라미터를 이용하여 실행조건을 커스마이징할 수 있습니다. 파라미터를 이용하면 파이프라인 실행시마다 매번 파이프라인 정의를 수정하지 않아도 됩니다.



In [None]:
from sagemaker.workflow.parameters import (
    ParameterInteger,
    ParameterString,
)

training_instance_type = ParameterString(
    name="TrainingInstanceType",
    default_value="ml.m5.xlarge"
)

training_instance_count = ParameterInteger(
    name="TrainingInstanceCount",
    default_value= 1
)

input_data = ParameterString(
    name="InputData",
    default_value=input_data_uri,
)


## 4.2 하이퍼파라미터 세팅

### 기본 훈련 변수 및 하이퍼파라미터 설정
- XGBoost에 알고리즘에 입력될 하이퍼 파리미터의 값을 설정 합니다.
- scale_pos_weight 의 경우는 현재의 데이터가 레이블(fraud)간 불균형이 있기에, fraud: 1, non-fraud: 0 의 비율을 계산하여 제공합니다.
    - 하이퍼 파라미터 상세 사항은 여기를 보세요. -->  [XGBoost Parameters](https://xgboost.readthedocs.io/en/latest/parameter.html)

In [None]:
from sagemaker.xgboost.estimator import XGBoost


estimator_output_path = f's3://{bucket}/{project_prefix}/training_jobs'
train_instance_count = 1

hyperparameters = {

    ## 작성 필요
    
}
%store hyperparameters

## 4.3 Estimator 생성



### 모델 학습을 위한 학습단계 정의 

 XGBoost 사용자 알고리즘을 이용하도록 Estimator를 구성합니다. 
 - 보편적인 학습스크립트를 이용하여 입력 채널에서 정의한 학습데이터를 로드하고, 하이퍼파라미터 설정을 통해 학습을 설정하고, 모델을 학습한 후 `model_dir`경로에 학습된 모델을 저장합니다. 저장된 모델은 이후 호스팅을 위해 사용됩니다. 
- 사용자 훈련 코드 "src/xgboost_starter_script.py"
- 훈련이 끝난 후에 결과인 모델 아티펙트를 경로 "estimator_output_path" 에 지정 합니다. 지정 안할 시에는 디폴트 경로로 저장 됩니다.


- 파이프라인 파라미터인 `training_instance_type`, `training_instance_count` 파라미터가 사용된 것을 확인합니다. 

In [None]:
xgb_train = XGBoost(
    
    
    ## 작성 필요
    
    
)

## 4.4 모델 훈련 스탭 생성
- 스텝 생성시에 위에서 생성한 Estimator 입력 및 입력 데이타로서 전처리 데이터가 존재하는 S3 경로를 제공합니다.

In [None]:
from sagemaker.inputs import TrainingInput
from sagemaker.workflow.steps import TrainingStep


step_train = TrainingStep(
    name="Fraud-Basic-Train",
    estimator=xgb_train,
    inputs={
        "train": TrainingInput(
            s3_data= train_preproc_dir_artifact,
            content_type="text/csv"
        ),
    },
)

이전 단계에서 (프로세싱) 전처리 훈련, 검증 데이터 세트를 입력으로 제공 합니다.
- [알림] `6.1.All-Pipeline.ipynb` 노트북에서는 입력을 전처리 스텝의 결과를 지정합니다. 여기서는 전처리 스텝과 독립적으로 실행하기 위해서 S3의 입력 파일 경로를 직접 기술 하였습니다.
-  `6.1.All-Pipeline.ipynb` 에서의 step_train 코드

```python
step_train = TrainingStep(
    name="FraudScratchTrain",
    estimator=xgb_train,
    inputs={
        "train": TrainingInput(
            s3_data=step_process.properties.ProcessingOutputConfig.Outputs[
                "train"
            ].S3Output.S3Uri,
            content_type="text/csv"
        ),
    },
)    
 ```


# 5. 파리마터, 단계, 조건을 조합하여 최종 파이프라인 정의 및 실행




## 5.1 파이프라인 정의
파이프라인 정의시에 아래 3개의 인자를 제공합니다.
- 파이프라인 이름
- 파이프라인 파라미터
- 파이프라인 실험 설정
- 스텝 정의 (여기서는 훈련, 모델 등록 두가지 스텝 임)

In [None]:
from sagemaker.workflow.pipeline import Pipeline

pipeline_name = project_prefix
pipeline = Pipeline(
    name=pipeline_name,
    parameters=[
            
        ## 작성 필요

    ],
    steps=[    ## 작성 필요    ],
)

## 5.2 파이프라인 정의 확인
위에서 정의한 파이프라인 정의는 Json 형식으로 정의 되어 있습니다.

In [None]:
import json

definition = json.loads(pipeline.definition())
definition

## 5.3 파이프라인 정의를 제출하고 실행하기 

파이프라인 정의를 파이프라인 서비스에 제출합니다. 함께 전달되는 역할(role)을 이용하여 AWS에서 파이프라인을 생성하고 작업의 각 단계를 실행할 것입니다.   

In [None]:
pipeline.upsert(role_arn=role)
execution = pipeline.start()

In [None]:
execution.describe()

## 5.4 파이프라인 실행 기다리기

In [None]:
execution.wait()

실행이 완료될 때까지 기다립니다.

실행된 단계들을 리스트업합니다. 파이프라인의 단계실행 서비스에 의해 시작되거나 완료된 단계를 보여줍니다.

## 5.5 파이프라인 실행 단계 기록 보기

In [None]:
execution.list_steps()

# 6. 세이지 메이커 스튜디오에서 확인하기
- 아래의 그림 처럼 SageMaker Studio에 로긴후에 따라하시면, SageMaker Studio 에서도 실행 내역을 확인할 수 있습니다.
    - SageMaker Studio 개발자 가이드 --> [SageMaker Studio](https://docs.aws.amazon.com/ko_kr/sagemaker/latest/dg/studio.html)



![train_step_sm.studio.png](img/train_step_sm.studio.png)

# 7. 모델 아티펙트 경로 추출


## 7.1. 훈련 모델 결과의 경로 지정
- 다음 노트북에서 사용할 훈련 모델 아티펙트의 S3 경로를 저장 합니다.

In [None]:
from src.p_utils import get_train_artifact

import boto3
client = boto3.client("sagemaker")
    
train_model_artifact = get_train_artifact(execution, client,job_type='TrainingJob', kind=0)
print(" train_model_artifact: \n", train_model_artifact)


## 7.2 훈련시 사용한 도커 이미지를 저장
- 추론시에 사용할 도커 이미지를 추론시에도 동일하게 사용하기 위해서 저장 합니다.
    - 일반적으로 훈련, 추론의 도커 이미지를 분리해서 사용합니다. 하지만 간단한 알고리즘의 경우는 훈련, 추론의 도커 이미지를 같이 사용하기도 합니다.

In [None]:
image_uri = xgb_train.image_uri
print("image_uri: \n", image_uri)

훈련 모델 아티펙트와, 훈련시 사용한 다커 이미지의 경로를 저장 합니다.

In [None]:
%store train_model_artifact
%store image_uri