# [모듈 2.2] 람다 스텝

이 노트북은 아래와 같은 목차로 진행 됩니다. 전체를 모두 실행시에 완료 시간은 **약 5분** 소요 됩니다.

- 0. SageMaker Model Building Pipeline 개요
- 1. 파이프라인 변수 및 환경 설정
- 2. 파이프라인 스텝 단계 정의

    - (1) 모델 승인 상태 변경 람다 스텝    
    - (2) 배포할 세이지 메이커 모델 스텝 생성
    - (3) 모델 앤드 포인트 배포를 위한 람다 스텝 생성    
    
- 3. 모델 빌딩 파이프라인 정의 및 실행
- 4. Pipleline 캐싱 및 파라미터 이용한 실행
- 5. 정리 작업
    
---

# 0.[모듈 6.1] 모델 배포 파이프라인 개요

- 이 노트북은 다음과 같은 상황에 대한 파이프라인 입니다.
    - 모델 레제스트리에 여러개의 모델 패키지 그룹이 있습니다.
    - 모델 패키지 그룹에서 특정한 것을 선택하여 가장 최근에 저장된 모델 버전을 선택 합니다.
    - 선택된 모델 버전의 "모델 승인 상태"를 "Pending" 에서 "Approved" 로 변경 합니다.
    - 이 모델 버전에 대해서 세이지 메이커 모델을 생성합니다.
    - 세이지 메이커 모델을 기반으로 앤드포인트를 생성 합니다.

# 1. 파이프라인 변수 및 환경 설정



In [305]:
%load_ext autoreload
%autoreload 2

# src 폴더 경로 설정
import sys
sys.path.append('./src')

The autoreload extension is already loaded. To reload it, use:
  %reload_ext autoreload


In [306]:
import boto3
import sagemaker
import pandas as pd

region = boto3.Session().region_name
sagemaker_session = sagemaker.session.Session()
role = sagemaker.get_execution_role()
print("role: ", role)

sm_client = boto3.client('sagemaker', region_name=region)

%store -r model_package_group_name

role:  arn:aws:iam::057716757052:role/mlops-blog-ncf-gsmoon


In [307]:
%store -r inference_docker_image
# %store -r artifact_path
%store -r byom_artifact
%store -r bucket
%store -r prefix
%store -r artifact_path

In [308]:
byom_artifact

's3://sagemaker-us-east-1-057716757052/sm2fraud/new2train2model/model.tar.gz'

# 1. 로컬 코드 혹은 클라우드 모드 결정

In [309]:
LOCAL_MODE = True
# LOCAL_MODE = False
if LOCAL_MODE:
    from sagemaker.workflow.pipeline_context import LocalPipelineSession
    pipeline_session = LocalPipelineSession()
else:
    from sagemaker.workflow.pipeline_context import PipelineSession
    pipeline_session = PipelineSession()

---
# 1. 패키징 코드
- 패키징할 폴더 생성
- 추론 코드의 폴더 지정 후에 패키징 폴더에 복사
- 패키징 폴더를 source.tar.gz 압축 후에 S3에 업로딩
- 



In [310]:
import os

package_dir = 'code_pkg'
os.makedirs(package_dir, exist_ok=True)


In [311]:
code_dir = '../src'

In [312]:
%%sh -s {package_dir} {code_dir}

package_dir=$1
code_dir=$2

cd $package_dir # 폴더 생성
echo $PWD
rm -rf ./*
cp -r $code_dir/*.py  .  # src py 모두 카피
cp -r $code_dir/*.txt  .  # src 파일 모두 카피
tar -czvf source.tar.gz * # model.tar.gz 파일 생성

/home/ec2-user/SageMaker/Neural-Collaborative-Filtering-On-SageMaker/3_MLOps/1_sm_pipeline/1_training_pipeline/code_pkg
config.py
data_utils.py
evaluate.py
evaluation.py
iam_helper.py
iam_repackage_model_artifact.py
inference.py
inference_utils.py
lambda_helper.py
model.py
pipeline_util.py
repackage.py
requirements.txt
train_lib.py
train_metric.py
train_pipeline.py
train.py


# 2. S3 에 업로드

In [313]:
import sagemaker
sagemaker_session  = sagemaker.session.Session()
prefix='ncf/code'
bucket = sagemaker.session.Session().default_bucket()
print("bucket: ", bucket)

source_path = os.path.join(package_dir, 'source.tar.gz')
source_artifact = sagemaker_session.upload_data(source_path, bucket, prefix)
print("source_artifact: \n", source_artifact)

bucket:  sagemaker-us-east-1-057716757052
source_artifact: 
 s3://sagemaker-us-east-1-057716757052/ncf/code/source.tar.gz


### 모델 아피텍트 위치 확인

In [314]:
print("artifact_path: \n", artifact_path)

artifact_path: 
 s3://sagemaker-us-east-1-057716757052/pytorch-training-2022-10-14-13-19-13-618/output/model.tar.gz


### ScriptProcessor 정의 및 실행

In [320]:
from sagemaker.sklearn.processing import SKLearnProcessor
from sagemaker.processing import ProcessingInput, ProcessingOutput
from sagemaker.workflow.steps import ProcessingStep

processing_instance_type = 'ml.t3.medium'

repackage_script_processor = SKLearnProcessor(
                             framework_version= "0.23-1",
                             role=role,
                             instance_type=processing_instance_type,
                             instance_count=1,
                             base_job_name="repackage_model_artifact",
                             sagemaker_session=pipeline_session,    
                                    )

processor_args = repackage_script_processor.run(
                    inputs=[
                        ProcessingInput(
                            source= source_artifact,  # model_artifcat_path,
                            destination="/opt/ml/processing/source"
                        ),
                        ProcessingInput(
                            source = artifact_path, # prep_test_output,
                            destination="/opt/ml/processing/model"
                        )
                    ],
                    outputs=[
                        #ProcessingOutput(output_name="evaluation", source="/opt/ml/processing/evaluation"),
                        ProcessingOutput(output_name = "repackage", 
                                         source="/opt/ml/processing/repackage",
                                         destination="/opt/ml/processing/repackage/model.tar.gz",                                         
                                        ),                            
                    ],
                    code="src/repackage.py",
)

step_process = ProcessingStep(name="RepackageModel", step_args=processor_args)


Job Name:  repackage_model_artifact-2022-10-23-13-00-24-224
Inputs:  [{'InputName': 'input-1', 'AppManaged': False, 'S3Input': {'S3Uri': 's3://sagemaker-us-east-1-057716757052/ncf/code/source.tar.gz', 'LocalPath': '/opt/ml/processing/source', 'S3DataType': 'S3Prefix', 'S3InputMode': 'File', 'S3DataDistributionType': 'FullyReplicated', 'S3CompressionType': 'None'}}, {'InputName': 'input-2', 'AppManaged': False, 'S3Input': {'S3Uri': 's3://sagemaker-us-east-1-057716757052/pytorch-training-2022-10-14-13-19-13-618/output/model.tar.gz', 'LocalPath': '/opt/ml/processing/model', 'S3DataType': 'S3Prefix', 'S3InputMode': 'File', 'S3DataDistributionType': 'FullyReplicated', 'S3CompressionType': 'None'}}, {'InputName': 'code', 'AppManaged': False, 'S3Input': {'S3Uri': 's3://sagemaker-us-east-1-057716757052/repackage_model_artifact-2022-10-23-13-00-24-224/input/code/repackage.py', 'LocalPath': '/opt/ml/processing/input/code', 'S3DataType': 'S3Prefix', 'S3InputMode': 'File', 'S3DataDistributionType



# 3.모델 빌딩 파이프라인 정의 및 실행
위에서 정의한 아래의 4개의 스텝으로 파이프라인 정의를 합니다.
-     steps=[step_process, step_train, step_create_model, step_deploy],
- 아래는 약 1분 정도 소요 됩니다.  이후 아래와 같이 실행 결과를 스튜디오에서 확인할 수 있습니다.


- ![deployment-pipeline.png](img/deployment-pipeline.png)

In [321]:
from sagemaker.workflow.pipeline import Pipeline

pipeline_name = f"RepackagePipeline"
pipeline = Pipeline(
    name=pipeline_name,
    parameters=[],
    steps=[step_process],
    sagemaker_session=pipeline_session,
)

In [322]:
import json

definition = json.loads(pipeline.definition())
definition

{'Version': '2020-12-01',
 'Metadata': {},
 'Parameters': [],
 'PipelineExperimentConfig': {'ExperimentName': {'Get': 'Execution.PipelineName'},
  'TrialName': {'Get': 'Execution.PipelineExecutionId'}},
 'Steps': [{'Name': 'RepackageModel',
   'Type': 'Processing',
   'Arguments': {'ProcessingResources': {'ClusterConfig': {'InstanceType': 'ml.t3.medium',
      'InstanceCount': 1,
      'VolumeSizeInGB': 30}},
    'AppSpecification': {'ImageUri': '683313688378.dkr.ecr.us-east-1.amazonaws.com/sagemaker-scikit-learn:0.23-1-cpu-py3',
     'ContainerEntrypoint': ['python3',
      '/opt/ml/processing/input/code/repackage.py']},
    'RoleArn': 'arn:aws:iam::057716757052:role/mlops-blog-ncf-gsmoon',
    'ProcessingInputs': [{'InputName': 'input-1',
      'AppManaged': False,
      'S3Input': {'S3Uri': 's3://sagemaker-us-east-1-057716757052/ncf/code/source.tar.gz',
       'LocalPath': '/opt/ml/processing/source',
       'S3DataType': 'S3Prefix',
       'S3InputMode': 'File',
       'S3DataDistr

### 파이프라인을 SageMaker에 제출하고 실행하기 


In [323]:
pipeline.upsert(role_arn=role)
execution = pipeline.start()

Starting execution for pipeline RepackagePipeline. Execution ID is 9e71e5c8-ae60-4ba6-9388-69b14a1f5e42
Starting pipeline step: 'RepackageModel'
Creating 6mtqrcmpf7-algo-1-lgof3 ... 
Creating 6mtqrcmpf7-algo-1-lgof3 ... done
Attaching to 6mtqrcmpf7-algo-1-lgof3
[36m6mtqrcmpf7-algo-1-lgof3 |[0m #############################################
[36m6mtqrcmpf7-algo-1-lgof3 |[0m args.base_dir: /opt/ml/processing
[36m6mtqrcmpf7-algo-1-lgof3 |[0m args.source_path: /opt/ml/processing/source/source.tar.gz
[36m6mtqrcmpf7-algo-1-lgof3 |[0m args.model_path: /opt/ml/processing/model/model.tar.gz
[36m6mtqrcmpf7-algo-1-lgof3 |[0m args.repackage_dir: /opt/ml/processing/repackage
[36m6mtqrcmpf7-algo-1-lgof3 |[0m 
[36m6mtqrcmpf7-algo-1-lgof3 |[0m ### Initial Folder Status 
[36m6mtqrcmpf7-algo-1-lgof3 |[0m ('/opt/ml/processing', ['repackage', 'source', 'input', 'model'], [])
[36m6mtqrcmpf7-algo-1-lgof3 |[0m ('/opt/ml/processing/repackage', [], [])
[36m6mtqrcmpf7-algo-1-lgof3 |[0m ('/opt/

### 파이프라인 운영: 파이프라인 대기 및 실행상태 확인

워크플로우의 실행상황을 살펴봅니다. 

실행이 완료될 때까지 기다립니다.

In [324]:
execution.wait()

AttributeError: '_LocalPipelineExecution' object has no attribute 'wait'

실행된 단계들을 리스트업합니다. 파이프라인의 단계실행 서비스에 의해 시작되거나 완료된 단계를 보여줍니다.

In [None]:
execution.list_steps()

In [None]:
execution.list_steps.  

step_process.properties.ProcessingOutputConfig.Outputs[
                "repackage"
            ].S3Output.S3Uri

# 5. 정리 작업


In [None]:
def get_proc_artifact(execution, client, output_name):
    '''
    kind: 0 --> train
    kind: 2 --> test
    '''
    response = execution.list_steps()
    #print("response: \n", response)
    
    proc_arn = response[0]['Metadata']['ProcessingJob']['Arn']
    proc_job_name = proc_arn.split('/')[-1]
    # print("proc_job_name: ", proc_job_name)
    
    response = client.describe_processing_job(ProcessingJobName = proc_job_name)
#     train_preproc_artifact = response['ProcessingOutputConfig']['Outputs'][output_name]['S3Output']['S3Uri']    
    train_preproc_artifact = response['ProcessingOutputConfig']['Outputs'][0]['S3Output']['S3Uri']    
    
    return train_preproc_artifact


if LOCAL_MODE:
    client = sagemaker.local.LocalSagemakerClient()
    print("Not available in Local Mode")
else:
    import boto3    
    client = boto3.client("sagemaker")

model_artifact = get_proc_artifact(execution, client, output_name="output-1" )
print("model_artifact: \n", model_artifact)

In [None]:
! aws s3 ls {model_artifact} --recursive
! aws s3 cp {model_artifact} . --recursive


## 변수 저장

In [None]:
depolyment_endpoint_name = endpoint_name
%store depolyment_endpoint_name

all_deployment_pipeline_name = pipeline_name
%store all_deployment_pipeline_name

In [None]:
# import sagemaker

# bucket = sagemaker.Session().default_bucket()
# bucket

In [None]:
! aws s3 ls s3://sagemaker-us-east-1-057716757052   | grep repackage ## --recursivem | g