# Bring Your Own Model with SageMaker Script Mode

### Overview

이 노트북은 Scikit-Learn, PyTorch 및 XgBoost와 같은 다양한 프레임워크를 위한 SageMaker의 사전 빌드된 컨테이너와 함께 SageMaker 외부에서 사용하는 것과 유사한 사용자 지정 교육 및 추론 스크립트를 사용하여 자신의 모델을 가져올 수 있는 방법을 보여줍니다.

SageMaker 스크립트 모드는 유연하므로 사용자 정의 Python 라이브러리와 같은 자체 종속성을 교육 및 추론에 포함시키는 방법에 대한 예도 볼 수 있습니다.


<img title="SageMaker Script Mode" alt="Solution diagram" src="solution-diagram.jpg">

In [2]:
import sagemaker
import subprocess
import sys
import random
import math
import pandas as pd
import os
import boto3
import numpy as np
from sklearn.datasets import load_boston
from sklearn.preprocessing import StandardScaler
from sagemaker.pytorch import PyTorch
from sagemaker.xgboost import XGBoost
from sagemaker.sklearn.estimator import SKLearn
from sagemaker.serializers import NumpySerializer, JSONSerializer, CSVSerializer
from sagemaker.deserializers import NumpyDeserializer, JSONDeserializer
from sagemaker.predictor import Predictor
from generate_synthetic_housing_data import *

### Parameters

In [10]:
random.seed(42)

# Useful SageMaker variables
try:
    # You're using a SageMaker notebook
    sess = sagemaker.Session()
    bucket = sess.default_bucket()
    role = sagemaker.get_execution_role()
except ValueError:
    # You're using a notebook somewhere else
    print("Setting role and SageMaker session manually...")
    bucket = "yudong-data"
    region = boto3.Session().region_name

    iam = boto3.client("iam")
    sagemaker_client = boto3.client("sagemaker")

    sagemaker_execution_role_name = (
        # TODO: Change this to your role name
        "AmazonSageMaker-ExecutionRole-20201218T151409" 
    )
    role = iam.get_role(RoleName=sagemaker_execution_role_name)["Role"]["Arn"]
    boto3.setup_default_session(region_name=region, profile_name="default")
    sess = sagemaker.Session(sagemaker_client=sagemaker_client, default_bucket=bucket)

# Local data paths
train_dir = os.path.join(os.getcwd(), "data/train")
test_dir = os.path.join(os.getcwd(), "data/test")
os.makedirs(train_dir, exist_ok=True)
os.makedirs(test_dir, exist_ok=True)

# Data paths in S3
s3_prefix = "script-mode-workflow"
csv_s3_prefix = f"{s3_prefix}/csv"
csv_s3_uri = f"s3://{bucket}/{s3_prefix}/csv"
numpy_train_s3_prefix = f"{s3_prefix}/numpy/train"
numpy_train_s3_uri = f"s3://{bucket}/{numpy_train_s3_prefix}"
numpy_test_s3_prefix = f"{s3_prefix}/numpy/test"
numpy_test_s3_uri = f"s3://{bucket}/{numpy_test_s3_prefix}"
csv_train_s3_uri = f"{csv_s3_uri}/train"
csv_test_s3_uri = f"{csv_s3_uri}/test"

# Enable Local Mode training
enable_local_mode_training = False

# Endpoint names
sklearn_endpoint_name = "randomforestregressor-endpoint"
pytorch_endpoint_name = "pytorch-endpoint"
xgboost_endpoint_name = "xgboost-endpoint"

In [11]:
role

'arn:aws:iam::806174985048:role/service-role/AmazonSageMaker-ExecutionRole-20201218T151409'

### Prepare Synthetic Housing Data

In [12]:
df = generate_houses(1506)

# Get training columns
train_cols = list(df.columns)
del train_cols[-1]
train_cols

# Split data
training_index = math.floor(0.8 * df.shape[0])
x_train, y_train = df[train_cols][:training_index], df.PRICE[:training_index]
x_test, y_test = df[train_cols][training_index:], df.PRICE[training_index:]

# Scale price
y_train = y_train / 100000
y_test = y_test / 100000

# Standardize data
x_train_np = StandardScaler().fit_transform(x_train)
x_test_np = StandardScaler().fit_transform(x_test)

In [15]:
x_train.head()

Unnamed: 0,YEAR_BUILT,SQUARE_FEET,NUM_BEDROOMS,NUM_BATHROOMS,LOT_ACRES,GARAGE_SPACES,FRONT_PORCH,DECK
0,1987,3225.427066,5,1.5,0.71,2,1,1
1,1992,2445.241759,2,2.0,0.98,3,0,1
2,1983,2098.802852,3,1.5,1.22,2,1,1
3,1990,3823.272147,4,1.0,0.96,1,1,1
4,1987,2568.415603,5,1.5,1.1,2,0,1


Rearrange dataframe for SageMaker training and scale price.

In [16]:
train_df = pd.DataFrame(data=x_train_np)
train_df.columns = x_train.columns
train_df["PRICE"] = y_train / 100000
first_col = train_df.pop("PRICE")
train_df.insert(0, "PRICE", first_col)

test_df = pd.DataFrame(data=x_test_np)
test_df.columns = x_test.columns
test_df["PRICE"] = y_test.reset_index(drop=True) / 100000
first_col = test_df.pop("PRICE")
test_df.insert(0, "PRICE", first_col)

Save as both CSV and Numpy data types to demonstrate data type flexibility in model training.

In [18]:
# Save as CSV
train_df.to_csv(f"{train_dir}/train.csv", header=False, index=False)
test_df.to_csv(f"{test_dir}/test.csv", header=False, index=False)

# Save as Numpy
np.save(os.path.join(train_dir, "x_train.npy"), x_train_np)
np.save(os.path.join(test_dir, "x_test.npy"), x_test_np)
np.save(os.path.join(train_dir, "y_train.npy"), y_train)
np.save(os.path.join(test_dir, "y_test.npy"), y_test)

Upload the data to S3

In [20]:
s3_resource_bucket

s3.Bucket(name='sagemaker-ap-northeast-2-806174985048')

In [19]:
s3_resource_bucket = boto3.Session().resource("s3").Bucket(bucket)
s3_resource_bucket.Object(os.path.join(csv_s3_prefix, "train.csv")).upload_file(
    "data/train/train.csv"
)
s3_resource_bucket.Object(os.path.join(csv_s3_prefix, "test.csv")).upload_file("data/test/test.csv")
s3_resource_bucket.Object(os.path.join(numpy_train_s3_prefix, "x_train.npy")).upload_file(
    "data/train/x_train.npy"
)
s3_resource_bucket.Object(os.path.join(numpy_train_s3_prefix, "y_train.npy")).upload_file(
    "data/train/y_train.npy"
)
s3_resource_bucket.Object(os.path.join(numpy_test_s3_prefix, "x_test.npy")).upload_file(
    "data/test/x_test.npy"
)
s3_resource_bucket.Object(os.path.join(numpy_test_s3_prefix, "y_test.npy")).upload_file(
    "data/test/y_test.npy"
)

### Scikit-learn

스크립트 모드의 첫 번째 “level”은 종속성 없이 자신의 교육 작업, 모델 및 추론 프로세스를 정의하는 기능입니다.이것은 사용자 정의 된 파이썬 스크립트를 사용하고 SageMaker training Estimator 를 정의 할 때 해당 스크립트를 “entry point”으로 가리 킵니다. SageMaker에는 “out-of-the-box”임의 forest algorithm이 없지만 regressors 및 classifier 를 포함하여 Random Forest 구현이있는 scikit-learn 컨테이너에 대한 지원이 있습니다.여기서는 합성 주택 데이터 집합을 사용하여 주택 가격을 예측하기 위해 사용자 지정 Random Forest regressor 변수를 구현하는 방법을 보여 줍니다.

SageMaker의 스크립트 모드를 사용하면 자체 도커 컨테이너를 만들고 유지하는 데 어려움을 겪지 않고도 학습 및 추론 프로세스를 제어할 수 있습니다. 예를 들어 scikit-learn 알고리즘을 사용하려는 경우 AWS에서 제공하는 scikit-learn 컨테이너를 사용하여 자신의 교육 및 추론 코드를 전달하면 됩니다. 사용자를 대신하여 SageMaker Python SDK는 이 entry point 스크립트 (학습 및/또는 추론 코드가 될 수 있음) 를 패키징하고 S3에 업로드하며 런타임 시 읽혀지는 두 개의 환경 변수를 설정하고 엔트리 포인트 스크립트에서 사용자 지정 학습 및 추론 함수를 로드합니다. 이 두 환경 변수는 패키지의 S3 경로로 설정된`SAGEMAKER_SUBMIT_DIRECTORY`와 스크립트의 이름으로 설정된 `SAGEMAKER_PROGRAM`입니다 (이 경우 'train_deploy_scikitlearn_without_dependencies.py'입니다).

이 과정은 XGBoost 모델 (XGBoost 컨테이너 사용) 또는 사용자 정의 PyTorch 모델 (PyTorch 컨테이너 사용) 을 사용하려는 경우에도 동일합니다. 자신의 스크립트를 전달하기 때문에 (이것이 “스크립트 모드”라고 부르는 이유입니다) 모델, training 프로세스 및 추론 프로세스도 정의 할 수 있습니다.

아래에서 우리는 우리의 사용자 정의 교육 및 추론 코드를 포함`train_deploy_scikitlearn_without_dependencies.py`라는 entry point 스크립트를 포함합니다. 

hyperparameters = {"max_depth": 20, "n_jobs": 4, "n_estimators": 120}

if enable_local_mode_training:
    train_instance_type = "local"
    inputs = {"train": f"file://{train_dir}", "test": f"file://{test_dir}"}
else:
    train_instance_type = "ml.c5.xlarge"
    inputs = {"train": csv_train_s3_uri, "test": csv_test_s3_uri}

estimator_parameters = {
    "entry_point": "train_deploy_scikitlearn_without_dependencies.py",
    "source_dir": "scikitlearn_script",
    "framework_version": "0.23-1",
    "py_version": "py3",
    "instance_type": train_instance_type,
    "instance_count": 1,
    "hyperparameters": hyperparameters,
    "role": role,
    "base_job_name": "randomforestregressor-model",
}

estimator = SKLearn(**estimator_parameters)
estimator.fit(inputs)

existing_endpoints = sess.sagemaker_client.list_endpoints(
    NameContains=sklearn_endpoint_name, MaxResults=30
)["Endpoints"]
if not existing_endpoints:
    sklearn_predictor = estimator.deploy(
        initial_instance_count=1, instance_type="ml.m5.xlarge", endpoint_name=sklearn_endpoint_name
    )
else:
    sklearn_predictor = Predictor(
        endpoint_name="randomforestregressor-endpoint",
        sagemaker_session=sess,
        serializer=NumpySerializer(),
        deserializer=NumpyDeserializer(),
    )

prediction = sklearn_predictor.predict(x_test)

prediction[0]

### PyTorch

이 PyTorch 예제에서는`pytorch_script/` 폴더에 설명 된대로 자체 파일에 넣어 코드의 나머지 부분과 실제 신경망 정의를 분리하려고합니다.

In [None]:
hyperparameters = {"epochs": 25, "batch_size": 128, "learning_rate": 0.01}

if enable_local_mode_training:
    train_instance_type = "local"
    inputs = {"train": f"file://{train_dir}", "test": f"file://{test_dir}"}
else:
    train_instance_type = "ml.c5.xlarge"
    inputs = {"train": numpy_train_s3_uri, "test": numpy_test_s3_uri}

estimator_parameters = {
    "entry_point": "train_deploy_pytorch_without_dependencies.py",
    "source_dir": "pytorch_script",
    "instance_type": train_instance_type,
    "instance_count": 1,
    "hyperparameters": hyperparameters,
    "role": role,
    "base_job_name": "pytorch-model",
    "framework_version": "1.5",
    "py_version": "py3",
}

estimator = PyTorch(**estimator_parameters)
estimator.fit(inputs)

In [30]:
existing_endpoints = sess.sagemaker_client.list_endpoints(
    NameContains=pytorch_endpoint_name, MaxResults=30
)["Endpoints"]
if not existing_endpoints:
    pytorch_predictor = estimator.deploy(
        initial_instance_count=1, instance_type="ml.m5.xlarge", endpoint_name=pytorch_endpoint_name
    )
else:
    pytorch_predictor = Predictor(
        endpoint_name="pytorch-endpoint",
        sagemaker_session=sess,
        serializer=JSONSerializer(),
        deserializer=JSONDeserializer(),
    )

-------------!

In [36]:
pytorch_predictor.serializer = JSONSerializer()
pytorch_predictor.deserializer = JSONDeserializer()

pytorch_predictor.predict(x_test.values)

[6.085066795349121]

In [35]:
x_test.values

array([[1.98600000e+03, 1.96085694e+03, 2.00000000e+00, ...,
        0.00000000e+00, 0.00000000e+00, 1.00000000e+00],
       [1.99700000e+03, 3.48399130e+03, 3.00000000e+00, ...,
        0.00000000e+00, 1.00000000e+00, 0.00000000e+00],
       [1.99200000e+03, 3.38808219e+03, 2.00000000e+00, ...,
        3.00000000e+00, 0.00000000e+00, 1.00000000e+00],
       ...,
       [2.00200000e+03, 3.32801007e+03, 3.00000000e+00, ...,
        2.00000000e+00, 1.00000000e+00, 0.00000000e+00],
       [2.00200000e+03, 3.77008200e+03, 4.00000000e+00, ...,
        2.00000000e+00, 1.00000000e+00, 0.00000000e+00],
       [1.99000000e+03, 2.39807633e+03, 5.00000000e+00, ...,
        3.00000000e+00, 1.00000000e+00, 1.00000000e+00]])