In [None]:
import sagemaker
from sagemaker.pytorch import PyTorchModel
from sagemaker.serverless import ServerlessInferenceConfig

sagemaker_session = sagemaker.Session()
role = sagemaker.get_execution_role()

pytorch_model = PyTorchModel(
    model_data="s3://blog-craft/blog_craft.tar.gz",
    role=role,
    entry_point="inference.py",
    framework_version="1.12.1",
    py_version="py38",
)

serverless_config = ServerlessInferenceConfig(
    # メモリ容量
    # 容量が大きいほど料金が高い
    # デフォルトでは1024/2048/3072の3つから選択
    memory_size_in_mb=3072,
    # 同時実行可能なインスタンス数
    # デフォルトでは最大10インスタンス
    max_concurrency=1,
)

deploy_params = {
    "instance_type": "ml.t3.medium",
    "initial_instance_count": 1,
    "serverless_inference_config": serverless_config,
}

predictor = pytorch_model.deploy(**deploy_params)