# Open Solar 10 7B 모델을 Sagemaker를 통해 g5.24xlarge 인스턴스에 배포하기

이 노트북은 HuggingFace에서 Open-Solar-KO-10 7B 모델을 가져와 Sagemaker에서 g5.24xl 인스턴스에 배포하는 방법을 보여줍니다.

## Step 1: Let's bump up SageMaker and import stuff

In [7]:
%pip install sagemaker --upgrade  --quiet

Note: you may need to restart the kernel to use updated packages.


In [8]:
import boto3
import sagemaker
from sagemaker import Model, image_uris, serializers, deserializers
import json

role = sagemaker.get_execution_role()  # execution role for the endpoint
sess = sagemaker.session.Session()  # sagemaker session for interacting with different AWS APIs
region = sess._region_name  # region name of the current SageMaker Studio environment
account_id = sess.account_id()  # account_id of the current SageMaker Studio environment

## Step 2: Get the model

In [9]:
from sagemaker.huggingface import get_huggingface_llm_image_uri

# retrieve the llm image uri
llm_image = get_huggingface_llm_image_uri(
  "huggingface",
  version="1.4.2"
)

# print ecr image uri
print(f"llm image uri: {llm_image}")

llm image uri: 763104351884.dkr.ecr.us-east-1.amazonaws.com/huggingface-pytorch-tgi-inference:2.1.1-tgi1.4.2-gpu-py310-cu121-ubuntu22.04


## Step 3: Start building SageMaker endpoint

In [10]:
import json
from sagemaker.huggingface import HuggingFaceModel

# sagemaker config
instance_type = "ml.g5.24xlarge"
number_of_gpu = 4
health_check_timeout = 120

# Define Model and Endpoint configuration parameters
config = {
    'HF_MODEL_ID': "beomi/OPEN-SOLAR-KO-10.7B", # model_id from hf.co/models
    'SM_NUM_GPUS': json.dumps(number_of_gpu), # Number of GPU used per replica
    'HUGGING_FACE_HUB_TOKEN': "<자신의 HuggingFace read access token 입력>" # Read Access token of your HuggingFace profile https://huggingface.co/settings/tokens
}

# create HuggingFaceModel with the image uri
llm_model = HuggingFaceModel(
  role=role,
  image_uri=llm_image,
  env=config
)

## Step 4: Create Sagemaker endpoint and deploy the model to the Sagemaker endpoint

In [11]:
from sagemaker.utils import name_from_base

endpoint_name = name_from_base(f"{config['HF_MODEL_ID'].split('/')[1].split('.')[0]}-imweb-poc")

endpoint_name

'OPEN-SOLAR-KO-10-imweb-poc-2024-04-22-10-23-38-697'

In [12]:
%%time
# https://sagemaker.readthedocs.io/en/stable/api/inference/model.html#sagemaker.model.Model.deploy

llm = llm_model.deploy(
    endpoint_name=endpoint_name,
    initial_instance_count=1,
    instance_type=instance_type,
    container_startup_health_check_timeout=health_check_timeout,
)

---------!CPU times: user 142 ms, sys: 4.56 ms, total: 147 ms
Wall time: 5min 2s


## Step 5: Test the inference

In [13]:
# Get a predictor for your endpoint
predictor = sagemaker.Predictor(
    endpoint_name=endpoint_name,
    serializer=sagemaker.serializers.JSONSerializer(),
    deserializer=sagemaker.deserializers.JSONDeserializer(),
)

In [14]:
# Make a prediction with your endpoint
response = predictor.predict({
    "inputs": "문재인 대통령에 대한 자세한 이력을 알려줘", 
    "parameters": {"do_sample": True, "max_new_tokens": 256}
})

response

[{'generated_text': '문재인 대통령에 대한 자세한 이력을 알려줘 어떤 인물인지 알게 된 시민들이 많았습니다. 76년생이어서 젊은 쪽에 속하는 편 아님 문 대통령이 2004년 노무현 대통령 탄핵 정국에서 탄핵 찬반 입장을 국민들에게 밝혔던 것도 이해할 수 있게 됐습니다. 강성민 민주당 젊은 비례대표 후보는 완벽한 정치인은 없다며 우리 모두를 대변하고 국민을 이해하는 정치인을 만들어보자며 투표를 하자는 말을 했습니다.'}]

In [15]:
# Make a prediction with your endpoint
response = predictor.predict({
    "inputs": "2022년의 띠는?",
    "parameters": {"do_sample": True, "max_new_tokens": 256}
})

response

[{'generated_text': '2022년의 띠는?\n迎接2022,这个一年将长达365天,一个人的时间注定将是多么舒适始终让人悲叹。'}]

## Clean up the environment

In [16]:
sess.delete_endpoint(endpoint_name)
sess.delete_endpoint_config(endpoint_name)
llm_model.delete_model()