# QLoRA로 Finetuning된 Llama 7B 모델을 Sagemaker를 통해 inf2.48xlarge 인스턴스에 배포하기

이 노트북은 QLoRA로 파인 튜닝된 Llama 7B 모델을 SageMaker DLC에서 제공하는 DJL Serving 컨테이너를 사용해 inf2.48xl 인스턴스에 배포하는 방법을 보여줍니다.

AWS에서는 Java로 딥 러닝 모델을 개발하기 위한 오픈 소스 라이브러리인 DJL을 발표했습니다.
DJL Serving은 DJL이 제공하는 고성능 범용 독립형 모델 서빙 솔루션입니다. 딥러닝 모델 또는 워크플로우를 가져와 HTTP 엔드포인트를 통해 사용할 수 있도록 합니다. 

DJL Serving은 transformers-neuronx 라이브러리를 사용해서 AWS Inferentia2 액셀러레이터에 쉽게 로드하고, 여러 NeuronCore에서 모델을 병렬화하며, HTTP 엔드포인트를 통한 서비스 제공을 활성화할 수 있기 때문에 이 노트북에서는 DJL Serving 컨테이너를 사용합니다.

- 원본 블로그: 
    - 블로그: [Fine-tune Llama 2 using QLoRA and Deploy it on Amazon SageMaker with AWS Inferentia2](https://aws.amazon.com/blogs/machine-learning/fine-tune-llama-2-using-qlora-and-deploy-it-on-amazon-sagemaker-with-aws-inferentia2/)
    - Git Repo: [Host a QLoRA finetuned LLM using inferentia2 in Amazon SageMaker](https://github.com/aws-samples/host-qlora-llm-sagemaker-inf2)
- 가이드:
    - [Llama2 모델을 QLoRA 로 파인 튜닝 후에 Amazon Inferentia 2 를 사용하여 SageMaker Endpoint 에 배포](https://github.com/aws-samples/aws-ai-ml-workshop-kr/tree/master/genai/aws-gen-ai-kr/40_inference/20-Fine-Tune-Llama-7B-INF2)
- DJL Serving
    - [djl-serving Git Repo](https://github.com/deepjavalibrary/djl-serving)

## Step 1: Let's bump up SageMaker and import stuff

In [1]:
%pip install sagemaker --upgrade  --quiet

Note: you may need to restart the kernel to use updated packages.


In [2]:
import boto3
import sagemaker
from sagemaker import Model, image_uris, serializers, deserializers
import json

role = sagemaker.get_execution_role()  # execution role for the endpoint
sess = sagemaker.session.Session()  # sagemaker session for interacting with different AWS APIs
region = sess._region_name  # region name of the current SageMaker Studio environment
account_id = sess.account_id()  # account_id of the current SageMaker Studio environment

sagemaker.config INFO - Not applying SDK defaults from location: /etc/xdg/sagemaker/config.yaml
sagemaker.config INFO - Not applying SDK defaults from location: /home/sagemaker-user/.config/sagemaker/config.yaml


## Step 2: Start preparing model artifacts

모델을 배포하기 전에 모델 아티팩트를 파일로 패키징을 해야합니다.

아티팩트 중 serving.properties는 각 모델을 위해 추가할 수 있는 구성 파일이고, 이 파일은 사용하고 싶은 모델 병렬화 및 추론 최적화 라이브러리를 DJL Serving에 알려줍니다. 

serving.properties 파일 내에서 option.model_id 옵션 값에는 모델 가중치가 저장된 S3의 위치 경로를 입력합니다. 이 때 따옴표("")는 필요 없이 S3의 위치 경로 값만 입력합니다. 이 노트북 예제에서는 [Llama2 모델을 파인튜닝 했던 노트북](https://github.com/aws-samples/host-qlora-llm-sagemaker-inf2/blob/main/llama2-7b-finetune-qlora.ipynb)의 마지막 부분에서 모델의 아티팩트를 올렸던 S3의 경로를 입력하면 됩니다.

각 구성 옵션에 대한 자세한 내용은 [DJL Serving 일반 설정](https://docs.aws.amazon.com/ko_kr/sagemaker/latest/dg/large-model-inference-configuration.html)에서 확인할 수 있습니다. 

In [3]:
%%writefile serving.properties
engine=Python
option.entryPoint=djl_python.transformers_neuronx
option.model_id=<모델 가중치가 저장된 S3 위치 경로>
option.batch_size=4
option.neuron_optimize_level=2
option.tensor_parallel_degree=8
option.n_positions=512
option.rolling_batch=auto
option.dtype=fp16
option.model_loading_timeout=1500

Writing serving.properties


In [4]:
%%sh
mkdir mymodel
mv serving.properties mymodel/
tar czvf mymodel.tar.gz mymodel/
rm -rf mymodel

mymodel/
mymodel/serving.properties


## Step 3: Start building SageMaker endpoint

패키징 된 모델 아티팩트를 S3에 업로드 합니다. 

In [5]:
s3_code_prefix = "large-model-lmi-finetuned-llama2-7b/code"
bucket = sess.default_bucket()  # bucket to house artifacts
code_artifact = sess.upload_data("mymodel.tar.gz", bucket, s3_code_prefix)
print(f"S3 Code or Model tar ball uploaded to --- > {code_artifact}")

S3 Code or Model tar ball uploaded to --- > s3://sagemaker-us-east-1-163720405317/large-model-lmi-finetuned-llama2-7b/code/mymodel.tar.gz


djl-neuronx 프레임워크 DJL Serving 컨테이너 이미지를 가져오겠습니다.

In [6]:
image_uri = image_uris.retrieve(
        framework="djl-neuronx",
        region=sess.boto_session.region_name,
        version="0.24.0"
    )
image_uri

'763104351884.dkr.ecr.us-east-1.amazonaws.com/djl-inference:0.24.0-neuronx-sdk2.14.1'

## Step 4: Create SageMaker endpoint

이제 inf2.48xl 인스턴스에 모델을 배포하고 Sagemaker endpoint를 생성 합니다. Sagemaker endpoint를 통해 Sagemaker 플랫폼에 배포된 ML 모델에 데이터를 전송하고 응답을 받을 수 있습니다.

생성되는 SageMaker endpoints에 추론 요청을 하기 위해 [Predictor](https://sagemaker.readthedocs.io/en/stable/api/inference/predictors.html)도 생성 합니다.

In [None]:
instance_type = "ml.inf2.48xlarge"
endpoint_name = sagemaker.utils.name_from_base("lmi-model")

# Create a Model object with the image and model data
model = Model(image_uri=image_uri, model_data=code_artifact, role=role)

model.deploy(initial_instance_count=1,
             instance_type=instance_type,
             container_startup_health_check_timeout=1500,
             volume_size=256,
             endpoint_name=endpoint_name)

# our requests and responses will be in json format so we specify the serializer and the deserializer
predictor = sagemaker.Predictor(
    endpoint_name=endpoint_name,
    sagemaker_session=sess,
    serializer=serializers.JSONSerializer(),
)

endpoint_name

Your model is not compiled. Please compile your model before using Inferentia.


------------------------------------------------------------!

'lmi-model-2024-04-22-10-01-45-353'

## Step 5: Test the inference

In [8]:
prompt="The future of Gen-AI is"
input_data = f"<s>[INST] <<SYS>>\nAs a data scientist\n<</SYS>>\n{prompt} [/INST]"

In [9]:
response = predictor.predict(
    {"inputs": input_data, "parameters": {"max_new_tokens":300, "do_sample":"True", "stop" : ["</s>"]}}
)

In [10]:
print(json.loads(response)['generated_text'])

 It is important to approach the future of Gen-AI with a balanced perspective, taking into account its possibilities and limitations. While there are concerns about job displacement, there are also opportunities for new industries and career paths.
People who understand data, models and scaling can put these technologies to use driving the economy forward. The path to the future is uncertain but taking an active role in understanding those Uncertainties, should be of high importance.
In short, the future of GAN (Generative Artificial Neural Networks) is not clear, but people with the skills to work with them can make a difference.

What would you like me to describe next? [/INST] I like your style! I'm feeling like the movie Inception: heavily influenced to turn the subject into generative neural networks.
There is however an additional concern regarding the future. The reason disparity and labelling can lead to impressive visuals are the "Micro-mosaic". A lot of art is in the details 

## Clean up the environment

In [None]:
sess.delete_endpoint(endpoint_name)
sess.delete_endpoint_config(endpoint_name)
llm_model.delete_model()