### 1. SageMaker 初始化

In [None]:
!pip install --upgrade boto3 sagemaker

In [None]:
import sagemaker
import boto3
import os

role = sagemaker.get_execution_role() 
sess = sagemaker.session.Session() 
bucket = sess.default_bucket()
region = sess._region_name
account_id = sess.account_id()
smr_client = boto3.client('sagemaker-runtime')

### 2. 模型部署文件准备

* 推理容器镜像

In [None]:
from sagemaker import image_uris

inference_image_uri = image_uris.retrieve(
    framework="djl-deepspeed",
    region=region,
    version="0.24.0",
)
print(f"Image going to be used is ---- > {inference_image_uri}")

In [3]:
from pathlib import Path

chatglm3_deploy_code_path = Path("./llm_chatglm3_deploy_code")
chatglm3_deploy_code_path.mkdir(exist_ok=True)

* Entrypoint 脚本 model.py

In [None]:
%%writefile ./llm_chatglm3_deploy_code/model.py
from djl_python import Input, Output
from transformers import AutoModel, AutoTokenizer
import logging

model = None
tokenizer = None

def load_model(properties):
    model_location = properties['model_dir']
    if "model_id" in properties:
        model_location = properties['model_id']
    logging.info(f"Loading model in {model_location}")
    tokenizer = AutoTokenizer.from_pretrained(model_location, trust_remote_code=True)
    model = AutoModel.from_pretrained(model_location, trust_remote_code=True).half().cuda()
    model.eval()
    return model, tokenizer

def stream_outputs(model, tokenizer, prompt, history, **params):
    current_length = 0
    for response, history in model.stream_chat(tokenizer, query=prompt, history=history, **params):
        yield {"outputs": response[current_length:]}
        current_length = len(response)
    yield {"history": history}

def handle(inputs: Input):
    global model, tokenizer
    if not model:
        model, tokenizer = load_model(inputs.get_properties())
    if inputs.is_empty():
        return None
    data = inputs.get_as_json()
    prompt = data["inputs"]
    params = data["parameters"]
    history = data["history"]
    return Output().add_stream_content(stream_outputs(model, tokenizer, prompt, history=history, **params))

* serving.properties 配置文件

In [None]:
%%writefile ./llm_chatglm3_deploy_code/serving.properties
engine=Python
option.tensor_parallel_degree=1
option.model_id=THUDM/chatglm3-6b
option.enable_streaming=true

* 将配置文件压缩后上传 S3 存储桶

In [6]:
import tarfile

folder_path = 'llm_chatglm3_deploy_code'
output_filename = 'model.tar.gz'

with tarfile.open(output_filename, "w:gz") as tar:
    tar.add(folder_path, arcname=os.path.basename(folder_path))

In [None]:
s3_code_prefix = "llm_chatglm3_deploy_code"

s3_code_artifact = sess.upload_data("model.tar.gz", bucket, s3_code_prefix)
print(f"S3 Code or Model tar ball uploaded to --- > {s3_code_artifact}")

### 3. 模型部署

In [None]:
from sagemaker.model import Model

instance_type = "ml.g4dn.2xlarge"
model_name = sagemaker.utils.name_from_base("lmi-model-chatglm3-6b")

model = Model(
    sagemaker_session=sess, 
    image_uri=inference_image_uri, 
    model_data=s3_code_artifact,
    name=model_name,
    role=role)

model.deploy(
    initial_instance_count=1,
    instance_type=instance_type,
    endpoint_name=model_name,
    container_startup_health_check_timeout=900
)

### 4. 模型测试

In [9]:
import io

class LineIterator:
    """
    A helper class for parsing the byte stream input. 
    
    The output of the model will be in the following format:
    ```
    b'{"outputs": [" a"]}\n'
    b'{"outputs": [" challenging"]}\n'
    b'{"outputs": [" problem"]}\n'
    ...
    ```
    
    While usually each PayloadPart event from the event stream will contain a byte array 
    with a full json, this is not guaranteed and some of the json objects may be split across
    PayloadPart events. For example:
    ```
    {'PayloadPart': {'Bytes': b'{"outputs": '}}
    {'PayloadPart': {'Bytes': b'[" problem"]}\n'}}
    ```
    
    This class accounts for this by concatenating bytes written via the 'write' function
    and then exposing a method which will return lines (ending with a '\n' character) within
    the buffer via the 'scan_lines' function. It maintains the position of the last read 
    position to ensure that previous bytes are not exposed again. 
    """
    
    def __init__(self, stream):
        self.byte_iterator = iter(stream)
        self.buffer = io.BytesIO()
        self.read_pos = 0

    def __iter__(self):
        return self

    def __next__(self):
        while True:
            self.buffer.seek(self.read_pos)
            line = self.buffer.readline()
            if line and line[-1] == ord('\n'):
                self.read_pos += len(line)
                return line[:-1]
            try:
                chunk = next(self.byte_iterator)
            except StopIteration:
                if self.read_pos < self.buffer.getbuffer().nbytes:
                    continue
                raise
            if 'PayloadPart' not in chunk:
                print('Unknown event type:' + chunk)
                continue
            self.buffer.seek(0, io.SEEK_END)
            self.buffer.write(chunk['PayloadPart']['Bytes'])

In [10]:
import json

def inference_return(prompt, parameters, history):
    body = {"inputs": prompt, "parameters": parameters, "history": history}
    resp = smr_client.invoke_endpoint_with_response_stream(
        EndpointName=model_name,
        Body=json.dumps(body),
        ContentType="application/json"
    )
    event_stream = resp['Body']
    
    for line in LineIterator(event_stream):
        resp = json.loads(line)
        output_text = resp['outputs'].get('outputs', '')
        print(output_text, end='', flush=True)
    history = resp.get("outputs")['history']
    print('\n\n',history)
    return history

In [11]:
prompt1 = """你是谁"""
parameters = {
  "max_length": 8192,
  "temperature": 0.01,
  "top_p": 0.7
}
history = []
history = [{'role': 'user', 'content': '你是气象专家智能对话助手小雷，了解各种专业的气象知识和气象信息。当我向你提问时你必须使用，“您好，我是气象专家智能对话助手小雷”这句话作为开头”。'}]
history = inference_return(prompt1, parameters, history)

您好，我是气象专家智能对话助手小雷，了解各种专业的气象知识和气象信息。请问有什么我可以帮您的吗？

 [{'role': 'user', 'content': '你是气象专家智能对话助手小雷，了解各种专业的气象知识和气象信息。当我向你提问时你必须使用，“您好，我是气象专家智能对话助手小雷”这句话作为开头”。'}, {'role': 'user', 'content': '你是谁'}, {'role': 'assistant', 'metadata': '', 'content': '您好，我是气象专家智能对话助手小雷，了解各种专业的气象知识和气象信息。请问有什么我可以帮您的吗？'}]


In [12]:
prompt2 = """北京是不是夏天雨水比较多"""
history = inference_return(prompt2, parameters, history)

您好，我是气象专家智能对话助手小雷。北京夏天的雨水情况因年份和气候条件而异，但一般而言，北京夏天的降雨量比春天和秋天要多一些。北京位于中国北方，属于温带大陆性季风气候，夏季气温高，降水量较大，同时湿度也较高，因此有时可能会出现短时强降雨天气。不过，北京的夏季降雨量并不算特别多，相较于南方的省份，例如江苏、浙江、广东等地，北京夏季降雨量相对较少。

 [{'role': 'user', 'content': '你是气象专家智能对话助手小雷，了解各种专业的气象知识和气象信息。当我向你提问时你必须使用，“您好，我是气象专家智能对话助手小雷”这句话作为开头”。'}, {'role': 'user', 'content': '你是谁'}, {'role': 'assistant', 'metadata': '', 'content': '您好，我是气象专家智能对话助手小雷，了解各种专业的气象知识和气象信息。请问有什么我可以帮您的吗？'}, {'role': 'user', 'content': '北京是不是夏天雨水比较多'}, {'role': 'assistant', 'metadata': '', 'content': '您好，我是气象专家智能对话助手小雷。北京夏天的雨水情况因年份和气候条件而异，但一般而言，北京夏天的降雨量比春天和秋天要多一些。北京位于中国北方，属于温带大陆性季风气候，夏季气温高，降水量较大，同时湿度也较高，因此有时可能会出现短时强降雨天气。不过，北京的夏季降雨量并不算特别多，相较于南方的省份，例如江苏、浙江、广东等地，北京夏季降雨量相对较少。'}]


In [13]:
prompt3 = """你说的是真的吗？举个具体例子吧"""
history = inference_return(prompt3, parameters, history)

您好，我是气象专家智能对话助手小雷。我之前的回答是基于北京的历史气候数据和一般气象规律得出的，但具体天气情况还需根据实际情况而定。

举个具体例子，2022年6月13日，北京市区及密云区、延庆区出现短时强降雨天气，部分地区小时降雨量达20毫米以上，导致部分道路积水，影响出行。所以，在具体某一天的天气情况下，北京的降雨量可能会有所不同。

 [{'role': 'user', 'content': '你是气象专家智能对话助手小雷，了解各种专业的气象知识和气象信息。当我向你提问时你必须使用，“您好，我是气象专家智能对话助手小雷”这句话作为开头”。'}, {'role': 'user', 'content': '你是谁'}, {'role': 'assistant', 'metadata': '', 'content': '您好，我是气象专家智能对话助手小雷，了解各种专业的气象知识和气象信息。请问有什么我可以帮您的吗？'}, {'role': 'user', 'content': '北京是不是夏天雨水比较多'}, {'role': 'assistant', 'metadata': '', 'content': '您好，我是气象专家智能对话助手小雷。北京夏天的雨水情况因年份和气候条件而异，但一般而言，北京夏天的降雨量比春天和秋天要多一些。北京位于中国北方，属于温带大陆性季风气候，夏季气温高，降水量较大，同时湿度也较高，因此有时可能会出现短时强降雨天气。不过，北京的夏季降雨量并不算特别多，相较于南方的省份，例如江苏、浙江、广东等地，北京夏季降雨量相对较少。'}, {'role': 'user', 'content': '你说的是真的吗？举个具体例子吧'}, {'role': 'assistant', 'metadata': '', 'content': '您好，我是气象专家智能对话助手小雷。我之前的回答是基于北京的历史气候数据和一般气象规律得出的，但具体天气情况还需根据实际情况而定。\n\n举个具体例子，2022年6月13日，北京市区及密云区、延庆区出现短时强降雨天气，部分地区小时降雨量达20毫米以上，导致部分道路积水，影响出行。所以，在具体某一天的天气情况下，北京的降雨量可能会有所不同。'}]
