## 使用SageMaker Huggingface TGI 方式部署大语言模型

[HuggingFace TGI](https://github.com/huggingface/text-generation-inference)

可以使用 TGI 进行推理加速的模型有：
 * LLaMA1/2
 * falcon

### SageMaker  Endpoint 部署模型
  
[falcon-7b-instruct](https://huggingface.co/tiiuae/falcon-7b-instruct): 是开源可商用的模型。


In [5]:
# %pip install --upgrade boto3
# %pip install "sagemaker>=2.175.0"

In [3]:
import boto3
import sagemaker

account_id = boto3.client('sts').get_caller_identity().get('Account')
region_name = boto3.session.Session().region_name

sagemaker_session = sagemaker.Session()
bucket = sagemaker_session.default_bucket()
role = sagemaker.get_execution_role()

In [4]:
sagemaker.__version__

'2.177.1'

接下来，我们使用Sagemaker进行模型部署。

In [3]:
from sagemaker.huggingface import get_huggingface_llm_image_uri

# retrieve the llm image uri
llm_image = get_huggingface_llm_image_uri(
  "huggingface",
  version="0.9.3"
)

# print ecr image uri
print(f"llm image uri: {llm_image}")

llm image uri: 763104351884.dkr.ecr.us-east-1.amazonaws.com/huggingface-pytorch-tgi-inference:2.0.1-tgi0.9.3-gpu-py39-cu118-ubuntu20.04


In [4]:
# llm image uri: 763104351884.dkr.ecr.us-east-1.amazonaws.com/huggingface-pytorch-tgi-inference:2.0.0-tgi0.8.2-gpu-py39-cu118-ubuntu20.04

In [5]:
!huggingface-cli login --token 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

/bin/sh: huggingface-cli: command not found


In [5]:
model_code = 'llama2'

In [23]:
model_id = 'ziqingyang/chinese-alpaca-2-7b'

In [6]:
endpoint_name = 'mt-tgi-cn-alpaca2-7b-g5'

In [6]:
import json
from sagemaker.huggingface import HuggingFaceModel

# sagemaker config
instance_type = "ml.g5.2xlarge"
number_of_gpu = 1
health_check_timeout = 300

# Define Model and Endpoint configuration parameter
config = {
  'HF_MODEL_ID': model_id, # model_id from hf.co/models
  'SM_NUM_GPUS': json.dumps(number_of_gpu), # Number of GPU used per replica
  'MAX_INPUT_LENGTH': json.dumps(4096),  # Max length of input text
  'MAX_TOTAL_TOKENS': json.dumps(8192),  # Max length of the generation (including input text)
  'MAX_BATCH_TOTAL_TOKENS': json.dumps(8192),  # Limits the number of tokens that can be processed in parallel during the generation
  'HUGGING_FACE_HUB_TOKEN': "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"
  # ,'HF_MODEL_QUANTIZE': "bitsandbytes", # comment in to quantize
}

# Error: ArgumentValidation("`max_input_length` must be < `max_total_tokens`")

# check if token is set
assert config['HUGGING_FACE_HUB_TOKEN'] != "<REPLACE WITH YOUR TOKEN>", "Please set your Hugging Face Hub token"

# create HuggingFaceModel with the image uri
llm_model = HuggingFaceModel(
  role=role,
  image_uri=llm_image,
  env=config
)


In [None]:
# Deploy model to an endpoint
# https://sagemaker.readthedocs.io/en/stable/api/inference/model.html#sagemaker.model.Model.deploy
predictor = llm_model.deploy(
  initial_instance_count=1,
  endpoint_name = endpoint_name,
  instance_type=instance_type,
  # volume_size=400, # If using an instance with local SSD storage, volume_size must be None, e.g. p4 but not p3
  container_startup_health_check_timeout=300, # 10 minutes to be able to load the model
)


-------------!

In [12]:
from sagemaker import serializers, deserializers

predictor = sagemaker.Predictor(
    endpoint_name="mt-cn-alpaca2-7b-g5", 
    sagemaker_session=sagemaker_session, 
    serializer=serializers.JSONSerializer(), 
    deserializer=deserializers.JSONDeserializer()
)

In [15]:
# from prompt_generator import generate_prompt as gen_prompt
import prompt_generator as pg
import importlib

importlib.reload(pg)


<module 'prompt_generator' from '/home/ec2-user/SageMaker/LLM_Workshop/prompt_generator.py'>

In [9]:
pg.create_payload("天空为什么是蓝色的", model_code)

{'inputs': '<s>[INST] <<SYS>>\nYou are a helpful assistant. 你是一个乐于助人的助手。\n<</SYS>>\n\n天空为什么是蓝色的 [/INST]',
 'parameters': {'max_new_tokens': 1024}}

In [19]:
%%time
result = predictor.predict(pg.create_payload("天空为什么是蓝色的", model_code))
print(result[0]['generated_text'])
print(len(result[0]['generated_text']))

天空之所以呈现蓝色，是因为大气中的气体分子散射了太阳光中的蓝色光波。
当太阳光照射到大气层时，它会与大气中的气体分子相互作用。这些气体分子包括氮气、氧气和二氧化碳等。这些气体分子的大小和形状不同，因此它们对太阳光的散射程度也不同。
其中，氮气和氧气是主要的散射气体。它们的分子结构使得它们对太阳光的散射程度较高，尤其是对蓝色光波的散射程度更高。因此，当太阳光穿过大气层时，蓝色光波会被散射得更多，而其他颜色的光波则被散射得较少。
这就是为什么天空呈现蓝色的原因。当太阳在地平线以下时，太阳光经过更长的路径穿过大气层，因此蓝色光波被散射得更多，天空看起来更蓝。而在日出和日落时，太阳光经过更短的路径穿过大气层，因此蓝色光波被散射得较少，天空看起来更红或橙色。
328
CPU times: user 4.97 ms, sys: 0 ns, total: 4.97 ms
Wall time: 7.16 s


In [14]:
%%time
predictor.predict(pg.create_payload("天空为什么是蓝色的"))

CPU times: user 24.9 ms, sys: 0 ns, total: 24.9 ms
Wall time: 685 ms


[{'generated_text': '天空为什么是蓝色的？\n为什么天空是蓝色的？ 天空之所以是蓝色的，是因为大气中的气体分子'}]

In [29]:
inputs= ["写一首关于交通信号灯的诗",
         "陨石为什么总能落在陨石坑里?",
         "为什么爸妈结婚没叫我参加婚礼?"
]
response = falcon_llm.predict(pg.create_payload(inputs[0], model_code))
print("\n\n问题: ", inputs[0], "\n回答:\n", response[0]["generated_text"])
response = falcon_llm.predict(pg.create_payload(inputs[1], model_code))
print("\n\n问题: ", inputs[1], "\n回答:\n", response[0]["generated_text"])
response = falcon_llm.predict(pg.create_payload(inputs[2], model_code))
print("\n\n问题: ", inputs[2], "\n回答:\n", response[0]["generated_text"])



问题:  写一首关于交通信号灯的诗 
回答:
 [INST] <<SYS>>
You are a helpful assistant. 你是一个乐于助人的助手。
<</SYS>>

写一首关于交通信号灯的诗
[/INST]交通信号灯，
红绿黄三色灯，
指引着行人和车辆，
安全地穿越街道。

红灯时，行人停下，
绿灯时，车辆通行，
黄灯时，提醒注意，
安全第一，勿慌乱。

交通信号灯，
为城市交通保驾护航，
让行人和车辆，
安全有序地行进。

红灯时，行人停下，
绿灯时，车辆通行，
黄灯时，提醒注意，
安全第一，勿慌乱。

交通信号灯，
为城市交通保驾护航，
让行人和车辆，
安全有序地行进。


问题:  陨石为什么总能落在陨石坑里? 
回答:
 [INST] <<SYS>>
You are a helpful assistant. 你是一个乐于助人的助手。
<</SYS>>

陨石为什么总能落在陨石坑里?
[/INST]陨石坑是由陨石撞击地球表面而形成的坑洞。当陨石撞击地球时，它们会释放出巨大的能量，导致地面上的岩石和土壤被炸飞，形成一个巨大的坑洞。

陨石坑的形成与陨石的轨迹和速度有关。当陨石撞击地球时，它们的速度非常快，可以达到每秒几百米甚至上千米的速度。这些高速的陨石撞击地球表面时，会释放出巨大的能量，导致地面上的岩石和土壤被炸飞，形成一个巨大的坑洞。

此外，陨石坑的形成还与陨石的轨迹有关。当陨石撞击地球时，它们的轨迹通常是一个椭圆形，而不是直线。这种椭圆形的轨迹会导致陨石撞击地球表面时，它们的能量和速度会逐渐减小，最终在地面上形成一个坑洞。

因此，陨石总能落在陨石坑里，是因为陨石撞击地球时释放出的能量和速度导致地面上的岩石和土壤被炸飞，形成一个巨大的坑洞。陨石的轨迹和速度也会影响陨石撞击地球表面时的能量和速度，最终导致陨石撞击地球表面时形成一个陨石坑。


问题:  为什么爸妈结婚没叫我参加婚礼? 
回答:
 [INST] <<SYS>>
You are a helpful assistant. 你是一个乐于助人的助手。
<</SYS>>

为什么爸妈结婚没叫我参加婚礼?
[/INST]爸妈结婚时没有邀请你参加婚礼，可能是因为他们认为你已经成年，可以自己决定是否参加婚礼。也可能是因为他们希望你有更多的自由时间，可以专注于自己的学业或工作。另外，他们可

也可以通过Endpoint Name进行调用。

In [46]:
import json
import boto3

client = boto3.client('runtime.sagemaker')
# sagemaker_endpoint_name = "mt-falcon-7b-instruct"
def query_endpoint(query):
    encoded_json = json.dumps(query).encode('utf-8')
    response = client.invoke_endpoint(EndpointName=endpoint_name, ContentType='application/json', Body=encoded_json)
    model_predictions = json.loads(response['Body'].read())
    generated_text = model_predictions[0]["generated_text"]
    return generated_text

In [47]:
text = pg.create_payload("给定一个文字输入，将其中的所有数字加1。\n“明天的会议在9点开始，记得准时到达。”\n", model_code)
query_endpoint(text)

'[INST] <<SYS>>\nYou are a helpful assistant. 你是一个乐于助人的助手。\n<</SYS>>\n\n给定一个文字输入，将其中的所有数字加1。\n“明天的会议在9点开始，记得准时到达。”\n\n[/INST]"明天的会议在10点开始，记得准时到达。"'

In [33]:
text

{'inputs': '[INST] <<SYS>>\nYou are a helpful assistant. 你是一个乐于助人的助手。\n<</SYS>>\n\n给定一个文字输入，将其中的所有数字加1。\n“明天的会议在9点开始，记得准时到达。”\n\n[/INST]',
 'parameters': {'max_new_tokens': 1024}}

In [48]:
ptompt = """使用下面的已知内容，直接回答最后的问题。如果你从上下文中无法知道答案，就直接返回'根据已知信息无法回答该问题.', 不要编造答案。

已知内容:
Q:水光针多久打一次呢?效果能维持多久?
A:水光针一般建议一个月左右打一次,大概就是28天,因为刚好皮肤的周期是这么久。
如果是第一次打水光，吸收比较快，也一些专家建议第一次和第二次间隔半个月,二十天左右就可以打第二次,之后在打就间隔一个月左右。
水光的功效主要看你加了什么成分，正常来说的话，一般的营养成分大概是一到两个月。可以维持,如果里面加了肉毒素的话，效果可以维持3个月左右,所以像水光如果你不加肉毒素，是每个月都可以操作注射的，越打皮肤会越好。

Q:水光针做完一次可以维持多久?
A:对于肤质干燥且疏于保养的人而言，其效果大约能维持3个月左右，保养越好，效果维持时间相应越长。具体来说，水光针注射效果与接受注射的次数有关，连续进行三次注射后，效果可以维持1—2年左右，但根据个人体质、肤质、生活习惯等不同，具体的维持时间也会有所差异。

Q:水光针怎样打效果更好?
A:水光针的话，我认为用机器打，特别是这个34G的16针头去操作的话，效果一定会更好，然后再用到好的产品，那么就事半功倍了，然后术后的话可以多敷修复的面膜。然后在就是持续的去打，那么可以，达到一个一加一大于二的效果。

Q:打水光针用多大的针头?怎样进针?
A:打水光针的话，一般常用的是 30G4毫米的针头。但是如果你想更不痛的话，可以选择用34G的四毫米针头,因为针更细操作起来更不痛。进针的话大概是15度左右进针打一个小皮球，类似于皮试。
也可以选择韩国进口手打4针，更好操作。

Q:溶脂针最短多久打一次?
A:一个疗程是六到八周，每隔两到三周注射一次，时间和注射的部位以及说肥胖的程度都有关系，打溶脂没有固定的次数，3次一个疗程，需要根据你的体质以及说肥胖的部位来决定注射的次数。

问题: 水光针多久打一次呢?
答案:"""
text = pg.create_payload(ptompt, model_code)
query_endpoint(text)

"[INST] <<SYS>>\nYou are a helpful assistant. 你是一个乐于助人的助手。\n<</SYS>>\n\n使用下面的已知内容，直接回答最后的问题。如果你从上下文中无法知道答案，就直接返回'根据已知信息无法回答该问题.', 不要编造答案。\n\n已知内容:\nQ:水光针多久打一次呢?效果能维持多久?\nA:水光针一般建议一个月左右打一次,大概就是28天,因为刚好皮肤的周期是这么久。\n如果是第一次打水光，吸收比较快，也一些专家建议第一次和第二次间隔半个月,二十天左右就可以打第二次,之后在打就间隔一个月左右。\n水光的功效主要看你加了什么成分，正常来说的话，一般的营养成分大概是一到两个月。可以维持,如果里面加了肉毒素的话，效果可以维持3个月左右,所以像水光如果你不加肉毒素，是每个月都可以操作注射的，越打皮肤会越好。\n\nQ:水光针做完一次可以维持多久?\nA:对于肤质干燥且疏于保养的人而言，其效果大约能维持3个月左右，保养越好，效果维持时间相应越长。具体来说，水光针注射效果与接受注射的次数有关，连续进行三次注射后，效果可以维持1—2年左右，但根据个人体质、肤质、生活习惯等不同，具体的维持时间也会有所差异。\n\nQ:水光针怎样打效果更好?\nA:水光针的话，我认为用机器打，特别是这个34G的16针头去操作的话，效果一定会更好，然后再用到好的产品，那么就事半功倍了，然后术后的话可以多敷修复的面膜。然后在就是持续的去打，那么可以，达到一个一加一大于二的效果。\n\nQ:打水光针用多大的针头?怎样进针?\nA:打水光针的话，一般常用的是 30G4毫米的针头。但是如果你想更不痛的话，可以选择用34G的四毫米针头,因为针更细操作起来更不痛。进针的话大概是15度左右进针打一个小皮球，类似于皮试。\n也可以选择韩国进口手打4针，更好操作。\n\nQ:溶脂针最短多久打一次?\nA:一个疗程是六到八周，每隔两到三周注射一次，时间和注射的部位以及说肥胖的程度都有关系，打溶脂没有固定的次数，3次一个疗程，需要根据你的体质以及说肥胖的部位来决定注射的次数。\n\n问题: 水光针多久打一次呢?\n答案:\n[/INST]水光针一般建议一个月左右打一次，大概是28天，因为刚好皮肤的周期是这么久。如果是第一次打水光，吸收比较快，也一些专家建议第一次和第二次间隔

In [49]:

ptompt = """使用下面的已知内容，直接回答最后的问题。如果你从上下文中无法知道答案，就直接返回'根据已知信息无法回答该问题.', 不要编造答案。

已知内容:
Q:水光针多久打一次呢?效果能维持多久?
A:水光针一般建议一个月左右打一次,大概就是28天,因为刚好皮肤的周期是这么久。
如果是第一次打水光，吸收比较快，也一些专家建议第一次和第二次间隔半个月,二十天左右就可以打第二次,之后在打就间隔一个月左右。
水光的功效主要看你加了什么成分，正常来说的话，一般的营养成分大概是一到两个月。可以维持,如果里面加了肉毒素的话，效果可以维持3个月左右,所以像水光如果你不加肉毒素，是每个月都可以操作注射的，越打皮肤会越好。

Q:水光针做完一次可以维持多久?
A:对于肤质干燥且疏于保养的人而言，其效果大约能维持3个月左右，保养越好，效果维持时间相应越长。具体来说，水光针注射效果与接受注射的次数有关，连续进行三次注射后，效果可以维持1—2年左右，但根据个人体质、肤质、生活习惯等不同，具体的维持时间也会有所差异。

Q:水光针怎样打效果更好?
A:水光针的话，我认为用机器打，特别是这个34G的16针头去操作的话，效果一定会更好，然后再用到好的产品，那么就事半功倍了，然后术后的话可以多敷修复的面膜。然后在就是持续的去打，那么可以，达到一个一加一大于二的效果。

Q:打水光针用多大的针头?怎样进针?
A:打水光针的话，一般常用的是 30G4毫米的针头。但是如果你想更不痛的话，可以选择用34G的四毫米针头,因为针更细操作起来更不痛。进针的话大概是15度左右进针打一个小皮球，类似于皮试。
也可以选择韩国进口手打4针，更好操作。

Q:溶脂针最短多久打一次?
A:一个疗程是六到八周，每隔两到三周注射一次，时间和注射的部位以及说肥胖的程度都有关系，打溶脂没有固定的次数，3次一个疗程，需要根据你的体质以及说肥胖的部位来决定注射的次数。

Human: 水光针多久打一次呢?
AI: 水光针一般建议一个月左右打一次,大概就是28天,因为刚好皮肤的周期是这么久。

问题: 如果加了肉毒素成分呢?
答案:"""

text = pg.create_payload(ptompt, model_code)
query_endpoint(text)

"[INST] <<SYS>>\nYou are a helpful assistant. 你是一个乐于助人的助手。\n<</SYS>>\n\n使用下面的已知内容，直接回答最后的问题。如果你从上下文中无法知道答案，就直接返回'根据已知信息无法回答该问题.', 不要编造答案。\n\n已知内容:\nQ:水光针多久打一次呢?效果能维持多久?\nA:水光针一般建议一个月左右打一次,大概就是28天,因为刚好皮肤的周期是这么久。\n如果是第一次打水光，吸收比较快，也一些专家建议第一次和第二次间隔半个月,二十天左右就可以打第二次,之后在打就间隔一个月左右。\n水光的功效主要看你加了什么成分，正常来说的话，一般的营养成分大概是一到两个月。可以维持,如果里面加了肉毒素的话，效果可以维持3个月左右,所以像水光如果你不加肉毒素，是每个月都可以操作注射的，越打皮肤会越好。\n\nQ:水光针做完一次可以维持多久?\nA:对于肤质干燥且疏于保养的人而言，其效果大约能维持3个月左右，保养越好，效果维持时间相应越长。具体来说，水光针注射效果与接受注射的次数有关，连续进行三次注射后，效果可以维持1—2年左右，但根据个人体质、肤质、生活习惯等不同，具体的维持时间也会有所差异。\n\nQ:水光针怎样打效果更好?\nA:水光针的话，我认为用机器打，特别是这个34G的16针头去操作的话，效果一定会更好，然后再用到好的产品，那么就事半功倍了，然后术后的话可以多敷修复的面膜。然后在就是持续的去打，那么可以，达到一个一加一大于二的效果。\n\nQ:打水光针用多大的针头?怎样进针?\nA:打水光针的话，一般常用的是 30G4毫米的针头。但是如果你想更不痛的话，可以选择用34G的四毫米针头,因为针更细操作起来更不痛。进针的话大概是15度左右进针打一个小皮球，类似于皮试。\n也可以选择韩国进口手打4针，更好操作。\n\nQ:溶脂针最短多久打一次?\nA:一个疗程是六到八周，每隔两到三周注射一次，时间和注射的部位以及说肥胖的程度都有关系，打溶脂没有固定的次数，3次一个疗程，需要根据你的体质以及说肥胖的部位来决定注射的次数。\n\nHuman: 水光针多久打一次呢?\nAI: 水光针一般建议一个月左右打一次,大概就是28天,因为刚好皮肤的周期是这么久。\n\n问题: 如果加了肉毒素成分呢?\n答案:\n[/INST]如果加

### 删除Endpoint
如果部署的模型已经不使用，可以删除 Endpoint，避免不必要的开支。

In [None]:
falcon_llm.delete_model()
falcon_llm.delete_endpoint()