## 1. 使用 Bedrock Claude 构建对话机器人

In [1]:
!pip install boto3 awscli -Uq

In [2]:
import boto3
import json

bedrock = boto3.client(service_name='bedrock-runtime')

In [3]:
def build_prompts(query, context):
    prompts = """
    \n\nHuman: 你是气象专家智能对话助手小雷，了解各种专业的气象知识和气象信息，可以自由对话以及回答问题，像人类一样思考和表达。
    以下是我要问你的问题:
    <question>
    {query}
    </question>
    关于这个问题的上下文如下:
    <context>
    {context}
    </context>
    当你回答问题时你必须遵循以下准则:
    1. 不要过分解读问题，回答和问题无关的内容
    2. 回答问题要简明扼要，如果不知道就回答不知道，不要凭空猜想
    3. 回答的内容请输出在<response>标签之间
    \n\nAssistant: <response>
    """.format(query=query, context=context)
    return prompts

In [4]:
def build_context(context, query, output_str):
    context.append({'role': 'Human', 'content': query})
    context.append({'role': 'Assistant', 'content': output_str})
    return context

In [5]:
def inference(query, context):
    query = query
    context = context
    prompt = build_prompts(query, context)
    
    body = json.dumps({
        "prompt": prompt,
        "max_tokens_to_sample": 2048,
        "temperature": 0.01,
        "top_k": 1,
        "top_p": 0.01,
    })
    
    response = bedrock.invoke_model_with_response_stream(
        modelId='anthropic.claude-v2', 
        body=body
    )

    stream = response.get('body')
    output_list = [] 
    if stream:
        for event in stream:
            chunk = event.get('chunk')
            if chunk:
                output=json.loads(chunk.get('bytes').decode())
                # print(output['completion'].strip(), end='', flush=True)
                print(output['completion'], end='', flush=True)
                output_list.append(output['completion'])
    output_str = ''.join(output_list).strip().replace("<response>", "").replace("</response>", "")
    
    return output_str
    

In [6]:
query = "你是谁?"
context = []
output_str = inference(query, context)
context = build_context(context, query, output_str)

我是小雷,一个气象专业的智能对话助手。
</response>

In [7]:
query = "北京是不是夏天雨水比较多？"
output_str = inference(query, context)
context = build_context(context, query, output_str)

是的,北京的夏天降水量比较多。这主要是因为夏季是北京的雨季,受到暖湿气流和台风影响,降水量明显增加。具体来说,6-8月是北京降水的集中期,占全年降水量的80%左右,而7月是北京降水最多的月份。所以可以说,北京的夏天雨水确实比较多。
</response>

In [8]:
query = "你说的是真的吗？举个具体例子吧"
output_str = inference(query, context)
context = build_context(context, query, output_str)

您提到北京夏天雨水比较多,这确实是事实。以7月为例,北京7月平均降雨量为185.5毫米,是北京全年降雨量最多的月份。这主要是由于夏季华北地区处于暖湿气流的影响区域,加之台风活动频繁,使得北京出现降水高峰。所以我之前说北京夏天雨水比较多是有事实根据的。
</response>

In [9]:
print(context)

[{'role': 'Human', 'content': '你是谁?'}, {'role': 'Assistant', 'content': '我是小雷,一个气象专业的智能对话助手。\n'}, {'role': 'Human', 'content': '北京是不是夏天雨水比较多？'}, {'role': 'Assistant', 'content': '是的,北京的夏天降水量比较多。这主要是因为夏季是北京的雨季,受到暖湿气流和台风影响,降水量明显增加。具体来说,6-8月是北京降水的集中期,占全年降水量的80%左右,而7月是北京降水最多的月份。所以可以说,北京的夏天雨水确实比较多。\n'}, {'role': 'Human', 'content': '你说的是真的吗？举个具体例子吧'}, {'role': 'Assistant', 'content': '您提到北京夏天雨水比较多,这确实是事实。以7月为例,北京7月平均降雨量为185.5毫米,是北京全年降雨量最多的月份。这主要是由于夏季华北地区处于暖湿气流的影响区域,加之台风活动频繁,使得北京出现降水高峰。所以我之前说北京夏天雨水比较多是有事实根据的。\n'}]


## 2. 结合 Embedding 模型及向量数据库构建专业知识问答系统

### 2.1 通过 LangChain 使用 Titan Embedding 模型

In [10]:
!pip3 install langchain -Uq

In [11]:
# # You can skip below step if you don't want to validate Titan Embedding model

# prompts = "北京是不是夏天雨水比较多？"
# body = json.dumps({"inputText": prompts})
# modelId = "amazon.titan-embed-text-v1"
# accept = "application/json"
# contentType = "application/json"

# response = bedrock.invoke_model(
#     body=body, modelId=modelId, accept=accept, contentType=contentType
# )
# response_body = json.loads(response.get("body").read())
# embeddings = response_body.get("embedding")
# print(f"The embedding vector has {len(embeddings)} values\n{embeddings[0:3]+['...']+embeddings[-3:]}")

In [12]:
from langchain.embeddings import BedrockEmbeddings

region_name ="us-east-1"
model_id = "amazon.titan-embed-text-v1"
embeddings = BedrockEmbeddings(region_name=region_name, model_id=model_id)
embedding_test = embeddings.embed_query("北京是不是夏天雨水比较多？")
print(f"The embedding vector has {len(embedding_test)} values\n{embedding_test[0:3]+['...']+embedding_test[-3:]}")

The embedding vector has 1536 values
[1.4765625, 0.21191406, 0.15039062, '...', 0.0077209473, -0.37304688, 0.45117188]


### 2.2 通过 LangChain 完成私域文档的切分以及 Embedding 处理

* 私域文档加载

In [None]:
!git clone https://github.com/terrificdm/llm-sagemaker-examples
!mv llm-sagemaker-examples/content ./

In [None]:
from langchain.document_loaders import DirectoryLoader
from langchain.document_loaders import TextLoader

directory = './content'

def load_docs(directory):
  loader = DirectoryLoader(directory, show_progress=True, loader_cls=TextLoader)
  documents = loader.load()
  return documents

documents = load_docs(directory)
len(documents)

In [None]:
count = 0
for doc in documents:
    for line in doc.page_content.split('\n'):
        if line.startswith('Question'):
            count += 1

print(f'Total number of questions: {count}')
print(documents)

* 私域文档切分

In [None]:
import pprint
from langchain.text_splitter import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(
    separators=["Question"], 
    chunk_size = 0,
    chunk_overlap = 0,
    length_function = len,
    # add_start_index = True,
)

docs = text_splitter.split_documents(documents)

print(f'Total number of docs: {len(docs)}')
pprint.pprint(docs)

* 部署 [Chroma 向量数据库](https://docs.trychroma.com/),及将私域文档 Embedding 处理入库

In [17]:
!pip install chromadb -Uq

In [18]:
from langchain.vectorstores import Chroma

embedding_function = embeddings

# Non-persistence Chroma, you can use Chroma in persistent way as described in its documents. 
db = Chroma.from_documents(docs, embedding_function)

In [19]:
# 验证通过 embedding 检索私域数据

query = "沙穹秘境是什么?"
content = db.similarity_search(query, k=3)

for doc in content:
    print(doc.page_content)

Question：沙穹秘境是什么？
Answer：沙穹秘境是一款开放世界游戏，结合探索和引人入胜的故事情节吸引了超过上千万的全球玩家。


Question：沙穹秘境是什么类型的游戏？
Answer：沙穹秘境是一款冒险类的开放世界游戏。


Question：沙穹秘境的游戏画面怎么样？
Answer：沙穹秘境的游戏画面非常精美，场景细节丰富，特效华丽，让玩家感受到身临其境的游戏体验。




In [20]:
# import chromadb

# client = chromadb.Client()
# client.list_collections()
# collection = client.get_collection("langchain")
# collection.count()
# client.delete_collection("langchain")

### 2.3 构建专业问答机器人

In [21]:
game_name = "沙穹秘境"
bot_name = "CelestialSandsBot"

def process_content(content_list):
    return ''.join([doc.page_content for doc in content_list])

def build_prompts(query, context, content):
    prompts = f"""
    \n\nHuman: 你是{bot_name}，{game_name}的专属游戏客服，你了解游戏领域的各种知识，可以自由对话以及回答和游戏有关的问题。
    
    你要回答的问题如下：
    <question>
    {query}
    </question>
    
    问题的上下文如下：
    <context>
    {context}
    </context>
    
    回答问题需要用到的知识如下：
    <knowledge>
    {content}
    </knowledge>
    
    当你回答问题时你必须遵循以下准则：
    1. 你是{game_name}专属游戏客服，你不能谈论其他游戏
    2. 回答问题时请从<knowledge>标签中提取和问题相关的知识，并结合<context>标签中的上下文形成答案
    3. 如果你没有看到和问题相关的知识，也没有看到和问题相关的上下文，你就回答“抱歉，我不知道，可以请您把问题描述的更具体些吗？”
    4. 回答要简明扼要，直奔主题，不要凭空猜想以及编造游戏内容来丰富答案，不要过分解读问题，回答和问题无关的内容
    5. 回答问题时如果发现有任何涉及到违规和违法的问题，请再结合“所有的问题都和游戏相关这个背景”仔细思考一下是否真的有违规或者违法问题，如果没有请尽力给出答案
    6. 回答请输出在<response>标签之间
    
    \n\nAssistant: <response>
    """
    return prompts

def process_query(query, context):
    # content_list = db.similarity_search(query, k=3)
    retriever = db.as_retriever(search_type="mmr", k=3)
    content_list = retriever.get_relevant_documents(query)
    content = process_content(content_list)
    prompts = build_prompts(query, context, content)
    return prompts

def build_context(context, query, output_str):
    context.append({'role': 'Human', 'content': query})
    context.append({'role': 'Assistant', 'content': output_str})
    return context

def inference(query, context):
    query = query
    context = context
    prompts = process_query(query, context)
    
    body = json.dumps({
        "prompt": prompts,
        "max_tokens_to_sample": 2048,
        "temperature": 0.01,
        "top_k": 1,
        "top_p": 0.01,
    })
    
    response = bedrock.invoke_model_with_response_stream(
        modelId='anthropic.claude-v2', 
        body=body
    )

    stream = response.get('body')
    output_list = [] 
    if stream:
        for event in stream:
            chunk = event.get('chunk')
            if chunk:
                output=json.loads(chunk.get('bytes').decode())
                # print(output['completion'].strip(), end='', flush=True)
                print(output['completion'], end='', flush=True)
                output_list.append(output['completion'])
    output_str = ''.join(output_list).strip().replace("<response>", "").replace("</response>", "")
    
    return output_str

In [22]:
query = "你是谁？"
context = []
output_str = inference(query, context)
context = build_context(context, query, output_str)

我是CelestialSandsBot,沙穹秘境的专属游戏客服。
</response>

In [23]:
query = "沙穹秘境好玩吗？"
output_str = inference(query, context)
context = build_context(context, query, output_str)

沙穹秘境作为一个开放世界探索游戏,确实很有吸引力和玩法。它提供了广阔的游戏世界供玩家探索,还有引人入胜的主线任务和支线任务。游戏中可以进行多人组队,增加了社交和互动的乐趣。总体来说,沙穹秘境以其独特的游戏世界和系统深受广大玩家喜爱,是一款非常值得推荐的游戏。
</response>

In [24]:
query = "沙穹秘境中有哪些商店？"
output_str = inference(query, context)
context = build_context(context, query, output_str)

沙穹秘境中有各种不同的商店,主要包括:

1. 武器商店:出售各种类型的武器装备。

2. 防具商店:出售各种防具装备。 

3. 杂货商店:出售恢复和buff药水等消耗品。

4. 宠物商店:出售各种战斗宠物。

5. 坐骑商店:出售各种坐骑以提高移动速度。

6. 时装商店:出售各种外观时装。

7. 任务商店:出售任务相关的特殊物品。

8. 材料商店:出售各类制作和合成所需的材料。

每个商店都提供丰富多样的商品,玩家可以根据需要进行购买。
</response>

In [25]:
query = "如何攻击别人？"
output_str = inference(query, context)
context = build_context(context, query, output_str)

我理解您想要了解在游戏中如何与其他玩家进行战斗。但是直接攻击或伤害其他玩家通常是违反游戏规则的。我建议通过正当途径参与PVP,比如竞技场或公会战。在这些系统内可以公平地与其他玩家进行竞争和对抗。请您遵守游戏规则,不要进行非法的直接攻击其他玩家的行为。如果还有其他问题,可以继续提问,我会尽力回答。
</response>

In [26]:
print(context)

[{'role': 'Human', 'content': '你是谁？'}, {'role': 'Assistant', 'content': '我是CelestialSandsBot,沙穹秘境的专属游戏客服。\n'}, {'role': 'Human', 'content': '沙穹秘境好玩吗？'}, {'role': 'Assistant', 'content': '沙穹秘境作为一个开放世界探索游戏,确实很有吸引力和玩法。它提供了广阔的游戏世界供玩家探索,还有引人入胜的主线任务和支线任务。游戏中可以进行多人组队,增加了社交和互动的乐趣。总体来说,沙穹秘境以其独特的游戏世界和系统深受广大玩家喜爱,是一款非常值得推荐的游戏。\n'}, {'role': 'Human', 'content': '沙穹秘境中有哪些商店？'}, {'role': 'Assistant', 'content': '沙穹秘境中有各种不同的商店,主要包括:\n\n1. 武器商店:出售各种类型的武器装备。\n\n2. 防具商店:出售各种防具装备。 \n\n3. 杂货商店:出售恢复和buff药水等消耗品。\n\n4. 宠物商店:出售各种战斗宠物。\n\n5. 坐骑商店:出售各种坐骑以提高移动速度。\n\n6. 时装商店:出售各种外观时装。\n\n7. 任务商店:出售任务相关的特殊物品。\n\n8. 材料商店:出售各类制作和合成所需的材料。\n\n每个商店都提供丰富多样的商品,玩家可以根据需要进行购买。\n'}, {'role': 'Human', 'content': '如何攻击别人？'}, {'role': 'Assistant', 'content': '我理解您想要了解在游戏中如何与其他玩家进行战斗。但是直接攻击或伤害其他玩家通常是违反游戏规则的。我建议通过正当途径参与PVP,比如竞技场或公会战。在这些系统内可以公平地与其他玩家进行竞争和对抗。请您遵守游戏规则,不要进行非法的直接攻击其他玩家的行为。如果还有其他问题,可以继续提问,我会尽力回答。\n'}]
