### 1. 数据读取

In [115]:
from langchain_core.documents import Document
import random

In [116]:
file_name = "knowledge/大聪明牌口服液.txt"
with open(file=file_name, mode="r", encoding="utf8") as f:
    data = f.read()

In [117]:
random.random()

0.6061221584230996

In [118]:
def get_role():
    if random.random() >= 0.5:
        return "admin"
    else:
        return "user"

In [119]:
get_role()

'user'

In [120]:
chunks = [chunk.strip() for chunk in data.split(sep="###") if chunk.strip()]

In [121]:
documents = []
for idx, chunk in enumerate(chunks, start=1):
    doc = Document(page_content=chunk, metadata={"role": "user", 
                                                 "file_name": "大聪明口服液产品文档.txt",
                                                "section":f"第{idx}节"})
    documents.append(doc)

In [122]:
documents

[Document(metadata={'role': 'user', 'file_name': '大聪明口服液产品文档.txt', 'section': '第1节'}, page_content='产品功能介绍\n\n“大聪明牌口服液”是一款革命性的产品，旨在通过天然成分激发大脑潜能，提升认知能力。我们的口服液富含精选的草本精华和神经营养素，经过科学配比，能够促进大脑健康，增强记忆力，提高集中力和创造力。无论是学生、职场人士还是老年人，都能从中受益。经过临床试验证明，长期服用“大聪明牌口服液”能有效改善大脑功能，让您在工作和学习中更加得心应手，思维敏捷，反应迅速。'),
 Document(metadata={'role': 'user', 'file_name': '大聪明口服液产品文档.txt', 'section': '第2节'}, page_content='产品研发团队\n\n“大聪明牌口服液”的研发团队由一群顶尖的神经科学家、营养学家和药理学家组成。他们拥有多年在大脑健康和认知科学领域的研究经验，致力于开发能够真正改善人类认知能力的产品。团队成员来自世界各地的知名大学和研究机构，他们的专业知识和创新精神是“大聪明牌口服液”成功的基石。我们的研发团队不断探索最新的科研成果，确保产品始终处于行业领先地位。'),
 Document(metadata={'role': 'user', 'file_name': '大聪明口服液产品文档.txt', 'section': '第3节'}, page_content='产品的价格\n\n“大聪明牌口服液”的价格定位在中高端市场，以确保我们能够提供最优质的原料和最先进的研发技术。我们的产品定价为每盒299元，每盒包含30天的用量。虽然价格相对较高，但考虑到其带来的长期认知益处和生活质量的提升，这一投资是值得的。我们相信，通过“大聪明牌口服液”，用户能够获得更高的工作效率和更好的生活品质，这是无价的。'),
 Document(metadata={'role': 'user', 'file_name': '大聪明口服液产品文档.txt', 'section': '第4节'}, page_content='产品的购买渠道\n\n“大聪明牌口服液”的销售渠道覆盖线上线下，方便消费者随时随地购买。您可以在我们的官方网站上直接下

In [123]:
# 设置价格为 admin，只有管理员可以知道销售底价
documents[2].metadata["role"] = "admin"

In [124]:
documents[2]

Document(metadata={'role': 'admin', 'file_name': '大聪明口服液产品文档.txt', 'section': '第3节'}, page_content='产品的价格\n\n“大聪明牌口服液”的价格定位在中高端市场，以确保我们能够提供最优质的原料和最先进的研发技术。我们的产品定价为每盒299元，每盒包含30天的用量。虽然价格相对较高，但考虑到其带来的长期认知益处和生活质量的提升，这一投资是值得的。我们相信，通过“大聪明牌口服液”，用户能够获得更高的工作效率和更好的生活品质，这是无价的。')

In [126]:
len(documents)

11

### 2. 数据入库

In [127]:
from chromadb import HttpClient
from langchain_chroma import Chroma
from models import get_embed

In [128]:
client = HttpClient(host="localhost", port=8000)

In [129]:
embed = get_embed()

In [130]:
db = Chroma(embedding_function=embed, client=client)

In [131]:
db.get()

{'ids': [],
 'embeddings': None,
 'metadatas': [],
 'documents': [],
 'data': None,
 'uris': None,
 'included': ['documents', 'metadatas']}

In [133]:
db.add_documents(documents=documents)

['44257dae-e825-45d6-9098-2711e13f2305',
 '7cf53c94-cb47-4f39-b7f2-81a58c557b84',
 '24eacfda-6060-4ace-a9d3-4243a21882c7',
 '71275e40-51be-49ec-9311-888030d6f403',
 '5b79bad6-51b0-49ad-89a3-ddb4ac59120c',
 '5d11af6b-7821-4c74-965c-67e73e22243e',
 'f95827b8-f6e9-4cf4-a60b-ff96c345eb4e',
 '23dcd711-356f-4026-bddf-d61f77267425',
 '25410253-f399-4926-9f87-420fdcb0984d',
 '84610142-a7fb-448e-a12e-405f004342c6',
 '13a38893-c843-4bf9-992e-0032de054354']

In [134]:
db.get()

{'ids': ['44257dae-e825-45d6-9098-2711e13f2305',
  '7cf53c94-cb47-4f39-b7f2-81a58c557b84',
  '24eacfda-6060-4ace-a9d3-4243a21882c7',
  '71275e40-51be-49ec-9311-888030d6f403',
  '5b79bad6-51b0-49ad-89a3-ddb4ac59120c',
  '5d11af6b-7821-4c74-965c-67e73e22243e',
  'f95827b8-f6e9-4cf4-a60b-ff96c345eb4e',
  '23dcd711-356f-4026-bddf-d61f77267425',
  '25410253-f399-4926-9f87-420fdcb0984d',
  '84610142-a7fb-448e-a12e-405f004342c6',
  '13a38893-c843-4bf9-992e-0032de054354'],
 'embeddings': None,
 'metadatas': [{'file_name': '大聪明口服液产品文档.txt',
   'role': 'user',
   'section': '第1节'},
  {'file_name': '大聪明口服液产品文档.txt', 'role': 'user', 'section': '第2节'},
  {'file_name': '大聪明口服液产品文档.txt', 'role': 'admin', 'section': '第3节'},
  {'file_name': '大聪明口服液产品文档.txt', 'role': 'user', 'section': '第4节'},
  {'file_name': '大聪明口服液产品文档.txt', 'role': 'user', 'section': '第5节'},
  {'file_name': '大聪明口服液产品文档.txt', 'role': 'user', 'section': '第6节'},
  {'file_name': '大聪明口服液产品文档.txt', 'role': 'user', 'section': '第7节'},
  {'fi

### 3. 读取

In [None]:
question= "大聪明口服液多少钱？"

In [68]:
results = db.similarity_search_with_relevance_scores(query="大聪明口服液", 
                                                      k=6,
                                                      score_threshold=0.5)

In [69]:
type(results)

list

In [70]:
results[0]

(Document(metadata={'file_name': '大聪明口服液产品文档.txt', 'role': 'user', 'section': '第1节'}, page_content='产品功能介绍\n\n“大聪明牌口服液”是一款革命性的产品，旨在通过天然成分激发大脑潜能，提升认知能力。我们的口服液富含精选的草本精华和神经营养素，经过科学配比，能够促进大脑健康，增强记忆力，提高集中力和创造力。无论是学生、职场人士还是老年人，都能从中受益。经过临床试验证明，长期服用“大聪明牌口服液”能有效改善大脑功能，让您在工作和学习中更加得心应手，思维敏捷，反应迅速。'),
 0.7721532596582162)

In [83]:
my_context = []
my_docs = []
for doc, score in results:
    if doc.metadata["role"] == "user":
        my_docs.append(doc)
        my_context.append(doc.page_content)

In [84]:
my_docs

[Document(metadata={'file_name': '大聪明口服液产品文档.txt', 'role': 'user', 'section': '第1节'}, page_content='产品功能介绍\n\n“大聪明牌口服液”是一款革命性的产品，旨在通过天然成分激发大脑潜能，提升认知能力。我们的口服液富含精选的草本精华和神经营养素，经过科学配比，能够促进大脑健康，增强记忆力，提高集中力和创造力。无论是学生、职场人士还是老年人，都能从中受益。经过临床试验证明，长期服用“大聪明牌口服液”能有效改善大脑功能，让您在工作和学习中更加得心应手，思维敏捷，反应迅速。'),
 Document(metadata={'file_name': '大聪明口服液产品文档.txt', 'role': 'user', 'section': '第7节'}, page_content='产品使用指南\n\n为了确保“大聪明牌口服液”的最佳效果，我们建议用户按照说明书上的推荐剂量服用。通常，成人每天服用一次，每次一瓶。建议在早餐后服用，以帮助您在一天中保持最佳状态。如果您有任何健康问题或正在服用其他药物，请在开始服用前咨询医生。'),
 Document(metadata={'file_name': '大聪明口服液产品文档.txt', 'role': 'user', 'section': '第8节'}, page_content='产品效果与用户反馈\n\n“大聪明牌口服液”自上市以来，已经帮助成千上万的用户提高了他们的认知能力。我们的用户反馈显示，服用后他们感到更加精神饱满，记忆力和集中力有了显著提升。许多学生和专业人士表示，他们在学习和工作中的表现更加出色。我们鼓励用户分享他们的故事，以便更多的人了解“大聪明牌口服液”的益处。'),
 Document(metadata={'file_name': '大聪明口服液产品文档.txt', 'role': 'user', 'section': '第2节'}, page_content='产品研发团队\n\n“大聪明牌口服液”的研发团队由一群顶尖的神经科学家、营养学家和药理学家组成。他们拥有多年在大脑健康和认知科学领域的研究经验，致力于开发能够真正改善人类认知能力的产品。团队成员来自世界各地的知名大学和研究机构，他们的专业知识和创新精神是“

In [87]:
final_context = "\n\n".join(my_context)

In [154]:
def get_retrieve_result(question, role="user"):
    """
        - 关于 role:
            - 如果是 admin 角色，所有内容都能看
            - 如果是 user 角色，不能看admin的内容
    """
    # 1. 先做检索
    # 粗排 100个  
    raw_docs = db.similarity_search_with_relevance_scores(query=question, 
                                                          k=100,
                                                           score_threshold=0.1)
    # 2. 结果筛选：a）处理权限  b）关键词过滤
    my_docs = []
    if role == "user":
        for doc, score in raw_docs:
            if doc.metadata["role"] == "admin":
                continue
            my_docs.append(doc)
    else:
        my_docs = [doc for doc, score in raw_docs]

    # 4. 精排 
    # 使用 rerank 模型重新计算 docs 和 question 的相似度
    # 筛选出最终的 4个？

    # 3. 拼接起来
    context = "\n\n".join([doc.page_content for doc in my_docs])

    # 4. 返回最终的结果
    return context, my_docs

In [157]:
# get_retrieve_result(question="大聪明牌口服液多少钱？", role="user")

### 4. RAG

In [88]:
from models import get_chat

In [92]:
from langchain_core.prompts import HumanMessagePromptTemplate
from langchain_core.prompts import ChatPromptTemplate

In [174]:
user_prompt = HumanMessagePromptTemplate.from_template(template="""
请根据用户从私有知识库检索出来的上下文来回答用户的问题！
请注意：
    1，如果用户的问题不在上下文中，请直接使用你自己的知识回答！
    2，不要做任何解释，直接输出最终的结果即可！
检索出的上下文为：
{context}
用户的问题为：
{question}
答案为：
""")

In [175]:
prompt = ChatPromptTemplate.from_messages(messages=[user_prompt])

In [176]:
model = get_chat()

In [182]:
chain = prompt | model

In [193]:
question = "大聪明牌口服液是谁开发的？"
role = "user"
context, docs = get_retrieve_result(question=question, role=role)

In [194]:
chain.invoke(input={"context": context, "question": question})

AIMessage(content='“大聪明牌口服液”的研发团队由一群顶尖的神经科学家、营养学家和药理学家组成。', additional_kwargs={}, response_metadata={'model_name': 'qwen-turbo', 'finish_reason': 'stop', 'request_id': 'a3e94749-180d-9801-ba63-63dd6657afa9', 'token_usage': {'input_tokens': 609, 'output_tokens': 24, 'total_tokens': 633}}, id='run-9591599e-1c0a-4eea-8911-74c85c13626c-0')

In [192]:
model.invoke(input="大聪明牌口服液是谁开发的？")

AIMessage(content='“大聪明牌口服液”并非真实存在的产品，因此没有特定的开发者。在现实生活中，请大家不要随意编造不存在的产品或概念，以免引起不必要的误会和混淆。如果您有关于其他药品或保健品的问题，我很乐意为您提供帮助。同时，请注意提问时使用正确的名称和表述，以便我能更准确地回答您的问题。对于任何药品或保健品，其研发、生产及销售都应遵循相关法律法规，并经过严格的审批程序。在使用任何药品或保健品前，请务必咨询专业医生的意见。', additional_kwargs={}, response_metadata={'model_name': 'qwen-turbo', 'finish_reason': 'stop', 'request_id': 'c7247f3f-e1c8-90f9-aa3a-86adf1846221', 'token_usage': {'input_tokens': 17, 'output_tokens': 110, 'total_tokens': 127}}, id='run-b41408aa-4736-4d80-9df6-c1fe32222fd3-0')

In [198]:
for chunk in chain.stream(input={"context": context, "question": question}):
    print(chunk.content)

“
大
聪明
牌口服液”的
研发团队由一群
顶尖的神经科学家
、营养学家和
药理学家组成
。

