In [19]:
from utils import get_ernie_models
from utils import get_qwen_models

In [20]:
llm, chat, embed = get_qwen_models()

In [21]:
file_name = "大语言模型.txt"

### 1. load 加载文档

In [22]:
from langchain.document_loaders import TextLoader

In [23]:
text_loader = TextLoader(file_path=file_name, encoding="utf8")

In [24]:
docs = text_loader.load()

In [26]:
docs

[Document(metadata={'source': '大语言模型.txt'}, page_content='大语言模型作为人工智能领域的重要技术之一，具有广泛的应用场景。以下是十个方面的应用场景及其详细描述：\n\n1. 机器翻译\n描述：大语言模型通过训练可以学习不同语言之间的语法和语义规则，实现自动翻译。这种技术已广泛应用于跨国企业沟通、国际合作等领域，如谷歌翻译等产品。尽管在处理长句子和歧义消解等方面仍面临挑战，但随着技术的发展，其准确性和流畅度不断提升。\n\n2. 智能客服与聊天机器人\n描述：大语言模型被用于开发智能客服助手和聊天机器人，能够理解用户的问题并提供相应的解决方案或转达给相关部门。这不仅提高了客服效率，还提升了用户体验。例如，通过自然语言处理技术，智能客服助手可以分析用户情感状态，及时发现问题并优化服务。\n\n3. 文本生成与创作\n描述：大语言模型能够生成符合语法规则的文章、新闻、小说等文本内容。通过学习大量文本数据，模型可以生成具有创造性和相关性的内容，广泛应用于新闻报道、广告营销等领域。此外，它还能根据给定主题或关键词生成文章，为创作者提供灵感和辅助。\n\n4. 情感分析\n描述：大语言模型通过分析文本中的情感倾向和情感表达，帮助企业了解客户反馈和情感状态，从而制定更精准的营销策略或优化客户服务。这种技术还可用于社交媒体监控，实时分析公众对某一主题或事件的情绪和反应。\n\n5. 自动问答系统\n描述：通过学习大量问题和答案，大语言模型能够自动生成符合语法规则的问题和答案。这种自动问答系统可应用于智能助手、搜索引擎等领域，为用户提供高效、准确的信息服务。结合知识图谱技术，问答系统的知识检索和推理能力得到进一步增强。\n\n6. 自动摘要与总结\n描述：大语言模型能够自动对文本进行摘要和总结，提取关键信息，帮助用户快速了解文本主旨和重点。这种技术在学术论文、新闻报道等领域具有重要应用价值，提高了信息获取的效率。\n\n7. 代码生成与自动化编程\n描述：大语言模型通过学习大量代码数据，可以理解编程语言的语法和逻辑规则，实现代码的自动生成。这有助于非技术用户生成基本代码，同时为专业编程人员提供辅助，加快开发进程。然而，在复杂任务中仍需人工审核和调整。\n\n8. 信息检索与推荐系统\n描述：大语言模型可应用于改善搜索引擎结果和内

### 2. split 文本切割

In [27]:
from langchain_text_splitters import RecursiveCharacterTextSplitter

In [28]:
spliter = RecursiveCharacterTextSplitter(chunk_size=256, chunk_overlap=128)

In [29]:
docs = spliter.split_documents(documents=docs)

In [31]:
len(docs)

10

### 3. embed 和 store 向量化和入库

In [32]:
from langchain_chroma import Chroma
from chromadb import Client
from chromadb import Settings

In [33]:
settings = Settings(chroma_server_host="localhost", chroma_server_http_port=8002)

In [34]:
client = Client(settings=settings)

In [35]:
store = Chroma(client=client, embedding_function=embed)

In [36]:
for idx in range(2):
    store.add_documents(documents=docs[idx * 6: (idx + 1) * 6])

In [38]:
retriever = store.as_retriever()

In [39]:
retriever.invoke(input="大模型在生物医学研究中有什么应用？")

[Document(metadata={'source': '大语言模型.txt'}, page_content='9. 生物医学研究\n描述：在生物医学领域，大语言模型可用于分析基因组数据、蛋白质相互作用等，加速药物发现和新疗法的研究。例如，通过预测基因变异的功能影响，研究者能够更全面地分析人类基因组的潜在风险和治疗靶点。\n\n10. 语音识别与生成\n描述：大语言模型在语音识别和语音生成方面也展现出巨大潜力。通过将语音转录为文本或将文本转化为语音，该技术使得人们与计算机的交互更加自然和便捷。这对于有听力或视觉障碍的人群尤为重要，有助于他们更好地理解和享受音视频内容。'),
 Document(metadata={'source': '大语言模型.txt'}, page_content='8. 信息检索与推荐系统\n描述：大语言模型可应用于改善搜索引擎结果和内容推荐算法。通过分析用户查询意图和上下文信息，模型能够提供更准确、个性化的搜索结果和内容推荐，提升用户体验和满意度。\n\n9. 生物医学研究\n描述：在生物医学领域，大语言模型可用于分析基因组数据、蛋白质相互作用等，加速药物发现和新疗法的研究。例如，通过预测基因变异的功能影响，研究者能够更全面地分析人类基因组的潜在风险和治疗靶点。'),
 Document(metadata={'source': '大语言模型.txt'}, page_content='大语言模型作为人工智能领域的重要技术之一，具有广泛的应用场景。以下是十个方面的应用场景及其详细描述：\n\n1. 机器翻译\n描述：大语言模型通过训练可以学习不同语言之间的语法和语义规则，实现自动翻译。这种技术已广泛应用于跨国企业沟通、国际合作等领域，如谷歌翻译等产品。尽管在处理长句子和歧义消解等方面仍面临挑战，但随着技术的发展，其准确性和流畅度不断提升。'),
 Document(metadata={'source': '大语言模型.txt'}, page_content='10. 语音识别与生成\n描述：大语言模型在语音识别和语音生成方面也展现出巨大潜力。通过将语音转录为文本或将文本转化为语音，该技术使得人们与计算机的交互更加自然和便捷。这对于有听力或视觉障碍的人群尤为重要，有助于他们更好地理解和享受音视频内容。\n\n综上所述，大语言模型在多个领域都具

### 4. 构建RAG链

In [45]:
from langchain.chains import create_retrieval_chain
from langchain.chains.combine_documents import create_stuff_documents_chain

In [46]:
from langchain_core.prompts import ChatPromptTemplate

prompt = ChatPromptTemplate.from_messages([
  ("system", """Answer any user questions based solely on the context below:
    <context>
    {context}
    </context>"""),
  ("placeholder", "{chat_history}"),
  ("human", "{input}"),
])

In [48]:
combine_docs_chain = create_stuff_documents_chain(llm=chat, prompt=prompt)

In [49]:
chain = create_retrieval_chain(retriever=retriever, combine_docs_chain=combine_docs_chain)

In [54]:
chain.invoke(input={"input": "今天太原的温度是多少？"})

{'input': '今天太原的温度是多少？',
 'context': [Document(metadata={'source': '大语言模型.txt'}, page_content='2. 智能客服与聊天机器人\n描述：大语言模型被用于开发智能客服助手和聊天机器人，能够理解用户的问题并提供相应的解决方案或转达给相关部门。这不仅提高了客服效率，还提升了用户体验。例如，通过自然语言处理技术，智能客服助手可以分析用户情感状态，及时发现问题并优化服务。'),
  Document(metadata={'source': '大语言模型.txt'}, page_content='4. 情感分析\n描述：大语言模型通过分析文本中的情感倾向和情感表达，帮助企业了解客户反馈和情感状态，从而制定更精准的营销策略或优化客户服务。这种技术还可用于社交媒体监控，实时分析公众对某一主题或事件的情绪和反应。\n\n5. 自动问答系统\n描述：通过学习大量问题和答案，大语言模型能够自动生成符合语法规则的问题和答案。这种自动问答系统可应用于智能助手、搜索引擎等领域，为用户提供高效、准确的信息服务。结合知识图谱技术，问答系统的知识检索和推理能力得到进一步增强。'),
  Document(metadata={'source': '大语言模型.txt'}, page_content='3. 文本生成与创作\n描述：大语言模型能够生成符合语法规则的文章、新闻、小说等文本内容。通过学习大量文本数据，模型可以生成具有创造性和相关性的内容，广泛应用于新闻报道、广告营销等领域。此外，它还能根据给定主题或关键词生成文章，为创作者提供灵感和辅助。\n\n4. 情感分析\n描述：大语言模型通过分析文本中的情感倾向和情感表达，帮助企业了解客户反馈和情感状态，从而制定更精准的营销策略或优化客户服务。这种技术还可用于社交媒体监控，实时分析公众对某一主题或事件的情绪和反应。'),
  Document(metadata={'source': '大语言模型.txt'}, page_content='5. 自动问答系统\n描述：通过学习大量问题和答案，大语言模型能够自动生成符合语法规则的问题和答案。这种自动问答系统可应用于智能助手、搜索引擎等领域，为用户提供高效、准确的信息服务。结合知识图谱技术，问答系统的知识检索和推理能力

### 5. 关于 retriever 的一些其他的尝试

In [73]:
from langchain_core.retrievers import BaseRetriever
from langchain.retrievers import MultiQueryRetriever
from langchain.retrievers import EnsembleRetriever

In [70]:
"""
Given a query, use an LLM to write a set of queries.
Retrieve docs for each query. Return the unique union of all retrieved docs.
"""

'\nGiven a query, use an LLM to write a set of queries.\nRetrieve docs for each query. Return the unique union of all retrieved docs.\n'

In [71]:
# muti_query_retriever = MultiQueryRetriever(retriever=retriever, llm_chain=llm)

In [72]:
muti_query_retriever.invoke("中国的首都在哪里？")

ValueError: Invalid input type <class 'dict'>. Must be a PromptValue, str, or list of BaseMessages.

### 插曲：如何自定义一个retriever

In [59]:
# 引入
from langchain_core.retrievers import BaseRetriever
from langchain_core.documents import Document
# 列表类
from typing import List

class SimpleRetriever(BaseRetriever):
    # 类变量
    docs: List[Document]
    k: int = 5

    def _get_relevant_documents(self, query: str) -> List[Document]:
        """Return the first k documents from the list of documents"""
        return self.docs[:self.k]

    async def _aget_relevant_documents(self, query: str) -> List[Document]:
        """(Optional) async native implementation."""
        return self.docs[:self.k]