In [1]:
from langchain.memory import ConversationBufferMemory

memory = ConversationBufferMemory(
    memory_key="chat_history",  # 与 prompt 的输入变量保持一致。
    return_messages=True  # 将以消息列表的形式返回聊天记录，而不是单个字符串
)


In [2]:
from langchain.vectorstores import Chroma
from langchain_community.embeddings import QianfanEmbeddingsEndpoint # 调用 百度文心一言 的 Embeddings 模型
from dotenv import load_dotenv, find_dotenv
import os
# _ = load_dotenv(find_dotenv()) # read local .env file
_ = load_dotenv('../QA_Project/.env')

# 获取环境变量 
wenxin_api_key = os.environ["wenxin_api_key"]
wenxin_secret_key = os.environ["wenxin_secret_key"]

# 定义 Embeddings
qianfan_embedding = QianfanEmbeddingsEndpoint(qianfan_ak=wenxin_api_key,
                                  qianfan_sk=wenxin_secret_key) 

# 向量数据库持久化路径
persist_directory = '../QA_Project/data_base/vector_db/chroma'

# 加载数据库
vectordb = Chroma(
    persist_directory=persist_directory,  # 允许我们将persist_directory目录保存到磁盘上
    embedding_function=qianfan_embedding
)

from langchain_community.chat_models.baidu_qianfan_endpoint import QianfanChatEndpoint

llm = QianfanChatEndpoint(
    qianfan_ak=wenxin_api_key,
    qianfan_sk=wenxin_secret_key,model='ERNIE-Bot-4'
)

In [3]:
from langchain.chains import ConversationalRetrievalChain

retriever=vectordb.as_retriever()

qa = ConversationalRetrievalChain.from_llm(
    llm,
    retriever=retriever,
    memory=memory
)
question = "我可以学习到关于强化学习的知识吗？"
result = qa({"question": question})
print(result['answer'])


  warn_deprecated(
[INFO] [03-08 11:41:45] openapi_requestor.py:316 [t:140454624081728]: requesting llm api endpoint: /embeddings/embedding-v1
[INFO] [03-08 11:41:45] oauth.py:207 [t:140454624081728]: trying to refresh access_token for ak `NSwW3Z***`
[INFO] [03-08 11:41:45] oauth.py:220 [t:140454624081728]: sucessfully refresh access_token
[INFO] [03-08 11:41:45] openapi_requestor.py:316 [t:140454624081728]: requesting llm api endpoint: /chat/completions_pro


是的，你可以学习到关于强化学习的知识。强化学习是机器学习的一个重要分支，它涉及智能体（Agent）在与环境交互过程中，通过试错学习来制定最佳决策策略。强化学习的核心概念包括智能体、环境、动作、策略和奖励等。在强化学习过程中，智能体根据当前环境状态选择一个动作执行，环境会因此发生变化，并给出新的状态和奖励反馈给智能体，智能体再根据这些反馈调整策略，以最大化累积奖励。强化学习应用广泛，如自动驾驶、游戏AI、机器人控制等领域。如果你想学习强化学习，可以阅读相关书籍、观看在线课程或参与实际项目实践。


In [4]:
question = "为什么这门课需要教这方面的知识？"
result = qa({"question": question})
print(result['answer'])

[INFO] [03-08 11:45:47] openapi_requestor.py:316 [t:140454624081728]: requesting llm api endpoint: /chat/completions_pro
[INFO] [03-08 11:45:49] openapi_requestor.py:316 [t:140454624081728]: requesting llm api endpoint: /embeddings/embedding-v1
[INFO] [03-08 11:45:49] openapi_requestor.py:316 [t:140454624081728]: requesting llm api endpoint: /chat/completions_pro


教授关于强化学习的知识非常重要，原因主要有以下几点：

1. 解决现实问题：强化学习是一种强大的机器学习技术，能够解决许多现实问题。通过教授强化学习，可以使学生掌握这种技术，并将其应用于实际问题中，如自动驾驶、机器人控制、游戏AI等。
2. 培养决策能力：强化学习的核心是智能体通过与环境交互来学习如何做出最佳决策。这种决策能力在许多领域都非常重要，如金融、医疗、管理等。通过教授强化学习，可以培养学生的决策能力，使其在未来的职业生涯中更好地应对复杂问题。
3. 推动人工智能发展：强化学习是人工智能领域的重要分支，对于推动人工智能的发展具有重要意义。通过教授强化学习，可以培养更多的人工智能专家，推动该领域的技术进步和应用拓展。
4. 培养创新思维：强化学习涉及大量的试错和探索过程，需要学生具备创新思维和解决问题的能力。通过教授强化学习，可以培养学生的创新思维，使其在未来的学习和工作中更具竞争力。

总之，教授关于强化学习的知识对于培养学生的技能、推动人工智能发展以及解决实际问题都具有重要意义。
