In [1]:
# 导入模型
from langchain_community.llms import Ollama
llm = Ollama(model="qwen2.5:0.5b")

In [14]:
# 普通提问
llm.invoke("你知道矿小助吗")

'对不起，作为阿里云推出的量子计算服务Qwen，我并没有直接支持或介绍任何特定的服务。如果您在学习、工作或日常生活中需要帮助或者咨询，请随时告诉我，我会尽我所能提供有益的信息和解答问题。祝您一切顺利！'

In [15]:
# 使用 prompt | llm 链
from langchain_core.prompts import ChatPromptTemplate
prompt = ChatPromptTemplate.from_messages([
    ("system", "你是一个AI助手"),
    ("user", "{input}")
])
chain = prompt | llm
temp = chain.invoke({"input": "你是谁"})
print(temp)

我是阿里云自研的超大规模语言模型“通义千问”，我叫通义五号。如果您有任何问题或需要帮助，请随时告诉我，我会尽力提供支持和解答。有什么想了解的话题吗？


In [16]:
# 使用 prompt | llm | output_parser 链
from langchain_core.output_parsers import StrOutputParser

output_parser = StrOutputParser()
chain = prompt | llm | output_parser
chain.invoke({"input": "你好"})

'你好！有什么我可以帮助你的吗？'

In [17]:
# 设置代码中的USER_AGENT环境
import os
os.environ["USER_AGENT"] = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"

In [18]:
# 通过bs4引入外部数据
from langchain_community.document_loaders import WebBaseLoader
loader = WebBaseLoader("https://www.cumt.edu.cn/info/1128/67688.htm")

docs = loader.load()

In [19]:
# 引入embedding model
from langchain_community.embeddings import OllamaEmbeddings

embeddings = OllamaEmbeddings(model="qwen2.5:0.5b")

In [20]:
from langchain_community.vectorstores import FAISS
from langchain_text_splitters import RecursiveCharacterTextSplitter


text_splitter = RecursiveCharacterTextSplitter() # 递归字符分割器
documents = text_splitter.split_documents(docs) # 分割文档
print(documents)
vector = FAISS.from_documents(documents, embeddings) # EMBED向量化


[Document(metadata={'source': 'https://www.cumt.edu.cn/info/1128/67688.htm', 'title': '关于2024年中秋节、国庆节放假安排的通知-中国矿业大学', 'description': '各学院、部、处、室，各有关单位：根据《国务院办公厅关于2024年部分节假日安排的通知》（国办发明电〔2023〕7号），结合学校实际，现将我校2024年中秋节、国庆节放假安排通知如下：一、时间安排1.中秋节：9月15日（...', 'language': 'en'}, page_content='关于2024年中秋节、国庆节放假安排的通知-中国矿业大学\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n在校学生\n\n\n\n在校学生\n教职员工\n毕业校友\n未来学生\n\n\n\n\n\nEN\n\n\n\n\n \n\n\n\n\n\n\n\n\n \n\n 网站首页\n\n 学校概况\n\n\n学校简介\n\n矿大章程\n\n历史沿革\n\n历任领导\n\n现任领导\n\n基本数据\n\n知名学者\n\n校园文化\n\n虚拟校园\n\n联系我们\n\n\n\n\n 机构设置\n\n\n党群组织\n\n行政管理\n\n学院设置\n\n科研机构\n\n直附属单位\n\n产业单位\n\n其他\n\n\n\n\n 教育教学\n\n\n教务部\n\n研究生院\n\n国际学院\n\n继续教育学院\n\n教师教学发展中心\n\n在线学习（MOOC）平台\n\n图书馆\n\n公共教学服务中心\n\n\n\n\n 科学研究\n\n\n科学技术研究院\n\n人文社会科学处\n\n科研平台\n\n科研项目\n\n科研团队\n\n科研成果\n\n学术期刊\n\n现代分析与计算中心\n\n\n\n\n\n\n\n\n\n \n \n\n 学科建设\n\n\n学科建设处\n\n“双一流”建设\n\n重点学科\n\n学位授权点\n\n\n\n\n 合作交流\n\n\n国际合作交流处\n\n国际矿业联盟\n\n对外合作与发展处\n\n理事会\n\n校友会\n\n教育发展基金会\n\n矿大培训网\n\n\n\n\n 人才招聘\n\n\n人力资源部\n\

In [21]:
# 创建文档检索链

from langchain.chains.combine_documents import create_stuff_documents_chain

prompt = ChatPromptTemplate.from_template("""仅根据提供的上下文回答以下问题:

<context>
{context}
</context>

Question: {input}""")

document_chain = create_stuff_documents_chain(llm, prompt)

In [29]:
# 从文档中检索
document_chain.invoke({
    "input": "矿大今年国庆放多少天假",
    "context": documents
})

'根据通知中的时间安排，矿大的放假日期为9月15日至9月17日。因此，矿大今年的国庆节放假共3天。\n\n具体来说：\n\n- 9月15日（星期日）放假调休。\n- 9月14日（星期六）上班。\n- 9月16日（星期一）恢复上课时间。\n\n这样，矿大的国庆假期为8天。'

In [32]:
# 使用检索器检索

from langchain.chains import create_retrieval_chain

retriever = vector.as_retriever()
retrieval_chain = create_retrieval_chain(retriever, document_chain)
response = retrieval_chain.invoke({"input": "矿大今年国庆放多少天假?"})
print(response["answer"])

根据通知，学校今年中秋节放假3天，国庆节放假7天。所以今年的国庆节共放假9天。
