In [15]:
from langchain_community.document_loaders import TextLoader
from langchain.text_splitter import CharacterTextSplitter
from langchain_community.embeddings import DashScopeEmbeddings
from langchain_community.vectorstores import Chroma
from langchain.schema import Document
import dotenv
import os


dotenv.load_dotenv()

os.environ["OPENAI_API_KEY"] = os.getenv("DASHSCOPE_API_KEY")
os.environ["OPENAI_BASE_URL"] = os.getenv("DASHSCOPE_BASE_URL")

#步骤1：创建一个TextLoader的实例，并将指定的文档加载
loader = TextLoader(
    file_path="/home/qixia/langchain/chapter07/a.txt",
    encoding="utf-8"
)

docs = loader.load()

#步骤2：创建文本拆分器，并拆分文档
text_splitter = CharacterTextSplitter(
    chunk_size = 1000,
    chunk_overlap = 100
)

splitter_docs = text_splitter.split_documents(docs)

#创建嵌入模型
embedding_model = DashScopeEmbeddings(model="text-embedding-v4")

#将文档及嵌入模型传入到Chroma相关的结构中，进行数据的存储
db = Chroma.from_documents(
    documents=splitter_docs,
    embedding=embedding_model,
    persist_directory="/home/qixia/langchain/chapter07/load"
)

In [16]:
query = "大模型LLM的架构介绍？"

docs = db.similarity_search(query)

print(docs[0].page_content)

大模型LLM的架构介绍？

大模型LLM（Large Language Models）通常采用基于Transformer的架构。Transformer模型由多个编码器或解码器层组成，每个层包含多头自注意力机制和前馈神经网络。这些层可以并行处理输入序列中的所有位置，捕获长距离依赖关系。大模型通常具有数十亿甚至数千亿个参数，可以处理大量的文本数据，并在各种NLP任务中表现出色。

前馈神经网络（Feedforward Neural Network）是一种最基础的神经网络类型，它的信息流动是单向的，从输入层经过一个或多个隐藏层，最终到达输出层。在前馈神经网络中，神经元之间的连接不会形成闭环，这意味着信号在前向传播过程中不会回溯。

前馈神经网络的基本组成单元是神经元，每个神经元都会对输入信号进行加权求和，然后通过一个激活函数产生输出。激活函数通常是非线性的，它决定了神经元的输出是否应该被激活，从而允许网络学习复杂和非线性的函数。

前馈神经网络在模式识别、函数逼近、分类、回归等多个领域都有应用。例如，在图像识别任务中，网络的输入层节点可能对应于图像的像素值，而输出层节点可能代表不同类别的概率分布。

prefix LM 和 causal LM、encoder-decoder 区别及各自有什么优缺点？

prefix LM：通过在输入序列前添加可学习的任务相关前缀，引导模型生成适应特定任务的输出。优点是可以减少对预训练模型参数的修改，降低过拟合风险；缺点是可能受到前缀表示长度的限制，无法充分捕捉任务相关的信息。

causal LM：根据之前生成的 token 预测下一个 token，可以生成连贯的文本。优点是可以生成灵活的文本，适应各种生成任务；缺点是无法访问未来的信息，可能生成不一致或有误的内容。

encoder-decoder：由编码器和解码器组成，编码器将输入序列编码为固定长度的向量，解码器根据编码器的输出生成输出序列。优点是可以处理输入和输出序列不同长度的任务，如机器翻译；缺点是模型结构较为复杂，训练和推理计算量较大。

如何训练自己的大模型？

- 选择合适的预训练目标和任务：确定模型将学习哪些通用的语言知识，以及针对哪些特定任务进行优化。

- 收集和准备数据：收集大量、多样化的数据，包括通用数据和特定领域的数据，进行清洗和预处理。


In [17]:
from langchain_community.document_loaders import CSVLoader
from langchain.text_splitter import CharacterTextSplitter
from langchain_community.embeddings import DashScopeEmbeddings
from langchain_community.vectorstores import Chroma
from langchain.schema import Document
import dotenv
import os


dotenv.load_dotenv()

os.environ["OPENAI_API_KEY"] = os.getenv("DASHSCOPE_API_KEY")
os.environ["OPENAI_BASE_URL"] = os.getenv("DASHSCOPE_BASE_URL")

#步骤1：创建一个TextLoader的实例，并将指定的文档加载
loader = CSVLoader(
    file_path="/home/qixia/langchain/chapter07/a.csv",
    encoding="utf-8"
)
pages = loader.load_and_split()

#步骤2：创建文本拆分器，并拆分文档
text_splitter = CharacterTextSplitter.from_tiktoken_encoder(chunk_size = 500)
splitter_docs = text_splitter.split_documents(pages)

#创建嵌入模型
embedding_model = DashScopeEmbeddings(model="text-embedding-v4")

#将文档及嵌入模型传入到Chroma相关的结构中，进行数据的存储
db = Chroma.from_documents(
    documents=splitter_docs,
    embedding=embedding_model,
    persist_directory="/home/qixia/langchain/chapter07/load"
)

In [18]:
query = "a=3,b为多少？"
docs = db.similarity_search(query)
print(docs[0].page_content)

a: 3
b: 4


In [19]:
from langchain_community.vectorstores import Chroma
from langchain.schema import Document
from langchain_community.embeddings import DashScopeEmbeddings

import dotenv
import os


dotenv.load_dotenv()

os.environ["OPENAI_API_KEY"] = os.getenv("DASHSCOPE_API_KEY")
os.environ["OPENAI_BASE_URL"] = os.getenv("DASHSCOPE_BASE_URL")

raw_documents = [
    Document(
        page_content=(
            "葡萄是一种常见的水果，属于葡萄科葡萄属植物。它的果实呈圆形或椭圆形，"
            "颜色有绿色、紫色、红色等多种。葡萄富含维生素C和抗氧化物质，"
            "可以直接食用或酿造成葡萄酒。"
        ),
        metadata={"source": "水果", "type": "植物"}
    ),
    Document(
        page_content=(
            "白菜是十字花科蔬菜，原产于中国北方。它的叶片层层包裹形成紧密的球状，"
            "口感清脆微甜。白菜富含膳食纤维和维生素K，常用于制作泡菜、炒菜或煮汤。"
        ),
        metadata={"source": "蔬菜", "type": "植物"}
    ),
    Document(
        page_content=(
            "狗是人类最早驯化的动物之一，属于犬科。它们具有高度社会性，能理解人类情绪，"
            "常被用作宠物、导盲犬或警犬。不同品种的狗在体型、毛色和性格上有很大差异。"
        ),
        metadata={"source": "动物", "type": "哺乳动物"}
    ),
    Document(
        page_content=(
            "猫是小型肉食性哺乳动物，性格独立但也能与人类建立亲密关系。它们夜视能力极强，"
            "擅长捕猎老鼠。家猫的品种包括波斯猫、暹罗猫等，毛色和花纹多样。"
        ),
        metadata={"source": "动物", "type": "哺乳动物"}
    ),
    Document(
        page_content=(
            "人类是地球上最具智慧的生物，属于灵长目人科。现代人类（智人）拥有高度发达的大脑，"
            "创造了语言、工具和文明。人类的平均寿命约70-80年，分布在全球各地。"
        ),
        metadata={"source": "生物", "type": "灵长类"}
    ),
    Document(
        page_content=(
            "太阳是太阳系的中心恒星，直径约139万公里，主要由氢和氦组成。"
            "它通过核聚变反应产生能量，为地球提供光和热。太阳活动周期约为11年，会影响地球气候。"
        ),
        metadata={"source": "天文", "type": "恒星"}
    ),
    Document(
        page_content=(
            "长城是中国古代的军事防御工程，总长度超过2万公里。它始建于春秋战国时期，"
            "秦朝连接各段，明朝大规模重修。长城是世界文化遗产和人类建筑奇迹。"
        ),
        metadata={"source": "历史", "type": "建筑"}
    ),
    Document(
        page_content=(
            "量子力学是研究微观粒子运动规律的物理学分支。它提出了波粒二象性、测不准原理等概念，"
            "彻底改变了人类对物质世界的认知。量子计算机正是基于这一理论发展而来。"
        ),
        metadata={"source": "物理", "type": "科学"}
    ),
    Document(
        page_content=(
            "《红楼梦》是中国古典文学四大名著之一，作者曹雪芹。小说以贾、史、王、薛四大家族的兴衰为背景，"
            "描绘了贾宝玉与林黛玉的爱情悲剧，反映了封建社会的种种矛盾。"
        ),
        metadata={"source": "文学", "type": "小说"}
    ),
    Document(
        page_content=(
            "新冠病毒（SARS-CoV-2）是一种可引起呼吸道疾病的冠状病毒。它通过飞沫传播，"
            "主要症状包括发热、咳嗽、乏力。疫苗和戴口罩是有效的预防措施。"
        ),
        metadata={"source": "医学", "type": "病毒"}
    )
]

#创建嵌入模型
embedding_model = DashScopeEmbeddings(model="text-embedding-v4")

#将文档及嵌入模型传入到Chroma相关的结构中，进行数据的存储
db = Chroma.from_documents(
    documents=raw_documents,
    embedding=embedding_model,
    persist_directory="/home/qixia/langchain/chapter07/load_3"
)

相似度检索

In [20]:
query = "哺乳动物"

docs = db.similarity_search(query,k=3)

print(f"查询：'{query}'的结果")
for i,doc in enumerate(docs,1):
    print(f"\n结果{i}:")
    print(f"内容：{doc.page_content}")
    print(f"元数据：{doc.metadata}")

查询：'哺乳动物'的结果

结果1:
内容：猫是小型肉食性哺乳动物，性格独立但也能与人类建立亲密关系。它们夜视能力极强，擅长捕猎老鼠。家猫的品种包括波斯猫、暹罗猫等，毛色和花纹多样。
元数据：{'source': '动物', 'type': '哺乳动物'}

结果2:
内容：狗是人类最早驯化的动物之一，属于犬科。它们具有高度社会性，能理解人类情绪，常被用作宠物、导盲犬或警犬。不同品种的狗在体型、毛色和性格上有很大差异。
元数据：{'type': '哺乳动物', 'source': '动物'}

结果3:
内容：人类是地球上最具智慧的生物，属于灵长目人科。现代人类（智人）拥有高度发达的大脑，创造了语言、工具和文明。人类的平均寿命约70-80年，分布在全球各地。
元数据：{'type': '灵长类', 'source': '生物'}


In [21]:
query = "哺乳动物"
embedding_vector = embedding_model.embed_query(query)

docs = db.similarity_search_by_vector(embedding_vector,k=3)

print(f"查询：'{query}'的结果")
for i,doc in enumerate(docs,1):
    print(f"\n结果{i}:")
    print(f"内容：{doc.page_content}")
    print(f"元数据：{doc.metadata}")

查询：'哺乳动物'的结果

结果1:
内容：猫是小型肉食性哺乳动物，性格独立但也能与人类建立亲密关系。它们夜视能力极强，擅长捕猎老鼠。家猫的品种包括波斯猫、暹罗猫等，毛色和花纹多样。
元数据：{'source': '动物', 'type': '哺乳动物'}

结果2:
内容：狗是人类最早驯化的动物之一，属于犬科。它们具有高度社会性，能理解人类情绪，常被用作宠物、导盲犬或警犬。不同品种的狗在体型、毛色和性格上有很大差异。
元数据：{'source': '动物', 'type': '哺乳动物'}

结果3:
内容：人类是地球上最具智慧的生物，属于灵长目人科。现代人类（智人）拥有高度发达的大脑，创造了语言、工具和文明。人类的平均寿命约70-80年，分布在全球各地。
元数据：{'type': '灵长类', 'source': '生物'}


相似性检索，支持过滤元数据

In [22]:
query = "哺乳动物"

docs = db.similarity_search(query,k=3,filter={"source":"动物"})

print(f"查询：'{query}'的结果")
for i,doc in enumerate(docs,1):
    print(f"\n结果{i}:")
    print(f"内容：{doc.page_content}")
    print(f"元数据：{doc.metadata}")

查询：'哺乳动物'的结果

结果1:
内容：猫是小型肉食性哺乳动物，性格独立但也能与人类建立亲密关系。它们夜视能力极强，擅长捕猎老鼠。家猫的品种包括波斯猫、暹罗猫等，毛色和花纹多样。
元数据：{'type': '哺乳动物', 'source': '动物'}

结果2:
内容：狗是人类最早驯化的动物之一，属于犬科。它们具有高度社会性，能理解人类情绪，常被用作宠物、导盲犬或警犬。不同品种的狗在体型、毛色和性格上有很大差异。
元数据：{'source': '动物', 'type': '哺乳动物'}


通过L2距离分数进行搜索

In [23]:
docs = db.similarity_search_with_score("量子力学是什么？")

for doc,score in docs:
    print(f"[L2距离得分={score:.3f}]{doc.page_content}[{doc.metadata}]")

[L2距离得分=0.476]量子力学是研究微观粒子运动规律的物理学分支。它提出了波粒二象性、测不准原理等概念，彻底改变了人类对物质世界的认知。量子计算机正是基于这一理论发展而来。[{'type': '科学', 'source': '物理'}]
[L2距离得分=1.387]太阳是太阳系的中心恒星，直径约139万公里，主要由氢和氦组成。它通过核聚变反应产生能量，为地球提供光和热。太阳活动周期约为11年，会影响地球气候。[{'type': '恒星', 'source': '天文'}]
[L2距离得分=1.434]狗是人类最早驯化的动物之一，属于犬科。它们具有高度社会性，能理解人类情绪，常被用作宠物、导盲犬或警犬。不同品种的狗在体型、毛色和性格上有很大差异。[{'type': '哺乳动物', 'source': '动物'}]
[L2距离得分=1.471]猫是小型肉食性哺乳动物，性格独立但也能与人类建立亲密关系。它们夜视能力极强，擅长捕猎老鼠。家猫的品种包括波斯猫、暹罗猫等，毛色和花纹多样。[{'source': '动物', 'type': '哺乳动物'}]


分数值越小，检索到的文档越和问题相似

In [27]:
docs = db._similarity_search_with_relevance_scores("量子力学是什么？")

for doc,score in docs:
    print(f"* [余弦相似度得分={score:.3f}]{doc.page_content}[{doc.metadata}]")

* [余弦相似度得分=0.663]量子力学是研究微观粒子运动规律的物理学分支。它提出了波粒二象性、测不准原理等概念，彻底改变了人类对物质世界的认知。量子计算机正是基于这一理论发展而来。[{'source': '物理', 'type': '科学'}]
* [余弦相似度得分=0.019]太阳是太阳系的中心恒星，直径约139万公里，主要由氢和氦组成。它通过核聚变反应产生能量，为地球提供光和热。太阳活动周期约为11年，会影响地球气候。[{'source': '天文', 'type': '恒星'}]
* [余弦相似度得分=-0.014]狗是人类最早驯化的动物之一，属于犬科。它们具有高度社会性，能理解人类情绪，常被用作宠物、导盲犬或警犬。不同品种的狗在体型、毛色和性格上有很大差异。[{'source': '动物', 'type': '哺乳动物'}]
* [余弦相似度得分=-0.040]猫是小型肉食性哺乳动物，性格独立但也能与人类建立亲密关系。它们夜视能力极强，擅长捕猎老鼠。家猫的品种包括波斯猫、暹罗猫等，毛色和花纹多样。[{'source': '动物', 'type': '哺乳动物'}]


越接近1，越相似

MMR最大边际相关性
MMR是一种平衡相关性和多样性的检索策略，避免返回高度相似的冗余结果

In [29]:
from langchain_community.document_loaders import TextLoader
from langchain.text_splitter import CharacterTextSplitter
from langchain_community.embeddings import DashScopeEmbeddings
from langchain_community.vectorstores import Chroma,FAISS
from langchain.schema import Document
import dotenv
import os


dotenv.load_dotenv()

os.environ["OPENAI_API_KEY"] = os.getenv("DASHSCOPE_API_KEY")
os.environ["OPENAI_BASE_URL"] = os.getenv("DASHSCOPE_BASE_URL")

#步骤1：创建一个TextLoader的实例，并将指定的文档加载
loader = TextLoader(
    file_path="/home/qixia/langchain/chapter07/a.txt",
    encoding="utf-8"
)

docs = loader.load()

#步骤2：创建文本拆分器，并拆分文档
text_splitter = CharacterTextSplitter(
    chunk_size = 1000,
    chunk_overlap = 100
)

splitter_docs = text_splitter.split_documents(docs)

#创建嵌入模型
embedding_model = DashScopeEmbeddings(model="text-embedding-v4")

#将文档及嵌入模型传入到Chroma相关的结构中，进行数据的存储
db = FAISS.from_documents(
    documents=splitter_docs,
    embedding=embedding_model
)

#基于向量数据库得到检索器
retriever = db.as_retriever()

docs = retriever.invoke("LLM框架是什么？")

print(len(docs))

for doc in docs:
    print(f"-----{doc}")

2
-----page_content='大模型LLM的架构介绍？
大模型LLM（Large Language Models）通常采用基于Transformer的架构。Transformer模型由多个编码器或解码器层组成，每个层包含多头自注意力机制和前馈神经网络。这些层可以并行处理输入序列中的所有位置，捕获长距离依赖关系。大模型通常具有数十亿甚至数千亿个参数，可以处理大量的文本数据，并在各种NLP任务中表现出色。
前馈神经网络（Feedforward Neural Network）是一种最基础的神经网络类型，它的信息流动是单向的，从输入层经过一个或多个隐藏层，最终到达输出层。在前馈神经网络中，神经元之间的连接不会形成闭环，这意味着信号在前向传播过程中不会回溯。
前馈神经网络的基本组成单元是神经元，每个神经元都会对输入信号进行加权求和，然后通过一个激活函数产生输出。激活函数通常是非线性的，它决定了神经元的输出是否应该被激活，从而允许网络学习复杂和非线性的函数。
前馈神经网络在模式识别、函数逼近、分类、回归等多个领域都有应用。例如，在图像识别任务中，网络的输入层节点可能对应于图像的像素值，而输出层节点可能代表不同类别的概率分布。

prefix LM 和 causal LM、encoder-decoder 区别及各自有什么优缺点？
prefix LM：通过在输入序列前添加可学习的任务相关前缀，引导模型生成适应特定任务的输出。优点是可以减少对预训练模型参数的修改，降低过拟合风险；缺点是可能受到前缀表示长度的限制，无法充分捕捉任务相关的信息。
causal LM：根据之前生成的 token 预测下一个 token，可以生成连贯的文本。优点是可以生成灵活的文本，适应各种生成任务；缺点是无法访问未来的信息，可能生成不一致或有误的内容。
encoder-decoder：由编码器和解码器组成，编码器将输入序列编码为固定长度的向量，解码器根据编码器的输出生成输出序列。优点是可以处理输入和输出序列不同长度的任务，如机器翻译；缺点是模型结构较为复杂，训练和推理计算量较大。' metadata={'source': '/home/qixia/langchain/chapter07/a.txt'}
-----page_content='如何训练自己的大模型？
- 选择合适的预训练目标和任务：

In [30]:
document_1 = Document(
    page_content="经济复苏：美国经济正在从疫情中强劲复苏，失业率降至历史低点。"
)

document_2 = Document(
    page_content="基础设施：政府将投资1万亿美元用于修复道路、桥梁和宽带网络。"
)

document_3 = Document(
    page_content="气候变化：承诺到2030年将温室气体排放量减少50%。"
)

document_4 = Document(
    page_content="医疗保健：降低处方药价格，扩大医疗保险覆盖范围。"
)

document_5 = Document(
    page_content="教育：提供免费的社区大学教育。"
)

document_6 = Document(
    page_content="科技：增加对半导体产业的投资以减少对外国供应链的依赖。"
)

document_7 = Document(
    page_content="外交政策：继续支持乌克兰对抗俄罗斯的侵略。"
)

document_8 = Document(
    page_content="枪支管制：呼吁国会通过更严格的枪支管制法律。"
)

document_9 = Document(
    page_content="移民改革：提出全面的移民改革方案。"
)

document_10 = Document(
    page_content="社会正义：承诺解决系统性种族歧视问题。"
)

documents = [
    document_1,
    document_2,
    document_3,
    document_4,
    document_5,
    document_6,
    document_7,
    document_8,
    document_9,
    document_10,
]

#创建嵌入模型
embedding_model = DashScopeEmbeddings(model="text-embedding-v4")

#将文档及嵌入模型传入到Chroma相关的结构中，进行数据的存储
db = FAISS.from_documents(
    documents=documents,
    embedding=embedding_model
)

In [31]:
retriever = db.as_retriever(search_kwargs={"k":3})

docs = retriever.invoke("经济政策")

for i,doc in enumerate(docs):
    print(f"\n结果{i+1}:\n{doc.page_content}\n")


结果1:
医疗保健：降低处方药价格，扩大医疗保险覆盖范围。


结果2:
科技：增加对半导体产业的投资以减少对外国供应链的依赖。


结果3:
移民改革：提出全面的移民改革方案。



In [37]:
retriever = db.as_retriever(
    search_type = "similarity_score_threshold",
    search_kwargs = {"score_threshold":0.1}
)

docs = retriever.invoke("经济政策")

for i,doc in enumerate(docs):
    print(f"\n结果{i+1}:\n{doc.page_content}\n")


结果1:
医疗保健：降低处方药价格，扩大医疗保险覆盖范围。


结果2:
科技：增加对半导体产业的投资以减少对外国供应链的依赖。


结果3:
移民改革：提出全面的移民改革方案。


结果4:
外交政策：继续支持乌克兰对抗俄罗斯的侵略。



In [40]:
retriever = db.as_retriever(
    search_rtpe="mmr",
    search_kwargs={"fetch_k":2}
)

docs = retriever.invoke("经济政策")

for i,doc in enumerate(docs):
    print(f"\n结果{i+1}:\n{doc.page_content}\n")


结果1:
医疗保健：降低处方药价格，扩大医疗保险覆盖范围。


结果2:
科技：增加对半导体产业的投资以减少对外国供应链的依赖。


结果3:
移民改革：提出全面的移民改革方案。


结果4:
外交政策：继续支持乌克兰对抗俄罗斯的侵略。



In [41]:
import dotenv
import os
from langchain_openai import ChatOpenAI


dotenv.load_dotenv()

os.environ["OPENAI_API_KEY"] = os.getenv("DASHSCOPE_API_KEY")
os.environ["OPENAI_BASE_URL"] = os.getenv("DASHSCOPE_BASE_URL")

llm = ChatOpenAI(model="qwen-plus")

response = llm.invoke("北京有什么著名的建筑？")
print(response.content)

北京作为中国的首都，拥有众多著名的建筑，融合了古代皇家气派与现代都市风貌。以下是一些最具代表性的著名建筑：

1. **故宫（紫禁城）**  
   位于北京市中心，是明清两代的皇家宫殿，也是世界上现存规模最大、保存最完整的古代宫殿建筑群。现为故宫博物院，收藏大量珍贵文物。

2. **天安门广场**  
   世界最大的城市中心广场，是中国的象征之一。广场周围有人民英雄纪念碑、毛主席纪念堂、国家博物馆和人民大会堂等重要建筑。

3. **颐和园**  
   中国现存最完整的皇家园林，以昆明湖和万寿山为基础，融合自然景观与人工建筑，被誉为“皇家园林博物馆”。

4. **八达岭长城**  
   长城中最著名的一段，位于北京西北部，是明代长城的精华部分，被联合国教科文组织列为世界文化遗产。

5. **天坛**  
   明清两代皇帝祭天祈谷的地方，以其严谨的建筑布局和象征意义著称，尤其是祈年殿造型优美，极具艺术价值。

6. **鸟巢（国家体育场）**  
   2008年北京奥运会主体育场，因其独特的钢结构外观被称为“鸟巢”，现为北京重要的体育与文化活动场所。

7. **水立方（国家游泳中心）**  
   奥运会期间举办水上项目，外形如蓝色水晶，采用先进的ETFE膜结构，现改造为多功能水上乐园和文化场馆。

8. **中央电视台总部大楼（大裤衩）**  
   由建筑师雷姆·库哈斯设计，造型独特，是北京CBD的地标性现代建筑。

9. **国家大剧院**  
   又称“蛋形建筑”，坐落于人民大会堂西侧，是一座集歌剧、音乐、戏剧演出于一体的现代化艺术中心。

10. **雍和宫**  
   原为清代雍正帝府邸，后改为藏传佛教寺庙，是北京最大的藏传佛教寺院，香火旺盛。

11. **恭王府**  
   清代规模最大的一座王府，曾是和珅的宅邸，后归恭亲王所有，被誉为“一座恭王府，半部清朝史”。

12. **北京大兴国际机场**  
   由扎哈·哈迪德建筑事务所设计，外形如展翅凤凰，是全球最大的单体航站楼之一，兼具科技感与美学。

这些建筑不仅展示了北京深厚的历史文化底蕴，也体现了其作为现代化国际大都市的发展成就。


In [44]:
 # 1. 导入所有需要的包
from langchain_core.prompts import PromptTemplate
from langchain_openai import ChatOpenAI,OpenAIEmbeddings
from langchain_community.document_loaders import TextLoader
from langchain.text_splitter import CharacterTextSplitter
from langchain_community.vectorstores import FAISS
import os
import dotenv


dotenv.load_dotenv()

# 2. 创建自定义提示词模板
prompt_template = """
请使用以下提供的文本内容来回答问题。仅使用提供的文本信息，如果文本中没有相关信息，请回答"抱歉，提供的文本中没有这个信息"。
文本内容：
{context}
问题：{question}
回答：
"
 """
prompt = PromptTemplate.from_template(prompt_template)

dotenv.load_dotenv()

os.environ["OPENAI_API_KEY"] = os.getenv("DASHSCOPE_API_KEY")
os.environ["OPENAI_BASE_URL"] = os.getenv("DASHSCOPE_BASE_URL")

llm = ChatOpenAI(model="qwen-plus")

embedding_model = DashScopeEmbeddings(model="text-embedding-v4")

loader = TextLoader("/home/qixia/langchain/chapter07/b.txt",encoding="utf-8")
documents = loader.load()

text_splitter = CharacterTextSplitter(
    chunk_size = 1000,
    chunk_overlap = 100
)

texts = text_splitter.split_documents(documents)

vectorstore = FAISS.from_documents(
    documents=texts,
    embedding=embedding_model
)

retriever = vectorstore.as_retriever()

docs = retriever.invoke("北京有什么著名的建筑？")

chain = prompt | llm

result = chain.invoke({"question":"北京有什么著名的建筑？","context":docs})
print("\n回答：",result.content)


回答： 北京的著名建筑包括：

1. 故宫 - 明清两代的皇家宫殿，世界上现存规模最大、保存最完整的木质结构古建筑群之一。
2. 天安门 - 北京的标志性建筑之一，天安门广场是世界上最大的城市广场。
3. 颐和园 - 清朝时期的皇家园林，融合了江南园林的设计风格。
4. 天坛 - 明清两代皇帝祭天、祈谷的场所，具有深厚的文化内涵。
5. 长城（八达岭段） - 最著名的北京段，被誉为"世界第八大奇迹"。
6. 国家体育场（鸟巢） - 2008年奥运会主体育场，以独特的钢结构设计著称。
7. 中央电视台总部大楼 - 现代北京最具争议和识别度的建筑之一。
8. 国家大剧院 - 因其蛋壳造型被称为"巨蛋"，是世界最大的穹顶建筑之一。
9. 北京大兴国际机场 - 超大型国际航空枢纽，被誉为"新世界七大奇迹"之一。
10. 鼓楼和钟楼 - 古代中国的计时中心，展现了古代的计时智慧。
