In [1]:
!pip install -U langchain-community
!pip install faiss-cpu
!pip install tiktoken

Collecting langchain-community
  Downloading langchain_community-0.3.13-py3-none-any.whl.metadata (2.9 kB)
Collecting dataclasses-json<0.7,>=0.5.7 (from langchain-community)
  Downloading dataclasses_json-0.6.7-py3-none-any.whl.metadata (25 kB)
Collecting httpx-sse<0.5.0,>=0.4.0 (from langchain-community)
  Downloading httpx_sse-0.4.0-py3-none-any.whl.metadata (9.0 kB)
Collecting langchain<0.4.0,>=0.3.13 (from langchain-community)
  Downloading langchain-0.3.13-py3-none-any.whl.metadata (7.1 kB)
Collecting langchain-core<0.4.0,>=0.3.27 (from langchain-community)
  Downloading langchain_core-0.3.28-py3-none-any.whl.metadata (6.3 kB)
Collecting pydantic-settings<3.0.0,>=2.4.0 (from langchain-community)
  Downloading pydantic_settings-2.7.1-py3-none-any.whl.metadata (3.5 kB)
Collecting marshmallow<4.0.0,>=3.18.0 (from dataclasses-json<0.7,>=0.5.7->langchain-community)
  Downloading marshmallow-3.23.2-py3-none-any.whl.metadata (7.1 kB)
Collecting typing-inspect<1,>=0.4.0 (from dataclasses-

In [2]:
from langchain.vectorstores import FAISS
from langchain.embeddings import OpenAIEmbeddings
from langchain.schema import Document

In [3]:
import os
import getpass

os.environ['OPENAI_API_KEY'] = getpass.getpass('OpenAI API Key:')

OpenAI API Key:··········


In [4]:
# 初始化嵌入模型
embeddings = OpenAIEmbeddings()

  embeddings = OpenAIEmbeddings()


In [5]:
# 创建商品列表（模拟文档）
products = [
    Document(page_content="这款智能手机拥有强大的处理器和高清摄像头。"),
    Document(page_content="这款笔记本电脑轻薄便携，适合商务旅行。"),
    Document(page_content="这款智能手表支持健康监测和消息提醒。")
]

In [6]:
# 创建向量存储
vectorstore = FAISS.from_documents(products, embeddings)

# 一、采用默认的相似度进行检索

In [7]:
# 查询向量存储
query = "最好的智能手机"
docs = vectorstore.similarity_search(query, k=2)

In [8]:
# 打印结果
for doc in docs:
    print(doc.page_content)

这款智能手机拥有强大的处理器和高清摄像头。
这款智能手表支持健康监测和消息提醒。


# 二、最大边际MMR检索
默认情况下，向量存储检索器使用相似性搜索。如果底层向量存储支持最大边际相关性搜索，可以将其指定为搜索类型。

In [9]:
retriever = vectorstore.as_retriever(search_type="mmr")
docs = retriever.get_relevant_documents("最好的智能手机")
# 打印结果
for doc in docs:
    print(doc.page_content)

  docs = retriever.get_relevant_documents("最好的智能手机")


这款智能手机拥有强大的处理器和高清摄像头。
这款智能手表支持健康监测和消息提醒。
这款笔记本电脑轻薄便携，适合商务旅行。


# 三、相似度阈值检索
还可以设置一种检索方法，该方法设置相似度分数阈值，并且仅返回分数高于该阈值的文档。

In [10]:
retriever = vectorstore.as_retriever(
    search_type="similarity_score_threshold", search_kwargs={"score_threshold": 0.5}
)
docs = retriever.get_relevant_documents("最好的智能手机")
# 打印结果
for doc in docs:
    print(doc.page_content)

这款智能手机拥有强大的处理器和高清摄像头。
这款智能手表支持健康监测和消息提醒。
这款笔记本电脑轻薄便携，适合商务旅行。


# 四、指定前k个
还可以指定在检索时使用的搜索 kwargs，例如 k。

In [11]:
retriever = vectorstore.as_retriever(search_kwargs={"k": 1})
docs = retriever.get_relevant_documents("最好的智能手机")
len(docs)

1

In [12]:
# 打印结果
for doc in docs:
    print(doc.page_content)

这款智能手机拥有强大的处理器和高清摄像头。
