# 向量存储作为检索器
* 找到最能回答您问题的嵌入。

## 创建您的 .env 文件
* 在 GitHub 仓库中，我们包含了一个名为 .env.example 的文件
* 将该文件重命名为 .env 文件，这里将添加您的机密 API 密钥。请记得包括：
* OPENAI_API_KEY=your_openai_api_key
* LANGCHAIN_TRACING_V2=true
* LANGCHAIN_ENDPOINT=https://api.smith.langchain.com
* LANGCHAIN_API_KEY=your_langchain_api_key
* LANGCHAIN_PROJECT=your_project_name

我们将把我们的LangSmith项目称为**005-retrievers**。

In [2]:
import os
from dotenv import load_dotenv, find_dotenv
_ = load_dotenv(find_dotenv())
openai_api_key = os.environ["OPENAI_API_KEY"]

## 向量数据库（即向量存储）：存储和搜索嵌入
* 请查看文档页面 [这里](https://python.langchain.com/v0.1/docs/modules/data_connection/vectorstores/)。
* 请查看向量存储的列表 [这里](https://python.langchain.com/v0.1/docs/integrations/vectorstores/)。

In [6]:
from langchain_community.document_loaders import TextLoader
from langchain_openai import OpenAIEmbeddings
from langchain_text_splitters import CharacterTextSplitter
from langchain_chroma import Chroma

# Load the document, split it into chunks, embed each chunk and load it into the vector store.
loaded_document = TextLoader('./data/state_of_the_union.txt').load()

text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)

chunks_of_text = text_splitter.split_documents(loaded_document)

vector_db = Chroma.from_documents(chunks_of_text, OpenAIEmbeddings())

In [7]:
question = "What did the president say about the John Lewis Voting Rights Act?"

response = vector_db.similarity_search(question)

print(response[0].page_content)

Tonight. I call on the Senate to: Pass the Freedom to Vote Act. Pass the John Lewis Voting Rights Act. And while you’re at it, pass the Disclose Act so Americans can know who is funding our elections. 

Tonight, I’d like to honor someone who has dedicated his life to serve this country: Justice Stephen Breyer—an Army veteran, Constitutional scholar, and retiring Justice of the United States Supreme Court. Justice Breyer, thank you for your service. 

One of the most serious constitutional responsibilities a President has is nominating someone to serve on the United States Supreme Court. 

And I did that 4 days ago, when I nominated Circuit Court of Appeals Judge Ketanji Brown Jackson. One of our nation’s top legal minds, who will continue Justice Breyer’s legacy of excellence.


## 向量存储与检索器

1. **目的和功能**：
   - **向量存储**：这些是专门设计用于以向量的形式存储信息（表示文本或其他信息的高维数据点）的数据库。向量存储主要用于快速搜索和检索基于查询向量的相似向量。它们专注于高效处理存储向量与任何查询向量之间的相似性比较。
   - **检索器**：检索器是更通用的工具，使用各种方法，包括向量存储，来查找和返回与查询相关的文档或信息。检索器不一定存储信息本身，但知道在需要时如何访问和检索它。

2. **存储与检索**：
   - **向量存储**：顾名思义，这些主要关注以结构化方式存储数据，从而快速高效地执行相似性搜索。
   - **检索器**：虽然它们可能利用像向量存储这样的存储系统，但检索器更关注于根据用户的查询获取正确信息的行为。它们的主要任务是根据接收到的输入向最终用户提供最相关的信息或文档。

3. **灵活性**：
   - **向量存储**：这些在处理涉及存储向量之间相似性搜索的任务范围上有所限制。它们是用于特定类型数据检索任务的特定工具。
   - **检索器**：它们可以设计为使用不同的后端系统（如向量存储或其他数据库），并且可以是涉及更复杂数据处理或响应生成的更大系统的一部分。

总之，LangChain中的向量存储是关于如何存储信息并基于相似性高效访问，而检索器则是关于使用各种方法（包括向量存储）主动获取和返回针对不同查询的正确信息。

## 检索器：根据问题返回响应

1. **检索器：根据问题返回响应** - 检索器是一种工具，当您提出问题或查询时，它提供特定的信息或文档。

2. **检索器是一个根据非结构化查询返回文档的接口。它比向量存储更为一般化。** - 检索器的工作是处理没有固定格式的问题（非结构化查询），并根据该问题找到相关文档。这是一个广泛的工具，比仅仅将信息组织起来以提高检索效率的向量存储更为多功能。

3. **检索器不需要能够存储文档，仅需返回（或检索）它们。** - 检索器的主要工作是在被询问时找到并返回文档；它不必自己存储这些文档。它可以找到存储在其他地方的文档。

4. **向量存储可以用作检索器的基础，但还有其他类型的检索器。** - 尽管许多检索器使用一种称为向量存储的系统来帮助快速找到正确的文档（向量存储将信息组织成易于搜索的格式），但还有其他方法可以构建不依赖于这种方法的检索器。

总体而言，检索器通过搜索文档帮助您从大量数据中找到所需的信息，并可以使用不同的方法有效地完成这一任务。
* 查看文档页面 [这里](https://python.langchain.com/v0.1/docs/modules/data_connection/retrievers/)。
* 查看第三方检索器列表 [这里](https://python.langchain.com/v0.1/docs/integrations/retrievers/)。

#### 向量存储作为检索器

In [8]:
from langchain_community.document_loaders import TextLoader

loader = TextLoader("./data/state_of_the_union.txt")

In [10]:
from langchain_community.vectorstores import FAISS
from langchain_openai import OpenAIEmbeddings
from langchain_text_splitters import CharacterTextSplitter

loaded_document = loader.load()

text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)

chunks_of_text = text_splitter.split_documents(loaded_document)

embeddings = OpenAIEmbeddings()

vector_db = FAISS.from_documents(chunks_of_text, embeddings)

In [11]:
retriever = vector_db.as_retriever()

## 差异 .similarity_search 与 .as_retriever()
这两种方法都涉及根据查询找到最相关的文本，但它们的结构不同，并且可能根据其实现提供不同的功能。

#### `.similarity_search`

此方法直接对向量数据库执行相似性搜索，在您的第一个代码片段中，由 `Chroma` 类管理。该过程包括：
- 使用与嵌入文档块相同的模型对输入查询进行嵌入。
- 在向量数据库中搜索与查询嵌入最接近的向量。
- 根据其与查询的语义相似性返回最相关的块。

此方法直截了当，通常在您需要快速找到和检索与查询最佳匹配的文本片段时使用。

#### `.as_retriever()`

此方法涉及不同的方式：
1. **检索器设置**：在第二个代码片段中，`vector_db.as_retriever()` 将向量数据库（在这种情况下由 `FAISS` 管理）转换为检索器对象。该对象将相似性搜索抽象为可以在更复杂的检索增强生成（RAG）任务中使用的检索模型。
2. **调用方法**：然后，在检索器上使用 `invoke()` 函数执行查询。此方法可以是一个更大系统的一部分，其中检索器与其他组件（如语言模型）集成，以生成答案或进一步处理检索到的文档。

#### 主要区别

- **灵活性**：`.as_retriever()` 提供了更灵活的接口，可以集成到更大、更复杂的系统中，可能将检索与生成（如在 RAG 设置中）相结合。此方法在检索的内容可能用作进一步处理或回答生成的输入的应用中是有益的。
- **后端实现**：虽然 `.similarity_search` 直接访问向量数据库，但 `.as_retriever()` 将这一访问封装在检索器对象中，该对象可能具有用于特定检索任务的附加功能或优化。
- **用例**：直接的 `.similarity_search` 在简单的查询到文档检索任务中可能更快且更直接。相比之下，`.as_retriever()` 可以用于需要在检索后进行额外步骤的场景，例如将检索到的信息输入语言模型以生成连贯且上下文意识的响应。

这两种方法都是有用的，但它们的适用性取决于您应用的具体需求，例如您是否需要简单的检索或更复杂的检索增强生成过程。

#### Simple use without LCEL

In [12]:
response = retriever.invoke("what did he say about ketanji brown jackson?")

In [13]:
len(response)

4

In [14]:
response[0]

Document(metadata={'source': './data/state_of_the_union.txt'}, page_content='Tonight. I call on the Senate to: Pass the Freedom to Vote Act. Pass the John Lewis Voting Rights Act. And while you’re at it, pass the Disclose Act so Americans can know who is funding our elections. \n\nTonight, I’d like to honor someone who has dedicated his life to serve this country: Justice Stephen Breyer—an Army veteran, Constitutional scholar, and retiring Justice of the United States Supreme Court. Justice Breyer, thank you for your service. \n\nOne of the most serious constitutional responsibilities a President has is nominating someone to serve on the United States Supreme Court. \n\nAnd I did that 4 days ago, when I nominated Circuit Court of Appeals Judge Ketanji Brown Jackson. One of our nation’s top legal minds, who will continue Justice Breyer’s legacy of excellence.')

In [15]:
response

[Document(metadata={'source': './data/state_of_the_union.txt'}, page_content='Tonight. I call on the Senate to: Pass the Freedom to Vote Act. Pass the John Lewis Voting Rights Act. And while you’re at it, pass the Disclose Act so Americans can know who is funding our elections. \n\nTonight, I’d like to honor someone who has dedicated his life to serve this country: Justice Stephen Breyer—an Army veteran, Constitutional scholar, and retiring Justice of the United States Supreme Court. Justice Breyer, thank you for your service. \n\nOne of the most serious constitutional responsibilities a President has is nominating someone to serve on the United States Supreme Court. \n\nAnd I did that 4 days ago, when I nominated Circuit Court of Appeals Judge Ketanji Brown Jackson. One of our nation’s top legal minds, who will continue Justice Breyer’s legacy of excellence.'),
 Document(metadata={'source': './data/state_of_the_union.txt'}, page_content='A former top litigator in private practice. A f