# VectorStore

LangChain最支持的索引和检索器是`VectorStoreRetriever`。正如其名称所示，这个检索器非常依赖于VectorStore。

一旦构建了一个VectorStore，构建检索器非常容易。让我们通过一个例子来详细了解。

In [1]:
from langchain.document_loaders import TextLoader
loader = TextLoader('../../../state_of_the_union.txt')

In [9]:
from langchain.text_splitter import CharacterTextSplitter
from langchain.vectorstores import FAISS
from langchain.embeddings import OpenAIEmbeddings

documents = loader.load()
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
texts = text_splitter.split_documents(documents)
embeddings = OpenAIEmbeddings()
db = FAISS.from_documents(texts, embeddings)

Exiting: Cleaning up .chroma directory


In [10]:
retriever = db.as_retriever()

In [11]:
docs = retriever.get_relevant_documents("what did he say about ketanji brown jackson")

## 最大边际相关检索
默认情况下，向量存储仍然使用相似度搜索。如果基础向量存储支持最大边际相关搜索，您可以将其指定为搜索类型。

In [12]:
retriever = db.as_retriever(search_type="mmr")

In [13]:
docs = retriever.get_relevant_documents("what did he say abotu ketanji brown jackson")

## 相似度得分阈值检索

您还可以使用一种设定相似度得分阈值并仅返回分数高于该阈值的文档的检索方法。

In [4]:
retriever = db.as_retriever(search_type="similarity_score_threshold", search_kwargs={"score_threshold": .5})

In [5]:
docs = retriever.get_relevant_documents("what did he say abotu ketanji brown jackson")

## 指定前k个
您还可以指定搜索kwargs，如'k'，在进行检索时使用。

In [14]:
retriever = db.as_retriever(search_kwargs={"k": 1})

In [15]:
docs = retriever.get_relevant_documents("what did he say abotu ketanji brown jackson")

In [16]:
len(docs)

1