## Vector Store

In [11]:
from langchain import FAISS
from langchain.document_loaders import TextLoader
from langchain.embeddings import HuggingFaceEmbeddings, OpenAIEmbeddings
from langchain.text_splitter import CharacterTextSplitter

# 加载文本
story = TextLoader('data/story.txt').load()
# transform定义
text_splitter = CharacterTextSplitter(
    separator = "\n\n",
    chunk_size = 100,
    chunk_overlap  = 20,
    length_function = len,
)
# transform出来
texts = text_splitter.split_documents(story)
print(len(texts))
# 加载到vector store
db = FAISS.from_documents(documents=texts,embedding=OpenAIEmbeddings())

Created a chunk of size 141, which is longer than the specified 100
Created a chunk of size 121, which is longer than the specified 100
Created a chunk of size 130, which is longer than the specified 100


4


In [18]:
query = "托马斯是一名时间旅行者？"
# k: 这是一个整数，表示要返回的文档的数量。默认值为4，也就是说，如果不指定这个参数，那么函数会返回4个最相似的文档。
# 其它参数：filter: 用于根据元数据进行过滤。fetch_k: 表示在过滤之前要获取的文档的数量。默认值为20
docs = db.similarity_search(query,k=1)
print(len(docs))
print(docs)

1
[Document(page_content='故事三：时间旅行者的恋情\n托马斯是一名时间旅行者，他在不同的时代中穿梭。在一次时间旅行中，他在18世纪遇到了美丽的女子艾米丽。托马斯深深地爱上了艾米丽，但他们因时代的差异而不能在一起。在经历了一系列的冒险和挑战后，托马斯最终决定留在18世纪，与艾米丽共度一生。', metadata={'source': 'data/story.txt'})]


In [19]:
embedding_vector = OpenAIEmbeddings().embed_query(query)
docs = db.similarity_search_by_vector(embedding_vector,k=1)
print(len(docs))
print(docs)

1
[Document(page_content='故事三：时间旅行者的恋情\n托马斯是一名时间旅行者，他在不同的时代中穿梭。在一次时间旅行中，他在18世纪遇到了美丽的女子艾米丽。托马斯深深地爱上了艾米丽，但他们因时代的差异而不能在一起。在经历了一系列的冒险和挑战后，托马斯最终决定留在18世纪，与艾米丽共度一生。', metadata={'source': 'data/story.txt'})]
