## 基于llamaindex去构建一个完整的流程
- 将用于检索的块与用于合成的块儿分离
- 大型文档集的结构化检索
- 根据任务动态检索块
- 优化上下文嵌入

### 向量数据库的构建

In [None]:
from dotenv import load_dotenv, find_dotenv

# 加载.env文件获取API-key
load_dotenv(find_dotenv())

In [None]:
# 文档读取
from llama_index.core import SimpleDirectoryReader
# 在底层，这会将您的文档拆分为节点对象，这些对象类似于文档（它们包含文本和元数据）但与其父文档有关系。
from llama_index.core import VectorStoreIndex
from llama_index.core.node_parser import SentenceSplitter

# 读取文档
documents = SimpleDirectoryReader("./data").load_data()


In [None]:
# 使用文件构建 
from pathlib import Path
from llama_index import download_loader

# MarkdownReader = download_loader("MarkdownReader") # 方法已被删除
# reader = MarkdownReader()

# documents = reader.load_data(Path("data/review.md"))

In [None]:
# 对文档进行切分，将切分后的片段转化为embedding向量，构建向量索引
index = VectorStoreIndex.from_documents(documents, transformations=[SentenceSplitter(chunk_size=256)])


In [None]:
# 将embedding向量和向量索引存储到文件中
index.storage_context.persist(persist_dir='doc_emb')


In [None]:
# 构建查询引擎
query_engine = index.as_query_engine(similarity_top_k=5)


In [None]:
# 查询获得答案
response = query_engine.query("新进人员报到的主要流程是什么？")

## 调优