# LlamaIndex基础知识

在本课程中，我们将讨论LlamaIndex的基础知识及其核心组件

本课程将讨论以下内容：

1. 节点（Nodes）
2. 文档加载器（Document loaders）
3. 索引（Indexes）
4. 检索器（Retrievers）
5. 查询引擎（Query Engines）

### 节点（Nodes）

节点是LlamaIndex的基本单元。节点实际上就是一个包含一段文本的数据结构。

每当您提供一个文档时，您可以将其拆分为多个块并存储在节点中。

### 文档加载器（Document Loader）

LlamaIndex中的文档加载器是一个用于从源中提取数据的接口。源可以是网页、YouTube视频、PDF等。

LlamaIndex支持多种文档加载器，我们将研究其中一些以适应我们的用例。

### 索引（Indexes）

LlamaIndex中的索引是一种组织和存储来自各种数据源的信息的数据结构，使搜索变得更加容易。索引是建立在一组节点之上的。

LlamaIndex提供了不同类型的索引，我们将在后续课程中学习。

### 检索器（Retrievers）

LlamaIndex中的检索器帮助根据给定的查询从索引中获取一组节点。它类似于一个搜索工具，从大型数据集中找到相关信息以回答您的问题。

LlamaIndex中有不同类型的检索器，我们将在后续课程中学习。

### 查询引擎（Query Engines）

LlamaIndex中的查询引擎处理用户输入的查询，与底层数据结构（如索引）交互，并返回一个综合的响应。

LlamaIndex提供了不同类型的查询引擎，我们将在后续课程中学习。

让我们通过一个示例来理解所有这些概念。

### 安装LlamaIndex和依赖项


In [None]:
!pip install llama_index langchain

### 下载用于训练的数据。我们使用国情咨文文本文件来训练ChatGPT


In [None]:
!wget https://raw.githubusercontent.com/hwchase17/chat-your-data/master/state_of_the_union.txt
!mkdir data
!mv state_of_the_union.txt data/

### 将输入文本加载到LlamaIndex输入中。我们可以使用一个简单的文档加载器来实现这一点，就像我们之前讨论过的那样。

我们将使用SimpleDirectoryReader

In [3]:
from llama_index import SimpleDirectoryReader

documents = SimpleDirectoryReader('./data').load_data()

### 将数据拆分为节点。

正如我们讨论过的，节点是保存输入的基本数据结构。我们将使用以下代码将上面加载的输入拆分为多个节点。

In [4]:
from llama_index.node_parser import SimpleNodeParser
parser = SimpleNodeParser()
nodes = parser.get_nodes_from_documents(documents)

### 创建索引

现在我们已经创建了节点，我们可以在其基础上创建一个索引。我们将使用VectorStoreIndex，它从节点中的所有文本创建嵌入并将其存储在向量数据库中。有关嵌入的更多细节将在第一课中分享。

In [12]:
from llama_index import LLMPredictor, VectorStoreIndex
from langchain import OpenAI
os.environ["OPENAI_API_KEY"] = "api-key"

index = VectorStoreIndex(nodes)

### 创建检索器

我们将使用VectorIndexRetriever，根据相似性检索前k个匹配文档。在这个示例中，我们将保持k=2。

In [13]:
from llama_index.retrievers import VectorIndexRetriever

retriever = VectorIndexRetriever(
    index=index,
    similarity_top_k=2,
)

### 创建查询引擎

现在我们可以在检索器上构建一个查询引擎，开始进行查询。

In [14]:
from llama_index.query_engine import RetrieverQueryEngine

query_engine = RetrieverQueryEngine(
    retriever=retriever
)

### 现在进行一个查询

In [15]:
response = query_engine.query("What did the author do growing up?")
print(response)


The author grew up in a family where they had to adjust to the rising cost of food, gas, housing, and other expenses. They experienced the struggles of their father leaving home to find work.
