### 用LlamaIndex加载文档并创建Documents

#### 1. 加载目录中所有文档

In [3]:
from llama_index.core import SimpleDirectoryReader

# 使用 SimpleDirectoryReader 加载目录中的文件
dir_reader = SimpleDirectoryReader(
        input_dir=str("data/黑神话悟空"),
        # required_exts=['.txt', '.md']
    )

documents = dir_reader.load_data()
# 查看加载的文档数量和内容
print(f"文档数量: {len(documents)}")
print(documents[0].text[:100])  # 打印第一个文档的前100个字符

文档数量: 11
黑神话：悟空

类型	动作角色扮演[1]
平台	
Microsoft Windows
PlayStation 5
Xbox Series X/S
开发商	游戏科学
发行商	出版单位：浙江出版集团数字传


#### 2. 仅加载某一个特定文件

In [4]:
from llama_index.core import SimpleDirectoryReader

dir_reader = SimpleDirectoryReader(input_files=["data/黑神话悟空/黑悟空设定.txt"])
documents = dir_reader.load_data()
print(f"文档数量: {len(documents)}")
print(documents[0].text[:100])  # 打印第一个文档的前100个字符

文档数量: 1
《黑神话：悟空》的故事可分为六个章节，名为“火照黑云”、“风起黄昏”、“夜生白露”、“曲度紫鸳”、“日落红尘”和“未竟”，并且拥有两个结局，玩家的选择和经历将影响最终的结局。

每个章节结尾，附有


#### 3. 控制底层文档读取行为的参数
- 在代码中选择了一个JPG文档进行加载，并且通过 file_extractor 参数指定了JPG文档的阅读器为 image_reader，而这个阅读器设置了参数 keep_image=True。这代表要求其在生成的Document对象中保留原始图片的完整Base64编码内容。

In [5]:
# 从阅读器中导入ImageReader组件
from llama_index.readers.file import ImageReader

# 图片阅读器
image_reader = ImageReader(keep_image=True)
reader = SimpleDirectoryReader(
    input_files=["data/黑神话悟空/黑悟空销量.jpg"],
    file_extractor={".jpg":image_reader}
)
print(reader.load_data()[0].image)

/9j/4AAQSkZJRgABAQAAAQABAAD/2wBDAAgGBgcGBQgHBwcJCQgKDBQNDAsLDBkSEw8UHRofHh0aHBwgJC4nICIsIxwcKDcpLDAxNDQ0Hyc5PTgyPC4zNDL/2wBDAQkJCQwLDBgNDRgyIRwhMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjL/wAARCAGmAu4DASIAAhEBAxEB/8QAHwAAAQUBAQEBAQEAAAAAAAAAAAECAwQFBgcICQoL/8QAtRAAAgEDAwIEAwUFBAQAAAF9AQIDAAQRBRIhMUEGE1FhByJxFDKBkaEII0KxwRVS0fAkM2JyggkKFhcYGRolJicoKSo0NTY3ODk6Q0RFRkdISUpTVFVWV1hZWmNkZWZnaGlqc3R1dnd4eXqDhIWGh4iJipKTlJWWl5iZmqKjpKWmp6ipqrKztLW2t7i5usLDxMXGx8jJytLT1NXW19jZ2uHi4+Tl5ufo6erx8vP09fb3+Pn6/8QAHwEAAwEBAQEBAQEBAQAAAAAAAAECAwQFBgcICQoL/8QAtREAAgECBAQDBAcFBAQAAQJ3AAECAxEEBSExBhJBUQdhcRMiMoEIFEKRobHBCSMzUvAVYnLRChYkNOEl8RcYGRomJygpKjU2Nzg5OkNERUZHSElKU1RVVldYWVpjZGVmZ2hpanN0dXZ3eHl6goOEhYaHiImKkpOUlZaXmJmaoqOkpaanqKmqsrO0tba3uLm6wsPExcbHyMnK0tPU1dbX2Nna4uPk5ebn6Onq8vP09fb3+Pn6/9oADAMBAAIRAxEAPwDzfFIRRmioLExSEU6kAJNADcUvNOIIND/MdwUKD2FIBvNOpmaXNAx1LTc0A0AOpabmjJoEOppHpRzRzTGNPFJ1pxPFNPNIBRRmm0ufagY8HNJTc0hceuKQD/zpKYH4pvm5J5x6UCJQ1LuqMOMkHmlVw3SgY/dS5pmaRnCii4Em

#### 4. 创建Document对象
- text：这是Node对象内部最基本的属性，保存了文本内容。
- metadata：元数据，是数据的描述信息，有非常重要的作用。
- id_：文档的唯一id。可以自行设置，也可以在构造时自动生成。
- relationships：保存相关文档或Node信息。比如，前后关系或者父子关系。
- embedding：嵌入模型生成的向量。类型是list[float]，后面用于构造向量存储索引。

In [6]:
from llama_index.core import Document
import pprint

# 创建多个文档对象，并为其添加元数据
documents = [
    Document(
        text="一个充满烈焰和硫磺气息的地下洞窟，火焰从地底不断喷涌，照亮整个深渊。场景中有熔岩河流穿行，燃烧的火山石在空中漂浮。悟空需要利用自己的跳跃能力和金箍棒在熔岩之间穿行，同时对抗来自地狱的火焰妖怪。",
        metadata={
            "filename": "火照深渊场景.md",
            "category": "游戏场景",
            "file_path": "/data/黑悟空/火照深渊场景.md",
            "author": "GameScience",
            "creation_date": "2024-11-20",
            "last_modified_date": "2024-11-21",
            "file_type": "markdown",
            "word_count": 28,
        },
    ),
    Document(
        text="一片高耸入云的山脉，云雾缭绕，风力强劲。悟空需要通过飞跃山崖、利用筋斗云飞行，以及在大风中保持平衡来穿越场景。敌人主要是隐匿在云层中的飞禽妖怪和岩石机关兽。",
        metadata={
            "filename": "风起长空场景.md",
            "category": "游戏场景",
            "file_path": "/data/黑悟空/风起长空场景.md",
            "author": "GameScience",
            "creation_date": "2024-11-20",
            "last_modified_date": "2024-11-21",
            "file_type": "markdown",
            "word_count": 28,
        },
    )]   

# 打印每个文档的元数据
for doc in documents:
    pprint.pprint(doc.dict())

{'audio_resource': None,
 'class_name': 'Document',
 'embedding': None,
 'excluded_embed_metadata_keys': [],
 'excluded_llm_metadata_keys': [],
 'id_': '81b48a69-5003-461b-a547-4a208c621653',
 'image_resource': None,
 'metadata': {'author': 'GameScience',
              'category': '游戏场景',
              'creation_date': '2024-11-20',
              'file_path': '/data/黑悟空/火照深渊场景.md',
              'file_type': 'markdown',
              'filename': '火照深渊场景.md',
              'last_modified_date': '2024-11-21',
              'word_count': 28},
 'metadata_separator': '\n',
 'metadata_template': '{key}: {value}',
 'relationships': {},
 'text': '一个充满烈焰和硫磺气息的地下洞窟，火焰从地底不断喷涌，照亮整个深渊。场景中有熔岩河流穿行，燃烧的火山石在空中漂浮。悟空需要利用自己的跳跃能力和金箍棒在熔岩之间穿行，同时对抗来自地狱的火焰妖怪。',
 'text_resource': {'embeddings': None,
                   'mimetype': None,
                   'path': None,
                   'text': '一个充满烈焰和硫磺气息的地下洞窟，火焰从地底不断喷涌，照亮整个深渊。场景中有熔岩河流穿行，燃烧的火山石在空中漂浮。悟空需要利用自己的跳跃能力和金箍棒在熔岩之间穿行，同时对抗来自地狱的火焰妖怪。',
                  