In [None]:
from llama_index.readers.file import FlatReader
from llama_index.readers.file import MarkdownReader
from llama_index.core.node_parser import SentenceSplitter, MarkdownElementNodeParser
from pathlib import Path

# 假设我们有一个示例Markdown文件
sample_md_content = """
# 人工智能简介

## 机器学习基础
机器学习是人工智能的一个子领域，专注于开发能够从数据中学习的算法。

### 监督学习
监督学习使用带标签的数据来训练模型。

## 深度学习
深度学习使用神经网络处理复杂问题。
"""

# 创建一个临时Markdown文件
with open("sample.md", "w", encoding="utf-8") as f:
    f.write(sample_md_content)

# 使用FlatReader读取 - 修复：将字符串路径转换为Path对象
flat_reader = FlatReader()
flat_docs = flat_reader.load_data(Path("sample.md"))

print("=== FlatReader 结果 ===")
print(f"文档数量: {len(flat_docs)}")
print(f"第一个文档内容:\n{flat_docs[0].text}\n")
print(f"元数据: {flat_docs[0].metadata}")

# 使用常规分块器处理FlatReader结果
sentence_splitter = SentenceSplitter(chunk_size=400)
flat_nodes = sentence_splitter.get_nodes_from_documents(flat_docs)
print(f"\nFlatReader分块后节点数: {len(flat_nodes)}")
print(f"第一个节点内容: {flat_nodes[0].text}")

# 使用MarkdownReader读取 - 同样修复为Path对象
md_reader = MarkdownReader()
md_docs = md_reader.load_data(Path("data/星球的秘密.md"))

for i in md_docs:
    print(i.metadata)
print("================")
for i in md_docs:
    print(i.text)