### 用Unstructured工具读取各式类型的文档

In [5]:
from unstructured.partition.text import partition_text

text = "data/黑神话悟空/黑悟空设定.txt"
elements = partition_text(text)
for element in elements:
    print(element)

《黑神话：悟空》的故事可分为六个章节，名为“火照黑云”、“风起黄昏”、“夜生白露”、“曲度紫鸳”、“日落红尘”和“未竟”，并且拥有两个结局，玩家的选择和经历将影响最终的结局。
每个章节结尾，附有二维和三维的动画过场，展示和探索《黑神话：悟空》中的叙事和主题元素。
游戏的设定融合了中国的文化和自然地标。例如重庆的大足石刻、山西省的小西天、南禅寺、铁佛寺、广胜寺和鹳雀楼等，都在游戏中出现。游戏也融入了佛教和道教的哲学元素。


### 通过vars函数查看所有可用的元数据

In [6]:
# 通过vars函数查看所有可用的元数据
for i, element in enumerate(elements):
    print(f"\n--- Element {i+1} ---")
    print(f"类型: {type(element)}")
    print(f"元素类型: {element.__class__.__name__}")
    print(f"文本内容: {element.text}")
    
    # 元数据展示
    if hasattr(element, 'metadata'):
        print("元数据:")
        metadata = vars(element.metadata)
        valid_metadata = {k: v for k, v in metadata.items() 
                         if not k.startswith('_') and v is not None}
        for key, value in valid_metadata.items():
            print(f"  {key}: {value}")


--- Element 1 ---
类型: <class 'unstructured.documents.elements.Title'>
元素类型: Title
文本内容: 《黑神话：悟空》的故事可分为六个章节，名为“火照黑云”、“风起黄昏”、“夜生白露”、“曲度紫鸳”、“日落红尘”和“未竟”，并且拥有两个结局，玩家的选择和经历将影响最终的结局。
元数据:
  last_modified: 2025-04-18T01:20:02
  languages: ['zho']
  file_directory: data/黑神话悟空
  filename: 黑悟空设定.txt
  filetype: text/plain

--- Element 2 ---
类型: <class 'unstructured.documents.elements.Title'>
元素类型: Title
文本内容: 每个章节结尾，附有二维和三维的动画过场，展示和探索《黑神话：悟空》中的叙事和主题元素。
元数据:
  last_modified: 2025-04-18T01:20:02
  languages: ['zho']
  file_directory: data/黑神话悟空
  filename: 黑悟空设定.txt
  filetype: text/plain

--- Element 3 ---
类型: <class 'unstructured.documents.elements.Title'>
元素类型: Title
文本内容: 游戏的设定融合了中国的文化和自然地标。例如重庆的大足石刻、山西省的小西天、南禅寺、铁佛寺、广胜寺和鹳雀楼等，都在游戏中出现。游戏也融入了佛教和道教的哲学元素。
元数据:
  last_modified: 2025-04-18T01:20:02
  languages: ['zho']
  file_directory: data/黑神话悟空
  filename: 黑悟空设定.txt
  filetype: text/plain


### 使用__dict__来查看所有可用的元数据

In [7]:
# 使用__dict__来查看所有可用的元数据
for i, element in enumerate(elements):
    print(f"\n--- Element {i+1} ---")
    print(f"类型: {type(element)}")
    print(f"元素类: {element.__class__.__name__}")
    print(f"文本内容: {element.text}")
    
    if hasattr(element, 'metadata'):
        print("元数据:")
        metadata_dict = element.metadata.__dict__
        for key, value in metadata_dict.items():
            if not key.startswith('_') and value is not None:  
                print(f"  {key}: {value}")


--- Element 1 ---
类型: <class 'unstructured.documents.elements.Title'>
元素类: Title
文本内容: 《黑神话：悟空》的故事可分为六个章节，名为“火照黑云”、“风起黄昏”、“夜生白露”、“曲度紫鸳”、“日落红尘”和“未竟”，并且拥有两个结局，玩家的选择和经历将影响最终的结局。
元数据:
  last_modified: 2025-04-18T01:20:02
  languages: ['zho']
  file_directory: data/黑神话悟空
  filename: 黑悟空设定.txt
  filetype: text/plain

--- Element 2 ---
类型: <class 'unstructured.documents.elements.Title'>
元素类: Title
文本内容: 每个章节结尾，附有二维和三维的动画过场，展示和探索《黑神话：悟空》中的叙事和主题元素。
元数据:
  last_modified: 2025-04-18T01:20:02
  languages: ['zho']
  file_directory: data/黑神话悟空
  filename: 黑悟空设定.txt
  filetype: text/plain

--- Element 3 ---
类型: <class 'unstructured.documents.elements.Title'>
元素类: Title
文本内容: 游戏的设定融合了中国的文化和自然地标。例如重庆的大足石刻、山西省的小西天、南禅寺、铁佛寺、广胜寺和鹳雀楼等，都在游戏中出现。游戏也融入了佛教和道教的哲学元素。
元数据:
  last_modified: 2025-04-18T01:20:02
  languages: ['zho']
  file_directory: data/黑神话悟空
  filename: 黑悟空设定.txt
  filetype: text/plain
