In [1]:
"""
TextLoader会将一个文档文件加载为一个Document对象，该对象有两个属性：
    metadata:       存储该文档的来源路径等元数据
    page_content:   存储文档的内容
"""

from langchain_community.document_loaders import TextLoader

text_documents = TextLoader("knowledge_base/sample.txt", encoding="utf-8").load()
print(text_documents)

[Document(metadata={'source': 'knowledge_base/sample.txt'}, page_content='始计第一\n\n孙子曰：兵者，国之大事，死生之地，存亡之道，不可不察也。\n\n故经之以五事，校之以计，而索其情：一曰道，二曰天，三曰地，四曰将，五曰法。\n\n道者，令民与上同意，可与之死，可与之生，而不畏危也；天者，阴阳、寒暑、时制也；地者，远近、险易、广狭、死生也；将者，智、信、仁、勇、严也；法者，曲制、官道、主用也。凡此五者，将莫不闻，知之者胜，不知者不胜。\n\n故校之以计，而索其情，曰：主孰有道？将孰有能？天地孰得？法令孰行？兵众孰强？士卒孰练？赏罚孰明？吾以此知胜负矣。\n\n将听吾计，用之必胜，留之；将不听吾计，用之必败，去之。\n\n计利以听，乃为之势，以佐其外。势者，因利而制权也。\n\n兵者，诡道也。故能而示之不能，用而示之不用，近而示之远，远而示之近。利而诱之，乱而取之，实而备之，强而避之，怒而挠之，卑而骄之，佚而劳之，亲而离之，攻其无备，出其不意。此兵家之胜，不可先传也。\n\n夫未战而庙算胜者，得算多也；未战而庙算不胜者，得算少也。多算胜，少算不胜，而况无算乎！吾以此观之，胜负见矣。\n\n作战第二\n\n孙子曰：凡用兵之法，驰车千驷，革车千乘，带甲十万，千里馈粮。则内外之费，宾客之用，胶漆之材，车甲之奉，日费千金，然后十万之师举矣。\n\n其用战也，贵胜，久则钝兵挫锐，攻城则力屈，久暴师则国用不足。夫钝兵挫锐，屈力殚货，则诸侯乘其弊而起，虽有智者，不能善其后矣。故兵闻拙速，未睹巧之久也。夫兵久而国利者，未之有也。故不尽知用兵之害者，则不能尽知用兵之利也。\n\n善用兵者，役不再籍，粮不三载，取用于国，因粮于敌，故军食可足也。国之贫于师者远输，远输则百姓贫；近于师者贵卖，贵卖则百姓竭，财竭则急于丘役。力屈财殚，中原内虚于家，百姓之费，十去其七；公家之费，破军罢马，甲胄矢弩，戟楯矛橹，丘牛大车，十去其六。\n\n故智将务食于敌，食敌一钟，当吾二十钟；萁秆一石，当吾二十石。故杀敌者，怒也；取敌之利者，货也。故车战，得车十乘以上，赏其先得者，而更其旌旗。车杂而乘之，卒善而养之，是谓胜敌而益强。\n\n故兵贵胜，不贵久。故知兵之将，民之司命。国家安危之主也。\n\n谋攻第三\n\n孙子曰：凡用兵之法，

In [4]:
"""
UnstructuredMarkdownLoader可用于加载Markdown文件
    mode: 加载模式
        "single"    返回单个Document对象
        "elements"  按标题等元素切分文档
    strategy: 加载策略
        "fast"      快速粗粒度加载
        "hi_res"    细粒度加载，按标题层级、列表项、表格等结构细分
"""

from langchain_community.document_loaders import UnstructuredMarkdownLoader

md_documents = UnstructuredMarkdownLoader(
    "knowledge_base/sample.md",
    mode="elements",
    strategy="fast",
).load()
print(md_documents)

[Document(metadata={'source': 'knowledge_base/sample.md', 'emphasized_text_contents': ['Čeština', '∙', 'Deutsch', '∙', 'Ελληνικά', '∙', 'English', '∙', 'Español', '∙', 'Français', '∙', 'Indonesia', '∙', 'Italiano', '∙', '日本語', '∙', '한국어', '∙', 'polski', '∙', 'Português', '∙', 'Română', '∙', 'Русский', '∙', 'Slovenščina', '∙', 'Українська', '∙', '简体中文', '∙', '繁體中文'], 'emphasized_text_tags': ['i', 'i', 'i', 'i', 'i', 'i', 'i', 'i', 'i', 'i', 'i', 'i', 'i', 'i', 'i', 'i', 'i', 'i', 'i', 'i', 'i', 'i', 'i', 'i', 'i', 'i', 'i', 'i', 'i', 'i', 'i', 'i', 'i', 'i', 'i'], 'link_texts': ['Čeština', 'Deutsch', 'Ελληνικά', 'English', 'Español', 'Français', 'Indonesia', 'Italiano', '日本語', '한국어', 'polski', 'Português', 'Română', 'Русский', 'Slovenščina', 'Українська', '简体中文', '繁體中文'], 'link_urls': ['README-cs.md', 'README-de.md', 'README-el.md', 'README.md', 'README-es.md', 'README-fr.md', 'README-id.md', 'README-it.md', 'README-ja.md', 'README-ko.md', 'README-pl.md', 'README-pt.md', 'README-ro.md',

In [7]:
"""
PyPDFLoader
    支持页级拆分，每一页作为一个Document返回
    支持提取图像、提取布局
    extraction_mode: 提取模式
        "plain"     提取纯文本
        "layout"    提取布局
"""

from langchain_community.document_loaders import PyPDFLoader

pdf_documents = PyPDFLoader(
    "knowledge_base/sample.pdf",
    extraction_mode="layout",
).load()
print(pdf_documents)


[Document(metadata={'producer': 'Microsoft® Word 2019', 'creator': 'Microsoft® Word 2019', 'creationdate': '2023-07-24T17:46:07+08:00', 'title': '中国科学院国家天文台2023年度部门预算', 'author': 'MC SYSTEM', 'moddate': '2023-07-24T17:46:07+08:00', 'source': 'knowledge_base/sample.pdf', 'total_pages': 36, 'page': 0, 'page_label': '1'}, page_content='中国科学院国家天文台\n                2023     年部门预算'), Document(metadata={'producer': 'Microsoft® Word 2019', 'creator': 'Microsoft® Word 2019', 'creationdate': '2023-07-24T17:46:07+08:00', 'title': '中国科学院国家天文台2023年度部门预算', 'author': 'MC SYSTEM', 'moddate': '2023-07-24T17:46:07+08:00', 'source': 'knowledge_base/sample.pdf', 'total_pages': 36, 'page': 1, 'page_label': '2'}, page_content='目                 录\n一、中国科学院国家天文台基本情况                                                    ..................................... 1\n     （一）单位职责                        .................................................................... 1\n\n     （二）机构设置                        .........

In [12]:
"""
UnstructuredPDFLoader
    支持结构化提取，支持OCR
    仅当 PDF 文档中不存在文本时，才会应用 OCR
    mode: 加载模式
        "single"    返回单个Document对象
        "elements"  按标题等元素切分文档
    strategy: 加载策略
        "fast"      提取并处理文本
        "ocr_only"  先进行 OCR 处理，再处理原始文本
        "hi_res"    识别文档布局并处理，自动下载YOLOX模型（识别页面布局）
    infer_table_structure: 是否推断表格结构
        仅 hi_res 下起效
        如果为 True，提取出的表格元素会包含一个 text_as_html 元数据，将文本内容转换为 html 格式
    languages: OCR使用的语言
        需传入语言列表
        语言列表参考 https://github.com/tesseract-ocr/langdata
    更多参数详见 https://github.com/Unstructured-IO/unstructured/blob/main/unstructured/partition/pdf.py
"""

from langchain_community.document_loaders import UnstructuredPDFLoader

pdf_documents = UnstructuredPDFLoader(
    "knowledge_base/sample.pdf",
    mode="elements",
    strategy="hi_res",
    infer_table_structure=True,
    languages=["eng", "chi_sim"],
).load()
print(pdf_documents)


[Document(metadata={'source': 'knowledge_base/sample.pdf', 'detection_class_prob': 0.7602141499519348, 'coordinates': {'points': ((np.float64(349.5478515625), np.float64(495.7137145996094)), (np.float64(349.5478515625), np.float64(659.7088012695312)), (np.float64(568.763671875), np.float64(659.7088012695312)), (np.float64(568.763671875), np.float64(495.7137145996094))), 'system': 'PixelSpace', 'layout_width': 1654, 'layout_height': 2339}, 'last_modified': '2025-09-09T09:34:10', 'filetype': 'application/pdf', 'page_number': 1, 'file_directory': 'knowledge_base', 'filename': 'sample.pdf', 'category': 'Image', 'element_id': '298927504519a46201c07f73a7401597'}, page_content=''), Document(metadata={'source': 'knowledge_base/sample.pdf', 'coordinates': {'points': ((np.float64(339.0), np.float64(499.0)), (np.float64(339.0), np.float64(657.0)), (np.float64(1341.0), np.float64(657.0)), (np.float64(1341.0), np.float64(499.0))), 'system': 'PixelSpace', 'layout_width': 1654, 'layout_height': 2339}

In [13]:
"""
UnstructuredWordDocumentLoader
    适用于 .docx 和 .doc 文件
    mode: 加载模式
        "single"    返回单个Document对象
        "elements"  按标题等元素切分文档
    strategy: 加载策略
        "fast"      快速粗粒度加载
        "hi_res"    细粒度加载，按结构细分
"""

from langchain_community.document_loaders import UnstructuredWordDocumentLoader

word_documents = UnstructuredWordDocumentLoader(
    "knowledge_base/sample.docx",
    mode="elements",
    strategy="fast",
).load()
print(word_documents)

[Document(metadata={'source': 'knowledge_base/sample.docx', 'category_depth': 0, 'file_directory': 'knowledge_base', 'filename': 'sample.docx', 'last_modified': '2025-09-09T09:33:21', 'languages': ['zho'], 'filetype': 'application/vnd.openxmlformats-officedocument.wordprocessingml.document', 'category': 'UncategorizedText', 'element_id': '02ab431f6036975771d14fbb197d8837'}, page_content='中华人民共和国民法典'), Document(metadata={'source': 'knowledge_base/sample.docx', 'category_depth': 0, 'file_directory': 'knowledge_base', 'filename': 'sample.docx', 'last_modified': '2025-09-09T09:33:21', 'languages': ['zho'], 'filetype': 'application/vnd.openxmlformats-officedocument.wordprocessingml.document', 'category': 'UncategorizedText', 'element_id': '6bf8c1cd765f464d6755eba2fc1e1447'}, page_content='（2020年5月28日第十三届全国人民代表大会第三次'), Document(metadata={'source': 'knowledge_base/sample.docx', 'category_depth': 0, 'file_directory': 'knowledge_base', 'filename': 'sample.docx', 'last_modified': '2025-09-09T09:

In [14]:
"""
WebBaseLoader
    适用于网页
    web_paths: 网址序列
    bs_kwargs: 传给 BeautifulSoup 的解析参数
        parse_only  只提取指定标签的元素
"""
import bs4
from langchain_community.document_loaders import WebBaseLoader

web_documents = WebBaseLoader(
    web_paths=(
        " https://news.sina.com.cn/c/xl/2025-09-07/doc-infprmwn0510979.shtml",
    ),
    bs_kwargs={"parse_only": bs4.SoupStrainer(id="article")},  # 只提取正文区域
).load()
print(web_documents)

USER_AGENT environment variable not set, consider setting it to identify your requests.


[Document(metadata={'source': ' https://news.sina.com.cn/c/xl/2025-09-07/doc-infprmwn0510979.shtml'}, page_content='\n\n\u3000\u30009月3日，纪念中国人民抗日战争暨世界反法西斯战争胜利80周年大会在天安门广场隆重举行。天安门城楼上，习近平总书记的重要讲话，6次提及这个光辉的字眼：和平。\n\u3000\u3000新华社9月5日播发重磅通讯《习近平引领中国和平发展的时代启示》。让我们通过这些故事，感悟习近平总书记发出的时代强音——“人类和平与发展的崇高事业必将胜利！”\n9月3日，纪念中国人民抗日战争暨世界反法西斯战争胜利80周年大会在北京隆重举行。中共中央总书记、国家主席、中央军委主席习近平发表重要讲话。新华社记者 燕雁 摄\n\u3000\u3000[和平如此珍贵，因为先烈的牺牲无价]\n\u3000\u3000“待风息波静，凯然而归，全家团聚……”\n\u3000\u3000李云鹏烈士留下的一封家信催人泪下。他是新四军“刘老庄连”82名烈士中唯一留下书信的人。战争无情、岁月易老，烈士当年对和平生活的向往，至今读来字字锥心。\n\u3000\u3000“正所谓‘诚既勇兮又以武，终刚强兮不可凌。身既死兮神以灵，魂魄毅兮为鬼雄。’”习近平总书记曾以《九歌·国殇》中的诗句赞扬“刘老庄连”等抗战英雄，表达崇高敬意。\n\u3000\u30002014年，我国通过立法确定中国人民抗日战争胜利纪念日，设立烈士纪念日、南京大屠杀死难者国家公祭日。每逢烈士纪念日，习近平总书记都向人民英雄敬献花篮，风雨无阻，行为世范。\n 2024年9月30日，习近平等党和国家领导人出席烈士纪念日向人民英雄敬献花篮仪式。新华社记者 殷博古 摄\n\u3000\u3000在中共中央政治局集体学习时，一字一句朗读赵一曼牺牲前写给儿子的绝笔信；感慨杨靖宇牺牲时胃里全是枯草、树皮、棉絮，“其事迹震撼人心”……\n\u3000\u3000一次次抚今追昔，一番番真情流露，凝聚成荡气回肠的坚定信念：“对一切为国家、为民族、为和平付出宝贵生命的人们，不管时代怎样变化，我们都要永远铭记他们的牺牲和奉献。”\n\u3000\u3000[和平如此珍贵，因为历史的教训惨痛]\n\u3000\