参考资料：
1. https://python.langchain.com/docs/integrations/document_loaders/

### 文本文件加载器 TextLoader
读取简单的 .txt 文件加载到 document 中。

In [16]:
from langchain.document_loaders import TextLoader
loader = TextLoader(r"../../datas/testfiles/测试文件.txt")
document = loader.load()
print(document)

[Document(metadata={'source': '../../datas/testfiles/测试文件.txt'}, page_content='这个警告信息表示在您的 requirements.txt 文件中，行结束符（Line Feed, LF）将会在下次 Git 操作时被替换为回车换行符（Carriage Return + Line Feed, CRLF）。这是因为 Git 在 Windows 系统上默认使用 CRLF 作为行结束符，而在 Unix/Linux 系统上则使用 LF。')]


### CSV 加载器 CSVLoader
将 CSV 文件加载到 document 中。

In [40]:
from langchain_community.document_loaders.csv_loader import CSVLoader

loader = CSVLoader(file_path=r"../../datas/testfiles/测试文件.csv",encoding="gbk")
document = loader.load()
print(document)
# 读取为一行一个 document 
# 可以选择通过指定字段名称来自定义解析 
loader2 = CSVLoader(
    file_path=r"../../datas/testfiles/测试文件.csv",
    encoding="gbk",
    #source_column="名称",# 作为源的列名 指定列以标识文档源
    csv_args={
    'delimiter': ',',# 字段分隔符
    #'quotechar': '"', # quotechar: 用于包围字段的引号字符，默认是双引号（"）
    'fieldnames': ["名称","类型"] # 效果不好--
})
documents = loader2.load()
print(documents)

[Document(metadata={'source': '../../datas/testfiles/测试文件.csv', 'row': 0}, page_content='名称: langchain\n简介: 最流行的大模型应用开发框架\n类型: LLM应用开发\n地址: https://github.com/langchain-ai/langchain'), Document(metadata={'source': '../../datas/testfiles/测试文件.csv', 'row': 1}, page_content='名称: llamaindex\n简介: LlamaIndex 是构建 LLM 应用程序的领先数据框架\n类型: LLM应用开发\n地址: https://www.llamaindex.ai/'), Document(metadata={'source': '../../datas/testfiles/测试文件.csv', 'row': 2}, page_content='名称: autogen\n简介: AutoGen 是一个框架，它支持使用多个可以相互交流以解决任务的代理来开发 LLM 应用程序。AutoGen 代理可自定义、可交流，并可无缝允许人类参与。它们可以采用多种模式运行，这些模式结合了 LLM、人类输入和工具\n类型: LLM应用开发\n地址: '), Document(metadata={'source': '../../datas/testfiles/测试文件.csv', 'row': 3}, page_content='名称: autogen-studio\n简介: AutoGen Studio 是一款由 AutoGen 提供支持的 AI 应用程序（用户界面），可帮助您快速构建 AI 代理原型、增强技能、将其组合到工作流中并与之交互以完成任务。它建立在 AutoGen 框架之上，AutoGen 框架是用于构建 AI 代理的工具包。\n类型: LLM应用开发\n地址: https://github.com/microsoft/autogen'), Document(metadata={'source': '../../datas/testfiles/测试文件.csv', 'row': 4}, page_conten

### PDF 文件加载器 PDFLoader
LangChain 中的 PDF 加载器提供了多种解析和提取 PDF 文件内容的方法。每个加载器都满足不同的需求并使用不同的底层库。  
PyPDFLoader 

In [45]:
from langchain.document_loaders import PyPDFLoader
loader = PyPDFLoader(r"../../datas/testfiles/测试文件.pdf")
pages = loader.load_and_split()
pages

[Document(metadata={'source': '../../datas/testfiles/测试文件.pdf', 'page': 0}, page_content='警报疲劳不仅仅代表安全运营中心 （SOC） 团队的不便;它对企业安全构成了切实的威胁。\n当分析师每天面对成千上万个警报的洪流时，每个警报都需要进行分类、调查和关联，宝贵\n的时间很容易浪费在误报上，可能会忽略整个企业数据泄露的真正指标。')]

MathPixLoader 是提取数学内容和图表的理想选择。

In [46]:
from langchain.document_loaders import MathpixPDFLoader
loader = MathpixPDFLoader(r"../../datas/testfiles/测试文件.pdf")
data = loader.load()
# 需要 mathpix_api_key 才能使用

PyMuPDFLoader 速度很快，并且包含详细的元数据提取。


In [52]:
from langchain.document_loaders import PyMuPDFLoader
loader = PyMuPDFLoader(r"../../datas/testfiles/测试文件.pdf")
data = loader.load()
data

[Document(metadata={'source': '../../datas/testfiles/测试文件.pdf', 'file_path': '../../datas/testfiles/测试文件.pdf', 'page': 0, 'total_pages': 1, 'format': 'PDF 1.7', 'title': '', 'author': '鸿佛', 'subject': '', 'keywords': '', 'creator': 'WPS 文字', 'producer': '', 'creationDate': "D:20241128172251+08'00'", 'modDate': "D:20241128172251+08'00'", 'trapped': ''}, page_content='警报疲劳不仅仅代表安全运营中心（SOC）团队的不便;它对企业安全构成了切实的威胁。\n当分析师每天面对成千上万个警报的洪流时，每个警报都需要进行分类、调查和关联，宝贵\n的时间很容易浪费在误报上，可能会忽略整个企业数据泄露的真正指标。\n')]

In [53]:
# 可选地传递额外参数给 PyMuPDF 的 get_text() 调用
data = loader.load(option="text")
data

Received runtime arguments {'option': 'text'}. Passing runtime args to `load` is deprecated. Please pass arguments during initialization instead.


[Document(metadata={'source': '../../datas/testfiles/测试文件.pdf', 'file_path': '../../datas/testfiles/测试文件.pdf', 'page': 0, 'total_pages': 1, 'format': 'PDF 1.7', 'title': '', 'author': '鸿佛', 'subject': '', 'keywords': '', 'creator': 'WPS 文字', 'producer': '', 'creationDate': "D:20241128172251+08'00'", 'modDate': "D:20241128172251+08'00'", 'trapped': ''}, page_content='警报疲劳不仅仅代表安全运营中心（SOC）团队的不便;它对企业安全构成了切实的威胁。\n当分析师每天面对成千上万个警报的洪流时，每个警报都需要进行分类、调查和关联，宝贵\n的时间很容易浪费在误报上，可能会忽略整个企业数据泄露的真正指标。\n')]

PDFMiner Loader 用于对文本提取进行更精细的控制。

In [57]:
from langchain.document_loaders import PDFMinerLoader
loader = PDFMinerLoader(r"../../datas/testfiles/测试文件.pdf")
data = loader.load()
data

[Document(metadata={'source': '../../datas/testfiles/测试文件.pdf'}, page_content='警报疲劳不仅仅代表安全运营中心 （SOC） 团队的不便;它对企业安全构成了切实的威胁。\n当分析师每天面对成千上万个警报的洪流时，每个警报都需要进行分类、调查和关联，宝贵\n的时间很容易浪费在误报上，可能会忽略整个企业数据泄露的真正指标。\n\n\x0c')]

Amazon Textract PDFParser 利用AWS Textract实现 OCR 和其他高级 PDF 解析功能。

In [None]:
from langchain.document_loaders import AmazonTextractPDFLoader
# 需要 AWS 账户和配置
loader = AmazonTextractPDFLoader(r"../../datas/testfiles/测试文件.pdf")
documents = loader.load()

PDFMinerPDFasHTMLLoader 从 PDF 生成 HTML 以进行语义解析。

In [61]:
from langchain.document_loaders import PDFMinerPDFasHTMLLoader

loader = PDFMinerPDFasHTMLLoader("../../datas/testfiles/测试文件.pdf")
data = loader.load()
data

[Document(metadata={'source': '../../datas/testfiles/测试文件.pdf'}, page_content='<html><head>\n<meta http-equiv="Content-Type" content="text/html">\n</head><body>\n<span style="position:absolute; border: gray 1px solid; left:0px; top:50px; width:595px; height:841px;"></span>\n<div style="position:absolute; top:50px;"><a name="1">Page 1</a></div>\n<div style="position:absolute; border: textbox 1px solid; writing-mode:lr-tb; left:90px; top:124px; width:419px; height:41px;"><span style="font-family: SimSun; font-size:10px">警报疲劳不仅仅代表安全运营中心 （</span><span style="font-family: Calibri; font-size:10px">SOC</span><span style="font-family: SimSun; font-size:10px">） 团队的不便</span><span style="font-family: Calibri; font-size:10px">;</span><span style="font-family: SimSun; font-size:10px">它对企业安全构成了切实的威胁。\n<br>当分析师每天面对成千上万个警报的洪流时，每个警报都需要进行分类、调查和关联，宝贵\n<br>的时间很容易浪费在误报上，可能会忽略整个企业数据泄露的真正指标。\n<br></span></div><div style="position:absolute; top:0px;">Page: <a href="#1">1</a></div>\n</body></html>\n')]

PDFPlumberLoader 提供详细的元数据并支持每页一个文档。

In [63]:
from langchain.document_loaders import PDFPlumberLoader

loader = PDFPlumberLoader("../../datas/testfiles/测试文件.pdf")
data = loader.load()
data

[Document(metadata={'source': '../../datas/testfiles/测试文件.pdf', 'file_path': '../../datas/testfiles/测试文件.pdf', 'page': 0, 'total_pages': 1, 'Author': '鸿佛', 'Comments': '', 'Company': '', 'CreationDate': "D:20241128172251+08'00'", 'Creator': 'WPS 文字', 'Keywords': '', 'ModDate': "D:20241128172251+08'00'", 'Producer': '', 'SourceModified': "D:20241128172251+08'00'", 'Subject': '', 'Title': '', 'Trapped': 'False'}, page_content='警报疲劳不仅仅代表安全运营中心 （SOC） 团队的不便;它对企业安全构成了切实的威胁。\n当分析师每天面对成千上万个警报的洪流时，每个警报都需要进行分类、调查和关联，宝贵\n的时间很容易浪费在误报上，可能会忽略整个企业数据泄露的真正指标。\n')]