使用langchain的文档加载器，从各类数据源加载数据，加载后的数据变为一个Document对象，对象内部包含一段文本及相关元数据

文档加载器提供函数load及lazy_load加载数据为Document对象，前者立马加载数据到内存，后者延迟加载

# 加载.txt、.md文件

In [6]:
from langchain.document_loaders import TextLoader

# 定义文本加载器，指定读取的文件路径
loader = TextLoader("./documents/三国演义.txt")
documents=loader.load()
print(documents[0].metadata)

{'source': './documents/三国演义.txt'}


# 加载pdf

In [7]:
from langchain.document_loaders import PyPDFLoader

# 定义文本加载器，指定读取的文件路径
loader = PyPDFLoader("./documents/奖惩管理制度.pdf")
documents=loader.load()
print(documents[0].metadata)

{'source': './documents/奖惩管理制度.pdf', 'page': 0}


In [8]:
documents

[Document(metadata={'source': './documents/奖惩管理制度.pdf', 'page': 0}, page_content='          \n员工奖惩管理制度  文件编号  WI-HR-008 \n版本 A0 页码  1 of 7 \n \n编制：潘玉华                 审核：许杨雄                    批准：张权                   生效日期： 2022-09-20 文件更改摘要  \n日期 旧版本  新版本 修订说明  修订人  审核人  批准人  \n2022-09-19  A0 新编 潘玉华 许杨雄  张权 \n       \n       \n \n1.0 目的 \n维护公司正常的工作秩序、纪律和各项规章制度，表彰员工在工作中的突出表现和贡献，激\n励员工的积极性和创造性，以及对有不良行为的员工进行问责惩戒，提升管理效能。  \n2.0 适用范围  \n本制度适用于公司全体员工。  \n3.0 职责 \n3.1 总经理：  \n3.1.1  负责公司奖惩管理制度修订审批；  \n3.1.2  负责公司员工奖惩结果和重大奖惩事项的签批。  \n3.2 人力资源中心：  \n3.2.1  负责奖惩管理制度的修订、完善及监督实施；  \n3.2.2  负责对应受惩戒的行为、事件进行调查定案，划分事件责任，明确责任人及其过失责  \n任，对重大奖惩事件的受理、审核和上报相关单位；  \n3.2.3  负责调查、审核部门上报的员工奖惩事件真实性、合理性，核查员工申诉事实并提出\n裁决意见；  \n3.2.4  负责员工奖惩档案的建档管理 ;  \n3.2.5  对触犯法律的行为、事件移交司法机关处理。  \n3.3 各部门：  \n3.3.1  各部门负责人负责本部门员工的奖惩提报；  \n3.3.2  各部门各级管理人员，作为所辖员工的规范管理责任人，有责任和义务督促员工遵规\n守纪，并依照公司相关制度规定及法律法规对所辖员工进行奖励或惩戒，提报奖惩情况，并\n积极配合人力资源中心开展奖惩事实调查及奖惩结果执行工作。  \n4.0 定义 \n4.1 损失的定义：损失包括直接损失、间接损失及预期利益损失等。  \n4.1.1  直接损失：因事故造成人身伤亡及善后处理支出

# 网页

In [9]:
from langchain.document_loaders import WebBaseLoader

# 定义文本加载器，指定读取的文件路径
page_url = "https://python.langchain.ac.cn/docs/how_to/chatbots_memory/"
loader = WebBaseLoader(web_paths=[page_url])
documents=loader.load()
print(documents[0].metadata)

USER_AGENT environment variable not set, consider setting it to identify your requests.


{'source': 'https://python.langchain.ac.cn/docs/how_to/chatbots_memory/', 'title': 'å¦‚ä½•ä¸ºè�Šå¤©æœºå™¨äººæ·»åŠ\xa0è®°å¿† | ğŸ¦œï¸�ğŸ”— LangChain ä¸\xadæ–‡', 'language': 'zh-hans'}


# CSV

In [10]:
from langchain.document_loaders.csv_loader import CSVLoader

# 定义文本加载器，指定读取的文件路径
loader = CSVLoader("./documents/京东笔记本销售数据.csv")
documents=loader.load()
print(documents[0].metadata)

{'source': './documents/京东笔记本销售数据.csv', 'row': 0}


In [12]:
documents[:2]

[Document(metadata={'source': './documents/京东笔记本销售数据.csv', 'row': 0}, page_content='\ufeff: 0\ntitle: 联想笔记本电脑小新Air15 英特尔酷睿i5 15.6英寸全面屏办公轻薄本 (11代i5 16G 512G 高色域 数字小键盘 )\nprice: 4799.00\ncommit: 10万+\nshop_name: 联想京东自营旗舰店\nhref: https://item.jd.com/100021802484.html\nbrand: 联想（Lenovo）\nRAM: 内存容量：16GB\nSSD: 固态硬盘（SSD）：512GB\nGPU: 显卡型号：集成显卡\nCPU: i5-1155G7\nscreen: 15.6英寸'),
 Document(metadata={'source': './documents/京东笔记本销售数据.csv', 'row': 1}, page_content='\ufeff: 1\ntitle: 京品电脑\n惠普(HP)战66四代 锐龙版 14英寸轻薄笔记本电脑(Zen3架构 6核 R5-5600U 16G 512G 400尼特高色域 一年上门)\nprice: 4999.00\ncommit: 20万+\nshop_name: 惠普京东自营官方旗舰店\nhref: https://item.jd.com/100018079978.html\nbrand: 惠普（HP）\nRAM: 内存容量：16GB\nSSD: 固态硬盘（SSD）：512GB\nGPU: 显卡型号：集成显卡\nCPU: R5-5600U\nscreen: 14英寸')]

# HTML

In [13]:
from langchain.document_loaders import UnstructuredHTMLLoader

# 定义文本加载器，指定读取的文件路径
loader = UnstructuredHTMLLoader("./documents/如何加载HTML-LangChain中文.html")
documents=loader.load()
print(documents[0].metadata)

{'source': './documents/如何加载HTML-LangChain中文.html'}


# JSON

In [15]:
from langchain.document_loaders import JSONLoader

# 定义文本加载器，指定读取的文件路径
loader = JSONLoader("./documents/facebook_chat.json",jq_schema='.messages[].content',text_content=False)
documents=loader.load()
print(documents[0].metadata)

{'source': '/home/wushaogui/MyCodes/langchain-chatglm/Learnning/documents/facebook_chat.json', 'seq_num': 1}


In [16]:
documents

[Document(metadata={'source': '/home/wushaogui/MyCodes/langchain-chatglm/Learnning/documents/facebook_chat.json', 'seq_num': 1}, page_content='Bye!'),
 Document(metadata={'source': '/home/wushaogui/MyCodes/langchain-chatglm/Learnning/documents/facebook_chat.json', 'seq_num': 2}, page_content='Oh no worries! Bye'),
 Document(metadata={'source': '/home/wushaogui/MyCodes/langchain-chatglm/Learnning/documents/facebook_chat.json', 'seq_num': 3}, page_content='No Im sorry it was my mistake, the blue one is not for sale'),
 Document(metadata={'source': '/home/wushaogui/MyCodes/langchain-chatglm/Learnning/documents/facebook_chat.json', 'seq_num': 4}, page_content='I thought you were selling the blue one!'),
 Document(metadata={'source': '/home/wushaogui/MyCodes/langchain-chatglm/Learnning/documents/facebook_chat.json', 'seq_num': 5}, page_content='Im not interested in this bag. Im interested in the blue one!'),
 Document(metadata={'source': '/home/wushaogui/MyCodes/langchain-chatglm/Learnning/

# Markdown

In [17]:
from langchain.document_loaders import UnstructuredMarkdownLoader

# 定义文本加载器，指定读取的文件路径
loader = UnstructuredMarkdownLoader("./documents/读书-零秒执行力.md")
documents=loader.load()
print(documents[0].metadata)

{'source': './documents/读书-零秒执行力.md'}


In [18]:
documents

[Document(metadata={'source': './documents/读书-零秒执行力.md'}, page_content='title: 麦肯锡零秒执行力 aythor: 侯昭康 score: 7.2 publisher: 广东旅游出版社 creattime: 2021-7 url: 麦肯锡零秒执行力 (豆瓣)\n\n![[../source/images/读书-零秒执行力-20230408144409.png]]\n\n读书原因\n\n明明昨天已经计划好该做什么，但是第二天不知道从什么开始？结果又是忙这忙那，要不就是开启视频度过一天，计划不断立了又破，立了又破，没个头！因此看看本书有什么真知灼见\n\n书籍评价\n\n本书倾向于领导的“快速执行力”的建立，通过选项及框架的方法指导领导“当机立断，立即执行”，于我个人而言，本书对“为什么犹豫前？”、“什么情况下当机立断？”、“当机立断的风险？”更有用\n\n书籍笔记\n\n为何 “当机立断、立即执行“ 如此困难？ ^7jbd2l\n\n原因大致有两个：一是完全不知所措，二是知道该做什么却不想面对\n\n[[读书-零秒执行力#^17llqm|做事完全不知所措]]：不知道什么重要，不知道该关注什么？无法确定方向-> 通过请教他人，大多数人会害怕知道应该做什么，于是总是无法下定决心去努力了解该做什么\n\n[[读书-零秒执行力#^va6s1f|知道要做的事，但无法采取行动]]：不采取行动能获得暂时的轻松，但是以后会拖成大问题-> 直面情况，认真考虑，厘清思路，了解该做什么，并且迅速处理，这样要比紧闭双眼、无动于衷好得多\n\n做事完全不知所措的原因有哪些？ ^17llqm\n\n没有收集全部信息就会感到不安、恐惧：对没有收集到全部信息而感到不安和恐惧，原本早该下结论的事，还是想不停收集信息，导致一拖再拖-> 信息是有收集成本的，一直幻想掌握全部信息，是不理想的，一般信息收集几小时、几天、最长不超过 1~2 周，要注意：管理收集信息的时间，而不是信息量。在收集信息时，除要关注网络、报纸、杂志、书籍等媒体外，还必须向有真知灼见且直率的人请教。这是因为，独自在不熟悉的领域中收集信息的话，很有可能会出现很大的方向性的错误\n\n大脑中充斥着信息：信息收集得太多，导致大脑需要顾及的事情太多，想法与想法之间相互打架

# doc、xml等文件

依赖Azure AI 文档智能 (以前称为 Azure Form Recognizer) 云服务，需要key，暂不记录

# 目录

In [20]:
from langchain.document_loaders import DirectoryLoader
# DirectoryLoader初始化需要参数loader_cls，该参数指定了使用哪种解释器处理文件，默认值是UnstructuredFileLoader

loader = DirectoryLoader("./documents/", glob="*.md", show_progress=True)
documents=loader.load()
print(documents[0].metadata)

100%|██████████| 2/2 [00:00<00:00, 18.05it/s]

{'source': 'documents/如何面试别人.md'}



