# 第二章 文档加载

 - [一、PDF文档](#一、PDF文档)
 - [二、YouTube音频](#二、YouTube音频)
 - [三、网页文档](#三、网页文档)
 - [四、Notion文档](#四、Notion文档)

## 一、PDF文档

首先，我们来加载一个[PDF文档](https://see.stanford.edu/materials/aimlcs229/transcripts/MachineLearning-Lecture01.pdf)。该文档为吴恩达教授的2009年机器学习课程的字幕文件。因为这些字幕为自动生成，所以词句直接可能不太连贯和通畅。

In [1]:
from typing import List
from langchain.document_loaders import PyPDFLoader
from langchain_core.documents import Document


# 创建一个 PyPDFLoader Class 实例，输入为待加载的pdf文档路径
loader = PyPDFLoader("docs/cs229_lectures/MachineLearning-Lecture01.pdf")

# 加载pdf文件
# 文档变量类型包含两个属性：page_content 包含该文档的内容、meta_data 为文档相关的描述性数据。
pages: List[Document] = loader.load()
print(len(pages))
print(pages[0].metadata)
pages[0].page_content[:100]

22
{'source': 'docs/cs229_lectures/MachineLearning-Lecture01.pdf', 'page': 0}


'MachineLearning-Lecture01  \nInstructor (Andrew Ng):  Okay. Good morning. Welcome to CS229, the machi'

## 二、YouTube音频

在第一部分的内容，我们学习了如何加载PDF文档。在这部分的内容，我们学习对于给定的 YouTube 视频链接
- 如何使用LangChain加载器将视频的音频下载到本地
- 然后使用OpenAIWhisperPaser解析器将音频转化为文本

In [5]:
from langchain.document_loaders.generic import GenericLoader
from langchain.document_loaders.parsers import OpenAIWhisperParser
from langchain.document_loaders.blob_loaders.youtube_audio import YoutubeAudioLoader


url="https://www.youtube.com/watch?v=jGwO_UgTS7I"
save_dir="docs/youtube/"

# 创建一个 GenericLoader Class 实例
loader = GenericLoader(
    #将链接url中的Youtube视频的音频下载下来,存在本地路径save_dir
    YoutubeAudioLoader([url], save_dir),

    #使用OpenAIWhisperPaser解析器将音频转化为文本
    OpenAIWhisperParser()
)

# 调用 GenericLoader Class 的函数 load对视频的音频文件进行加载
pages: List[Document] = loader.load()
print(len(pages))
print(pages[0].metadata)
pages[0].page_content[:100]

[youtube] Extracting URL: https://www.youtube.com/watch?v=jGwO_UgTS7I
[youtube] jGwO_UgTS7I: Downloading webpage




[youtube] jGwO_UgTS7I: Downloading ios player API JSON




[youtube] jGwO_UgTS7I: Downloading iframe API JS




[youtube] jGwO_UgTS7I: Downloading web player API JSON


ERROR: [youtube] jGwO_UgTS7I: Failed to extract any player response; please report this issue on  https://github.com/yt-dlp/yt-dlp/issues?q= , filling out the appropriate issue template. Confirm you are on the latest version using  yt-dlp -U


DownloadError: ERROR: [youtube] jGwO_UgTS7I: Failed to extract any player response; please report this issue on  https://github.com/yt-dlp/yt-dlp/issues?q= , filling out the appropriate issue template. Confirm you are on the latest version using  yt-dlp -U

## 三、网页文档

在第二部分，我们对于给定的 YouTube 视频链接 (URL)，使用 LangChain 加载器将视频的音频下载到本地，然后使用 OpenAIWhisperPaser 解析器将音频转化为文本。

本部分，对于给定网页文档链接(URLs)，我们学习如何对其进行加载。这里我们对Github上的网页文档进行加载，该文档格式为markdown。

In [16]:
from langchain.document_loaders import WebBaseLoader
import json

# 创建一个 WebBaseLoader Class 实例
url = "https://github.com/basecamp/handbook/blob/master/our-internal-systems.md"
header = {'User-Agent': 'python-requests/2.27.1', 
          'Accept-Encoding': 'gzip, deflate, br', 
          'Accept': '*/*',
          'Connection': 'keep-alive'}
loader = WebBaseLoader(web_path=url, header_template=header)

# 调用 WebBaseLoader Class 的函数 load对文件进行加载
pages: List[Document] = loader.load()
print(len(pages))
print(pages[0].metadata)
print(pages[0].page_content[:100])

# convert_to_json = json.loads(pages[0].page_content)
# extracted_markdow = convert_to_json['payload']['blob']['richText']
# print(extracted_markdow)

SSLError: HTTPSConnectionPool(host='github.com', port=443): Max retries exceeded with url: /basecamp/handbook/blob/master/our-internal-systems.md (Caused by SSLError(SSLEOFError(8, 'EOF occurred in violation of protocol (_ssl.c:2426)')))

可以看到上面的文档内容包含许多冗余的信息。通常来讲，我们需要进行对这种数据进行进一步处理(Post Processing)。

## 四、Notion文档

- 点击[Notion示例文档](https://yolospace.notion.site/Blendle-s-Employee-Handbook-e31bff7da17346ee99f531087d8b133f)右上方复制按钮(Duplicate)，复制文档到你的Notion空间
- 点击右上方`⋯` 按钮，选择导出为Mardown&CSV。导出的文件将为zip文件夹
- 解压并保存mardown文档到本地路径`docs/Notion_DB/`

In [17]:
from langchain.document_loaders import NotionDirectoryLoader
loader = NotionDirectoryLoader("docs/Notion_DB")
docs = loader.load()
docs[0].page_content[0:500]

"# Firing\n\nSaying goodbye to Blendle (from a colleague) and to a colleague (from Blendle) is a very normal and natural thing. When done right, it can even be a beautiful thing. \n\nWe advise you to read the backdrop below first, but feel free to jump in right away with the 'Here's what you can do'-section :). General note: you do not have to do this alone, so please ask for advice and help!\n\n- **Backdrop**\n    \n    Saying goodbye to Blendle (from a colleague) and to a colleague (from Blendle) is a "