# 第二章 文档加载

 - [一、PDF文档](#一、PDF文档)
     - [1.1 安装相关包 ](#1.1-安装相关包-)
     - [1.2 加载PDF文档](#1.2-加载PDF文档)
     - [1.3 探索加载的数据](#1.3-探索加载的数据)
 - [二、YouTube音频](#二、YouTube音频)
     - [2.1 安装相关包 ](#2.1-安装相关包-)
     - [2.2 加载Youtube音频文档](#2.2-加载Youtube音频文档)
     - [2.3 探索加载的数据](#2.3-探索加载的数据)
 - [三、网页文档](#三、网页文档)
     - [3.1 加载网页文档](#3.1-加载网页文档)
     - [3.2 探索加载的数据](#3.2-探索加载的数据)
 - [四、Notion文档](#四、Notion文档)
     - [4.1 加载Notion Markdown文档](#4.1-加载Notion-Markdown文档)
     - [4.2 探索加载的数据](#4.2-探索加载的数据)


同前序课程一样，我们同样需要先配置环境以访问 OpenAI 提供的 API，配置方法如下，详细介绍请参见其他课程

In [None]:
# 下载最新版 LangChain
# !pip install -q langchain --upgrade

In [None]:
import os
import openai
import sys
sys.path.append('../..')

from dotenv import load_dotenv, find_dotenv
_ = load_dotenv(find_dotenv()) 

# os.environ

## 一、PDF文档

首先，我们来加载一个[PDF文档](https://see.stanford.edu/materials/aimlcs229/transcripts/MachineLearning-Lecture01.pdf)。该文档为吴恩达教授的2009年机器学习课程的字幕文件。因为这些字幕为自动生成，所以词句直接可能不太连贯和通畅。

### 1.1 安装相关包 

In [None]:
# !pip install -q pypdf

### 1.2 加载PDF文档

### 1.3 探索加载的数据
文档加载后储存在`pages`变量中:
- `page`的变量类型为`List`
- 打印 `pages` 的长度可以看到pdf一共包含多少页
- `page`中的每一元素为一个文档，变量类型为`langchain.schema.Document`, 文档变量类型包含两个属性
- `page_content` 包含该文档的内容。
- `meta_data` 为文档相关的描述性数据。

In [16]:
import sys
sys.setdefaultencoding ('utf-8') 

from langchain.document_loaders import PyPDFLoader

PdfLoader = PyPDFLoader("./docs/cs229_lectures/MachineLearning-Lecture01.pdf")

# 创建一个 PyPDFLoader Class 实例，输入为待加载的pdf文档路径
# loader = PyPDFLoader("./docs/cs229_lectures/MachineLearning-Lecture01.pdf")

# 调用 PyPDFLoader Class 的函数 load对pdf文件进行加载
pages = PdfLoader.load()


print(type(pages))
print(len(pages))
print(pages)
print()


page = pages[0]
print(type(page))
print(page.page_content[0:500])
print()

print(page.metadata)
print()

AttributeError: module 'sys' has no attribute 'setdefaultencoding'

## 二、YouTube音频

在第一部分的内容，我们学习了如何加载PDF文档。在这部分的内容，我们学习对于给定的 YouTube 视频链接
- 如何使用LongChain加载器将视频的音频下载到本地
- 然后使用OpenAIWhisperPaser解析器将音频转化为文本

### 2.1 安装相关包 

In [None]:
# !pip install yt_dlp
# !pip install pydub

### 2.2 加载Youtube音频文档

### 2.3 探索加载的数据
文档加载后储存在`docs`变量中:
- `docs`的变量类型为`List`
- 打印 `docs` 的长度可以看到一共包含多少页
- `docs`中的每一元素为一个文档，变量类型为`langchain.schema.document.Document`, 文档变量类型包含两个属性
- `page_content` 包含该文档的内容。
- `meta_data` 为文档相关的描述性数据。

In [None]:
from langchain.document_loaders.generic import GenericLoader
from langchain.document_loaders.parsers import OpenAIWhisperParser
from langchain.document_loaders.blob_loaders.youtube_audio import YoutubeAudioLoader

In [None]:
url="https://www.youtube.com/watch?v=jGwO_UgTS7I"
save_dir="./docs/youtube/"

# 创建一个 GenericLoader Class 实例
loader = GenericLoader(
    #将链接url中的Youtube视频的音频下载下来,存在本地路径save_dir
    YoutubeAudioLoader([url],save_dir), 
    
    #使用OpenAIWhisperPaser解析器将音频转化为文本
    OpenAIWhisperParser()

)

# 调用 GenericLoader Class 的函数 load对视频的音频文件进行加载
video = loader.load()

print(type(video))
print(len(docs))

doc = docs[0]
print(type(doc))
print(doc.page_content[0:500])
print(doc.metadata)

## 三、网页文档

在第二部分，我们对于给定的 YouTube 视频链接 (URL)，使用 LongChain 加载器将视频的音频下载到本地，然后使用 OpenAIWhisperPaser 解析器将音频转化为文本。

本部分，对于给定网页文档链接(URLs)，我们学习如何对其进行加载。这里我们对Github上的网页文档进行加载，该文档格式为markdown。

### 3.1 加载网页文档

### 3.2 探索加载的数据

文档加载后储存在`docs`变量中:
- `docs`的变量类型为`List`
- 打印 `docs` 的长度可以看到一共包含多少页
- `docs`中的每一元素为一个文档，变量类型为`langchain.schema.document.Document`, 文档变量类型包含两个属性
- `page_content` 包含该文档的内容。
- `meta_data` 为文档相关的描述性数据。


可以看到上面的文档内容包含许多冗余的信息。通常来讲，我们需要进行对这种数据进行进一步处理(Post Processing)。

In [25]:
from langchain.document_loaders import WebBaseLoader


# 创建一个 WebBaseLoader Class 实例
url = "https://github.com/basecamp/handbook/blob/master/37signals-is-you.md"
header = {'User-Agent': 'python-requests/2.27.1', 
          'Accept-Encoding': 'gzip, deflate, br', 
          'Accept': '*/*',
          'Connection': 'keep-alive'}
loader = WebBaseLoader(web_path=url,header_template=header)

# 调用 WebBaseLoader Class 的函数 load对文件进行加载
docs = loader.load()


print(type(docs))
print(len(docs))
print()

doc = docs[0]
print(type(doc))
print(doc)
print(doc.page_content[:500])
# for item in doc:
#     print(doc[item])
print(doc.page_content)

<class 'list'>
1

<class 'langchain.schema.document.Document'>
{"payload":{"allShortcutsEnabled":false,"fileTree":{"":{"items":[{"name":"37signals-is-you.md","path":"37signals-is-you.md","contentType":"file"},{"name":"LICENSE.md","path":"LICENSE.md","contentType":"file"},{"name":"README.md","path":"README.md","contentType":"file"},{"name":"benefits-and-perks.md","path":"benefits-and-perks.md","contentType":"file"},{"name":"code-of-conduct.md","path":"code-of-conduct.md","contentType":"file"},{"name":"faq.md","path":"faq.md","contentType":"file"},{"name":"ge


In [24]:
import json
convert_to_json = json.loads(doc.page_content)
extracted_markdown = convert_to_json['payload']['blob']['richText']
print(extracted_markdown)

37signals Is You
Everyone working at 37signals represents 37signals. When a customer gets a response from Merissa on support, Merissa is 37signals. When a customer reads a tweet by Eron that our systems are down, Eron is 37signals. In those situations, all the other stuff we do to cultivate our best image is secondary. What’s right in front of someone in a time of need is what they’ll remember.
That’s what we mean when we say marketing is everyone’s responsibility, and that it pays to spend the time to recognize that. This means avoiding the bullshit of outage language and bending our policies, not just lending your ears. It means taking the time to get the writing right and consider how you’d feel if you were on the other side of the interaction.
The vast majority of our customers come from word of mouth and much of that word comes from people in our audience. This is an audience we’ve been educating and entertaining for 20 years and counting, and your voice is part of us now, whether

## 四、Notion文档

- 点击[Notion示例文档](https://yolospace.notion.site/Blendle-s-Employee-Handbook-e31bff7da17346ee99f531087d8b133f)右上方复制按钮(Duplicate)，复制文档到你的Notion空间
- 点击右上方`⋯` 按钮，选择导出为Mardown&CSV。导出的文件将为zip文件夹
- 解压并保存mardown文档到本地路径`docs/Notion_DB/`

### 4.1 加载Notion Markdown文档

### 4.2 探索加载的数据
文档加载后储存在`docs`变量中:
- `docs`的变量类型为`List`
- 打印 `docs` 的长度可以看到一共包含多少页
- `docs`中的每一元素为一个文档，变量类型为`langchain.schema.document.Document`, 文档变量类型包含两个属性
- `page_content` 包含该文档的内容。
- `meta_data` 为文档相关的描述性数据。

In [19]:
import sys 
# sys.stdin.encoding  = "utf-8"
# sys.stdout.encoding = "utf-8"
# sys.stderr.encoding = "utf-8"
sys.setdefaultencoding("utf-8")

from langchain.document_loaders import NotionDirectoryLoader
from langchain.document_loaders import NotionDBLoader

# notion_loader = NotionDBLoader(
    
# )
# loader = NotionDirectoryLoader(
#     "docs/Notion_DB",
    
# )
# docs = loader.load(encoding = "utf-8")
docs = loader.load() 

print()
print(type(docs))
print(len(docs))
print()

print()
doc = docs[0]
print(type(doc))
print(doc.page_content[0:500])

AttributeError: module 'sys' has no attribute 'setdefaultencoding'