### 基本内容
1. 数据收集与分类
2. 数据解析与内容提取
3. 数据清洗与标准化
4. 数据存储与索引 
5. 后续处理与验证

### 数据收集与分类
- 目标：整理原始文件，按类型分类
  - 创建统一文件夹（如 documents/, audio/, video/）
  - 使用脚本自动分类（Python + os 库按扩展名分类）
  - 记录元数据（文件名、格式、大小、创建时间）

### 数据解析与内容提取
通用原则：将非文本数据（音频/视频）转为文本，提取文档中的结构化/非结构化内容

#### 1. 文档类处理

##### Word
- 使用 python-docx 提取文本和表格

In [None]:
from docx import Document
doc = Document("../files/doc.docx")
text = "\n".join([para.text for para in doc.paragraphs])
print(text)

##### Excel
- 使用 pandas 读取数据，保存为CSV或JSON
- 依赖 openpyxl 库

In [None]:
import pandas as pd
df = pd.read_excel("../files/excel.xlsx")
print(df.head())

##### PDF
- 使用 PyMuPDFLoader 来读取 PDF 文件
    - PyMuPDFLoader 是 PDF 解析器中速度最快的一种
    - 结果会包含 PDF 及其页面的详细元数据，并且每页返回一个文档。
- 示例代码（文本提取）：

In [None]:
from langchain.document_loaders import PyMuPDFLoader

# 创建一个 PyMuPDFLoader Class 实例，输入为待加载的 pdf 文档路径
ploader = PyMuPDFLoader("../files/pumpkin_book.pdf")

# 调用 PyMuPDFLoader Class 的函数 load 对 pdf 文件进行加载
pages = ploader.load()

print(f"载入后的变量类型为：{type(pages)}",  f"该 PDF 一共包含 {len(pages)} 页", sep="\n")

In [None]:
page = pages[1]
print(f"该元素的类型：{type(page)}.", 
    f"该文档的描述性数据：{page.metadata}", 
    f"该文档的字数: {len(page.page_content)}", 
    f"该文档的内容:\n{page.page_content[0:300]}", 
    sep="\n------\n")

##### Markdown
- 使用 LangChain 提供的 UnstructuredMarkdownLoader
- 将 Markdown 文件中的内容转换为 LangChain 的文档对象，方便后续的文本处理和分析
- 能够识别并解析 Markdown 中的各种元素，如标题、段落、列表、链接等

#### 音频/视频处理

##### 视频预处理
- 使用 FFmpeg 提取音频：
```
ffmpeg -i video.mp4 -vn -acodec libmp3lame audio.mp3
```

##### 语音转文本
- 将音视频文件直接转为 text 文件再通过代码读取
    - ```whisper ./video.mp4 --model large --model_dir whisper-large --language zh --output_dir ./output```
- 代码读取音频文件：

In [None]:
import whisper
model = whisper.load_model("base")
result = model.transcribe("../files/audio.mp3")
print(result["text"])

### 数据清洗与标准化