In [1]:
%pip install fitz

^C
Note: you may need to restart the kernel to use updated packages.


In [None]:
import fitz  # PyMuPDF
import json
from pathlib import Path


In [20]:
base_dir =  Path().resolve()
datas_dir = base_dir.parent / 'data' / 'PDFs' 
chunk_json_path = base_dir / 'all_pdf_page_chunks.json'

In [None]:
pdf_files = list(datas_dir.rglob('*.pdf'))

if not pdf_files:
    print(f"警告：在目录 '{datas_dir}' 中未找到任何 PDF 文件。")
else:
    print(f"找到 {len(pdf_files)} 个 PDF 文件")

找到 132 个 PDF 文件


In [27]:
import random

random.seed(42)
sample_size = max(1, int(len(pdf_files) * 0.1))  # 至少抽 1 个
sampled_pdf_files = random.sample(pdf_files, sample_size)

print(f"📄 总共 {len(pdf_files)} 个 PDF 文件，随机抽取 {sample_size} 个样本：")
for f in sampled_pdf_files:
    print(" -", f.name)


📄 总共 132 个 PDF 文件，随机抽取 13 个样本：
 - 公司研究伊利股份-深度报告优秀管理助力长跑胜出净利率有望重回上升通道-2020010831页.pdf
 - 伊利股份-公司深度报告王者荣耀行稳致远-22021459页.pdf
 - 千味央厨-深度报告速冻B端优势企业借餐饮长风乘势而起-21090728页.pdf
 - 千味央厨-厨之道央泱食材中有千味结-21090631页.pdf
 - 千味央厨-公司首次覆盖餐饮供应链龙头只为优厨之选-22052936页.pdf
 - 公司研究广联达-深度报告云图已现决胜蓝海-2020011034页.pdf
 - 公司研究伊利股份-基本面稳定短期存在盈利弹性-21012816页.pdf
 - 公司研究伊利股份-上市公司深度温故知新走向全球化多元化的新伊利-2020021044页.pdf
 - 广联达-跟踪报告数字建筑龙头五问五答-21120815页.pdf
 - 伊利股份-公司研究报告-平台化的乳企龙头引领行业高质量转型-25071638页.pdf
 - 伊利股份-公司研究专题报告高股息铸盾景气度为矛当前重点推荐-23051519页.pdf
 - 公司研究伊利股份-乳制品龙头国际赛道扬帆起航-2020031831页.pdf
 - 千味央厨-公司研究报告-深耕餐饮供应链为人间千味-23011258页.pdf


In [28]:
all_chunks = []

for pdf_path in sampled_pdf_files:
    file_name_stem = pdf_path.stem
    full_file_name = pdf_path.name
    print(f"📄 正在处理: {full_file_name}")

    try:
        with fitz.open(pdf_path) as doc:
            for page_idx, page in enumerate(doc):
                content = page.get_text("text")

                if not content.strip():
                    continue

                chunk = {
                    "id": f"{file_name_stem}_page_{page_idx}",
                    "content": content,
                    "metadata": {
                        "page": page_idx,
                        "file_name": full_file_name
                    }
                }
                all_chunks.append(chunk)
    except Exception as e:
        print(f"⚠️ 处理文件 '{pdf_path}' 时发生错误: {e}")


📄 正在处理: 公司研究伊利股份-深度报告优秀管理助力长跑胜出净利率有望重回上升通道-2020010831页.pdf
📄 正在处理: 伊利股份-公司深度报告王者荣耀行稳致远-22021459页.pdf
📄 正在处理: 千味央厨-深度报告速冻B端优势企业借餐饮长风乘势而起-21090728页.pdf
📄 正在处理: 千味央厨-厨之道央泱食材中有千味结-21090631页.pdf
📄 正在处理: 千味央厨-公司首次覆盖餐饮供应链龙头只为优厨之选-22052936页.pdf
📄 正在处理: 公司研究广联达-深度报告云图已现决胜蓝海-2020011034页.pdf
📄 正在处理: 公司研究伊利股份-基本面稳定短期存在盈利弹性-21012816页.pdf
📄 正在处理: 公司研究伊利股份-上市公司深度温故知新走向全球化多元化的新伊利-2020021044页.pdf
📄 正在处理: 广联达-跟踪报告数字建筑龙头五问五答-21120815页.pdf
📄 正在处理: 伊利股份-公司研究报告-平台化的乳企龙头引领行业高质量转型-25071638页.pdf
📄 正在处理: 伊利股份-公司研究专题报告高股息铸盾景气度为矛当前重点推荐-23051519页.pdf
📄 正在处理: 公司研究伊利股份-乳制品龙头国际赛道扬帆起航-2020031831页.pdf
📄 正在处理: 千味央厨-公司研究报告-深耕餐饮供应链为人间千味-23011258页.pdf


In [30]:
chunk_json_path.parent.mkdir(parents=True, exist_ok=True)

with open(chunk_json_path, 'w', encoding='utf-8') as f:
    json.dump(all_chunks, f, ensure_ascii=False, indent=2)

print(f"✅ 抽样页面已保存至: {chunk_json_path}")


✅ 抽样页面已保存至: D:\Datawhale\Multimodal-RAG-Competitions\notebook\all_pdf_page_chunks.json
