In [1]:
%pip install fitz

^C
Note: you may need to restart the kernel to use updated packages.


In [2]:
import fitz  # PyMuPDF
import json
from pathlib import Path

In [3]:
base_dir =  Path().resolve()
datas_dir = base_dir.parent / 'data' / 'PDFs' 
chunk_json_path = base_dir / 'sample_pdf_page_chunks.json'

In [38]:
pdf_files = list(datas_dir.rglob('*.pdf'))

if not pdf_files:
    print(f"警告：在目录 '{datas_dir}' 中未找到任何 PDF 文件。")
else:
    print(f"找到 {len(pdf_files)} 个 PDF 文件")

找到 132 个 PDF 文件


In [6]:
import random

random.seed(42)
sample_size =  max(1, int(len(pdf_files) * 0.1)) 
sampled_pdf_files = random.sample(pdf_files, sample_size)

print(f"📄 总共 {len(pdf_files)} 个 PDF 文件，随机抽取 {sample_size} 个样本：")
for f in sampled_pdf_files:
    print(" -", f.name)


📄 总共 132 个 PDF 文件，随机抽取 13 个样本：
 - 公司研究伊利股份-深度报告优秀管理助力长跑胜出净利率有望重回上升通道-2020010831页.pdf
 - 伊利股份-公司深度报告王者荣耀行稳致远-22021459页.pdf
 - 千味央厨-深度报告速冻B端优势企业借餐饮长风乘势而起-21090728页.pdf
 - 千味央厨-厨之道央泱食材中有千味结-21090631页.pdf
 - 千味央厨-公司首次覆盖餐饮供应链龙头只为优厨之选-22052936页.pdf
 - 公司研究广联达-深度报告云图已现决胜蓝海-2020011034页.pdf
 - 公司研究伊利股份-基本面稳定短期存在盈利弹性-21012816页.pdf
 - 公司研究伊利股份-上市公司深度温故知新走向全球化多元化的新伊利-2020021044页.pdf
 - 广联达-跟踪报告数字建筑龙头五问五答-21120815页.pdf
 - 伊利股份-公司研究报告-平台化的乳企龙头引领行业高质量转型-25071638页.pdf
 - 伊利股份-公司研究专题报告高股息铸盾景气度为矛当前重点推荐-23051519页.pdf
 - 公司研究伊利股份-乳制品龙头国际赛道扬帆起航-2020031831页.pdf
 - 千味央厨-公司研究报告-深耕餐饮供应链为人间千味-23011258页.pdf


--- Chunking method :  Chunk by page ------

In [44]:
all_chunks = []

for pdf_path in pdf_files:
    file_name_stem = pdf_path.stem
    full_file_name = pdf_path.name
    print(f"📄 正在处理: {full_file_name}")

    try:
        with fitz.open(pdf_path) as doc:
            for page_idx, page in enumerate(doc):
                content = page.get_text("text")

                if not content.strip():
                    continue

                chunk = {
                    "id": f"{file_name_stem}_page_{page_idx}",
                    "content": content,
                    "metadata": {
                        "page": page_idx,
                        "file_name": full_file_name
                    }
                }
                all_chunks.append(chunk)
    except Exception as e:
        print(f"⚠️ 处理文件 '{pdf_path}' 时发生错误: {e}")


📄 正在处理: 中恒电气-公司研究报告-HVDC方案领头羊AI浪潮下迎新机-25071124页.pdf
📄 正在处理: 亚翔集成-公司研究报告-迎接海外业务重估-25071324页.pdf
📄 正在处理: 亿欧中国企业出海沙特季度研究报告-AI专题2025Q267页.pdf
📄 正在处理: 伊利专业乳品2022中国现制茶饮渠道消费者与行业趋势报告40页.pdf
📄 正在处理: 伊利股份-产业周期叠加内生动力业绩增速向上-21093038页.pdf
📄 正在处理: 伊利股份-产品升级叠加费用率下降盈利能力持续提升-22041256页.pdf
📄 正在处理: 伊利股份-公司深度报告王者荣耀行稳致远-22021459页.pdf
📄 正在处理: 伊利股份-公司研究专题报告高股息铸盾景气度为矛当前重点推荐-23051519页.pdf
📄 正在处理: 伊利股份-公司研究报告-平台化的乳企龙头引领行业高质量转型-25071638页.pdf
📄 正在处理: 伊利股份-公司研究报告黑夜终将过去把握高股息低估值乳品龙头机会-24110830页.pdf
📄 正在处理: 伊利股份-大象起舞龙头远航-2020072627页.pdf
📄 正在处理: 伊利股份-格局之变提供发展机遇内生外延打造第二曲线-22052743页.pdf
📄 正在处理: 伊利股份-王者之路扶摇而上-21083136页.pdf
📄 正在处理: 伊利股份-长期规划核心逻辑清晰十年问鼎全球乳业新高点1-21070625页.pdf
📄 正在处理: 伊利股份内蒙古伊利实业集团股份有限公司2024年年度报告.pdf
📄 正在处理: 伊利股份内蒙古伊利实业集团股份有限公司2024年第三季度报告.pdf
📄 正在处理: 伊利股份内蒙古伊利实业集团股份有限公司2025年第一季度报告.pdf
📄 正在处理: 伊利股份多元优势铸造乳企龙头未来战略目标平稳推进42页.pdf
📄 正在处理: 伟星股份-公司首次覆盖服饰辅料龙头柔性制造打造核心竞争力-25071313页.pdf
📄 正在处理: 传音控股-公司研究报告-非洲手机领军者多元化布局品类扩张生态链延伸打开成长空间-25071636页.pdf
📄 正在处理: 儒竞科技-公司研究报告-热泵控制器领导者新能车热管理及自动化构筑新增长曲线-25071036页.pdf
📄 正在处理: 光明肉业-公司

--- Block level chunking method---

In [46]:
# ✅ Block-level chunking with your exact schema
import re, fitz, hashlib
from pathlib import Path

CAPTION_RE = re.compile(r'^(图|表|Figure|Table)\s*[\d一二三四五六七八九十]+', re.IGNORECASE)

def _norm(s: str) -> str:
    return re.sub(r'\s+', ' ', (s or '').strip())

def extract_blocks(page, strip_header_footer=True, top_ratio=0.12, bottom_ratio=0.10):
    """Return normalized block texts (in reading order). Optionally drop header/footer."""
    blocks = page.get_text("blocks")  # [(x0,y0,x1,y1,text, ...)]
    blocks = sorted(blocks, key=lambda b: (round(b[1],1), round(b[0],1)))
    out = []
    if strip_header_footer:
        h = float(page.rect.height)
        top_y = h * top_ratio
        bot_y = h * (1 - bottom_ratio)
        for (x0, y0, x1, y1, txt, *_rest) in blocks:
            t = _norm(txt)
            if not t:
                continue
            # drop header/footer unless it looks like a caption
            if (y1 <= top_y or y0 >= bot_y) and not CAPTION_RE.match(t):
                continue
            out.append(t)
    else:
        out = [_norm(b[4]) for b in blocks if _norm(b[4])]
    return out

def attach_captions(block_texts):
    """Attach caption-looking blocks to the next block to keep figure/table context."""
    attached, i = [], 0
    while i < len(block_texts):
        t = block_texts[i]
        if CAPTION_RE.match(t) and i + 1 < len(block_texts):
            attached.append((t + " " + block_texts[i+1]).strip())
            i += 2
        else:
            attached.append(t)
            i += 1
    return attached

def merge_to_windows(block_texts, target_chars=900, overlap_chars=150):
    """Greedy merge of block texts into sliding windows with small overlap."""
    chunks, buf = [], ""
    for t in block_texts:
        if len(buf) + len(t) + 1 <= target_chars:
            buf = (buf + " " + t).strip()
        else:
            if buf:
                chunks.append(buf)
            tail = buf[-overlap_chars:] if overlap_chars and buf else ""
            buf = (tail + " " + t).strip()
    if buf:
        chunks.append(buf)
    return chunks

# ==== Your original loop, upgraded to block-level ====
all_chunks = []
seen = set()  # simple dedup across near-identical windows

# Set to 1 if your labels/pages are 1-based in ground truth
PAGE_BASE = 0

for pdf_path in pdf_files:
    file_name_stem = pdf_path.stem
    full_file_name = pdf_path.name
    print(f"📄 正在处理: {full_file_name}")

    try:
        with fitz.open(pdf_path) as doc:
            for page_idx, page in enumerate(doc):
                blocks = extract_blocks(page, strip_header_footer=True)
                if not blocks:
                    continue
                blocks = attach_captions(blocks)
                windows = merge_to_windows(blocks, target_chars=900, overlap_chars=150)

                for widx, w in enumerate(windows):
                    # dedup by hash of normalized text
                    h = hashlib.md5(_norm(w).encode("utf-8")).hexdigest()
                    if h in seen:
                        continue
                    seen.add(h)

                    chunk = {
                        "id": f"{file_name_stem}_page_{page_idx + PAGE_BASE}_w{widx}",
                        "content": w,
                        "metadata": {
                            "page": page_idx + PAGE_BASE,
                            "file_name": full_file_name
                        }
                    }
                    all_chunks.append(chunk)
    except Exception as e:
        print(f"⚠️ 处理文件 '{pdf_path}' 时发生错误: {e}")


📄 正在处理: 中恒电气-公司研究报告-HVDC方案领头羊AI浪潮下迎新机-25071124页.pdf
📄 正在处理: 亚翔集成-公司研究报告-迎接海外业务重估-25071324页.pdf
📄 正在处理: 亿欧中国企业出海沙特季度研究报告-AI专题2025Q267页.pdf
📄 正在处理: 伊利专业乳品2022中国现制茶饮渠道消费者与行业趋势报告40页.pdf
📄 正在处理: 伊利股份-产业周期叠加内生动力业绩增速向上-21093038页.pdf
📄 正在处理: 伊利股份-产品升级叠加费用率下降盈利能力持续提升-22041256页.pdf
📄 正在处理: 伊利股份-公司深度报告王者荣耀行稳致远-22021459页.pdf
📄 正在处理: 伊利股份-公司研究专题报告高股息铸盾景气度为矛当前重点推荐-23051519页.pdf
📄 正在处理: 伊利股份-公司研究报告-平台化的乳企龙头引领行业高质量转型-25071638页.pdf
📄 正在处理: 伊利股份-公司研究报告黑夜终将过去把握高股息低估值乳品龙头机会-24110830页.pdf
📄 正在处理: 伊利股份-大象起舞龙头远航-2020072627页.pdf
📄 正在处理: 伊利股份-格局之变提供发展机遇内生外延打造第二曲线-22052743页.pdf
📄 正在处理: 伊利股份-王者之路扶摇而上-21083136页.pdf
📄 正在处理: 伊利股份-长期规划核心逻辑清晰十年问鼎全球乳业新高点1-21070625页.pdf
📄 正在处理: 伊利股份内蒙古伊利实业集团股份有限公司2024年年度报告.pdf
📄 正在处理: 伊利股份内蒙古伊利实业集团股份有限公司2024年第三季度报告.pdf
📄 正在处理: 伊利股份内蒙古伊利实业集团股份有限公司2025年第一季度报告.pdf
📄 正在处理: 伊利股份多元优势铸造乳企龙头未来战略目标平稳推进42页.pdf
📄 正在处理: 伟星股份-公司首次覆盖服饰辅料龙头柔性制造打造核心竞争力-25071313页.pdf
📄 正在处理: 传音控股-公司研究报告-非洲手机领军者多元化布局品类扩张生态链延伸打开成长空间-25071636页.pdf
📄 正在处理: 儒竞科技-公司研究报告-热泵控制器领导者新能车热管理及自动化构筑新增长曲线-25071036页.pdf
📄 正在处理: 光明肉业-公司

--- semantic chunking ---

In [53]:
# ✅ Semantic chunking with your exact schema (sentence-level windows)
import re, fitz, hashlib
from pathlib import Path

CAPTION_RE = re.compile(r'^(图|表|Figure|Table)\s*[\d一二三四五六七八九十]+', re.IGNORECASE)

def _norm(s: str) -> str:
    return re.sub(r'\s+', ' ', (s or '').strip())

def extract_blocks(page, strip_header_footer=True, top_ratio=0.12, bottom_ratio=0.10):
    """Return normalized block texts (reading order). Optionally drop header/footer."""
    blocks = page.get_text("blocks")  # [(x0,y0,x1,y1,text, ...)]
    blocks = sorted(blocks, key=lambda b: (round(b[1],1), round(b[0],1)))
    out = []
    if strip_header_footer:
        h = float(page.rect.height)
        top_y = h * top_ratio
        bot_y = h * (1 - bottom_ratio)
        for (x0, y0, x1, y1, txt, *_rest) in blocks:
            t = _norm(txt)
            if not t:
                continue
            # drop header/footer unless it looks like a caption
            if (y1 <= top_y or y0 >= bot_y) and not CAPTION_RE.match(t):
                continue
            out.append(t)
    else:
        out = [_norm(b[4]) for b in blocks if _norm(b[4])]
    return out

def attach_captions(block_texts):
    """Attach caption-looking blocks to the next block to keep figure/table context."""
    attached, i = [], 0
    while i < len(block_texts):
        t = block_texts[i]
        if CAPTION_RE.match(t) and i + 1 < len(block_texts):
            attached.append((t + " " + block_texts[i+1]).strip())
            i += 2
        else:
            attached.append(t)
            i += 1
    return attached

# --- NEW: sentence splitter (CN/EN) ---
SPLIT_RE = re.compile(r'(?<=[。！？!?；;])\s+|(?<=\.)\s+')

def split_sentences_zh_en(text: str, min_len: int = 6):
    """
    Crude multilingual sentence splitter.
    min_len trims tiny fragments (bullets/headers).
    """
    text = _norm(text)
    if not text:
        return []
    parts = [p.strip() for p in SPLIT_RE.split(text) if p.strip()]
    # filter tiny fragments
    return [p for p in parts if len(p) >= min_len]

def merge_sentences_to_windows(sentences, target_chars=900, overlap_chars=150):
    """
    Greedy merge of sentences into sliding windows with small overlap.
    ~900 chars ≈ 200–300 tokens (zh/en mix).
    """
    chunks, buf = [], ""
    for s in sentences:
        if len(buf) + len(s) + 1 <= target_chars:
            buf = (buf + " " + s).strip()
        else:
            if buf:
                chunks.append(buf)
            tail = buf[-overlap_chars:] if overlap_chars and buf else ""
            buf = (tail + " " + s).strip()
    if buf:
        chunks.append(buf)
    return chunks

# ==== Your original loop, upgraded to semantic chunking ====
all_chunks = []
seen = set()  # dedup near-identical windows

# Set to 1 if your labels/pages are 1-based in ground truth
PAGE_BASE = 0

for pdf_path in pdf_files:
    file_name_stem = pdf_path.stem
    full_file_name = pdf_path.name
    print(f"📄 正在处理: {full_file_name}")

    try:
        with fitz.open(pdf_path) as doc:
            for page_idx, page in enumerate(doc):
                # 1) blocks (strip header/footer) → attach captions
                blocks = extract_blocks(page, strip_header_footer=True)
                if not blocks:
                    continue
                blocks = attach_captions(blocks)

                # 2) semantic split: blocks → sentences
                sentences = []
                for b in blocks:
                    sentences.extend(split_sentences_zh_en(b, min_len=6))

                if not sentences:
                    continue

                # 3) merge sentences into windows (tune sizes as needed)
                windows = merge_sentences_to_windows(
                    sentences,
                    target_chars=900,   # try 700–1100
                    overlap_chars=150   # try 100–200
                )

                # 4) create chunks (schema preserved) + dedup
                for widx, w in enumerate(windows):
                    h = hashlib.md5(_norm(w).encode("utf-8")).hexdigest()
                    if h in seen:
                        continue
                    seen.add(h)

                    chunk = {
                        "id": f"{file_name_stem}_page_{page_idx + PAGE_BASE}_w{widx}",
                        "content": w,
                        "metadata": {
                            "page": page_idx + PAGE_BASE,  # use +1 if GT pages are 1-based
                            "file_name": full_file_name
                        }
                    }
                    all_chunks.append(chunk)
    except Exception as e:
        print(f"⚠️ 处理文件 '{pdf_path}' 时发生错误: {e}")


📄 正在处理: 中恒电气-公司研究报告-HVDC方案领头羊AI浪潮下迎新机-25071124页.pdf
📄 正在处理: 亚翔集成-公司研究报告-迎接海外业务重估-25071324页.pdf
📄 正在处理: 亿欧中国企业出海沙特季度研究报告-AI专题2025Q267页.pdf
📄 正在处理: 伊利专业乳品2022中国现制茶饮渠道消费者与行业趋势报告40页.pdf
📄 正在处理: 伊利股份-产业周期叠加内生动力业绩增速向上-21093038页.pdf
📄 正在处理: 伊利股份-产品升级叠加费用率下降盈利能力持续提升-22041256页.pdf
📄 正在处理: 伊利股份-公司深度报告王者荣耀行稳致远-22021459页.pdf
📄 正在处理: 伊利股份-公司研究专题报告高股息铸盾景气度为矛当前重点推荐-23051519页.pdf
📄 正在处理: 伊利股份-公司研究报告-平台化的乳企龙头引领行业高质量转型-25071638页.pdf
📄 正在处理: 伊利股份-公司研究报告黑夜终将过去把握高股息低估值乳品龙头机会-24110830页.pdf
📄 正在处理: 伊利股份-大象起舞龙头远航-2020072627页.pdf
📄 正在处理: 伊利股份-格局之变提供发展机遇内生外延打造第二曲线-22052743页.pdf
📄 正在处理: 伊利股份-王者之路扶摇而上-21083136页.pdf
📄 正在处理: 伊利股份-长期规划核心逻辑清晰十年问鼎全球乳业新高点1-21070625页.pdf
📄 正在处理: 伊利股份内蒙古伊利实业集团股份有限公司2024年年度报告.pdf
📄 正在处理: 伊利股份内蒙古伊利实业集团股份有限公司2024年第三季度报告.pdf
📄 正在处理: 伊利股份内蒙古伊利实业集团股份有限公司2025年第一季度报告.pdf
📄 正在处理: 伊利股份多元优势铸造乳企龙头未来战略目标平稳推进42页.pdf
📄 正在处理: 伟星股份-公司首次覆盖服饰辅料龙头柔性制造打造核心竞争力-25071313页.pdf
📄 正在处理: 传音控股-公司研究报告-非洲手机领军者多元化布局品类扩张生态链延伸打开成长空间-25071636页.pdf
📄 正在处理: 儒竞科技-公司研究报告-热泵控制器领导者新能车热管理及自动化构筑新增长曲线-25071036页.pdf
📄 正在处理: 光明肉业-公司

In [54]:
all_chunks[0:5]
len(all_chunks)

7802

In [55]:
chunk_json_path.parent.mkdir(parents=True, exist_ok=True)

with open(chunk_json_path, 'w', encoding='utf-8') as f:
    json.dump(all_chunks, f, ensure_ascii=False, indent=2)

print(f"✅ 抽样页面已保存至: {chunk_json_path}")


✅ 抽样页面已保存至: D:\Datawhale\Multimodal-RAG-Competitions\notebook\sample_pdf_page_chunks.json
