新功能
📊 PPT/PPTX 课件提取 (extract_pptx.py)
- 提取幻灯片标题、正文、表格、讲稿备注为 Markdown(
<!-- slide N -->标记) - 自动检测纯图片幻灯片(文本 < 50 字符),标记
IMAGE-HEAVY, 待 OCR --render-images导出嵌入图片供 OCR.ppt旧格式自动通过 LibreOffice 转换(未安装则给出提示)- 与
extract_pdf.py接口和输出格式一致
📖 整章讲义合并 (build_chapter_lecture.py)
- 将已生成的各节讲义 JSON 合并为单个章级 HTML / Markdown
- 多级目录:节作为分组头(带深讲/速通标签),知识点嵌套链接
- 节间分隔:每节独立区域 + 模式标签
- 独立已学追踪:localStorage key 按章节隔离,不与单节 HTML 冲突
- 复用
build_lecture.py渲染管线,内容完全一致 build_lecture.py提取了render_html_points()可复用函数
安装: pip3 install pymupdf python-pptx