Skip to content

v1.2.2 — PPT 课件提取 + 整章讲义合并

Latest

Choose a tag to compare

@2362094903-ops 2362094903-ops released this 17 Jun 08:40

新功能

📊 PPT/PPTX 课件提取 (extract_pptx.py)

  • 提取幻灯片标题、正文、表格、讲稿备注为 Markdown(<!-- slide N --> 标记)
  • 自动检测纯图片幻灯片(文本 < 50 字符),标记 IMAGE-HEAVY, 待 OCR
  • --render-images 导出嵌入图片供 OCR
  • .ppt 旧格式自动通过 LibreOffice 转换(未安装则给出提示)
  • extract_pdf.py 接口和输出格式一致

📖 整章讲义合并 (build_chapter_lecture.py)

  • 将已生成的各节讲义 JSON 合并为单个章级 HTML / Markdown
  • 多级目录:节作为分组头(带深讲/速通标签),知识点嵌套链接
  • 节间分隔:每节独立区域 + 模式标签
  • 独立已学追踪:localStorage key 按章节隔离,不与单节 HTML 冲突
  • 复用 build_lecture.py 渲染管线,内容完全一致
  • build_lecture.py 提取了 render_html_points() 可复用函数

安装: pip3 install pymupdf python-pptx