中文 | English
一个把论文、PDF、Figure、截图、报告和自备资料等自动制作成高质量 PPT,并可进一步重建为可编辑 PPTX 的 AI PPT skill。
适合论文精读、组会汇报、教学培训和日常汇报等场景。
提供的 Figure、图表、影像和截图会自动按照原始比例嵌入到 PPTX 中,尽量不重画、不拉伸;生成的 PPTX 可自带演讲稿备注,方便后续汇报和讲解。
这个 skill 的核心不是套模板,而是让 agent 按流程完成:
资料理解 -> PPT 页面规划 -> GPT Image 2 生成图片型 PPT
-> PaddleOCR v5 识别文字 -> GPT Image 2 清除文字背景
-> 添加可编辑文字层 -> 生成 editable PPTX
- 把论文 PDF 制作成文字可编辑的汇报 PPTX。
- 把课程资料、病例材料、实验图、截图、报告整理成文字可编辑的 PPTX。
- 在可编辑 PPTX 中保留原始 Figure、图表、影像和截图,并按原始比例嵌入。
- 生成带演讲稿备注的 PPTX,方便直接进入汇报准备。
- 也可以只生成图片型 PPTX,不进入 OCR 和可编辑重建流程。
- 也可以把已经生成好的图片型 PPTX / 每页截图继续转成文字可编辑 PPTX。
下面每张图展示同一个案例中的 3 页示例;每一行从左到右包含 4 个阶段:PPT 原图、OCR 文字识别图、清除文字背景、最终可编辑 PPT。
以下 4 个例子都是把对应 PMID 的原文 PDF 输入给 yixueAIganhuo-PPT skill 后得到的 PPTX 制作流程示例,每个例子仅展示 3 页。
PPT例子1:输入 PMID 38133501 原文 PDF 后的 PPTX 制作流程示例(仅展示 3 页)
点击下图可查看完整例子。
PPT例子2:输入 PMID 41232598 原文 PDF 后的 PPTX 制作流程示例(仅展示 3 页)
点击下图可查看完整例子。
PPT例子3:输入 PMID 41167457 原文 PDF 后的 PPTX 制作流程示例(仅展示 3 页)
点击下图可查看完整例子。
PPT例子4:输入 PMID 41814259 原文 PDF 后的 PPTX 制作流程示例(仅展示 3 页)
点击下图可查看完整例子。
推荐在 Codex、Claude Code 或其他支持 skills 的 agent 工具中,让 agent 帮你安装。默认只需要拉取 skill 运行所需文件,不需要下载 README 展示图、docs、示例 PDF 和示例 PPTX。
可以直接复制下面这段话对 agent 说:
请帮我安装 yixueAIganhuo-PPT skill。
仓库地址:https://github.com/snowmanzhuang/yixueAIganhuo-PPT.git
请保存到你当前可用的 skills 目录中,并且只拉取 skill 运行所需文件:
SKILL.md
scripts/
references/
examples/
requirements.txt
不要下载 docs、README 展示图、示例 PDF 和示例 PPTX。
PaddleOCR v5、图像生成 API、本地 CLIProxyAPI 等环境需要按你的电脑和 API 账号单独配置。第一次运行时,agent 可能会安装依赖、下载模型并确认 API 配置,通常需要 30 分钟到 1 小时,请保持网络稳定。
图像生成选择建议:如果你在 Codex App / Codex CLI 中运行,并且当前环境支持 subagent 和内置 image_gen,可以选择 Codex 内置生图路径,不需要额外图像 API key;该路径会把原始生成图归档到任务目录并标准化为 2560x1440 后再进入 PPTX 管线。如果你需要原生精确分辨率或更可控的 API 参数,有订阅制 OpenAI 时推荐使用 CLIProxyAPI,否则推荐使用 OpenRouter。
常用入口:
- CLIProxyAPI
- OpenRouter
- Codex 内置 image_gen(仅 Codex App / Codex CLI 可用时显示)
- PaddleOCR 设置说明:中文 / English
如果使用 PaddleOCR API,核心目标是拿到 AI Studio access token。后续 skill 需要远程 OCR 时,把 token 按提示填入即可。
把这个仓库放到 Codex、Claude Code 或其他 agent 能读取的 skills 目录后,提问时说明“调用 yixueAIganhuo-PPT skill”,然后直接说要把什么材料制作成 PPT 即可。页数、语言、风格、API、OCR 环境等细节,skill 执行过程中会根据需要继续向你确认。
请调用 yixueAIganhuo-PPT skill,把我提供的论文 PDF 做成文字可编辑的中文汇报 PPTX。
请调用 yixueAIganhuo-PPT skill,把这些课程资料和截图整理成一个适合课堂讲解的 PPTX。
请调用 yixueAIganhuo-PPT skill,我已经有图片型 PPTX / 每页截图,只需要帮我转成可编辑 PPTX。
请调用 yixueAIganhuo-PPT skill,只生成图片型 PPTX,不需要转成可编辑 PPTX。
Important
第一次使用建议先按下面的方式测试,不要一上来就跑很长、很复杂的任务。
- 先小规模测试:先做 3-5 页,不要一开始就跑 20 页以上。
- 先跑通环境:先确认 API、OCR 和本地依赖能跑通,再逐步增加页数和材料复杂度。
- 保持网络稳定:网络不稳定或 API 限流时,并发任务容易失败;长任务期间尽量保持网络通畅。
- 并发可以调整:默认并发设置偏保守;电脑性能和 API 稳定后,可以让 agent 按配置逐步调高。
- 先让 agent 解释流程:开始前可以让 agent 阅读 skill 并解释完整流程,这样中间出错时更容易判断是生图、OCR、清文字背景还是 PPTX 重建的问题。
- 允许必要微调:最终 PPTX 的文字位置、字号、换行仍可能需要手动微调。
- 原图可手动覆盖:如果某些原图被 OCR 转成文字或视觉上不够理想,可以在 PowerPoint 里手动把原图粘贴覆盖回去;默认策略是按原始比例嵌入图片,不主动拉伸变形。
SKILL.md # skill 主说明,agent 会优先读取
scripts/ # 生成、OCR、清文字背景、PPTX 重建脚本
references/ # agent 使用的流程规则和 QA 规则,普通用户一般不需要直接阅读
examples/ # manifest / plan / provider config / style prompt 示例
docs/ # README 和 gallery 使用的展示图
本项目采用非商业使用许可,严禁商业用途。详见 LICENSE。
我是“医学AI干货”的作者,主要分享面向医学学习、科研和临床汇报的 AI 工作流。除了这个 PPTX 制作 skill,公众号里也会持续整理更多实用教程,包括综述写作与参考文献整理、Meta 分析前期文献初筛、个性化文献追踪和推送、提示词优化、医学统计图生成、科研技术路线图绘制、图片数据录入等。欢迎扫码关注。






