Skip to content

snowmanzhuang/yixueAIganhuo-PPT

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

14 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

yixueAIganhuo-PPT

中文 | English

一个把论文、PDF、Figure、截图、报告和自备资料等自动制作成高质量 PPT,并可进一步重建为可编辑 PPTX 的 AI PPT skill。

适合论文精读、组会汇报、教学培训和日常汇报等场景。

提供的 Figure、图表、影像和截图会自动按照原始比例嵌入到 PPTX 中,尽量不重画、不拉伸;生成的 PPTX 可自带演讲稿备注,方便后续汇报和讲解。

这个 skill 的核心不是套模板,而是让 agent 按流程完成:

资料理解 -> PPT 页面规划 -> GPT Image 2 生成图片型 PPT
       -> PaddleOCR v5 识别文字 -> GPT Image 2 清除文字背景
       -> 添加可编辑文字层 -> 生成 editable PPTX

能做什么

  • 把论文 PDF 制作成文字可编辑的汇报 PPTX。
  • 把课程资料、病例材料、实验图、截图、报告整理成文字可编辑的 PPTX。
  • 在可编辑 PPTX 中保留原始 Figure、图表、影像和截图,并按原始比例嵌入。
  • 生成带演讲稿备注的 PPTX,方便直接进入汇报准备。
  • 也可以只生成图片型 PPTX,不进入 OCR 和可编辑重建流程。
  • 也可以把已经生成好的图片型 PPTX / 每页截图继续转成文字可编辑 PPTX。

工作流原理

yixueAIganhuo-PPT 工作流原理 1

yixueAIganhuo-PPT 工作流原理 2

示例效果

下面每张图展示同一个案例中的 3 页示例;每一行从左到右包含 4 个阶段:PPT 原图、OCR 文字识别图、清除文字背景、最终可编辑 PPT。

以下 4 个例子都是把对应 PMID 的原文 PDF 输入给 yixueAIganhuo-PPT skill 后得到的 PPTX 制作流程示例,每个例子仅展示 3 页。

PPT例子1:输入 PMID 38133501 原文 PDF 后的 PPTX 制作流程示例(仅展示 3 页)

点击下图可查看完整例子。

PPT例子1全自动制作流程

PPT例子2:输入 PMID 41232598 原文 PDF 后的 PPTX 制作流程示例(仅展示 3 页)

点击下图可查看完整例子。

PPT例子2全自动制作流程

PPT例子3:输入 PMID 41167457 原文 PDF 后的 PPTX 制作流程示例(仅展示 3 页)

点击下图可查看完整例子。

PPT例子3全自动制作流程

PPT例子4:输入 PMID 41814259 原文 PDF 后的 PPTX 制作流程示例(仅展示 3 页)

点击下图可查看完整例子。

PPT例子4全自动制作流程

怎么安装

推荐在 Codex、Claude Code 或其他支持 skills 的 agent 工具中,让 agent 帮你安装。默认只需要拉取 skill 运行所需文件,不需要下载 README 展示图、docs、示例 PDF 和示例 PPTX。

可以直接复制下面这段话对 agent 说:

请帮我安装 yixueAIganhuo-PPT skill。

仓库地址:https://github.com/snowmanzhuang/yixueAIganhuo-PPT.git

请保存到你当前可用的 skills 目录中,并且只拉取 skill 运行所需文件:

SKILL.md
scripts/
references/
examples/
requirements.txt

不要下载 docs、README 展示图、示例 PDF 和示例 PPTX。

PaddleOCR v5、图像生成 API、本地 CLIProxyAPI 等环境需要按你的电脑和 API 账号单独配置。第一次运行时,agent 可能会安装依赖、下载模型并确认 API 配置,通常需要 30 分钟到 1 小时,请保持网络稳定。

图像生成选择建议:如果你在 Codex App / Codex CLI 中运行,并且当前环境支持 subagent 和内置 image_gen,可以选择 Codex 内置生图路径,不需要额外图像 API key;该路径会把原始生成图归档到任务目录并标准化为 2560x1440 后再进入 PPTX 管线。如果你需要原生精确分辨率或更可控的 API 参数,有订阅制 OpenAI 时推荐使用 CLIProxyAPI,否则推荐使用 OpenRouter

常用入口:

如果使用 PaddleOCR API,核心目标是拿到 AI Studio access token。后续 skill 需要远程 OCR 时,把 token 按提示填入即可。

怎么让 agent 使用

把这个仓库放到 Codex、Claude Code 或其他 agent 能读取的 skills 目录后,提问时说明“调用 yixueAIganhuo-PPT skill”,然后直接说要把什么材料制作成 PPT 即可。页数、语言、风格、API、OCR 环境等细节,skill 执行过程中会根据需要继续向你确认。

请调用 yixueAIganhuo-PPT skill,把我提供的论文 PDF 做成文字可编辑的中文汇报 PPTX。
请调用 yixueAIganhuo-PPT skill,把这些课程资料和截图整理成一个适合课堂讲解的 PPTX。
请调用 yixueAIganhuo-PPT skill,我已经有图片型 PPTX / 每页截图,只需要帮我转成可编辑 PPTX。
请调用 yixueAIganhuo-PPT skill,只生成图片型 PPTX,不需要转成可编辑 PPTX。

使用前请务必看

Important

第一次使用建议先按下面的方式测试,不要一上来就跑很长、很复杂的任务。

  • 先小规模测试:先做 3-5 页,不要一开始就跑 20 页以上。
  • 先跑通环境:先确认 API、OCR 和本地依赖能跑通,再逐步增加页数和材料复杂度。
  • 保持网络稳定:网络不稳定或 API 限流时,并发任务容易失败;长任务期间尽量保持网络通畅。
  • 并发可以调整:默认并发设置偏保守;电脑性能和 API 稳定后,可以让 agent 按配置逐步调高。
  • 先让 agent 解释流程:开始前可以让 agent 阅读 skill 并解释完整流程,这样中间出错时更容易判断是生图、OCR、清文字背景还是 PPTX 重建的问题。
  • 允许必要微调:最终 PPTX 的文字位置、字号、换行仍可能需要手动微调。
  • 原图可手动覆盖:如果某些原图被 OCR 转成文字或视觉上不够理想,可以在 PowerPoint 里手动把原图粘贴覆盖回去;默认策略是按原始比例嵌入图片,不主动拉伸变形。

仓库内容

SKILL.md                 # skill 主说明,agent 会优先读取
scripts/                 # 生成、OCR、清文字背景、PPTX 重建脚本
references/              # agent 使用的流程规则和 QA 规则,普通用户一般不需要直接阅读
examples/                # manifest / plan / provider config / style prompt 示例
docs/                    # README 和 gallery 使用的展示图

许可

本项目采用非商业使用许可,严禁商业用途。详见 LICENSE

更多医学 AI 教程

我是“医学AI干货”的作者,主要分享面向医学学习、科研和临床汇报的 AI 工作流。除了这个 PPTX 制作 skill,公众号里也会持续整理更多实用教程,包括综述写作与参考文献整理、Meta 分析前期文献初筛、个性化文献追踪和推送、提示词优化、医学统计图生成、科研技术路线图绘制、图片数据录入等。欢迎扫码关注。

医学AI干货 公众号二维码

About

AI workflow (base on gpt-image-2 and paddle ocr v5) for generating PPT decks from papers, PDFs, figures, screenshots, and prepared materials, then rebuilding editable PPTX files.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages