Skip to content

JuneYaooo/gpt-image2-ppt-skills

Repository files navigation

gpt-image2-ppt-skills

用 OpenAI gpt-image-2 一键生成高审美、高完成度的 PPT。

Claude Code / Codex / OpenClaw / Hermes 等支持 Skills 的 agent 均可原生使用。装进 agent 后,用一句自然语言生成 16:9 高清图片 + 打包好的 .pptx,也可以仿任意 .pptx 模板出全新内容。

可能是目前全网效果最好的 AI PPT Skill 之一。 它不走传统“模板填字”的路线,而是充分发挥 gpt-image-2 的审美、构图和排版能力,把每一页都当成完整视觉稿生成,力求让输出从封面到内页都足够精美、统一、可直接展示。

同时,项目对图片型 PPT 的后续编辑做了专门优化:你可以用自然语言精准描述要改的页和元素,系统会以“图生图”的方式重生成目标页,并尽量保留原有风格和布局。需要说明的是,这类 PPT 的背景和文字本质上是整页图片;如果你的工作流强依赖人工逐字、逐对象编辑原生 PPT 元素,它可能不是最合适的选择。

GitHub stars License Python Claude Code gpt-image-2

🌐 Englishdocs/README.en.md


🎬 效果演示:喂一张模板,仿出一套新内容

输入:任意一页参考模板(.pptx / 图片) 输出:本 skill 仿制 + 换内容
input template generated output
英文信息图模板(Mass Media Infographics) 同一版式 / 同一配色 / 同一插画语汇,内容换成「普通人怎么用 AI 做自媒体」

✨ 能做什么

  • 🎨 十套精选风格 + 扩展风格库 — 内置 Spatial Glass / Tech Blue / Editorial Mono / Dark Aurora / Riso / Wabi / Swiss Grid / Hand Sketch / Y2K Chrome / Vector Illustration,并持续补充优质风格
  • 🪄 模板克隆模式 — 丢一个 .pptx 进去,AI 会参考原模板的版式、配色和插画语汇,像上面那张图一样换成新内容
  • 🎯 自然语言精准编辑 — 直接说“改第 3 页副标题”“删掉页脚”“把三个数据换成新数字”,AI 会通过图生图只重生成目标页,尽量保持原风格和版式不变
  • 🎮 双产出 — 每页 PNG 高清原图 + 16:9 .pptx 直接用
  • 默认 10 路并发出图 — 10 页 ~30 秒出完
  • 🧪 先看一页再跑全量 — 默认建议先出封面给你确认,满意后再生成整套
  • 🧾 可追踪、可回滚 — 修改过哪些页、生成过哪些版本都能追踪,方便继续改
  • 🖼️ 真实素材双模式 — 用户给的真实图默认保真嵌入;用户明确允许时,也可以作为参考图融合重绘

🆕 更新记录

  • 2026-05-31 · 真实素材双模式:产品截图、logo、图表、表格、医学影像、证据截图等真实素材默认保真嵌入为独立图片对象;如果用户明确说“不需要贴原图 / 可以重绘 / 更重视整体效果”,也可以作为参考图融合重绘。医疗影像、诊断图、论文图表、财务表格、法律证据、精确 UI 截图不建议重绘,生成后需要人工核对。
  • 2026-05-26 · 扩展风格库:从公开渠道 500+ 个 PPT 模板中筛选补充 22 个优质风格,覆盖商务、学术、教育、餐饮、时尚、医疗、环保等场景。

🧩 整体实现流程

本项目采用“AI 生成整页视觉稿 + PPT 打包”的路线;真实素材默认保真嵌入,用户明确允许时可作为参考图融合重绘。完整流程图、可靠性边界和素材处理规则见:docs/ppt-implementation-logic.md

✅ 适合哪些用户场景

场景 适合程度 说明
从主题生成一套新 PPT 很适合 适合汇报、路演、培训、课程、产品介绍。
按公司模板仿一套新内容 很适合 上传 .pptx 模板,先出封面确认,再跑全量。
改标题、副标题、日期、页脚 很适合 当前最稳定的编辑场景。
更新数据卡片和关键数字 适合 可批量改,但交付前要逐项核对数字。
只改复杂多页 PPT 的某一页 适合 只更新目标页,其他页不重新生成。
密集表格、财报、法务长文 不建议直接承诺 小字和数字需要更严格人工验收。

🎨 十种内置风格

下图为 10 套风格在同一主题「如何用 gpt-image-2 做 PPT」下各生成一张封面的对照。全部由 gpt-image-2 直出,未经 PS。

10 种风格封面对照 · 同一主题直出

风格 ID 一句话定位 适用场景
gradient-glass Apple Vision OS / Spatial Glass AI 产品发布、技术分享、创意提案
clean-tech-blue Stripe / Linear 级蓝白 融资路演、商业计划书、企业战略
vector-illustration 复古矢量插画 + 黑描边 教育培训、品牌故事、社区分享
editorial-mono Kinfolk / Monocle 编辑设计 品牌发布、文化访谈、读书分享
dark-aurora Linear / Vercel 深色霓虹 AI 产品、开发者工具、技术分享
risograph Riso 双套色印刷 + 网点纹理 创意工作室、文创品牌、独立 zine
japanese-wabi 无印 / 原研哉式侘寂 茶道、生活方式、奢侈品、文化讲座
swiss-grid Bauhaus / Vignelli 国际主义网格 学术报告、博物馆展陈、严肃汇报
hand-sketch Sketchnote / 白板手绘 工作坊、产品 brainstorming、培训
y2k-chrome Y2K 千禧液态金属 + 蝴蝶贴纸 潮牌、文娱、品牌联名、Z 世代营销

🧬 扩展风格库

已从公开渠道 500+ 个 PPT 模板中筛选补充 22 个优质风格。后续还会持续补充,也欢迎大家提供好看的 PPT 模板或风格参考。

更多风格展示、风格 ID、特色和适用场景见:docs/distilled-styles.md


🧪 修改能力测评

如果你关心“到底能不能稳定改 PPT”,先看这份面向用户的图文测评:

  • docs/edit_guide.md — 标题替换、日期修改、删除页脚、数据更新、新增 logo、复杂多页只改一页,以及当前不足和交付前检查清单

核心结论:

能力 当前表现
改短文本 稳定,适合日常交付。
改多个明确元素 可用,建议一次说清楚“其他不要动”。
改数据页 可用,但必须核对数字。
加小图标 / logo 可用;真实品牌 logo 需要提供素材。
原生 PPT 对象级编辑 背景与文字仍是整页图片;通过 external_image 声明的真实图片会作为独立 PPT 图片对象叠加,可单独选中拖动。
开发者:查看内部编辑机制示意图 system architecture

🚀 安装

方式一:让 AI 自己装(推荐)

把下面这段 prompt 丢给你的 AI 助手(Claude Code / OpenClaw / Codex / Cursor / Trae / Hermes Agent,或其他支持 Skills 的 agent 都行),它会自动完成安装:

帮我安装 gpt-image2-ppt-skills:
https://raw.githubusercontent.com/JuneYaooo/gpt-image2-ppt-skills/main/docs/install.md

agent 会自己 clone 仓库、按当前运行环境选择安装目标、提示你重启。

方式二:手动安装

git clone git@github.com:JuneYaooo/gpt-image2-ppt-skills.git
cd gpt-image2-ppt-skills
bash install_as_skill.sh --target claude   # Claude Code
#
bash install_as_skill.sh --target codex    # Codex

脚本会把 skill 装到对应 agent 的目录:

  • Claude Code: ~/.claude/skills/gpt-image2-ppt-skills/
  • Codex: ~/.codex/skills/gpt-image2-ppt-skills/

如果你走 API 直连模式,需要给 agent 注入环境变量。推荐使用当前 agent 框架的标准配置,而不是把密钥写进业务项目根目录 .env

  • Claude Code:用户级 ~/.claude/settings.json,或项目级 .claude/settings.local.json
  • OpenClaw / 自定义 Agent:用 apiKey / env reference 引用系统环境变量
  • CI / 服务器:用系统环境变量、Docker Compose、Kubernetes Secret 或 CI Secret
  • standalone CLI:可设置 GPT_IMAGE2_PPT_ENV=/path/to/private.env,或使用 skill 安装目录下的 .env fallback
# 变量名如下:
OPENAI_BASE_URL=https://api.openai.com    # 或任意 OpenAI 兼容中转
OPENAI_API_KEY=sk-...                     # 必需
GPT_IMAGE_MODEL_NAME=gpt-image-2
GPT_IMAGE_QUALITY=high                    # low / medium / high / auto

Codex 里如果当前 agent 自带原生图片生成能力,可以直接走 SKILL.md 里的原生路径,不必配置 OPENAI_API_KEY

🔒 不会误吃密钥:脚本只读取当前进程环境、平台注入变量、显式 GPT_IMAGE2_PPT_ENV 和 skill 安装目录 .env fallback,不会向上递归读调用者项目目录的 .env

🪄 模板克隆模式额外需要本机可执行的 PPTX 渲染后端(Windows PowerPoint / macOS Keynote / LibreOffice)。先用 python3 scripts/render_template.py --check 检查;鸿蒙 / Termux / 容器 / 特殊架构不要假设 Linux aarch64 LibreOffice 二进制可运行。

模板克隆的 Vision 分析(可选)

模板克隆模式下,skill 需要先"看懂"你的 .pptx 模板的视觉风格。如果你的 AI 助手本身就是多模态的(Claude Code 走 Claude Opus/Sonnet,Codex 走 GPT 多模态等),agent 会直接自己看图抽取风格,生成带 reference_imagetemplate_profile.json 后通过 --template-profile 传给 CLI,不需要额外配置

只有当你用的 agent 是纯文本模型时(例如只接入 DeepSeek 文本模型),才需要配下面这组环境变量,走一个独立的多模态模型来分析模板:

# 可选:模板克隆的 vision 分析(仅纯文本 agent 需要,多模态 agent 不用配)
VISION_BASE_URL=https://your-openai-compatible-relay.example.com/v1
VISION_API_KEY=sk-...
VISION_MODEL_NAME=gemini-3.1-pro-preview   # 或 gpt-4o / claude-3.5-sonnet 等任意多模态 SKU

支持任意兼容 OpenAI /v1/chat/completions 格式的多模态模型(Gemini / GPT-4o / Claude 等),与图片生成的 gpt-image-2 完全解耦——换 vision provider 不影响出图。


🛠 在 Claude Code 里怎么用

装完直接跟 Claude 说人话就行:

帮我用 gpt-image2-ppt 生成一份关于 [你的主题] 的 5 页 PPT,风格用 dark-aurora

仿模板同理:

我这有一个 company-template.pptx,帮我按这个模板做一份关于 [你的主题] 的 5 页 PPT。

Claude 会自己写 slides_plan、先出一页封面让你确认、再跑全量,把输出目录和 .pptx 路径告诉你。

想自己写脚本调 CLI 而不走 agent?看 SKILL.md,CLI 参数、文件布局都在那。


🙏 致谢

  • op7418/NanoBanana-PPT-Skills — 风格 prompts 与早期 skill 结构参考。本项目把图片后端从 Nano Banana Pro 换成了 OpenAI gpt-image-2,重写了继承自上游的 3 套风格并新增 7 套(共 10 套),另加入模板克隆模式(vision 抽风格仿任意 .pptx)、md-first 编排流程、.pptx 自动打包、codex CLI 备用后端等新功能。
  • lewislulu/html-ppt-skill — Claude Code skill SKILL.md frontmatter 写法参考。

💬 Community

LINUX DO — 中文开发者社区

微信交流群

欢迎大家有问题一起交流讨论。

微信交流群

⭐ Star History

Star History Chart


License

Apache License 2.0,详见 LICENSE

About

Clone any .pptx into your own deck — OpenAI gpt-image-2 mimics the layout, you supply the content. 10 bundled styles. | 把任何 .pptx 模板"抄"成你的 PPT:gpt-image-2 仿版式、你换内容,另含 10 套精选风格。Claude Code / OpenClaw skill.

Topics

Resources

License

Stars

Watchers

Forks

Contributors