gpt-image2-ppt-skills

用 OpenAI gpt-image-2 一键生成高审美、高完成度的 PPT。

Claude Code / Codex / OpenClaw / Hermes 等支持 Skills 的 agent 均可原生使用。装进 agent 后，用一句自然语言生成 16:9 高清图片 + 打包好的 .pptx，也可以仿任意 .pptx 模板出全新内容。

可能是目前全网效果最好的 AI PPT Skill 之一。 它不走传统“模板填字”的路线，而是充分发挥 gpt-image-2 的审美、构图和排版能力，把每一页都当成完整视觉稿生成，力求让输出从封面到内页都足够精美、统一、可直接展示。

同时，项目对图片型 PPT 的后续编辑做了专门优化：你可以用自然语言精准描述要改的页和元素，系统会以“图生图”的方式重生成目标页，并尽量保留原有风格和布局。需要说明的是，这类 PPT 的背景和文字本质上是整页图片；如果你的工作流强依赖人工逐字、逐对象编辑原生 PPT 元素，它可能不是最合适的选择。

🌐 English → docs/README.en.md

🎬 效果演示：喂一张模板，仿出一套新内容

输入：任意一页参考模板（.pptx / 图片）	输出：本 skill 仿制 + 换内容

_{英文信息图模板（Mass Media Infographics）}	_{同一版式 / 同一配色 / 同一插画语汇，内容换成「普通人怎么用 AI 做自媒体」}

✨ 能做什么

🎨 十套精选风格 + 扩展风格库 — 内置 Spatial Glass / Tech Blue / Editorial Mono / Dark Aurora / Riso / Wabi / Swiss Grid / Hand Sketch / Y2K Chrome / Vector Illustration，并持续补充优质风格
🪄 模板克隆模式 — 丢一个 .pptx 进去，AI 会参考原模板的版式、配色和插画语汇，像上面那张图一样换成新内容
🎯 自然语言精准编辑 — 直接说“改第 3 页副标题”“删掉页脚”“把三个数据换成新数字”，AI 会通过图生图只重生成目标页，尽量保持原风格和版式不变
🎮 双产出 — 每页 PNG 高清原图 + 16:9 .pptx 直接用
⚡ 默认 10 路并发出图 — 10 页 ~30 秒出完
🧪 先看一页再跑全量 — 默认建议先出封面给你确认，满意后再生成整套
🧾 可追踪、可回滚 — 修改过哪些页、生成过哪些版本都能追踪，方便继续改
🖼️ 真实素材双模式 — 用户给的真实图默认保真嵌入；用户明确允许时，也可以作为参考图融合重绘

🆕 更新记录

2026-05-31 · 真实素材双模式：产品截图、logo、图表、表格、医学影像、证据截图等真实素材默认保真嵌入为独立图片对象；如果用户明确说“不需要贴原图 / 可以重绘 / 更重视整体效果”，也可以作为参考图融合重绘。医疗影像、诊断图、论文图表、财务表格、法律证据、精确 UI 截图不建议重绘，生成后需要人工核对。
2026-05-26 · 扩展风格库：从公开渠道 500+ 个 PPT 模板中筛选补充 22 个优质风格，覆盖商务、学术、教育、餐饮、时尚、医疗、环保等场景。

🧩 整体实现流程

本项目采用“AI 生成整页视觉稿 + PPT 打包”的路线；真实素材默认保真嵌入，用户明确允许时可作为参考图融合重绘。完整流程图、可靠性边界和素材处理规则见：docs/ppt-implementation-logic.md。

✅ 适合哪些用户场景

场景	适合程度	说明
从主题生成一套新 PPT	很适合	适合汇报、路演、培训、课程、产品介绍。
按公司模板仿一套新内容	很适合	上传 `.pptx` 模板，先出封面确认，再跑全量。
改标题、副标题、日期、页脚	很适合	当前最稳定的编辑场景。
更新数据卡片和关键数字	适合	可批量改，但交付前要逐项核对数字。
只改复杂多页 PPT 的某一页	适合	只更新目标页，其他页不重新生成。
密集表格、财报、法务长文	不建议直接承诺	小字和数字需要更严格人工验收。

🎨 十种内置风格

下图为 10 套风格在同一主题「如何用 gpt-image-2 做 PPT」下各生成一张封面的对照。全部由 gpt-image-2 直出，未经 PS。

风格 ID	一句话定位	适用场景
`gradient-glass`	Apple Vision OS / Spatial Glass	AI 产品发布、技术分享、创意提案
`clean-tech-blue`	Stripe / Linear 级蓝白	融资路演、商业计划书、企业战略
`vector-illustration`	复古矢量插画 + 黑描边	教育培训、品牌故事、社区分享
`editorial-mono`	Kinfolk / Monocle 编辑设计	品牌发布、文化访谈、读书分享
`dark-aurora`	Linear / Vercel 深色霓虹	AI 产品、开发者工具、技术分享
`risograph`	Riso 双套色印刷 + 网点纹理	创意工作室、文创品牌、独立 zine
`japanese-wabi`	无印 / 原研哉式侘寂	茶道、生活方式、奢侈品、文化讲座
`swiss-grid`	Bauhaus / Vignelli 国际主义网格	学术报告、博物馆展陈、严肃汇报
`hand-sketch`	Sketchnote / 白板手绘	工作坊、产品 brainstorming、培训
`y2k-chrome`	Y2K 千禧液态金属 + 蝴蝶贴纸	潮牌、文娱、品牌联名、Z 世代营销

🧬 扩展风格库

已从公开渠道 500+ 个 PPT 模板中筛选补充 22 个优质风格。后续还会持续补充，也欢迎大家提供好看的 PPT 模板或风格参考。

更多风格展示、风格 ID、特色和适用场景见：docs/distilled-styles.md。

🧪 修改能力测评

如果你关心“到底能不能稳定改 PPT”，先看这份面向用户的图文测评：

docs/edit_guide.md — 标题替换、日期修改、删除页脚、数据更新、新增 logo、复杂多页只改一页，以及当前不足和交付前检查清单

核心结论：

能力	当前表现
改短文本	稳定，适合日常交付。
改多个明确元素	可用，建议一次说清楚“其他不要动”。
改数据页	可用，但必须核对数字。
加小图标 / logo	可用；真实品牌 logo 需要提供素材。
原生 PPT 对象级编辑	背景与文字仍是整页图片；通过 `external_image` 声明的真实图片会作为独立 PPT 图片对象叠加，可单独选中拖动。

开发者：查看内部编辑机制示意图

🚀 安装

方式一：让 AI 自己装（推荐）

把下面这段 prompt 丢给你的 AI 助手（Claude Code / OpenClaw / Codex / Cursor / Trae / Hermes Agent，或其他支持 Skills 的 agent 都行），它会自动完成安装：

帮我安装 gpt-image2-ppt-skills：
https://raw.githubusercontent.com/JuneYaooo/gpt-image2-ppt-skills/main/docs/install.md

agent 会自己 clone 仓库、按当前运行环境选择安装目标、提示你重启。

方式二：手动安装

git clone git@github.com:JuneYaooo/gpt-image2-ppt-skills.git
cd gpt-image2-ppt-skills
bash install_as_skill.sh --target claude   # Claude Code
# 或
bash install_as_skill.sh --target codex    # Codex

脚本会把 skill 装到对应 agent 的目录：

Claude Code: ~/.claude/skills/gpt-image2-ppt-skills/
Codex: ~/.codex/skills/gpt-image2-ppt-skills/

如果你走 API 直连模式，需要给 agent 注入环境变量。推荐使用当前 agent 框架的标准配置，而不是把密钥写进业务项目根目录 .env：

Claude Code：用户级 ~/.claude/settings.json，或项目级 .claude/settings.local.json
OpenClaw / 自定义 Agent：用 apiKey / env reference 引用系统环境变量
CI / 服务器：用系统环境变量、Docker Compose、Kubernetes Secret 或 CI Secret
standalone CLI：可设置 GPT_IMAGE2_PPT_ENV=/path/to/private.env，或使用 skill 安装目录下的 .env fallback

# 变量名如下：
OPENAI_BASE_URL=https://api.openai.com    # 或任意 OpenAI 兼容中转
OPENAI_API_KEY=sk-...                     # 必需
GPT_IMAGE_MODEL_NAME=gpt-image-2
GPT_IMAGE_QUALITY=high                    # low / medium / high / auto

在 Codex 里如果当前 agent 自带原生图片生成能力，可以直接走 SKILL.md 里的原生路径，不必配置 OPENAI_API_KEY。

🔒 不会误吃密钥：脚本只读取当前进程环境、平台注入变量、显式 GPT_IMAGE2_PPT_ENV 和 skill 安装目录 .env fallback，不会向上递归读调用者项目目录的 .env。

🪄 模板克隆模式额外需要本机可执行的 PPTX 渲染后端（Windows PowerPoint / macOS Keynote / LibreOffice）。先用 python3 scripts/render_template.py --check 检查；鸿蒙 / Termux / 容器 / 特殊架构不要假设 Linux aarch64 LibreOffice 二进制可运行。

模板克隆的 Vision 分析（可选）

模板克隆模式下，skill 需要先"看懂"你的 .pptx 模板的视觉风格。如果你的 AI 助手本身就是多模态的（Claude Code 走 Claude Opus/Sonnet，Codex 走 GPT 多模态等），agent 会直接自己看图抽取风格，生成带 reference_image 的 template_profile.json 后通过 --template-profile 传给 CLI，不需要额外配置。

只有当你用的 agent 是纯文本模型时（例如只接入 DeepSeek 文本模型），才需要配下面这组环境变量，走一个独立的多模态模型来分析模板：

# 可选：模板克隆的 vision 分析（仅纯文本 agent 需要，多模态 agent 不用配）
VISION_BASE_URL=https://your-openai-compatible-relay.example.com/v1
VISION_API_KEY=sk-...
VISION_MODEL_NAME=gemini-3.1-pro-preview   # 或 gpt-4o / claude-3.5-sonnet 等任意多模态 SKU

支持任意兼容 OpenAI /v1/chat/completions 格式的多模态模型（Gemini / GPT-4o / Claude 等），与图片生成的 gpt-image-2 完全解耦——换 vision provider 不影响出图。

🛠 在 Claude Code 里怎么用

装完直接跟 Claude 说人话就行：

帮我用 gpt-image2-ppt 生成一份关于 [你的主题] 的 5 页 PPT，风格用 dark-aurora。

仿模板同理：

我这有一个 company-template.pptx，帮我按这个模板做一份关于 [你的主题] 的 5 页 PPT。

Claude 会自己写 slides_plan、先出一页封面让你确认、再跑全量，把输出目录和 .pptx 路径告诉你。

想自己写脚本调 CLI 而不走 agent？看 SKILL.md，CLI 参数、文件布局都在那。

🙏 致谢

op7418/NanoBanana-PPT-Skills — 风格 prompts 与早期 skill 结构参考。本项目把图片后端从 Nano Banana Pro 换成了 OpenAI gpt-image-2，重写了继承自上游的 3 套风格并新增 7 套（共 10 套），另加入模板克隆模式（vision 抽风格仿任意 .pptx）、md-first 编排流程、.pptx 自动打包、codex CLI 备用后端等新功能。
lewislulu/html-ppt-skill — Claude Code skill SKILL.md frontmatter 写法参考。

💬 Community

LINUX DO — 中文开发者社区

微信交流群

欢迎大家有问题一起交流讨论。

⭐ Star History

License

Apache License 2.0，详见 LICENSE。

Name		Name	Last commit message	Last commit date
Latest commit History 61 Commits
agents		agents
docs		docs
scripts		scripts
styles		styles
.env.example		.env.example
.gitattributes		.gitattributes
.gitignore		.gitignore
AGENTS.md		AGENTS.md
LICENSE		LICENSE
README.md		README.md
SKILL.md		SKILL.md
install_as_skill.sh		install_as_skill.sh
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

gpt-image2-ppt-skills

🎬 效果演示：喂一张模板，仿出一套新内容

✨ 能做什么

🆕 更新记录

🧩 整体实现流程

✅ 适合哪些用户场景

🎨 十种内置风格

🧬 扩展风格库

🧪 修改能力测评

🚀 安装

方式一：让 AI 自己装（推荐）

方式二：手动安装

模板克隆的 Vision 分析（可选）

🛠 在 Claude Code 里怎么用

🙏 致谢

💬 Community

微信交流群

⭐ Star History

License

About

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

gpt-image2-ppt-skills

🎬 效果演示：喂一张模板，仿出一套新内容

✨ 能做什么

🆕 更新记录

🧩 整体实现流程

✅ 适合哪些用户场景

🎨 十种内置风格

🧬 扩展风格库

🧪 修改能力测评

🚀 安装

方式一：让 AI 自己装（推荐）

方式二：手动安装

模板克隆的 Vision 分析（可选）

🛠 在 Claude Code 里怎么用

🙏 致谢

💬 Community

微信交流群

⭐ Star History

License

About

Topics

Resources

License

Uh oh!

Stars

Watchers

Forks

Contributors

Uh oh!

Languages