v1.9.4 — Vision 多模态 (图像理解/OCR/标注)

opc007 released this 17 Jun 15:14

· 5 commits to main since this release

8e5b849

v1.9.4 — Vision 多模态 (图像理解/OCR/标注)

🎯 重点

5.31 Vision 多模态：AgentShell 现在能识别图像、生成 caption、OCR、screenshot 标注。

✨ 新增

crates/vision（图像理解协议层）

7 种格式识别：PNG / JPEG / GIF / WebP / BMP / TIFF / HEIC
元数据提取：宽/高/aspect ratio/mode (RGB/RGBA/Palette)
OCR stub：返回结构化 OcrResult（text + lines + bbox + confidence）
Caption stub：模板化生成 ImageCaption（short + detailed + tags + colors + mood）
Screenshot 标注协议：AnnotationBox {id, label, x, y, w, h, confidence, description}（相对坐标 0.0-1.0）
VISION_PROMPT：多模态 system prompt 注入

7 个新 Tauri 命令

vision_status / vision_formats
vision_meta <path> / vision_caption <path>
vision_ocr <path> / vision_annotate <path>
vision_protocol_prompt

`/vision` Slash 命令

/vision status — 状态 + 支持的格式
/vision formats — 列出格式
/vision prompt — 显示协议 prompt
/vision meta <path> — 元数据
/vision caption <path> — 图像描述
/vision ocr <path> — 文字识别（stub）
/vision annotate <path> — 标注 demo

🧪 测试

10/10 单元测试 通过
0 TypeScript 错误
DMG 构建成功

📦 安装

DMG：Codex gx_1.9.4_aarch64.dmg

🔮 下一步候选

5.30 Mobile Remote 完整版（真实公网接入 / 公网反向代理）
5.32 插件市场（Pocket 适配器 / Vision 模型插件）
5.33 上下文压缩（长会话 token 优化）
v2.0 全功能版

Assets 3