v1.9.4 — Vision 多模态 (图像理解/OCR/标注)
v1.9.4 — Vision 多模态 (图像理解/OCR/标注)
🎯 重点
5.31 Vision 多模态:AgentShell 现在能识别图像、生成 caption、OCR、screenshot 标注。
✨ 新增
crates/vision(图像理解协议层)
- 7 种格式识别:PNG / JPEG / GIF / WebP / BMP / TIFF / HEIC
- 元数据提取:宽/高/aspect ratio/mode (RGB/RGBA/Palette)
- OCR stub:返回结构化
OcrResult(text + lines + bbox + confidence) - Caption stub:模板化生成
ImageCaption(short + detailed + tags + colors + mood) - Screenshot 标注协议:
AnnotationBox {id, label, x, y, w, h, confidence, description}(相对坐标 0.0-1.0) VISION_PROMPT:多模态 system prompt 注入
7 个新 Tauri 命令
vision_status/vision_formatsvision_meta <path>/vision_caption <path>vision_ocr <path>/vision_annotate <path>vision_protocol_prompt
/vision Slash 命令
/vision status— 状态 + 支持的格式/vision formats— 列出格式/vision prompt— 显示协议 prompt/vision meta <path>— 元数据/vision caption <path>— 图像描述/vision ocr <path>— 文字识别(stub)/vision annotate <path>— 标注 demo
🧪 测试
- 10/10 单元测试 通过
- 0 TypeScript 错误
- DMG 构建成功
📦 安装
DMG:Codex gx_1.9.4_aarch64.dmg
🔮 下一步候选
- 5.30 Mobile Remote 完整版(真实公网接入 / 公网反向代理)
- 5.32 插件市场(Pocket 适配器 / Vision 模型插件)
- 5.33 上下文压缩(长会话 token 优化)
- v2.0 全功能版