Skip to content

v1.9.4 — Vision 多模态 (图像理解/OCR/标注)

Choose a tag to compare

@opc007 opc007 released this 17 Jun 15:14
· 5 commits to main since this release

v1.9.4 — Vision 多模态 (图像理解/OCR/标注)

🎯 重点

5.31 Vision 多模态:AgentShell 现在能识别图像、生成 caption、OCR、screenshot 标注。

✨ 新增

crates/vision(图像理解协议层)

  • 7 种格式识别:PNG / JPEG / GIF / WebP / BMP / TIFF / HEIC
  • 元数据提取:宽/高/aspect ratio/mode (RGB/RGBA/Palette)
  • OCR stub:返回结构化 OcrResult(text + lines + bbox + confidence)
  • Caption stub:模板化生成 ImageCaption(short + detailed + tags + colors + mood)
  • Screenshot 标注协议AnnotationBox {id, label, x, y, w, h, confidence, description}(相对坐标 0.0-1.0)
  • VISION_PROMPT:多模态 system prompt 注入

7 个新 Tauri 命令

  • vision_status / vision_formats
  • vision_meta <path> / vision_caption <path>
  • vision_ocr <path> / vision_annotate <path>
  • vision_protocol_prompt

/vision Slash 命令

  • /vision status — 状态 + 支持的格式
  • /vision formats — 列出格式
  • /vision prompt — 显示协议 prompt
  • /vision meta <path> — 元数据
  • /vision caption <path> — 图像描述
  • /vision ocr <path> — 文字识别(stub)
  • /vision annotate <path> — 标注 demo

🧪 测试

  • 10/10 单元测试 通过
  • 0 TypeScript 错误
  • DMG 构建成功

📦 安装

DMG:Codex gx_1.9.4_aarch64.dmg

🔮 下一步候选

  • 5.30 Mobile Remote 完整版(真实公网接入 / 公网反向代理)
  • 5.32 插件市场(Pocket 适配器 / Vision 模型插件)
  • 5.33 上下文压缩(长会话 token 优化)
  • v2.0 全功能版