0.1.3
新增:视觉 LLM OCR 后端
- 第三个解析后端「视觉 LLM OCR」:用 OpenAI 兼容接口的视觉模型识别图片中的文字并转为 Markdown,兼容 OpenAI、new-api / one-api 等中转站。
- 设置页:API 地址 / Key / 模型 / 提示词。
- 「获取模型」按钮:通过 Key 拉取 /models 列表,模型项变为下拉选择。
- 「测试识图」按钮 + 命令「测试视觉 OCR」:发送含已知数字的测试图,验证连接、鉴权与识图能力。
- 检测配置加入视觉 OCR 状态。
修复(含 0.1.2)
- markitdown 在中文 Windows 下中文乱码(U+FFFD):强制 Python UTF-8 输出。
New vision-LLM OCR backend for image text recognition via any OpenAI-compatible endpoint (incl. relays). Includes fetch-models and a real vision capability test.