Skip to content

v1.6.0

Choose a tag to compare

@jerrydong1988 jerrydong1988 released this 21 May 09:53

v1.6.0 — Embedding Mode(向量模型自动识别)

✨ 新功能 | New Feature

  • 新增 Embedding Mode:加载向量模型(如 Qwen3-Embedding、BGE)时自动识别,切换为纯向量模式。
  • Automatically detects vector/embedding models and switches to Embedding Mode.

⚙️ 检测 | Detection

  • 本地文件:读取 GGUF 头部 general.basename / general.name 含 "Embedding" → 自动进入 Embedding Mode。
  • ModelScope 远程:文件名含 "embed" 且不为 mmproj/imatrix → 自动识别。
  • GGUF header scan for general.basename/general.name containing "Embedding", or filename heuristic for remote files.

🔒 禁用参数(30+项自动锁死)| Disabled Parameters

  • 采样全部(temp / top-k / top-p / mirostat / DRY / XTC / ...)
  • 输出控制(n_predict / ignore-eos / json-schema)
  • 对话行为(chat-template / reasoning / jinja / ...)
  • 推测解码(draft model / spec-type / ...)
  • 模型扩展(LoRA / mmproj / grammar / MoE CPU layers)
  • 上下文偏移
  • Sampling, output, chat behavior, speculative decoding, model extension params — all greyed out.

🟢 保留参数 | Kept Active

  • 核心性能(ctx / ngl / threads / batch / ubatch)
  • Flash Attention、内存选项、K/V 缓存类型、NUMA
  • 网络与API配置(host / port / ssl / api-key)
  • --embedding 自动勾选,--pooling 自动推荐默认为 mean

💡 提示优化 | Tooltip Updates

  • Pooling / Reranking / Embedding 复选框提示增强
  • NUMA 优化提示补充:仅多路服务器需要
  • 状态横幅提示:Embedding Mode 已激活