Releases: xingbofeng/VoxFlow
Releases · xingbofeng/VoxFlow
VoxFlow 1.2.0
VoxFlow 1.2.0
新功能
- LLM 流式输出:「帮我说」的 AI 生成文本现在在 HUD overlay 上实时展示,完成后一次性写入目标输入框。
- 聊天风格:新增内置「聊天」风格(适合微信、飞书、Slack 等即时通讯场景),自然简短,AI 自行判断是否使用 emoji。
- 权限引导直达系统设置:权限检查页面「检查权限」按钮现在直接跳转到对应的系统偏好设置面板。
Bug 修复
- Bundle ID 迁移:从
com.voiceinput.app正式迁移到com.xingbofeng.VoxFlow,修复菜单栏图标消失问题。旧权限和用户数据通过自动迁移保留。 - 微信风格断裂:修复智能配置推荐
builtin.chat风格但该风格不存在于内置目录,导致 fallback 到「日常」的问题。 - LLM 超时:LLM 请求默认超时从 8 秒提升到 30 秒,已有配置通过数据库迁移自动更新。
- 错误提示可点击:识别/处理失败时 overlay 提示现在可点击——帮我说失败跳转详情页,听写失败跳转主界面。
- 风格匹配大小写不一致:修复
SettingsBackedStyleSelector缺少大小写归一化导致应用规则匹配失败的问题。 - 帮我说 HUD 状态:帮我说录制阶段不再被听写 HUD 重置覆盖。
改进
- 应用图标显示增强:历史列表和详情弹窗中的应用图标现在优先使用 bundle ID 查找,更可靠;详情弹窗新增应用名称文字标注。
- Agent Compose 输出结果区分:帮我说完成后 HUD 区分「已写入」和「已复制」两种结果。
VoiceInput 1.1.2
VoiceInput 1.1.2
视觉更新
- 更新官方网站 hero 宣传图,使用中英文两套位图预览展示首页、输入活跃度、历史记录和听写 HUD。
- 重新生成绿色透明 App Icon,并同步替换
.icns、iconset 和官网 favicon/logo。 - 重绘暖色 README 宣传横幅,统一展示语音 HUD、输入活跃度和中英文历史记录。
- 优化官网 hero 图片在桌面端和移动端的缩放,保持透明主体,不再使用代码绘制的假 UI 预览。
VoiceInput 1.1.1
VoiceInput 1.1.1
体验改进
- 统一客户端主要页面的视觉语言,同时保持原有导航、功能和信息架构。
- 改进听写浮层、录音反馈、快捷键显示和跨屏窗口恢复体验。
- 优化笔记录音与光标位置插入,并完善模型配置编辑和权限引导。
- 更新官方网站视觉与产品预览,使页面内容与当前客户端保持一致。
修复
- 修复识别或修正失败时的文本回退与非阻断错误反馈。
- 修复应用图标透明边缘、系统输出静音和部分内置风格迁移问题。
VoiceInput 1.1.0
VoiceInput 1.1.0
Bug 修复
- 应用系统注册修复:修复应用未正确注册为系统级应用的问题,Command+Tab 切换和 Dock 中现在可以正常显示。
- Provider API Key 掩码显示和输入修复:修复 API Key 输入框掩码显示异常及输入响应问题,密钥现在以掩码形式安全展示。
- 笔记录音流程优化:修复笔记页面录音流程中的交互问题,录音状态切换和文本注入更加流畅。
- 侧栏按钮位置和导航层级改进:调整侧栏导航按钮位置,优化页面层级结构,导航体验更清晰。
- 设置页面视觉和交互改进:优化设置页面布局、间距和分组样式,提升可读性和操作效率。
- 听写模型卡片选中态优化:改进模型卡片的选中态视觉反馈,当前选中引擎和模型一目了然。
- 文件转写操作按钮改进:优化文件转写页面的操作按钮布局和状态展示,队列管理更直观。
- 帮助页面设计优化:重新设计帮助页面,改善信息层级和视觉呈现。
- 权限检查刷新功能:新增权限状态实时检测,授权后无需手动重启即可识别权限变更。
VoiceInput 1.0.1
VoiceInput 1.0.1
Bug 修复
- 修复 Qwen3-ASR 模型无法识别语音:
AudioPreprocessor.resampleTo16kHz中AVAudioConverter的 input block 重复返回同一 buffer,导致音频数据被复制多次产生混乱音频。引入单次提供机制修复。 - 修复设置窗口关闭后快捷键不生效:
ShortcutEventRouting.shouldPassThrough原仅检查NSApp.isActive,打开设置关闭后 app 仍处于 active 导致快捷键穿透。改为NSApp?.keyWindow != nil精确判断。 - 修复 Qwen3-ASR 松键后 overlay 显示"正在聆听..."无反馈:增加"正在识别..."加工状态提示 + spinner,同时修复
isRefining=true时忽略 text 参数的 bug。
新功能
- 短按切换录制:短按右 Command(< 0.5s)切换录制状态——空闲时开始,录制中结束。长按保持不变。
- ESC 取消录制:录制中按 ESC 取消当前录制,不注入文本。
- AudioPreprocessor 音频预处理模块:支持 16kHz 重采样 + Mel filterbank (fbank) 特征提取。
- Qwen3-ASR 引擎集成:通过 FluidAudio SDK 支持本地 CoreML 推理,支持 0.6B / 1.7B 模型下载。
- ASR 引擎选择菜单:状态栏菜单中切换 Apple Speech / Qwen3-ASR。
- 录制权限策略模块:Qwen3-ASR 仅需麦克风权限,无需 Apple 语音识别权限。
- 快捷键管理器 + 设置 UI:可视化录制快捷键、长按阈值、短按行为设置。
- 完整单元测试覆盖:15 个新建测试文件,76 个测试全部通过。
VoiceInput 1.0.0
VoiceInput 1.0.0
首个公开版本:按住右 Command 说话,松开后将转录文字注入当前输入框。
Highlights
- Apple Speech 流式语音识别,默认简体中文
- 英语、简体中文、繁体中文、日语、韩语切换
- 真实麦克风 RMS 驱动的五段动态波形 HUD
- CJK 输入法保护与完整剪贴板恢复
- 可选 OpenAI-compatible LLM 保守纠错
- 原生 AppKit 菜单栏体验,无 Dock 图标
安装
- 下载
VoiceInput-1.0.0-macOS.dmg - 打开 DMG,将
VoiceInputApp拖入Applications文件夹 - 首次运行时授予辅助功能、麦克风和语音识别权限
首次打开提示
当前构建采用 ad-hoc 签名,未经过 Apple 公证。首次打开时,macOS 会提示”无法验证是否包含恶意软件”:
- 在 Finder 中找到
VoiceInputApp.app - 按住 Control 键点击应用 → 选择 ”打开”
- 在弹出的对话框中点击 ”打开” 即可
或者使用终端清除隔离标记:
xattr -cr /Applications/VoiceInputApp.app后续启动将不再弹出警告。