Voice Now 是一个专为 macOS 设计的实时语音识别与自动输入工具,旨在提升文字录入效率。
这个项目是我为了解决自己日常工作中的“懒人”需求而开发的一个小工具。在发布它时,有一些背景想先和大家分享:
- 个人自用:这最初只是我的一个私人效率方案,因此功能设计非常贴合我个人的使用习惯,可能无法覆盖所有的应用场景。
- 并不完美:项目目前还处于比较初期的阶段,功能和交互上难免有不完善之处,甚至可能存在一些未知的 Bug,希望大家能给与充分的谅解。
- AI 驱动:这是一个有趣的尝试——本项目的所有代码逻辑均由 AI 协助生成。
如果你在使用中发现问题或有改进建议,欢迎随时反馈,我会尽力在业余时间进行优化。
本工具基于 阿里云百炼 Fun-ASR 提供服务,使用前需要:
- 访问 阿里云百炼控制台 获取您的 API Key。
- 确保您的账号下有相应的 ASR 服务额度。
- 启动 Voice Now 后,点击界面上的“打开设置”。
- 填入您的 API Key。
- 选择合适的服务区域(建议选择距离较近的区域以降低延迟)。
- 点击“保存配置”。
由于涉及全局监听和模拟输入,应用需要以下权限(请在“系统设置 -> 隐私与安全性”中确认):
- 麦克风权限:用于采集您的语音指令。
- 辅助功能 (Accessibility):用于监听全局快捷键(右 Command)以及将识别结果自动输入到当前光标处。
- 一键唤起:在系统任何地方,按下键盘上的 右 Command 键 (Right Command) 即可开始识别。
- 即说即显:说话时,悬浮窗会实时显示识别内容。
- 自动输入:识别完成后,文字会自动打入当前聚焦的文本框中。
- 手动停止:再次按下右 Command 键可结束本次录音。
- 全局响应:通过系统级快捷键唤起,无需切换应用。
- 极简设计:轻量级悬浮窗,不干扰正常视觉。
- 流式输入:基于 WebSocket 协议,识别速度极快。
- 零侵入感:完成后自动上屏,模拟真实键盘输入。
本项目基于 MIT License 开源。
感谢你的使用与包容!