Skip to content

Lakphy/voice-now

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

17 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Voice Now

Voice Now 是一个专为 macOS 设计的实时语音识别与自动输入工具,旨在提升文字录入效率。

📖 写在前面

这个项目是我为了解决自己日常工作中的“懒人”需求而开发的一个小工具。在发布它时,有一些背景想先和大家分享:

  • 个人自用:这最初只是我的一个私人效率方案,因此功能设计非常贴合我个人的使用习惯,可能无法覆盖所有的应用场景。
  • 并不完美:项目目前还处于比较初期的阶段,功能和交互上难免有不完善之处,甚至可能存在一些未知的 Bug,希望大家能给与充分的谅解。
  • AI 驱动:这是一个有趣的尝试——本项目的所有代码逻辑均由 AI 协助生成

如果你在使用中发现问题或有改进建议,欢迎随时反馈,我会尽力在业余时间进行优化。

🚀 使用方法

1. 账号准备

本工具基于 阿里云百炼 Fun-ASR 提供服务,使用前需要:

  1. 访问 阿里云百炼控制台 获取您的 API Key
  2. 确保您的账号下有相应的 ASR 服务额度。

2. 初始化配置

  1. 启动 Voice Now 后,点击界面上的“打开设置”。
  2. 填入您的 API Key
  3. 选择合适的服务区域(建议选择距离较近的区域以降低延迟)。
  4. 点击“保存配置”。

3. 授权说明

由于涉及全局监听和模拟输入,应用需要以下权限(请在“系统设置 -> 隐私与安全性”中确认):

  • 麦克风权限:用于采集您的语音指令。
  • 辅助功能 (Accessibility):用于监听全局快捷键(右 Command)以及将识别结果自动输入到当前光标处。

4. 快捷操作

  • 一键唤起:在系统任何地方,按下键盘上的 右 Command 键 (Right Command) 即可开始识别。
  • 即说即显:说话时,悬浮窗会实时显示识别内容。
  • 自动输入:识别完成后,文字会自动打入当前聚焦的文本框中。
  • 手动停止:再次按下右 Command 键可结束本次录音。

🛠️ 功能特性

  • 全局响应:通过系统级快捷键唤起,无需切换应用。
  • 极简设计:轻量级悬浮窗,不干扰正常视觉。
  • 流式输入:基于 WebSocket 协议,识别速度极快。
  • 零侵入感:完成后自动上屏,模拟真实键盘输入。

📄 开源协议 (License)

本项目基于 MIT License 开源。


感谢你的使用与包容!

About

Voice Now 是一个专为 macOS 设计的实时语音识别与自动输入工具,STT 能力基于百炼 fun-asr-realtime。

Topics

Resources

License

Stars

Watchers

Forks

Packages

 
 
 

Contributors

Languages