告别打字,用说的。
ByeType 是一个 Markdown 驱动的 AI 语音输入工具。通过编辑 Markdown 格式的提示词,你可以自定义识别规则、专有词汇和文本优化策略,让语音输入最大限度匹配你的行业术语和个人习惯。
此外,ByeType 还内置了 AI 图像文字提取功能(同样由 Markdown 提示词驱动),完美解决终端中 AI 输出的代码因行号、分屏、换行被切碎而无法直接复制使用的问题。
免费开源,使用你自己的 API Key — ByeType 本身不收费、不经手数据,语音和截图直接发送到你选择的 AI 服务商(Google、阿里云百炼等)。支持 macOS、Windows 桌面端,以及 iPhone / iPad(通过 iOS 快捷指令)。
通过 iOS 快捷指令,在手机和平板上也能获得和桌面版一样的自定义词汇和转录效果。
| 快捷指令 | 模型 | 安装 |
|---|---|---|
| ByeType LongCat | LongCat Flash Omni(国内直连) | 添加到快捷指令 |
| ByeType Gemini | Gemini 3 Flash | 添加到快捷指令 |
安装后需要在快捷指令中填写你自己的 API Key和规则词汇等,和桌面版共用同一个 Key。
| ByeType | 传统语音输入 | Whisper/ASR 本地方案 | |
|---|---|---|---|
| 安装体积 | ~8 MB | 系统内置 | 1~6 GB(模型文件) |
| 词汇定制 | 完全自定义(提示词驱动) | 不支持 | 有限(热词列表,仅提升识别率) |
| 规则转换 | 一次成型,无需后处理 | 不支持 | 需后置 LLM 二次处理 |
| 口语清理 | 内置规则,一次生效 | 不支持 | 需后置处理 |
| 格式化能力 | 数字、符号、大小写、自动换行 | 无 | 需后置处理 |
| 中英混合 | 优秀 | 差 | 一般 |
| 可定制性 | 编辑 Markdown 即可 | 无 | 差 |
| 多场景切换 | 日常口语、正式书写、翻译等快速切换 | 不支持 | 不支持 |
核心区别:Whisper 类方案是「ASR 转文字 + LLM 后处理」两步架构 — 第一步转错的内容,第二步也救不回来。ByeType 用多模态大模型直接处理原始音频,所有提示词规则在转写时一次生效,没有「先错后纠」的问题。
下面这段话一口气说完,不做任何停顿和纠正 — 5 个易混人名、密集技术黑话、中英混杂、口语废话全上齐。
两边用相同的 下划线加粗 标记关键词,方便对比识别差异。
有标点但不分段、人名全错、术语变谐音、口水词原样保留:
嗯,那个就是昨天张宇跟秦敏碰了一下,他们说曲华负责的那个deep seek v3项目,在mac mini m4上跑因弗伦斯延迟大概两百毫秒左右,效果还不错。嗯,然后余倩建议用cursor开发,后端fast api加泼斯特格瑞赛口部署在微赛尔上,前端next js用app router搭配莎德恩ui,整体dx我觉得还行,就是ci cd那块git hub actions跑派test和es lint经常飞来可test。然后库伯内提斯集群的hpa配置,余倩说应该把cpu阈值从百分之八十调到百分之六十。另外提醒一下陈述,礼拜五之前把非格码设计稿同步到诺讯上。
开启「自动换行」后处理,标点、分段、人名、术语、格式化全部一次到位:
昨天张昱跟覃旻碰了一下,他们说瞿铧负责的DeepSeek V3项目,在Mac mini M4上跑inference延迟大概200ms左右,效果还不错。
于谦建议用Cursor开发,后端FastAPI + PostgreSQL部署在Vercel上,前端Next.js用App Router搭配shadcn/ui。
整体DX还行,就是CI/CD那块GitHub Actions跑pytest和ESLint经常flaky test。
Kubernetes集群的HPA配置,于谦说应该把CPU阈值从80%调到60%。
另外提醒陈述,礼拜五之前把Figma设计稿同步到Notion上。
| 难点 | 普通语音输出 | ByeType 输出 |
|---|---|---|
| 易混人名 | 张宇、秦敏、曲华、余倩 | 张昱、覃旻、瞿铧、于谦 |
| 人名/动词歧义 | 「陈述」被当动词 | 陈述(识别为人名) |
| 术语谐音 | 因弗伦斯、泼斯特格瑞赛口、莎德恩ui | inference、PostgreSQL、shadcn/ui |
| 品牌名 | deep seek v3、微赛尔、非格码、诺讯 | DeepSeek V3、Vercel、Figma、Notion |
| 数字格式化 | 两百毫秒、百分之八十 | 200ms、80% |
| 口水词 | 嗯、那个、就是、我觉得 | 全部清除 |
| 自动分段 | 一坨不分段 | 5 个自然段落 |
按 F6 截图选区,AI 自动识别文字并复制到剪贴板。同样由 Markdown 提示词驱动(text-extract.md),可自定义识别行为。ByeType 用多模态大模型理解截图的视觉布局,能做到传统 OCR 做不到的事:
终端、浏览器、PDF 阅读器里的文字经常因窗口宽度被硬截断。传统 OCR 原样照搬断行,ByeType 理解语义后自动合并为完整段落。
逐行照搬,保留所有因窗口宽度产生的硬换行:
人工智能(AI)正在迅速发展,它已经开始
改变我们的生活方式和工作方式。从智能
手机助手到自动驾驶汽车,AI技术正在
各个领域展现其潜力。
理解语义,自动合并断行为完整段落:
人工智能(AI)正在迅速发展,它已经开始改变我们的生活方式和工作方式。从智能手机助手到自动驾驶汽车,AI技术正在各个领域展现其潜力。
在 Claude Code、终端、IDE 里截图代码时,行号、提示符、分屏边界会把代码切得支离破碎。ByeType 能识别哪些是代码、哪些是装饰,还原出干净可用的代码块。
行号、管道符原样输出,因窗口宽度导致的断行也照搬:
1 │ fn main() {
2 │ let items = vec!["hel
3 │ lo", "world"];
4 │ for item in &items
5 │ {
6 │ println!("{}",
7 │ item);
8 │ }
9 │ }
去除行号装饰,修复断行,自动标注语言,输出可直接使用的完整代码:
fn main() {
let items = vec!["hello", "world"];
for item in &items {
println!("{}", item);
}
}所有模型在「设置 → 模型管理」中统一配置。
| 模型 | API ID | 获取 Key | 特点 |
|---|---|---|---|
| Qwen 3.5 Omni Plus | qwen3.5-omni-plus |
阿里云百炼 | ⭐ 推荐,国内直连,效果好 |
| Qwen 3.5 Omni Flash | qwen3.5-omni-flash |
同上 | 国内直连,速度更快 |
| LongCat Flash Omni | LongCat-Flash-Omni-2603 |
LongCat | 国内直连,Qwen 的替代方案 |
| MiMo v2.5 | mimo-v2.5 |
小米 MiMo | 国内直连,Qwen 的替代方案 |
| Gemini 3.0 Flash | gemini-3-flash-preview |
Google AI Studio | 速度和质量均衡,需代理 |
| Gemini 3.1 Flash Lite | gemini-3.1-flash-lite-preview |
同上 | 更快速,适合低延迟场景,需代理 |
| DeepSeek V4 Flash | deepseek-v4-flash |
DeepSeek | 仅文本优化,速度快、成本低 |
| DeepSeek V4 Pro | deepseek-v4-pro |
同上 | 仅文本优化,质量更高 |
OpenRouter 中转:如果无法直接访问 Gemini,可通过 OpenRouter 中转使用以下模型,无需代理:
google/gemini-3-flash-previewgoogle/gemini-3.1-flash-lite-preview
ByeType 把所有「AI 该怎么处理你的话」都做成了可编辑的 Markdown 文件,在设置里直接改。
纠正人名和术语(设置 → 转写提示词 → 专有词汇)
- 公司名:ByteDance(不是 byte dance)
- 人名:张三丰(不是 张三峰)给不同快捷键配不同输出风格(设置 → 转写提示词 → 文本优化提示词)
| 内置风格 | 效果 |
|---|---|
| 自动换行 | 自动加段落和标点 |
| 翻译 | 把中文翻译成英文 |
| 自定义 | 你想让它做啥都行 |
也可以新增自己的风格,比如「邮件润色」「微信口吻」「会议纪要」。F4 配一个、第二个快捷键配另一个,不同场景一键切换。
截图取词也一样,在「图像识别提示词」里改,可以让它只识别文字,也可以让它识别后顺便翻译成中文。
macOS 提示"无法验证开发者"
前往「系统设置 → 隐私与安全性」,找到 ByeType 的提示信息,点击「仍要打开」。
没有声音 / 录音失败
检查麦克风权限:「系统设置 → 隐私与安全性 → 麦克风」,确认 ByeType 已获得授权。
按 F4 没有反应
检查辅助功能权限:「系统设置 → 隐私与安全性 → 辅助功能」,确认 ByeType 已获得授权。如果刚授权,可能需要重启应用。
转写结果为空
- 检查 API Key 是否正确填写
- 检查网络连接是否正常
- 如果使用 Gemini 模型,确认能访问 Google 服务(或已配置代理)
转写速度慢
- 关闭思考模式(设置 → 语音转写 → 思考模式 → 关闭)
- 切换更轻量的模型(如 Gemini 3.1 Flash Lite)
- 检查网络延迟
国内网络无法使用 Gemini 模型
两种方案:
- 在「设置 → 语音转写」中选择 Qwen 3.5 Omni 等国内直连模型,无需代理
- 在「设置 → 通用设置 → 网络与性能 → HTTP 代理地址」中配置代理后使用 Gemini
文本没有自动粘贴到输入框
自动粘贴依赖辅助功能权限。检查「系统设置 → 隐私与安全性 → 辅助功能」是否已授权 ByeType。文本仍会复制到剪贴板,可手动 Cmd+V 粘贴。
| 层 | 技术 |
|---|---|
| 框架 | Tauri v2 |
| 前端 | React 19 + TypeScript + Vite |
| 后端 | Rust(cpal 音频采集、flacenc 编码) |
| 编辑器 | CodeMirror 6 |
| AI | Google Gemini API、阿里云百炼 DashScope API、OpenAI 兼容 API |
如果这个项目对你有帮助,欢迎点一个 Star。
欢迎提 Issue 或直接发 PR。感谢 Linux.do 社区推动。
