Releases: Nek0mush1/voiceTransformForAndroid
Release list
v1.5.0-trime-ime-开源Trime输入法接入LLM纠错语音转文字功能
Trime IME v1.5
Trime IME 是 Voice Transform 的完整输入法版本,对应仓库 combine-with-Trime 分支。它在 Trime/Rime 开源输入法基础上,接入 Voice Transform 的语音输入纠错 Agent,让项目从“语音纠错输入法 MVP”进一步接近真实可用的 Android 输入法。
适合谁使用
这个版本适合:
- 想体验完整键盘和拼音输入的人。
- 想展示“开源输入法 + Agent 语音纠错”结合方案的人。
- 想在简历、答辩或面试中讲清楚工程整合能力的人。
- 想继续基于 Trime/Rime 做输入法功能扩展的人。
下载
进入 GitHub Releases:
https://github.com/Nek0mush1/voiceTransformForAndroid/releases
选择 Release:
v1.5.0-trime-ime
推荐下载 universal APK:
voice-transform-trime-v1.5.0-universal.apk
如果需要更小体积,可以按手机 ABI 下载对应 APK。大多数现代 Android 手机使用:
arm64-v8a
Release APK 默认连接云端后端:
http://39.106.51.35:8000
普通使用者只要云端服务在线,不需要自己启动或部署后端。
功能
- 注册为 Android 系统输入法:
Voice Transform Trime。 - 中文拼音输入由 Trime/Rime 引擎处理。
- 默认 schema 为
voice_transform_pinyin。 - 内置 Voice Transform 专业词典,例如:
jizu->计组jiwang->计网shujujiegou->数据结构caozuoxitong->操作系统
- 长按空格键开始语音输入,松手停止并进入纠错流程。
- 语音纠错结果弹窗支持:
- 插入修正
- 插入原文
- 取消
- 后端继续使用用户画像、专业词库、拼音/同音候选和可选 LLM。
- 保留 Agent trace 和 LLM 调用日志,方便调试与演示。
使用教程
1. 安装 APK
使用 Release 下载的 APK:
adb install -r voice-transform-trime-v1.5.0-universal.apk或本地构建:
git checkout combine-with-Trime
cd android
$env:JAVA_HOME='D:\Softs\Android Studio\jbr'
$env:PATH="$env:JAVA_HOME\bin;$env:PATH"
.\gradlew.bat :trime:assembleDebug构建产物一般在:
android/trime/build/outputs/apk/debug/
安装 universal debug APK:
adb install -r .\trime\build\outputs\apk\debug\com.example.voicetransform.trime-95d8a4b-universal-debug.apk2. 后端说明
Trime 版本默认后端地址为:
http://39.106.51.35:8000
如果只是体验 Release 版本,一般不需要修改。
如果要连接自己的服务器,可以在 App 设置页改成自己的后端地址:
http://your-server-ip:8000
Trime 版本的语音键当前会录音并上传到:
POST /api/v1/correct-audio
所以语音纠错依赖后端 ASR。使用默认云端后端时,ASR 需要在这台云服务器上配置;如果你换成自己的服务器,也必须自己配置 ASR,否则录音上传后无法转文字。拼音输入和 Rime 候选不依赖后端 ASR。
3. 启用输入法
在 Android 设置中启用:
Settings -> System -> Keyboard -> On-screen keyboard -> Manage keyboards -> Voice Transform Trime
然后在任意文本输入框中切换到:
Voice Transform Trime
如果看到旧版圆角自定义键盘,说明当前切换到的是 Voice Transform IME,不是 Trime 版本。
4. 测试拼音输入
在输入框中输入:
jizu
候选词应包含:
计组
也可以测试:
jiwang -> 计网
shujujiegou -> 数据结构
caozuoxitong -> 操作系统
5. 测试语音纠错
长按空格键开始录音,说:
今天上午上了两节计组课
松手后,输入法会把音频或识别文本送到后端纠错。确认弹窗中会展示原文和纠错文本,用户确认后再插入当前输入框。
6. 自部署后端
下面步骤只面向开发者或想使用自己服务器的人。普通 Release 用户不需要执行。
cd backend
python -m pip install -r requirements.txt
python -m uvicorn app.main:app --reload验证:
curl http://127.0.0.1:8000/health
curl http://127.0.0.1:8000/api/v1/debug/status如果要使用 Trime 的语音录音上传能力,还需要在后端配置 ASR。没有 ASR 时,后端文本纠错接口仍可用,但 /api/v1/correct-audio 不能完成录音转文字。
Agent 设计
Trime 版本的 Agent 逻辑与原始版本一致,但产品入口更完整:
Trime/Rime IME
-> 拼音输入或语音输入
-> voice key / space long press
-> backend correction API
-> MemoryTool 读取用户画像和专业术语
-> PinyinCorrectorTool 生成候选纠错
-> LLMRewriteTool 可选约束式改写
-> trace/debug logs
-> 用户确认上屏
这个版本更适合强调 Agent 开发价值:
- Agent 不是聊天窗口,而是嵌入真实输入法工作流。
- Agent 的观察对象来自真实输入行为。
- Memory 不只是 prompt 文案,而是可维护的用户画像和术语库。
- Tool calling 有明确边界:记忆检索、规则纠错、LLM 改写。
- Act 的结果不是回答问题,而是产出可上屏文本。
- Trace 能解释每一次纠错,适合调试、演示和面试说明。
技术栈
| 模块 | 技术 |
|---|---|
| 输入法框架 | Trime, Rime, Android IME |
| Android 集成 | Kotlin/Java, Gradle, Android SDK |
| Backend | Python, FastAPI, Pydantic, SQLite, Uvicorn |
| Agent | ContextCorrectionAgent, MemoryTool, PinyinCorrectorTool, LLMRewriteTool |
| 语音 | Android 系统语音能力,可选后端 ASR |
| LLM | OpenAI-compatible Chat Completions / Responses API |
| Debug | Agent trace, LLM call logs, /api/v1/debug/* |
与 Original IME 的区别
| 对比项 | Original IME | Trime IME |
|---|---|---|
| 分支 | main |
combine-with-Trime |
| 定位 | MVP 闭环验证 | 完整输入法体验 |
| 键盘 | 自定义基础键盘 | Trime/Rime 完整键盘 |
| 拼音输入 | 基础候选 | Rime 拼音方案 |
| 语音纠错 | 支持 | 支持 |
| 推荐程度 | 适合理解原理 | 推荐安装体验 |
开源说明
本版本基于 Trime/Rime 生态做工程整合。发布和展示时应保留 Trime/Rime 的开源许可和致谢信息,相关依赖许可文件位于:
android/trime/licenses/
v1.0.0-original-IME-上下文LLM纠错文字转语音输入法
Original IME v1.0
Original IME 是 Voice Transform 的第一版 Android 输入法客户端,对应仓库 main 分支。它重点验证“语音识别结果进入后端 Agent 纠错,再由用户确认插入”的核心闭环。
适合谁使用
这个版本适合:
- 想快速理解项目最小闭环的人。
- 想演示语音识别纠错、用户画像、专业词库和 Agent trace 的人。
- 想基于较简单 Android
InputMethodService代码继续改造的人。
如果你想日常使用更完整的拼音键盘,建议安装 Trime 完整输入法版本。
下载
进入 GitHub Releases:
https://github.com/Nek0mush1/voiceTransformForAndroid/releases
选择 Release:
v1.0.0-original-ime
下载 APK:
voice-transform-original-ime-v1.0.0.apk
如果 Release 页面还没有上传 APK,可以从 main 分支本地构建。
Release APK 默认连接云端后端:
http://39.106.51.35:8000
普通使用者只要云端服务在线,不需要自己启动或部署后端。
功能
- 注册为 Android 系统输入法:
Voice Transform IME。 - 可在任意文本输入框中使用。
- 默认调用 Android 系统
SpeechRecognizer获取原始语音识别文本。 - 将 raw text 发送到后端
/api/v1/correct-text。 - 展示原文和纠错文本,用户可选择:
- 插入修正
- 插入原文
- 取消
- 支持后端地址、用户 ID、App 场景和语音模式配置。
- 支持在 App 内维护用户画像和专业词库。
- 支持查看纠错结果和 Agent trace。
使用教程
1. 安装 APK
使用 Release 下载的 APK:
adb install -r voice-transform-original-ime-v1.0.0.apk或本地构建:
git checkout main
cd android
$env:JAVA_HOME='D:\Softs\Android Studio\jbr'
$env:PATH="$env:JAVA_HOME\bin;$env:PATH"
.\gradlew.bat :app:assembleDebug
adb install -r .\app\build\outputs\apk\debug\app-debug.apk2. 配置后端
打开手机上的 Voice Transform App。默认后端地址已经是:
http://39.106.51.35:8000
如果只是体验 Release 版本,一般不需要修改。
如果想连接自己的后端,可以改成:
模拟器: http://10.0.2.2:8000
真机: http://电脑局域网 IP:8000
自有服务器: http://your-server-ip:8000
推荐配置:
Speech Mode: system
User ID: local_user
App Context: study
Speech Mode: system 使用手机系统语音识别,后端只负责文本纠错,不要求服务器配置 ASR。
Speech Mode: backend 会把录音上传到后端识别,要求服务器已经配置可用的 ASR 服务。
3. 启用输入法
在 Android 设置里启用:
Settings -> System -> Keyboard -> On-screen keyboard -> Manage keyboards -> Voice Transform IME
然后在任意输入框中切换到 Voice Transform IME。
4. 测试纠错
说:
今天上午上了两节计组课
如果系统 ASR 得到:
今天上午上了两节祭祖课
后端会结合专业词库和用户画像,返回:
今天上午上了两节计组课
用户确认后再插入当前输入框。
5. 自部署后端
下面步骤只面向开发者或想使用自己服务器的人。普通 Release 用户不需要执行。
cd backend
python -m pip install -r requirements.txt
python -m uvicorn app.main:app --reload验证:
curl http://127.0.0.1:8000/health
curl http://127.0.0.1:8000/api/v1/debug/statusAgent 设计
Original IME 版本的重点不是键盘体验,而是验证 Agent 闭环:
Android SpeechRecognizer
-> raw_text
-> FastAPI /api/v1/correct-text
-> MemoryTool 读取用户画像和术语库
-> PinyinCorrectorTool 生成同音/别名纠错候选
-> LLMRewriteTool 可选约束式改写
-> corrected_text + reason + trace
-> 用户确认插入
它体现的 Agent 开发重点:
- 有明确输入:ASR 文本、用户 ID、App 场景。
- 有可检索记忆:用户画像和专业术语库。
- 有工具调用:记忆读取、拼音纠错、LLM 改写。
- 有行动结果:返回可插入文本。
- 有可解释 trace:记录为什么修改、命中了哪些词、LLM 是否成功。
- 有失败回退:LLM 不可用时仍返回规则纠错结果。
技术栈
| 模块 | 技术 |
|---|---|
| Android | Java, Android SDK, InputMethodService, SpeechRecognizer, HttpURLConnection |
| Backend | Python, FastAPI, Pydantic, SQLite, Uvicorn |
| Agent | ContextCorrectionAgent, MemoryTool, PinyinCorrectorTool, LLMRewriteTool |
| ASR | Android system SpeechRecognizer,可选 Baidu ASR |
| LLM | OpenAI-compatible Chat Completions / Responses API |
局限
- 键盘能力较基础,不适合作为完整日常输入法。
- 拼音候选和键盘交互不如成熟输入法。
- ASR 准确率依赖 Android 系统语音识别。
- 更推荐用 Trime 版本体验完整输入法。