Skip to content

Releases: Nek0mush1/voiceTransformForAndroid

v1.5.0-trime-ime-开源Trime输入法接入LLM纠错语音转文字功能

Choose a tag to compare

@Nek0mush1 Nek0mush1 released this 19 Jun 16:58

Trime IME v1.5

Trime IME 是 Voice Transform 的完整输入法版本,对应仓库 combine-with-Trime 分支。它在 Trime/Rime 开源输入法基础上,接入 Voice Transform 的语音输入纠错 Agent,让项目从“语音纠错输入法 MVP”进一步接近真实可用的 Android 输入法。

适合谁使用

这个版本适合:

  • 想体验完整键盘和拼音输入的人。
  • 想展示“开源输入法 + Agent 语音纠错”结合方案的人。
  • 想在简历、答辩或面试中讲清楚工程整合能力的人。
  • 想继续基于 Trime/Rime 做输入法功能扩展的人。

下载

进入 GitHub Releases:

https://github.com/Nek0mush1/voiceTransformForAndroid/releases

选择 Release:

v1.5.0-trime-ime

推荐下载 universal APK:

voice-transform-trime-v1.5.0-universal.apk

如果需要更小体积,可以按手机 ABI 下载对应 APK。大多数现代 Android 手机使用:

arm64-v8a

Release APK 默认连接云端后端:

http://39.106.51.35:8000

普通使用者只要云端服务在线,不需要自己启动或部署后端。

功能

  • 注册为 Android 系统输入法:Voice Transform Trime
  • 中文拼音输入由 Trime/Rime 引擎处理。
  • 默认 schema 为 voice_transform_pinyin
  • 内置 Voice Transform 专业词典,例如:
    • jizu -> 计组
    • jiwang -> 计网
    • shujujiegou -> 数据结构
    • caozuoxitong -> 操作系统
  • 长按空格键开始语音输入,松手停止并进入纠错流程。
  • 语音纠错结果弹窗支持:
    • 插入修正
    • 插入原文
    • 取消
  • 后端继续使用用户画像、专业词库、拼音/同音候选和可选 LLM。
  • 保留 Agent trace 和 LLM 调用日志,方便调试与演示。

使用教程

1. 安装 APK

使用 Release 下载的 APK:

adb install -r voice-transform-trime-v1.5.0-universal.apk

或本地构建:

git checkout combine-with-Trime
cd android
$env:JAVA_HOME='D:\Softs\Android Studio\jbr'
$env:PATH="$env:JAVA_HOME\bin;$env:PATH"
.\gradlew.bat :trime:assembleDebug

构建产物一般在:

android/trime/build/outputs/apk/debug/

安装 universal debug APK:

adb install -r .\trime\build\outputs\apk\debug\com.example.voicetransform.trime-95d8a4b-universal-debug.apk

2. 后端说明

Trime 版本默认后端地址为:

http://39.106.51.35:8000

如果只是体验 Release 版本,一般不需要修改。

如果要连接自己的服务器,可以在 App 设置页改成自己的后端地址:

http://your-server-ip:8000

Trime 版本的语音键当前会录音并上传到:

POST /api/v1/correct-audio

所以语音纠错依赖后端 ASR。使用默认云端后端时,ASR 需要在这台云服务器上配置;如果你换成自己的服务器,也必须自己配置 ASR,否则录音上传后无法转文字。拼音输入和 Rime 候选不依赖后端 ASR。

3. 启用输入法

在 Android 设置中启用:

Settings -> System -> Keyboard -> On-screen keyboard -> Manage keyboards -> Voice Transform Trime

然后在任意文本输入框中切换到:

Voice Transform Trime

如果看到旧版圆角自定义键盘,说明当前切换到的是 Voice Transform IME,不是 Trime 版本。

4. 测试拼音输入

在输入框中输入:

jizu

候选词应包含:

计组

也可以测试:

jiwang -> 计网
shujujiegou -> 数据结构
caozuoxitong -> 操作系统

5. 测试语音纠错

长按空格键开始录音,说:

今天上午上了两节计组课

松手后,输入法会把音频或识别文本送到后端纠错。确认弹窗中会展示原文和纠错文本,用户确认后再插入当前输入框。

6. 自部署后端

下面步骤只面向开发者或想使用自己服务器的人。普通 Release 用户不需要执行。

cd backend
python -m pip install -r requirements.txt
python -m uvicorn app.main:app --reload

验证:

curl http://127.0.0.1:8000/health
curl http://127.0.0.1:8000/api/v1/debug/status

如果要使用 Trime 的语音录音上传能力,还需要在后端配置 ASR。没有 ASR 时,后端文本纠错接口仍可用,但 /api/v1/correct-audio 不能完成录音转文字。

Agent 设计

Trime 版本的 Agent 逻辑与原始版本一致,但产品入口更完整:

Trime/Rime IME
  -> 拼音输入或语音输入
  -> voice key / space long press
  -> backend correction API
  -> MemoryTool 读取用户画像和专业术语
  -> PinyinCorrectorTool 生成候选纠错
  -> LLMRewriteTool 可选约束式改写
  -> trace/debug logs
  -> 用户确认上屏

这个版本更适合强调 Agent 开发价值:

  • Agent 不是聊天窗口,而是嵌入真实输入法工作流。
  • Agent 的观察对象来自真实输入行为。
  • Memory 不只是 prompt 文案,而是可维护的用户画像和术语库。
  • Tool calling 有明确边界:记忆检索、规则纠错、LLM 改写。
  • Act 的结果不是回答问题,而是产出可上屏文本。
  • Trace 能解释每一次纠错,适合调试、演示和面试说明。

技术栈

模块 技术
输入法框架 Trime, Rime, Android IME
Android 集成 Kotlin/Java, Gradle, Android SDK
Backend Python, FastAPI, Pydantic, SQLite, Uvicorn
Agent ContextCorrectionAgent, MemoryTool, PinyinCorrectorTool, LLMRewriteTool
语音 Android 系统语音能力,可选后端 ASR
LLM OpenAI-compatible Chat Completions / Responses API
Debug Agent trace, LLM call logs, /api/v1/debug/*

与 Original IME 的区别

对比项 Original IME Trime IME
分支 main combine-with-Trime
定位 MVP 闭环验证 完整输入法体验
键盘 自定义基础键盘 Trime/Rime 完整键盘
拼音输入 基础候选 Rime 拼音方案
语音纠错 支持 支持
推荐程度 适合理解原理 推荐安装体验

开源说明

本版本基于 Trime/Rime 生态做工程整合。发布和展示时应保留 Trime/Rime 的开源许可和致谢信息,相关依赖许可文件位于:

android/trime/licenses/

v1.0.0-original-IME-上下文LLM纠错文字转语音输入法

Choose a tag to compare

@Nek0mush1 Nek0mush1 released this 19 Jun 16:56

Original IME v1.0

Original IME 是 Voice Transform 的第一版 Android 输入法客户端,对应仓库 main 分支。它重点验证“语音识别结果进入后端 Agent 纠错,再由用户确认插入”的核心闭环。

适合谁使用

这个版本适合:

  • 想快速理解项目最小闭环的人。
  • 想演示语音识别纠错、用户画像、专业词库和 Agent trace 的人。
  • 想基于较简单 Android InputMethodService 代码继续改造的人。

如果你想日常使用更完整的拼音键盘,建议安装 Trime 完整输入法版本

下载

进入 GitHub Releases:

https://github.com/Nek0mush1/voiceTransformForAndroid/releases

选择 Release:

v1.0.0-original-ime

下载 APK:

voice-transform-original-ime-v1.0.0.apk

如果 Release 页面还没有上传 APK,可以从 main 分支本地构建。

Release APK 默认连接云端后端:

http://39.106.51.35:8000

普通使用者只要云端服务在线,不需要自己启动或部署后端。

功能

  • 注册为 Android 系统输入法:Voice Transform IME
  • 可在任意文本输入框中使用。
  • 默认调用 Android 系统 SpeechRecognizer 获取原始语音识别文本。
  • 将 raw text 发送到后端 /api/v1/correct-text
  • 展示原文和纠错文本,用户可选择:
    • 插入修正
    • 插入原文
    • 取消
  • 支持后端地址、用户 ID、App 场景和语音模式配置。
  • 支持在 App 内维护用户画像和专业词库。
  • 支持查看纠错结果和 Agent trace。

使用教程

1. 安装 APK

使用 Release 下载的 APK:

adb install -r voice-transform-original-ime-v1.0.0.apk

或本地构建:

git checkout main
cd android
$env:JAVA_HOME='D:\Softs\Android Studio\jbr'
$env:PATH="$env:JAVA_HOME\bin;$env:PATH"
.\gradlew.bat :app:assembleDebug
adb install -r .\app\build\outputs\apk\debug\app-debug.apk

2. 配置后端

打开手机上的 Voice Transform App。默认后端地址已经是:

http://39.106.51.35:8000

如果只是体验 Release 版本,一般不需要修改。

如果想连接自己的后端,可以改成:

模拟器: http://10.0.2.2:8000
真机:   http://电脑局域网 IP:8000
自有服务器: http://your-server-ip:8000

推荐配置:

Speech Mode: system
User ID: local_user
App Context: study

Speech Mode: system 使用手机系统语音识别,后端只负责文本纠错,不要求服务器配置 ASR。

Speech Mode: backend 会把录音上传到后端识别,要求服务器已经配置可用的 ASR 服务。

3. 启用输入法

在 Android 设置里启用:

Settings -> System -> Keyboard -> On-screen keyboard -> Manage keyboards -> Voice Transform IME

然后在任意输入框中切换到 Voice Transform IME

4. 测试纠错

说:

今天上午上了两节计组课

如果系统 ASR 得到:

今天上午上了两节祭祖课

后端会结合专业词库和用户画像,返回:

今天上午上了两节计组课

用户确认后再插入当前输入框。

5. 自部署后端

下面步骤只面向开发者或想使用自己服务器的人。普通 Release 用户不需要执行。

cd backend
python -m pip install -r requirements.txt
python -m uvicorn app.main:app --reload

验证:

curl http://127.0.0.1:8000/health
curl http://127.0.0.1:8000/api/v1/debug/status

Agent 设计

Original IME 版本的重点不是键盘体验,而是验证 Agent 闭环:

Android SpeechRecognizer
  -> raw_text
  -> FastAPI /api/v1/correct-text
  -> MemoryTool 读取用户画像和术语库
  -> PinyinCorrectorTool 生成同音/别名纠错候选
  -> LLMRewriteTool 可选约束式改写
  -> corrected_text + reason + trace
  -> 用户确认插入

它体现的 Agent 开发重点:

  • 有明确输入:ASR 文本、用户 ID、App 场景。
  • 有可检索记忆:用户画像和专业术语库。
  • 有工具调用:记忆读取、拼音纠错、LLM 改写。
  • 有行动结果:返回可插入文本。
  • 有可解释 trace:记录为什么修改、命中了哪些词、LLM 是否成功。
  • 有失败回退:LLM 不可用时仍返回规则纠错结果。

技术栈

模块 技术
Android Java, Android SDK, InputMethodService, SpeechRecognizer, HttpURLConnection
Backend Python, FastAPI, Pydantic, SQLite, Uvicorn
Agent ContextCorrectionAgent, MemoryTool, PinyinCorrectorTool, LLMRewriteTool
ASR Android system SpeechRecognizer,可选 Baidu ASR
LLM OpenAI-compatible Chat Completions / Responses API

局限

  • 键盘能力较基础,不适合作为完整日常输入法。
  • 拼音候选和键盘交互不如成熟输入法。
  • ASR 准确率依赖 Android 系统语音识别。
  • 更推荐用 Trime 版本体验完整输入法。