Skip to content

v0.1.2

Choose a tag to compare

@nancheung nancheung released this 27 May 17:03

本次版本聚焦于 WebUI 交互体验升级、音频模式完善、设备控制统一化,同时补齐了多项稳定性修复与发布准备工作。整体上,客户端在 响应式布局、实时语音交互、设备设置管理 方面都有明显提升。

✨ 新增特性

1. 完整实现三种音频监听模式

  • 完善 Auto / Manual / Realtime 三种监听模式的行为逻辑。
  • Auto 模式 下,TTS 播放结束后可自动恢复监听,更贴近半双工语音助手体验。
  • Realtime 模式 下支持播放 TTS 时持续录音,实现更自然的全双工对话。
  • 在 TTS 过程中,用户可以更直接地打断并开始新一轮语音输入。

2. 全新响应式 ClientView 布局

  • 重新设计主界面,支持 窄屏/宽屏自适应布局
  • 窄屏下采用更紧凑的状态条、对话区与底部控制栏布局。
  • 宽屏下升级为 双栏布局:左侧对话历史,右侧命令中心,信息层次更清晰,调试和交互效率更高。

3. 新增统一设备设置面板

  • 使用新的 DeviceSettingsPanel 替代原有 IoT 面板。
  • 集成 音量、亮度、主题 等设备设置。
  • 抽离统一的设备设置入口,方便 UI 与 MCP 工具共用同一套控制逻辑。

4. 设备设置与面板布局持久化

  • 设备的 音量 / 亮度 / 主题 现在支持本地持久化。
  • 调试面板布局比例也会自动保存,下次打开可恢复之前的使用习惯。

5. 音频可视化体验增强

  • 音量条和波形图支持 响应式尺寸适配
  • Canvas 分辨率会随容器尺寸同步更新,提升不同屏幕下的显示质量和清晰度。

⚡ 优化改进

  • 优化窄屏布局下的交互细节,提升输入反馈和音频状态展示的一致性。
  • 活跃音频状态下,将模式切换图标替换为更直接的 中断/Abort 按钮,减少误操作成本。
  • 优化窄屏与宽屏场景下的 STT/TTS 展示逻辑,更清楚地反映“用户在说”和“服务端在回应”的并行状态。
  • 协议日志时间戳精确到 毫秒,便于排查时序问题。
  • 日志中的播放按钮改为内联显示,界面更紧凑。
  • README、截图、功能说明、开发指引与路线图同步更新,补充 License 和 npm 发布信息。

🐛 Bug 修复

  • 修复 Realtime 模式 下上下行音频流在协议日志中无法独立正确合并的问题。
  • 修复连接关闭后录音未在所有路径下正确停止的问题,避免麦克风与 AudioContext 残留占用。
  • 修复 Realtime 模式下停止麦克风时发送错误控制指令的问题,改为正确发送 abort
  • 修复部分音频状态切换场景下自动恢复监听行为不准确的问题,减少异常重启或错误中断。

📦 其他

  • 版本更新至 v0.1.2
  • 补充项目 License
  • 更新发布配套文档与展示素材