Skip to content

v1.0.0 - Production Ready

Choose a tag to compare

@Liangchenxu Liangchenxu released this 14 Jun 14:22
· 14 commits to main since this release

Omni-VRAM v1.0.0 - Production Ready

完整语音AI平台,20个模块,支持实时转写、降噪、情绪识别、说话人分离、TTS、翻译等。

✨ New Features (v1.0.0)

核心升级

  • Whisper全系列支持 — tiny/base/small/medium/large-v3/Distil-Whisper
  • GPU加速 — faster-whisper比原生快5倍
  • 实时流式ASR — 边说边出字,延迟<500ms
  • Web API — REST + WebSocket接口
  • gRPC服务 — 高性能RPC接口

AI功能

  • 情绪识别 — wav2vec2深度学习模型,7种情绪
  • 说话人分离 — pyannote-audio,自动识别谁在说话
  • 声纹验证 — 1:1声纹认证,支持声纹库管理
  • 音频事件检测 — 检测笑声、掌声、警报等

语音处理

  • 噪声抑制 — WebRTC/RNNoise三后端
  • 语音合成TTS — edge-tts微软语音
  • 语音翻译 — 实时语音到语音翻译
  • 音频增强 — 归一化、均衡器、修复

生产级架构

  • 多GPU支持 — 管线/数据/张量并行
  • 分布式转录 — 多机多卡并行处理
  • KV-Cache优化 — NF4/FP4量化,显存减半
  • 监控系统 — Prometheus指标、Grafana仪表盘
  • 插件系统 — 可扩展音频处理管道
  • 唤醒词检测 — 自定义唤醒词

📦 Installation

pip install omni-vram