v1.0.0 - Production Ready

Liangchenxu released this 14 Jun 14:22

· 14 commits to main since this release

8329be3

Omni-VRAM v1.0.0 - Production Ready

完整语音AI平台，20个模块，支持实时转写、降噪、情绪识别、说话人分离、TTS、翻译等。

✨ New Features (v1.0.0)

核心升级

Whisper全系列支持 — tiny/base/small/medium/large-v3/Distil-Whisper
GPU加速 — faster-whisper比原生快5倍
实时流式ASR — 边说边出字，延迟<500ms
Web API — REST + WebSocket接口
gRPC服务 — 高性能RPC接口

AI功能

情绪识别 — wav2vec2深度学习模型，7种情绪
说话人分离 — pyannote-audio，自动识别谁在说话
声纹验证 — 1:1声纹认证，支持声纹库管理
音频事件检测 — 检测笑声、掌声、警报等

语音处理

噪声抑制 — WebRTC/RNNoise三后端
语音合成TTS — edge-tts微软语音
语音翻译 — 实时语音到语音翻译
音频增强 — 归一化、均衡器、修复

生产级架构

多GPU支持 — 管线/数据/张量并行
分布式转录 — 多机多卡并行处理
KV-Cache优化 — NF4/FP4量化，显存减半
监控系统 — Prometheus指标、Grafana仪表盘
插件系统 — 可扩展音频处理管道
唤醒词检测 — 自定义唤醒词

📦 Installation

pip install omni-vram

Assets 2