Skip to content

Omni-VRAM v2.0.0 - 完整 LLM 语音交互框架

Choose a tag to compare

@Liangchenxu Liangchenxu released this 15 Jun 14:32
· 10 commits to main since this release

Omni-VRAM v2.0.0

🎉 重大更新:完整 LLM 语音交互框架

让大模型长出耳朵和嘴巴!22个模块、375个测试、生产级架构。

✨ v2.0.0 新功能

🎙️ 语音识别

  • 多后端 Whisper(faster-whisper / whisper.cpp / OpenAI API)
  • 实时流式 ASR
  • 自动语言检测

🗣️ 说话人分析

  • 说话人分离(谁在什么时候说话)
  • 声纹验证(1:1 和 1:N)
  • 声纹注册和管理

😊 情绪识别

  • 7种情绪(开心、悲伤、生气、中性、惊讶、恐惧、厌恶)
  • wav2vec2 深度学习后端

🔇 音频处理

  • 多后端噪声消除
  • 音频事件检测
  • 唤醒词检测

🗣️ 语音合成与翻译

  • TTS(edge-tts / pyttsx3)
  • 语音翻译管道(ASR → 翻译 → TTS)

🏗️ 基础设施

  • 多 GPU 负载均衡
  • 分布式转录
  • 插件系统(热插拔)
  • Prometheus 监控
  • REST + gRPC API
  • Gradio Web UI

📦 安装

pip install omni-vram

🚀 快速开始

from vram_core import WhisperBridge

whisper = WhisperBridge()
result = whisper.transcribe("audio.wav")
print(result.text)

📊 数据

  • 22 个核心模块
  • 375 个测试用例
  • 支持 50+ 种语言

📖 文档

  • 安装指南:docs/installation.md
  • 快速入门:docs/quickstart.md
  • API 参考:docs/api_reference.md

🙏 致谢

感谢所有贡献者和开源社区!


完整变更日志:https://github.com/Liangchenxu/Omni-VRAM/commits/v2.0.0