语音输入 → ASR 识别 → 自动翻译 → 口译笔记 → TTS 朗读
- 语音识别 — 基于 faster-whisper,自动检测语言(中/英/日)
- 翻译 — 基于 DeepSeek / OpenAI API 的智能翻译
- 口译笔记 — 采用国际口译笔记体系(Rozan / Gillies 法)生成专业笔记
- 语音朗读 — 基于 Edge TTS 的原文和译文朗读(中文晓晓 / 英文 Aria / 日文 Nanami)
- 结果保存 — 翻译结果自动保存为 JSON 文件
ai-interpreter-copilot/
├── backend/
│ ├── app/
│ │ ├── main.py # FastAPI 入口
│ │ ├── api/translate.py # POST /translate, POST /tts
│ │ ├── services/
│ │ │ ├── asr_service.py # faster-whisper 语音识别
│ │ │ ├── translate_service.py # LLM 翻译
│ │ │ ├── note_service.py # 口译笔记生成
│ │ │ ├── tts_service.py # Edge TTS 语音合成
│ │ │ └── llm_client.py # OpenAI 客户端
│ │ ├── models/schemas.py # 数据模型
│ │ ├── utils/language_map.py # 语言映射
│ │ └── config/settings.py # 环境变量配置
│ ├── uploads/ # 上传的音频文件
│ ├── outputs/ # 翻译结果 JSON
│ ├── requirements.txt
│ └── .env
├── frontend/
│ └── index.html # 前端页面(双击打开)
└── README.md
编辑 backend/.env:
OPENAI_API_KEY=你的API_KEY
OPENAI_BASE_URL=https://api.deepseek.com
OPENAI_MODEL=deepseek-chat支持 DeepSeek、OpenAI 等兼容接口的 API。
cd backend
python -m venv venv
# Windows
venv\Scripts\activate
# Mac / Linux
source venv/bin/activate
pip install -r requirements.txtcd backend
venv\Scripts\activate
uvicorn app.main:app --reload双击 frontend/index.html 或用浏览器打开。
服务启动后访问 http://127.0.0.1:8000/docs 查看 Swagger 文档。
上传音频文件,返回翻译和笔记结果。
传入文本和语言,返回 MP3 音频。
| 模块 | 技术 |
|---|---|
| 后端框架 | FastAPI |
| 语音识别 | faster-whisper |
| 翻译引擎 | DeepSeek / OpenAI API |
| 语音合成 | Edge TTS |
| 前端 | HTML + Vanilla JS |