将图片、PDF、Word文档中的文字识别后转换为语音MP3文件。
| 软件 | 说明 |
|---|---|
| Python 3.8+ | https://python.org |
| Node.js 16+ | https://nodejs.org |
| ffmpeg | MP3合并功能必需 |
Windows: 双击运行 bookvoice/install.bat
macOS/Linux: bash bookvoice/install.sh
cd bookvoice
python app.py打开浏览器访问 http://localhost:5000
首次运行 OCR 功能时,easyocr 会下载模型文件(约 300MB)。
点击上传按钮,选择图片(PNG、JPG)、PDF 或 Word 文档。
- Single 模式:每个文档独立生成一个 MP3,多文档打包 ZIP 下载
- Merged 模式:所有文档合并成一个 MP3 下载
任务完成后,点击"下载"按钮获取 MP3 文件。
- 任务在后台异步处理
- 任务列表会自动刷新(每3秒)
- 稍等片刻即可
- 仅支持 Windows 系统
- 需要安装 ffmpeg:
choco install ffmpeg
- 前端已配置默认 API Key:
dev-key-change-me - 可通过环境变量
BOOKVOICE_API_KEY修改