Releases: alexchan197611/ai_caption_video
Releases · alexchan197611/ai_caption_video
AI Media Assistant Web 2.0
AI Media Assistant Web 2.0
本版本切换为本地 Web 架构,支持浏览器编辑、后台 TTS、逐句配图、字幕模板、BGM 和视频导出。
使用方式
- 解压 zip
- 运行
scripts\setup_windows.ps1 - 运行
scripts\start_windows.ps1 - 打开
http://127.0.0.1:8123 - mac用户请使用setup_macos.sh 和 start_macos.sh 命令
demo1.mp4
demo2.mp4
注意
模型权重不包含在 Release 包中,需要用户自行准备。
目录结构应该如下:
ai-media-assistant
├─ apps
├─ packages
├─ workers
├─ scripts
├─ docs
├─ storage
├─ models
│ ├─ OmniVoice
│ └─ Qwen3-TTS-1.7B
├─ package.json
├─ package-lock.json
├─ pyproject.toml
└─ README.md
AI Caption Video v1.0.2
AI Caption Video v1.0.2
本次版本新增并完善“古风模板”,强化竖排字幕的视觉表现和成片氛围。
新增功能
- 新增古风竖排字幕模板,文字按照语音时长从上到下逐字出现。
- 每列最多显示 7 个中文字,长句自动从右向左增加新列。
- 短句根据可用区域自动放大,长句自动缩小,保持版面稳定。
- 重点文字使用朱砂红显示,古风模板下隐藏普通行颜色设置。
- 新增贯穿整条影片的多层动态烟雾,位于背景之上、文字之下。
- 古风模板自动联动 OmniVoice 语音克隆模式和内置古风参考音色。
- 软件默认使用 OmniVoice 语音克隆模式,并默认最大化启动。
打包资源
Windows EXE 已嵌入古风背景、汉仪尚巍手书字体和古风参考音色,使用者无需单独安装字体或复制这些素材。
下载说明
Release 附件为 Windows x64 程序包,不包含 Qwen3-TTS 与 OmniVoice 模型权重。需要完整 TTS 开箱即用版本时,请使用项目提供的云盘 Portable 整合包,并保留其 models 目录结构。
修复与优化
- 提高动态烟雾的可见度与漂移幅度。
- 保证烟雾时间轴跨字幕片段连续,不在句间重新开始。
- 针对汉仪尚巍手书减轻额外描边,保留毛笔笔锋细节。
- 修正 PyInstaller 构建失败时仍显示成功的问题。