AutoTag 是一个基于 Web 的轻量级、交互式标注平台。它利用先进的多模态大模型(如 Gemini、GLM、Qwen-VL)对图片进行精准标注,并对视频中的物体进行跨帧追踪与平滑渲染。
-
✨ 更舒服的UI
-
🚀 双模式交互
tracked_video_1766324375005.mp4
- 在多物体追踪和遮挡也表现出较好的性能:
video_20260107_144517_tagged.mp4
- 🧠 强大的模型集成
- 内置支持 Gemini 3 Flash, GLM-4.6V, Qwen-VL 等顶级多模态模型。经过测试,Gemini 3 Flash表现最佳,Qwen-VL排第二
- 通过 API 接口按需切换模型,兼顾速度与识别精度。
- 🕒 智能插值算法
- 采用 线性插值 (Linear Interpolation) 技术。即使 AI 只识别了少量的关键帧,系统也能自动计算中间帧的坐标,实现顺滑的 60FPS 追踪动画。
- 🎞️ 帧级控制与并发处理
- 支持手动抽帧模式,可调节 FPS(每秒帧数)和并行请求数,极大提升视频处理效率。建议抽帧频率 (5帧/秒),并行请求数 5并发。能在token消耗量较少的条件下达到比较好的效果
- 📥 多格式导出
- 实时渲染 Canvas 覆盖层。
- 支持将处理后的结果导出为 .mp4 视频(含标注层)或高质量标注图片。
- 🎨 极简 UI 设计
- 基于 Tailwind CSS 构建,支持响应式布局,提供实时处理进度条和结果时间轴。
- Canvas 实时渲染:使用双层 Canvas 架构,底层播放视频,顶层由算法驱动实时同步绘制标注框。
- 录制引擎:集成
MediaRecorder API,实现在浏览器前端完成视频流的实时合成与导出,无需后端参与。 - 归一化坐标处理:使用 0-1000 的归一化坐标系,确保标注结果在不同分辨率的显示器上保持一致。
- 支持yolo格式输出:

- 获取代码
下载
Web/文件或者直接在版本更新中选择最新版本下载压缩包文件。 - 环境准备 由于是纯前端项目,你只需要一个浏览器(Chrome / Edge / Safari)。
- 配置 API (可选)
在源码中的
CONFIGS.js常量中填入你自己的 API Key,目前只支持OpenAI兼容格式。 - 运行
双击
AutoTag.html即可在浏览器中运行。
- 选择模式:点击顶部的“模式切换”开关,选择图片或视频模式。
- 上传文件:点击上传区域,选择你需要处理的素材。
- 输入指令:在指令框输入你想标注或追踪的对象(例如:“追踪视频中那辆红色的汽车”)。
- 开始分析:点击“开始分析”,AI 将分批处理帧数据,你可以在下方看到实时进度。
- 交互与导出:
- 视频模式下,点击右侧生成的“时间轴”可快速跳转到对应帧。
- 点击“下载结果”保存你的作品。
- 示例gemini-3-flash API 价格:
- (实际价格会有所浮动)
- • 输入:0.002 CA/1K Tokens
- • 输出:0.012 CA/1K Tokens
- 请求一次平均
- 问题Tokens: 1176
- 回答Tokens: 307
- 总消耗Tokens: 1483
- 扣费大约: 0.006元
*注:精度取决于模型聪明度
作者:一只小白虎_晓枫呀


