大模型训练工具箱是一个专为视觉语言模型 (VLM) 训练与评估设计的全流程自动化平台。从数据采集、预处理、训练到最终的模型评估,一站式解决所有问题。通过友好的图形用户界面 (GUI),让复杂的大模型训练工作变得简单高效。
- 🎯 全流程覆盖 - 从数据到部署的完整工作流
- 🖥️ 图形化界面 - 告别繁琐的命令行操作
- ⚡ 高效自动化 - 一键启动,解放双手
- 📊 可视化报告 - 训练过程与结果一目了然
- 🔧 高度可配置 - 灵活的参数配置,满足各种需求
- 多引擎爬虫 - 支持 Google、Bing 等多个搜索引擎
- 关键词分组 - 灵活的关键词管理,按组采集存储
- CLIP语义过滤 - 智能图片筛选,确保数据质量
- 自动重命名 - 按规则批量重命名图片
- 格式转换 - 统一转换为 JPG 格式
- 压缩优化 - 自动压缩,节省存储空间
- CSV → JSONL - 一键转换为训练所需格式
- 自动划分 - 自定义比例划分训练/验证/测试集
- 数据增强 - 选项、题目顺序随机打乱
- 配置文件驱动 - YAML 配置,易于维护
- DeepSpeed 支持 - 分布式训练,充分利用多 GPU
- 模块化设计 - 数据集、配置、插件、输出完全解耦
- 实时监控 - 多种训练指标可视化
- PDF报告生成 - 自动生成专业的训练报告
- 样本分析 - 详细展示输入、输出和奖励
- 一键测试 - 快速启动模型推理测试
- 多类型支持 - 支持 Base / Full / LoRA 检查点
- 测试报告 - 自动生成包含输入、输出、正确率的 PDF 报告
┌─────────────────────────────────────────────────────────────────┐
│ FDFT Platform GUI │
├─────────────────────────────────────────────────────────────────┤
│ ┌─────────────┐ ┌─────────────┐ ┌─────────────┐ ┌───────┐ │
│ │ 数据采集 │→ │ 图片处理 │→ │ 数据集生成 │→ │ 训练 │ │
│ └─────────────┘ └─────────────┘ └─────────────┘ └───┬───┘ │
│ ↓ │
│ ┌─────────────┐ ┌─────────────┐ ┌─────────┐│
│ │ 日志分析 │← │ 模型测试 │←──────────────────│ 训练输出 ││
│ └─────────────┘ └─────────────┘ └─────────┘│
└─────────────────────────────────────────────────────────────────┘
| 类别 | 技术 |
|---|---|
| 核心框架 | PyTorch, Transformers |
| 分布式训练 | DeepSpeed |
| VLM 模型 | Qwen2.5-VL 系列 |
| 参数高效微调 | PEFT / LoRA |
| 数据处理 | Pillow, CLIP |
| UI 框架 | Tkinter |
| 实验追踪 | Weights & Biases |
| 性能优化 | Liger Kernel |
- Python 3.9+
- CUDA 11.8+ (推荐)
- 建议显存: 16GB+
# 克隆项目
git clone <repository-url>
cd LTTK
# 安装依赖
pip install -r requirements.txt
# 启动图形界面
python main.pypython main.py- 数据采集 - 使用爬虫工具收集图片数据
- 图片清洗 - 批量重命名、格式转换
- 数据集生成 - 创建问答数据集并转换格式
- 训练启动 - 配置参数,开始训练
- 模型测试 - 评估模型性能
- 日志分析 - 生成训练报告
LTTK/
├── main.py # 主程序入口 (GUI)
├── requirements.txt # Python 依赖
├── local_config.json # 本地配置
├── 1_GPU_calculator.py # GPU 显存估算
├── 2_image_crawler.py # 图片爬虫工具
├── 3_images_rename_transform.py # 图片处理工具
├── 4_generate_dataset.py # 数据集生成
├── 5_train_run.py # 训练启动器
├── 6_test_run.py # 模型测试
├── 7_analyze_log_grpo.py # 日志分析
├── fd_training_kit/ # 训练核心模块
│ ├── train_methods.py
│ ├── test_methods.py
│ └── ...
├── fd_image_crawler_kit/ # 爬虫核心模块
│ ├── google_collector.py
│ └── bing_collector.py
├── cloud_training/ # 云端训练支持
├── plugin/ # 插件系统
└── datasets/ # 数据集目录 (自动创建)
| 信息 | 详情 |
|---|---|
| 作者 | DING FAN |
| 邮箱 | fdshiwoa@gmail.com |
| 版本 | v1.0 |
MIT License - 详见 LICENSE 文件
如果这个项目对您有帮助,请给个 ⭐ Star!
Made with ❤️ by DING FAN