🚀 大模型训练工具箱 v1.0

全流程视觉语言模型 (VLM) 训练与评估平台

📖 项目简介

大模型训练工具箱是一个专为视觉语言模型 (VLM) 训练与评估设计的全流程自动化平台。从数据采集、预处理、训练到最终的模型评估，一站式解决所有问题。通过友好的图形用户界面 (GUI)，让复杂的大模型训练工作变得简单高效。

✨ 核心价值

🎯 全流程覆盖 - 从数据到部署的完整工作流
🖥️ 图形化界面 - 告别繁琐的命令行操作
⚡ 高效自动化 - 一键启动，解放双手
📊 可视化报告 - 训练过程与结果一目了然
🔧 高度可配置 - 灵活的参数配置，满足各种需求

🎯 核心功能

🔍 智能数据采集

多引擎爬虫 - 支持 Google、Bing 等多个搜索引擎
关键词分组 - 灵活的关键词管理，按组采集存储
CLIP语义过滤 - 智能图片筛选，确保数据质量

🖼️ 图片批量处理

自动重命名 - 按规则批量重命名图片
格式转换 - 统一转换为 JPG 格式
压缩优化 - 自动压缩，节省存储空间

📦 数据集标准化

CSV → JSONL - 一键转换为训练所需格式
自动划分 - 自定义比例划分训练/验证/测试集
数据增强 - 选项、题目顺序随机打乱

🚀 高效训练启动

配置文件驱动 - YAML 配置，易于维护
DeepSpeed 支持 - 分布式训练，充分利用多 GPU
模块化设计 - 数据集、配置、插件、输出完全解耦

📈 训练日志分析

实时监控 - 多种训练指标可视化
PDF报告生成 - 自动生成专业的训练报告
样本分析 - 详细展示输入、输出和奖励

🧪 模型评估测试

一键测试 - 快速启动模型推理测试
多类型支持 - 支持 Base / Full / LoRA 检查点
测试报告 - 自动生成包含输入、输出、正确率的 PDF 报告

🏗️ 系统架构

┌─────────────────────────────────────────────────────────────────┐
│                         FDFT Platform GUI                        │
├─────────────────────────────────────────────────────────────────┤
│  ┌─────────────┐  ┌─────────────┐  ┌─────────────┐  ┌───────┐ │
│  │  数据采集   │→ │  图片处理   │→ │  数据集生成 │→ │ 训练  │ │
│  └─────────────┘  └─────────────┘  └─────────────┘  └───┬───┘ │
│                                                              ↓     │
│  ┌─────────────┐  ┌─────────────┐                    ┌─────────┐│
│  │  日志分析   │← │  模型测试   │←──────────────────│ 训练输出 ││
│  └─────────────┘  └─────────────┘                    └─────────┘│
└─────────────────────────────────────────────────────────────────┘

🛠️ 技术栈

类别	技术
核心框架	PyTorch, Transformers
分布式训练	DeepSpeed
VLM 模型	Qwen2.5-VL 系列
参数高效微调	PEFT / LoRA
数据处理	Pillow, CLIP
UI 框架	Tkinter
实验追踪	Weights & Biases
性能优化	Liger Kernel

📦 安装指南

环境要求

Python 3.9+
CUDA 11.8+ (推荐)
建议显存: 16GB+

快速安装

# 克隆项目
git clone <repository-url>
cd LTTK

# 安装依赖
pip install -r requirements.txt

# 启动图形界面
python main.py

🚀 快速开始

1️⃣ 启动平台

python main.py

2️⃣ 工作流程

数据采集 - 使用爬虫工具收集图片数据
图片清洗 - 批量重命名、格式转换
数据集生成 - 创建问答数据集并转换格式
训练启动 - 配置参数，开始训练
模型测试 - 评估模型性能
日志分析 - 生成训练报告

📁 项目结构

LTTK/
├── main.py                    # 主程序入口 (GUI)
├── requirements.txt           # Python 依赖
├── local_config.json          # 本地配置
├── 1_GPU_calculator.py       # GPU 显存估算
├── 2_image_crawler.py        # 图片爬虫工具
├── 3_images_rename_transform.py  # 图片处理工具
├── 4_generate_dataset.py     # 数据集生成
├── 5_train_run.py            # 训练启动器
├── 6_test_run.py             # 模型测试
├── 7_analyze_log_grpo.py     # 日志分析
├── fd_training_kit/          # 训练核心模块
│   ├── train_methods.py
│   ├── test_methods.py
│   └── ...
├── fd_image_crawler_kit/     # 爬虫核心模块
│   ├── google_collector.py
│   └── bing_collector.py
├── cloud_training/           # 云端训练支持
├── plugin/                    # 插件系统
└── datasets/                  # 数据集目录 (自动创建)

👨‍💻 作者信息

信息	详情
作者	DING FAN
邮箱	fdshiwoa@gmail.com
版本	v1.0

📝 许可证

MIT License - 详见 LICENSE 文件

如果这个项目对您有帮助，请给个 ⭐ Star！

Made with ❤️ by DING FAN

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

🚀 大模型训练工具箱 v1.0

📖 项目简介

✨ 核心价值

🎯 核心功能

🔍 智能数据采集

🖼️ 图片批量处理

📦 数据集标准化

🚀 高效训练启动

📈 训练日志分析

🧪 模型评估测试

🏗️ 系统架构

🛠️ 技术栈

📦 安装指南

环境要求

快速安装

🚀 快速开始

1️⃣ 启动平台

2️⃣ 工作流程

📁 项目结构

👨‍💻 作者信息

📝 许可证

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
cloud_training		cloud_training
fd_image_crawler_kit		fd_image_crawler_kit
fd_training_kit		fd_training_kit
plugin		plugin
1_GPU_calculator.py		1_GPU_calculator.py
2_image_crawler.py		2_image_crawler.py
3_images_rename_transform.py		3_images_rename_transform.py
4_generate_dataset.py		4_generate_dataset.py
5_train_run.py		5_train_run.py
5_train_run.sh		5_train_run.sh
6_test_run.py		6_test_run.py
7_analyze_log_grpo.py		7_analyze_log_grpo.py
README.md		README.md
TruthCorrector.py		TruthCorrector.py
debug_combine_datasets.py		debug_combine_datasets.py
debug_train.sh		debug_train.sh
image_check.py		image_check.py
local_config.json		local_config.json
main.py		main.py
requirements.txt		requirements.txt

Folders and files

Latest commit

History

Repository files navigation

🚀 大模型训练工具箱 v1.0

📖 项目简介

✨ 核心价值

🎯 核心功能

🔍 智能数据采集

🖼️ 图片批量处理

📦 数据集标准化

🚀 高效训练启动

📈 训练日志分析

🧪 模型评估测试

🏗️ 系统架构

🛠️ 技术栈

📦 安装指南

环境要求

快速安装

🚀 快速开始

1️⃣ 启动平台

2️⃣ 工作流程

📁 项目结构

👨‍💻 作者信息

📝 许可证

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages