In [1]:
import os
import shutil
import random

# --- 配置路径 ---
# 下载的原始图片都在这个文件夹
original_dataset_dir = 'NEU-DET/IMAGES' 
# 处理后的数据保存路径
base_dir = 'dataset_formatted'

# NEU-DET 的6个类别前缀 (根据文件名特征)
classes = ['crazing', 'inclusion', 'patches', 'pitted_surface', 'rolled-in_scale', 'scratches']

def split_data():
    # 1. 创建目录结构
    for split in ['train', 'val']:
        for cls_name in classes:
            os.makedirs(os.path.join(base_dir, split, cls_name), exist_ok=True)

    # 2. 遍历并移动文件
    # 获取所有图片文件
    all_files = [f for f in os.listdir(original_dataset_dir) if f.endswith(('.jpg', '.bmp', '.png'))]
    
    # 统计处理数量
    counts = {k: 0 for k in classes}

    print("开始划分数据集...")
    
    # 为了保证每类都均匀划分，我们按类别处理
    for cls_name in classes:
        # 找到属于当前类的所有图片 (比如文件名包含 'crazing')
        cls_files = [f for f in all_files if cls_name in f.lower() or f.lower().startswith(cls_name)]
        
        # 打乱顺序
        random.shuffle(cls_files)
        
        # 8:2 划分
        split_point = int(len(cls_files) * 0.8)
        train_files = cls_files[:split_point]
        val_files = cls_files[split_point:]

        # 复制文件
        for f in train_files:
            shutil.copy(os.path.join(original_dataset_dir, f), os.path.join(base_dir, 'train', cls_name, f))
        for f in val_files:
            shutil.copy(os.path.join(original_dataset_dir, f), os.path.join(base_dir, 'val', cls_name, f))
            
        counts[cls_name] = len(cls_files)
        print(f"类别 {cls_name}: 总数 {len(cls_files)} -> 训练集 {len(train_files)} | 验证集 {len(val_files)}")

if __name__ == '__main__':
    # 确保原始路径存在
    if not os.path.exists(original_dataset_dir):
        print(f"错误: 找不到原始图片文件夹 '{original_dataset_dir}'，请修改代码中的路径。")
    else:
        split_data()
        print("\n数据集划分完成！现在的结构是：")
        print(f"{base_dir}/train/类别名/图片.jpg")
        print(f"{base_dir}/val/类别名/图片.jpg")

开始划分数据集...
类别 crazing: 总数 300 -> 训练集 240 | 验证集 60
类别 inclusion: 总数 300 -> 训练集 240 | 验证集 60
类别 patches: 总数 300 -> 训练集 240 | 验证集 60
类别 pitted_surface: 总数 300 -> 训练集 240 | 验证集 60
类别 rolled-in_scale: 总数 300 -> 训练集 240 | 验证集 60
类别 scratches: 总数 300 -> 训练集 240 | 验证集 60

数据集划分完成！现在的结构是：
dataset_formatted/train/类别名/图片.jpg
dataset_formatted/val/类别名/图片.jpg
