In [1]:
import os
import random
import shutil

# 原始数据集路径
dataset_dir = r'E:/专业综合实践2/大作业/cleaned_animal_data_augmented'

# 设置训练集、验证集、测试集的比例
train_ratio = 0.7
val_ratio = 0.15
test_ratio = 0.15

# 新的保存目录
base_output_dir = r'E:/专业综合实践2/大作业/cleaned_animal_data_split'

# 如果目标文件夹不存在，创建它
if not os.path.exists(base_output_dir):
    os.makedirs(base_output_dir)

# 遍历数据集中的每个子文件夹
for subfolder in os.listdir(dataset_dir):
    subfolder_path = os.path.join(dataset_dir, subfolder)

    # 检查是否是文件夹（即类别文件夹）
    if os.path.isdir(subfolder_path):
        # 为每个子文件夹在输出目录中创建对应的子文件夹
        train_folder = os.path.join(base_output_dir, 'train', subfolder)
        val_folder = os.path.join(base_output_dir, 'val', subfolder)
        test_folder = os.path.join(base_output_dir, 'test', subfolder)

        for folder in [train_folder, val_folder, test_folder]:
            if not os.path.exists(folder):
                os.makedirs(folder)

        # 获取子文件夹中的所有图像文件
        image_files = [f for f in os.listdir(subfolder_path) if f.lower().endswith(('jpg', 'jpeg', 'png', 'bmp', 'gif'))]

        # 打乱图像文件顺序
        random.shuffle(image_files)

        # 计算每个数据集的样本数量
        total_images = len(image_files)
        train_count = int(train_ratio * total_images)
        val_count = int(val_ratio * total_images)
        test_count = total_images - train_count - val_count  # 剩余的作为测试集

        # 划分数据集
        train_files = image_files[:train_count]
        val_files = image_files[train_count:train_count + val_count]
        test_files = image_files[train_count + val_count:]

        # 将文件移动到对应的文件夹
        for file in train_files:
            shutil.copy(os.path.join(subfolder_path, file), os.path.join(train_folder, file))

        for file in val_files:
            shutil.copy(os.path.join(subfolder_path, file), os.path.join(val_folder, file))

        for file in test_files:
            shutil.copy(os.path.join(subfolder_path, file), os.path.join(test_folder, file))

        print(f"{subfolder} 类别数据集划分完成：")
        print(f"  训练集：{len(train_files)} 张图片")
        print(f"  验证集：{len(val_files)} 张图片")
        print(f"  测试集：{len(test_files)} 张图片")

print("数据集划分完成！")

Bear 类别数据集划分完成：
  训练集：437 张图片
  验证集：93 张图片
  测试集：95 张图片
Bird 类别数据集划分完成：
  训练集：479 张图片
  验证集：102 张图片
  测试集：104 张图片
Cat 类别数据集划分完成：
  训练集：430 张图片
  验证集：92 张图片
  测试集：93 张图片
Cow 类别数据集划分完成：
  训练集：458 张图片
  验证集：98 张图片
  测试集：99 张图片
Deer 类别数据集划分完成：
  训练集：444 张图片
  验证集：95 张图片
  测试集：96 张图片
Dog 类别数据集划分完成：
  训练集：427 张图片
  验证集：91 张图片
  测试集：92 张图片
Dolphin 类别数据集划分完成：
  训练集：451 张图片
  验证集：96 张图片
  测试集：98 张图片
Elephant 类别数据集划分完成：
  训练集：465 张图片
  验证集：99 张图片
  测试集：101 张图片
Giraffe 类别数据集划分完成：
  训练集：451 张图片
  验证集：96 张图片
  测试集：98 张图片
Horse 类别数据集划分完成：
  训练集：454 张图片
  验证集：97 张图片
  测试集：99 张图片
Kangaroo 类别数据集划分完成：
  训练集：441 张图片
  验证集：94 张图片
  测试集：95 张图片
Lion 类别数据集划分完成：
  训练集：458 张图片
  验证集：98 张图片
  测试集：99 张图片
Panda 类别数据集划分完成：
  训练集：472 张图片
  验证集：101 张图片
  测试集：102 张图片
Tiger 类别数据集划分完成：
  训练集：451 张图片
  验证集：96 张图片
  测试集：98 张图片
Zebra 类别数据集划分完成：
  训练集：479 张图片
  验证集：102 张图片
  测试集：104 张图片
数据集划分完成！
