In [4]:
import os
import shutil
import random

def split_dataset_by_class(input_dir, output_dir, train_ratio=0.7, val_ratio=0.2, test_ratio=0.1):
    # assert train_ratio + val_ratio + test_ratio == 1.0, "比例總和必須為 1"

    # 對每個類別資料夾進行處理
    for class_name in os.listdir(input_dir):
        class_path = os.path.join(input_dir, class_name)
        if not os.path.isdir(class_path):
            continue  # 跳過非資料夾

        # 收集該類別的所有圖片
        images = [f for f in os.listdir(class_path) if f.lower().endswith(('.jpg', '.jpeg', '.png'))]
        random.shuffle(images)

        total = len(images)
        train_end = int(total * train_ratio)
        val_end = train_end + int(total * val_ratio)

        train_files = images[:train_end]
        val_files = images[train_end:val_end]
        test_files = images[val_end:]

        # 複製到各目的資料夾，保持類別結構
        for file_list, split in [(train_files, 'train'), (val_files, 'validation'), (test_files, 'test')]:
            split_class_dir = os.path.join(output_dir, split, class_name)
            os.makedirs(split_class_dir, exist_ok=True)
            for filename in file_list:
                src = os.path.join(class_path, filename)
                dst = os.path.join(split_class_dir, filename)
                shutil.copy(src, dst)

        print(f"類別 [{class_name}] 分配完成：Train={len(train_files)}, Val={len(val_files)}, Test={len(test_files)}")

# 🧪 使用範例
input_folder = 'veg_img英文'       # 你的原始資料夾
output_folder = 'dataset_full_en'       # 要儲存分好類別的資料夾

split_dataset_by_class(input_folder, output_folder)


類別 [Agaricus lemaneiformis] 分配完成：Train=224, Val=64, Test=33
類別 [Amaranth] 分配完成：Train=430, Val=123, Test=62
類別 [asparagus] 分配完成：Train=599, Val=171, Test=87
類別 [Baby Corn] 分配完成：Train=522, Val=149, Test=76
類別 [Bamboo shoots] 分配完成：Train=179, Val=51, Test=27
類別 [Basil] 分配完成：Train=164, Val=47, Test=24
類別 [Beef Tomato] 分配完成：Train=399, Val=114, Test=57
類別 [Bell pepper] 分配完成：Train=125, Val=35, Test=19
類別 [Big Chinese Cabbage] 分配完成：Train=359, Val=102, Test=53
類別 [Big cucumber] 分配完成：Train=177, Val=50, Test=26
類別 [Bok Choy] 分配完成：Train=320, Val=91, Test=47
類別 [Broccoli] 分配完成：Train=525, Val=150, Test=75
類別 [brocoli] 分配完成：Train=55, Val=15, Test=9
類別 [cabbage] 分配完成：Train=64, Val=18, Test=10
類別 [carrot] 分配完成：Train=57, Val=16, Test=9
類別 [celery] 分配完成：Train=159, Val=45, Test=24
類別 [chili] 分配完成：Train=361, Val=103, Test=52
類別 [Chinese Cabbage] 分配完成：Train=135, Val=38, Test=20
類別 [Chinese chives] 分配完成：Train=251, Val=71, Test=37
類別 [Chrysanthemum] 分配完成：Train=382, Val=109, Test=56
類別 [coriander] 分配完成：Train=384