In [5]:
import os
import shutil
import random

def split_dataset_by_fixed_numbers(input_dir, output_dir, val_count, test_count):
    """
    根據指定的驗證集和測試集數量來分割資料集。

    Args:
        input_dir (str): 包含類別子資料夾的原始資料集路徑。
        output_dir (str): 要儲存分割後資料集（train, validation, test）的目標路徑。
        val_count (int): 每個類別要分配到驗證集的圖片數量。
        test_count (int): 每個類別要分配到測試集的圖片數量。
    """
    # 確保輸出資料夾存在
    if os.path.exists(output_dir):
        # 為了避免重複執行時，舊資料影響新結果，可以選擇性地在開始前刪除舊的輸出資料夾
        # shutil.rmtree(output_dir) 
        print(f"輸出資料夾 '{output_dir}' 已存在。將在現有結構中新增或覆蓋檔案。")
    os.makedirs(output_dir, exist_ok=True)


    # 對每個類別資料夾進行處理
    for class_name in os.listdir(input_dir):
        class_path = os.path.join(input_dir, class_name)
        if not os.path.isdir(class_path):
            continue  # 跳過非資料夾檔案

        # 收集該類別的所有圖片
        images = [f for f in os.listdir(class_path) if f.lower().endswith(('.jpg', '.jpeg', '.png'))]
        random.shuffle(images)

        total = len(images)
        
        # 檢查圖片總數是否足夠分配
        if total < val_count + test_count:
            print(f"警告：類別 [{class_name}] 總圖片數 ({total}) 不足分配 {val_count} 張驗證集和 {test_count} 張測試集。將跳過此類別。")
            continue

        # 根據指定數量進行分割
        val_files = images[:val_count]
        test_files = images[val_count : val_count + test_count]
        train_files = images[val_count + test_count:]

        # 複製到各目的資料夾，保持類別結構
        for file_list, split in [(train_files, 'train'), (val_files, 'validation'), (test_files, 'test')]:
            split_class_dir = os.path.join(output_dir, split, class_name)
            os.makedirs(split_class_dir, exist_ok=True)
            for filename in file_list:
                src = os.path.join(class_path, filename)
                dst = os.path.join(split_class_dir, filename)
                shutil.copy(src, dst)

        print(f"類別 [{class_name}] 分配完成：Train={len(train_files)}, Val={len(val_files)}, Test={len(test_files)}")

# 🧪 使用範例
input_folder = '../merged_data_from3_50to60'       # 你的原始資料夾
output_folder = '../dataset_full_en_aug7_56_new' # 要儲存分好類別的資料夾

# 呼叫修改後的函式
split_dataset_by_fixed_numbers(input_folder, output_folder, val_count=120, test_count=20)

類別 [Agaricus lemaneiformis] 分配完成：Train=181, Val=120, Test=20
類別 [Amaranth] 分配完成：Train=326, Val=120, Test=20
類別 [asparagus] 分配完成：Train=717, Val=120, Test=20
類別 [Baby Corn] 分配完成：Train=607, Val=120, Test=20
類別 [Bamboo shoots] 分配完成：Train=198, Val=120, Test=20
類別 [Basil] 分配完成：Train=165, Val=120, Test=20
類別 [Beef Tomato] 分配完成：Train=430, Val=120, Test=20
類別 [Bell pepper] 分配完成：Train=161, Val=120, Test=20
類別 [Big Chinese Cabbage] 分配完成：Train=266, Val=120, Test=20
類別 [Big cucumber] 分配完成：Train=155, Val=120, Test=20
類別 [Bok Choy] 分配完成：Train=316, Val=120, Test=20
類別 [brocoli] 分配完成：Train=184, Val=120, Test=20
類別 [cabbage] 分配完成：Train=174, Val=120, Test=20
類別 [carrot] 分配完成：Train=195, Val=120, Test=20
類別 [celery] 分配完成：Train=122, Val=120, Test=20
類別 [chili] 分配完成：Train=249, Val=120, Test=20
類別 [Chinese Cabbage] 分配完成：Train=183, Val=120, Test=20
類別 [Chinese chives] 分配完成：Train=219, Val=120, Test=20
類別 [Chrysanthemum] 分配完成：Train=407, Val=120, Test=20
類別 [coriander] 分配完成：Train=361, Val=120, Test=20
類別 [corn] 分

### 以下為舊程式碼

In [1]:
import os
import shutil
import random

def split_dataset_by_class(input_dir, output_dir, train_ratio=0.7, val_ratio=0.2, test_ratio=0.1):
    # assert train_ratio + val_ratio + test_ratio == 1.0, "比例總和必須為 1"

    # 對每個類別資料夾進行處理
    for class_name in os.listdir(input_dir):
        class_path = os.path.join(input_dir, class_name)
        if not os.path.isdir(class_path):
            continue  # 跳過非資料夾

        # 收集該類別的所有圖片
        images = [f for f in os.listdir(class_path) if f.lower().endswith(('.jpg', '.jpeg', '.png'))]
        random.shuffle(images)

        total = len(images)
        train_end = int(total * train_ratio)
        val_end = train_end + int(total * val_ratio)

        train_files = images[:train_end]
        val_files = images[train_end:val_end]
        test_files = images[val_end:]

        # 複製到各目的資料夾，保持類別結構
        for file_list, split in [(train_files, 'train'), (val_files, 'validation'), (test_files, 'test')]:
            split_class_dir = os.path.join(output_dir, split, class_name)
            os.makedirs(split_class_dir, exist_ok=True)
            for filename in file_list:
                src = os.path.join(class_path, filename)
                dst = os.path.join(split_class_dir, filename)
                shutil.copy(src, dst)

        print(f"類別 [{class_name}] 分配完成：Train={len(train_files)}, Val={len(val_files)}, Test={len(test_files)}")

# 🧪 使用範例
input_folder = 'veg_img_eng_new'       # 你的原始資料夾
output_folder = 'dataset_full_en_aug5(no mix up)'       # 要儲存分好類別的資料夾

split_dataset_by_class(input_folder, output_folder)


類別 [Amaranth] 分配完成：Train=430, Val=123, Test=62
類別 [asparagus] 分配完成：Train=599, Val=171, Test=87
類別 [Baby Corn] 分配完成：Train=522, Val=149, Test=76
類別 [Bamboo shoots] 分配完成：Train=236, Val=67, Test=35
類別 [Basil] 分配完成：Train=230, Val=65, Test=34
類別 [Beef Tomato] 分配完成：Train=399, Val=114, Test=57
類別 [Bell pepper] 分配完成：Train=212, Val=60, Test=32
類別 [Big Chinese Cabbage] 分配完成：Train=305, Val=87, Test=45
類別 [Big cucumber] 分配完成：Train=206, Val=59, Test=30
類別 [Bok Choy] 分配完成：Train=319, Val=91, Test=46
類別 [brocoli] 分配完成：Train=226, Val=64, Test=34
類別 [cabbage] 分配完成：Train=224, Val=64, Test=33
類別 [carrot] 分配完成：Train=234, Val=67, Test=34
類別 [celery] 分配完成：Train=219, Val=62, Test=33
類別 [chili] 分配完成：Train=312, Val=89, Test=45
類別 [Chinese Cabbage] 分配完成：Train=226, Val=64, Test=33
類別 [coriander] 分配完成：Train=384, Val=109, Test=56
類別 [eggplant] 分配完成：Train=230, Val=66, Test=34
類別 [French beans] 分配完成：Train=454, Val=130, Test=66
類別 [Garlic] 分配完成：Train=512, Val=146, Test=74
類別 [ginger] 分配完成：Train=225, Val=64, Test=33
類別 