In [None]:
import os
import shutil
import random

def split_data_by_category(source_dir, target_base_dir, category_type, data_type, train_ratio=0.7, val_ratio=0.15, test_ratio=0.15):
    """
    แบ่งข้อมูลเป็น Train, Validation, และ Test ตาม category_type ที่กำหนด ('size' หรือ 'brand')
    
    Parameters:
        source_dir (str): โฟลเดอร์ต้นฉบับที่เก็บข้อมูล
        target_base_dir (str): โฟลเดอร์ปลายทางสำหรับจัดเก็บชุดแบ่ง
        category_type (str): 'size' หรือ 'brand'
        data_type (str): 'can' หรือ 'bottle'
        train_ratio (float): อัตราส่วนของ train set
        val_ratio (float): อัตราส่วนของ validation set
        test_ratio (float): อัตราส่วนของ test set
    """
    # ตั้งค่า path สำหรับแต่ละประเภท
    data_path = os.path.join(source_dir, data_type)
    
    if category_type == "size":
        categories = os.listdir(os.path.join(data_path, "size"))
        source_path = os.path.join(data_path, "size")
        target_path = os.path.join(target_base_dir, data_type + "_size_split")
    elif category_type == "brand":
        categories = os.listdir(os.path.join(data_path, "brand"))
        source_path = os.path.join(data_path, "brand")
        target_path = os.path.join(target_base_dir, data_type + "_brand_split")
    else:
        raise ValueError("category_type ต้องเป็น 'size' หรือ 'brand' เท่านั้น")
    
    for category in categories:
        category_path = os.path.join(source_path, category)
        if not os.path.isdir(category_path):
            continue

        images = os.listdir(category_path)
        random.shuffle(images)

        # แบ่งข้อมูลเป็น Train, Val, Test
        train_split = int(len(images) * train_ratio)
        val_split = int(len(images) * (train_ratio + val_ratio))

        train_files = images[:train_split]
        val_files = images[train_split:val_split]
        test_files = images[val_split:]

        # สร้างโฟลเดอร์ train, val, test
        for dataset, files in zip(["train", "val", "test"], [train_files, val_files, test_files]):
            os.makedirs(os.path.join(target_path, dataset, category), exist_ok=True)
            for file in files:
                shutil.copy(os.path.join(category_path, file), os.path.join(target_path, dataset, category, file))

# ใช้งาน
source_dir = "dataset"
target_dir = "dataset_splits"

# แบ่งข้อมูลสำหรับ can โดยแบ่งตาม size
split_data_by_category(source_dir, target_dir, "size", "can")

# แบ่งข้อมูลสำหรับ can โดยแบ่งตาม brand
split_data_by_category(source_dir, target_dir, "brand", "can")

# แบ่งข้อมูลสำหรับ bottle โดยแบ่งตาม size
split_data_by_category(source_dir, target_dir, "size", "bottle")

# แบ่งข้อมูลสำหรับ bottle โดยแบ่งตาม brand
split_data_by_category(source_dir, target_dir, "brand", "bottle")
