In [3]:
import os
import random
import shutil

path = './scrape/pink_disease_images'

In [6]:
def setup_directories():
    """Tạo các thư mục nếu chưa tồn tại"""
    base_dir = './data/pink_disease_images'
    dirs = ['train/image', 'test/image', 'val/image']
    for d in dirs:
        os.makedirs(os.path.join(base_dir, d), exist_ok=True)

def get_target_counts():
    """Trả về số lượng ảnh cần có trong mỗi thư mục"""
    return {
        'train': 210,
        'test': 60,
        'val': 30
    }

def get_current_counts():
    """Đếm số lượng ảnh hiện có trong mỗi thư mục"""
    base_dir = './data/pink_disease_images'
    counts = {}
    for split in ['train', 'test', 'val']:
        path = os.path.join(base_dir, split, 'image')
        counts[split] = len(os.listdir(path)) if os.path.exists(path) else 0
    return counts

def distribute_images(source_dir):
    """Phân phối ảnh ngẫu nhiên vào các thư mục"""
    setup_directories()
    target_counts = get_target_counts()
    
    # Lấy danh sách tất cả các ảnh nguồn
    source_images = [f for f in os.listdir(source_dir) if f.startswith('pink_disease')]
    
    while True:
        current_counts = get_current_counts()
        
        # Kiểm tra xem đã đạt đủ số lượng chưa
        if all(current_counts[split] >= target_counts[split] for split in target_counts):
            break
            
        # Chọn ngẫu nhiên một ảnh và một thư mục đích
        if not source_images:
            print("Không đủ ảnh nguồn để phân phối!")
            break
            
        img = random.choice(source_images)
        splits = [s for s in ['train', 'test', 'val'] 
                 if current_counts[s] < target_counts[s]]
        
        if not splits:
            break
            
        target_split = random.choice(splits)
        target_dir = os.path.join('./data/pink_disease_images', target_split, 'image')
        
        # Tạo tên file mới nếu trùng
        base_name = 'pink_disease'
        ext = '.jpg'
        counter = 1
        while True:
            new_name = f"{base_name}_{counter}{ext}"
            target_path = os.path.join(target_dir, new_name)
            if not os.path.exists(target_path):
                break
            counter += 1
        
        # Copy ảnh sang thư mục đích
        source_path = os.path.join(source_dir, img)
        shutil.copy2(source_path, target_path)
        
        # Xóa file gốc sau khi copy
        os.remove(source_path)
        source_images.remove(img)
        
        print(f"Đã copy {img} -> {target_split}/image/{new_name}")

# Thực hiện phân phối ảnh
distribute_images(path)

# In kết quả cuối cùng
final_counts = get_current_counts()
print("\nKết quả phân phối:")
for split, count in final_counts.items():
    print(f"{split}: {count} ảnh")



Kết quả phân phối:
train: 210 ảnh
test: 60 ảnh
val: 30 ảnh
