In [None]:
import os
import random
import shutil

# --- CẤU HÌNH ---
# Thay đổi số lượng ảnh bạn muốn lấy cho mỗi dataset tại đây
subset_config = {
    'carla': 500,   # Lấy 500 ảnh từ folder 'carla'
    'cars': 500,    # Lấy 500 ảnh từ folder 'cars'
    'chairs': 500,  # Lấy 300 ảnh từ folder 'chairs'
    'planes': 500,  # Lấy 300 ảnh từ folder 'planes'
}

# Đường dẫn tới thư mục chứa dataset gốc (đã upload)
source_base_dir = 'data'

# Tên thư mục mới để chứa subset dataset
dest_base_dir = 'datasets'

# --- BẮT ĐẦU XỬ LÝ ---

print(f"Bắt đầu tạo subset dataset trong thư mục '{dest_base_dir}'...")

# Tạo thư mục đích nếu chưa tồn tại
if not os.path.exists(dest_base_dir):
    os.makedirs(dest_base_dir)

# Lặp qua từng dataset trong cấu hình
for folder_name, num_samples in subset_config.items():
    source_path = os.path.join(source_base_dir, folder_name)
    dest_path = os.path.join(dest_base_dir, folder_name)

    print(f"\n--- Xử lý thư mục: {folder_name} ---")

    # Kiểm tra xem thư mục nguồn có tồn tại không
    if not os.path.exists(source_path):
        print(f"CẢNH BÁO: Không tìm thấy thư mục nguồn '{source_path}'. Bỏ qua.")
        continue

    # Tạo thư mục con trong `datasets`
    os.makedirs(dest_path, exist_ok=True)

    # Lấy danh sách tất cả các file ảnh
    try:
        all_images = [f for f in os.listdir(source_path) if f.lower().endswith(('.png', '.jpg', '.jpeg'))]
        print(f"Tìm thấy {len(all_images)} ảnh trong '{source_path}'.")

        # Đảm bảo không lấy nhiều hơn số ảnh có sẵn
        num_to_sample = min(num_samples, len(all_images))
        if num_to_sample == 0:
            print("Không có ảnh nào để lấy mẫu. Bỏ qua.")
            continue

        # Lấy ngẫu nhiên các file
        selected_images = random.sample(all_images, num_to_sample)
        print(f"Đang lấy ngẫu nhiên {len(selected_images)} ảnh...")

        # Copy các file đã chọn sang thư mục đích
        copied_count = 0
        for image_name in selected_images:
            src_file = os.path.join(source_path, image_name)
            dest_file = os.path.join(dest_path, image_name)
            shutil.copy2(src_file, dest_file)
            copied_count += 1

        print(f"Đã copy thành công {copied_count} ảnh vào '{dest_path}'.")

    except Exception as e:
        print(f"LỖI khi xử lý thư mục '{source_path}': {e}")

print("\nHoàn tất việc tạo subset dataset!")