In [1]:
import os
import shutil
import numpy as np

print(f'numpy version: {np.__version__}')

numpy version: 2.0.2


In [3]:
# 源文件路径
SOURCE_FOLDERS = [
    '../raw_data/brain tumor/Segmentation/glioma',
    '../raw_data/brain tumor/Segmentation/meningioma',
    '../raw_data/brain tumor/Segmentation/Pituitary tumor'
]
# 目标文件夹
TARGET_FOLDER = '../data/brain tumor/Segmentation'
# 每个文件夹抽取的图片数量
IMAGES_PER_FOLDER = 30
# 支持的图片格式
SUPPORTED_FORMATS = ('.jpg', '.jpeg', '.png', '.bmp', '.gif', '.webp')

def extract_random_images():
    np.random.seed(123)
    # 创建目标文件夹（如果不存在）
    os.makedirs(TARGET_FOLDER, exist_ok=True)
    print(f"目标文件夹已准备：{TARGET_FOLDER}")

    all_selected_images = []    # 全局列表

    # 遍历每个源文件夹
    for folder_idx, source_folder in enumerate(SOURCE_FOLDERS, start=1):
        print(f"\n正在处理第 {folder_idx} 个源文件夹：{source_folder}")

        # 检查源文件夹是否存在
        if not os.path.exists(source_folder):
            print(f"⚠️  源文件夹不存在，跳过：{source_folder}")
            continue

        # 获取文件夹内所有支持的图片文件（去重，避免重复处理）
        image_files = []
        for filename in os.listdir(source_folder):
            # 只保留支持的格式，且排除隐藏文件
            if (filename.lower().endswith(SUPPORTED_FORMATS)
                    and not filename.startswith('.')
                    and 'mask' not in filename):
                image_files.append(filename)

        # 检查该文件夹的图片数量是否足够
        if len(image_files) < IMAGES_PER_FOLDER:
            print(f"⚠️  该文件夹仅找到 {len(image_files)} 张图片，不足 {IMAGES_PER_FOLDER} 张，跳过")
            continue

        # 随机抽取指定数量的图片
        image_files.sort()
        np.random.shuffle(image_files)  # 打乱顺序
        selected_images = image_files[:IMAGES_PER_FOLDER]  # 取前30张

        for img in selected_images:
            source_path = os.path.join(source_folder, img)
            all_selected_images.append( (source_path, img) )  # 存为元组（源路径，纯文件名）

    np.random.shuffle(all_selected_images)  # 所有图片重排
    print(f"\n共收集 {len(all_selected_images)} 张图片，已全局打乱")

    # 统一重命名并复制
    for global_idx, (source_path, img) in enumerate(all_selected_images, start=1):
        file_ext = os.path.splitext(img)[1]
        new_filename = f"{global_idx}{file_ext}"
        target_path = os.path.join(TARGET_FOLDER, new_filename)

        # 复制文件
        try:
            shutil.copy2(source_path, target_path)
            print(f"✅ 复制成功：{img} -> {new_filename}")
        except Exception as e:
            print(f"❌ 复制失败 {img}：{e}")

    # 输出统计结果
    print(f"\n{'='*50}")
    print(f"处理完成！共抽取图片：{len(all_selected_images)} 张")
    print(f"图片保存位置：{TARGET_FOLDER}")
    print(f"文件名格式：1.jpg、2.png...（全局完全无序）")

if __name__ == "__main__":
    extract_random_images()

目标文件夹已准备：../data/brain tumor/Segmentation

正在处理第 1 个源文件夹：../raw_data/brain tumor/Segmentation/glioma

正在处理第 2 个源文件夹：../raw_data/brain tumor/Segmentation/meningioma

正在处理第 3 个源文件夹：../raw_data/brain tumor/Segmentation/Pituitary tumor

共收集 90 张图片，已全局打乱
✅ 复制成功：enh_1599.png -> 1.png
✅ 复制成功：enh_2042.png -> 2.png
✅ 复制成功：enh_96.png -> 3.png
✅ 复制成功：enh_298.png -> 4.png
✅ 复制成功：enh_1923.png -> 5.png
✅ 复制成功：enh_1616.png -> 6.png
✅ 复制成功：enh_1415.png -> 7.png
✅ 复制成功：enh_223.png -> 8.png
✅ 复制成功：enh_414.png -> 9.png
✅ 复制成功：enh_569.png -> 10.png
✅ 复制成功：enh_59.png -> 11.png
✅ 复制成功：enh_1605.png -> 12.png
✅ 复制成功：enh_309.png -> 13.png
✅ 复制成功：enh_127.png -> 14.png
✅ 复制成功：enh_2171.png -> 15.png
✅ 复制成功：enh_530.png -> 16.png
✅ 复制成功：enh_330.png -> 17.png
✅ 复制成功：enh_2189.png -> 18.png
✅ 复制成功：enh_2111.png -> 19.png
✅ 复制成功：enh_1155.png -> 20.png
✅ 复制成功：enh_446.png -> 21.png
✅ 复制成功：enh_1607.png -> 22.png
✅ 复制成功：enh_1834.png -> 23.png
✅ 复制成功：enh_1556.png -> 24.png
✅ 复制成功：enh_1164.png -> 25.png
✅ 复制成功：enh_2251.png ->