In [6]:
import pandas as pd
import os
import shutil
from pathlib import Path

# 读取CSV文件
csv_path = "d:/Dataset/New_CBDDSM/roi/csv/calc-training_png.csv"
df = pd.read_csv(csv_path)

# 获取Dmass根目录
dmass_root = "d:/Dataset/New_CBDDSM/Dcalc"

# 确保在train文件夹中创建benign和malignant子文件夹
benign_dir = os.path.join(dmass_root, "train", "masks", "benign")
malignant_dir = os.path.join(dmass_root, "train", "masks", "malignant")

# 创建目录（如果不存在）
os.makedirs(benign_dir, exist_ok=True)
os.makedirs(malignant_dir, exist_ok=True)

# 处理每一行数据
processed_count = 0
for idx, row in df.iterrows():
    # 获取必要的信息
    pathology = row.get('pathology', '').strip().lower()
    mask_file = row.get('img_path', '')  # img_path实际上是mask文件的路径
    
    # 跳过没有mask路径的行
    if not mask_file or pd.isna(mask_file):
        continue
    
    # 获取源文件路径
    base_path = "d:/Dataset/New_CBDDSM/"
    source_mask_path = os.path.join(base_path, mask_file)
    
    # 确定目标目录（根据pathology）
    if pathology == 'benign':
        target_dir = os.path.join(dmass_root, "train", "masks", "benign")
    elif pathology == 'malignant':
        target_dir = os.path.join(dmass_root, "train", "masks", "malignant")
    else:
        print(f"跳过未知病理类型的行: {pathology}")
        continue
    
    # 获取文件名
    file_name = os.path.basename(mask_file)
    
    # 设置目标文件路径
    target_path = os.path.join(target_dir, file_name)
    
    # 复制文件
    try:
        if os.path.exists(source_mask_path):
            shutil.copy2(source_mask_path, target_path)
            processed_count += 1
            if processed_count % 100 == 0:
                print(f"已处理 {processed_count} 个文件")
        else:
            print(f"源文件不存在: {source_mask_path}")
    except Exception as e:
        print(f"复制文件时出错: {e}")

print(f"完成! 总共处理了 {processed_count} 个文件")

# 统计结果
train_benign = len(os.listdir(os.path.join(dmass_root, "train", "masks", "benign")))
train_malignant = len(os.listdir(os.path.join(dmass_root, "train", "masks", "malignant")))

print(f"train/masks/benign: {train_benign} 个文件")
print(f"train/masks/malignant: {train_malignant} 个文件")

已处理 100 个文件
已处理 200 个文件
已处理 300 个文件
已处理 400 个文件
已处理 500 个文件
已处理 600 个文件
已处理 700 个文件
已处理 800 个文件
已处理 900 个文件
已处理 1000 个文件
已处理 1100 个文件
已处理 1200 个文件
已处理 1300 个文件
已处理 1400 个文件
已处理 1500 个文件
完成! 总共处理了 1546 个文件
train/masks/benign: 1002 个文件
train/masks/malignant: 544 个文件
