In [3]:
import os
import shutil
from pathlib import Path

# Define the source and destination paths
source_dir = r"E:\CAMUS_public\CAMUS_public\database_nifti_decompressed"

# Create lists of patient IDs for each split
train_patients = [f"patient{str(i).zfill(4)}" for i in range(1, 501) if f"patient{str(i).zfill(4)}" not in [
    # Validation patients
    "patient0200", "patient0206", "patient0230", "patient0232", "patient0233", "patient0235", 
    "patient0236", "patient0244", "patient0245", "patient0247", "patient0249", "patient0250",
    "patient0253", "patient0255", "patient0256", "patient0257", "patient0259", "patient0264",
    "patient0265", "patient0267", "patient0268", "patient0270", "patient0271", "patient0272",
    "patient0279", "patient0280", "patient0282", "patient0283", "patient0284", "patient0286",
    "patient0287", "patient0288", "patient0289", "patient0290", "patient0291", "patient0292",
    "patient0294", "patient0297", "patient0298", "patient0299", "patient0303", "patient0304",
    "patient0305", "patient0308", "patient0314", "patient0315", "patient0328", "patient0333",
    "patient0334", "patient0341",
    # Test patients
    "patient0027", "patient0047", "patient0051", "patient0052", "patient0187", "patient0189",
    "patient0191", "patient0194", "patient0197", "patient0199", "patient0201", "patient0208",
    "patient0213", "patient0214", "patient0215", "patient0217", "patient0218", "patient0219",
    "patient0220", "patient0221", "patient0223", "patient0224", "patient0225", "patient0226",
    "patient0227", "patient0228", "patient0231", "patient0234", "patient0237", "patient0238",
    "patient0239", "patient0240", "patient0241", "patient0242", "patient0243", "patient0246",
    "patient0248", "patient0251", "patient0252", "patient0254", "patient0258", "patient0260",
    "patient0261", "patient0262", "patient0263", "patient0266", "patient0269", "patient0273",
    "patient0275", "patient0276"
]]

validation_patients = [
    "patient0200", "patient0206", "patient0230", "patient0232", "patient0233", "patient0235", 
    "patient0236", "patient0244", "patient0245", "patient0247", "patient0249", "patient0250",
    "patient0253", "patient0255", "patient0256", "patient0257", "patient0259", "patient0264",
    "patient0265", "patient0267", "patient0268", "patient0270", "patient0271", "patient0272",
    "patient0279", "patient0280", "patient0282", "patient0283", "patient0284", "patient0286",
    "patient0287", "patient0288", "patient0289", "patient0290", "patient0291", "patient0292",
    "patient0294", "patient0297", "patient0298", "patient0299", "patient0303", "patient0304",
    "patient0305", "patient0308", "patient0314", "patient0315", "patient0328", "patient0333",
    "patient0334", "patient0341"
]

test_patients = [
    "patient0027", "patient0047", "patient0051", "patient0052", "patient0187", "patient0189",
    "patient0191", "patient0194", "patient0197", "patient0199", "patient0201", "patient0208",
    "patient0213", "patient0214", "patient0215", "patient0217", "patient0218", "patient0219",
    "patient0220", "patient0221", "patient0223", "patient0224", "patient0225", "patient0226",
    "patient0227", "patient0228", "patient0231", "patient0234", "patient0237", "patient0238",
    "patient0239", "patient0240", "patient0241", "patient0242", "patient0243", "patient0246",
    "patient0248", "patient0251", "patient0252", "patient0254", "patient0258", "patient0260",
    "patient0261", "patient0262", "patient0263", "patient0266", "patient0269", "patient0273",
    "patient0275", "patient0276"
]

def create_dataset_structure(base_dir):
    """Create the required directory structure."""
    for split in ['train', 'valid', 'test']:
        for subdir in ['images', 'labels']:
            Path(os.path.join(base_dir, split, subdir)).mkdir(parents=True, exist_ok=True)

def copy_files(source_dir, dest_dir, patient_list):
    """Copy files for given patients to the appropriate directories."""
    for patient in patient_list:
        # Copy images
        for img_type in ['ES', 'ED']:
            src_img = os.path.join(source_dir, patient, f"{patient}_4CH_{img_type}.nii")
            dst_img = os.path.join(dest_dir, 'images', f"{patient}_4CH_{img_type}.nii")
            if os.path.exists(src_img):
                shutil.copy2(src_img, dst_img)
            
            # Copy corresponding labels
            src_label = os.path.join(source_dir, patient, f"{patient}_4CH_{img_type}_gt.nii")
            dst_label = os.path.join(dest_dir, 'labels', f"{patient}_4CH_{img_type}_gt.nii")
            if os.path.exists(src_label):
                shutil.copy2(src_label, dst_label)

def main():
    # Create dataset directory next to the source directory
    base_dir = os.path.join(os.path.dirname(source_dir), "dataset")
    
    # Create directory structure
    create_dataset_structure(base_dir)
    
    # Copy files for each split
    copy_files(source_dir, os.path.join(base_dir, 'train'), train_patients)
    copy_files(source_dir, os.path.join(base_dir, 'valid'), validation_patients)
    copy_files(source_dir, os.path.join(base_dir, 'test'), test_patients)
    
    # Print summary
    for split in ['train', 'valid', 'test']:
        img_count = len(os.listdir(os.path.join(base_dir, split, 'images')))
        label_count = len(os.listdir(os.path.join(base_dir, split, 'labels')))
        print(f"{split.capitalize()} set: {img_count} images, {label_count} labels")

if __name__ == "__main__":
    main()

Train set: 800 images, 800 labels
Valid set: 100 images, 100 labels
Test set: 100 images, 100 labels
