In [2]:
# step2: 生成数据集分割json

import glob
import json
import os
from sklearn.model_selection import train_test_split

def generate_dataset_split_json(input_h5file_path, output_json_path="dataset_split.json", test_size=0.2, random_seed=42):
    """
    根据当前路径下的 .h5 文件生成数据集分割的 JSON 文件。
    
    Args:
        output_json_path (str): 输出 JSON 文件的路径。
        test_size (float): 验证集占比（默认为 0.2，即 20%）。
        random_seed (int): 随机种子（默认为 42，保证可复现性）。
    """
    # 获取当前路径下所有 .h5 文件的路径
    h5_files = glob.glob(os.path.join(input_h5file_path, "*.h5"))
    
    # 检查是否有 .h5 文件
    if not h5_files:
        print("当前路径下没有找到任何 .h5 文件！")
        return

    # 使用 train_test_split 进行数据集划分
    train_files, val_files = train_test_split(h5_files, test_size=test_size, random_state=random_seed)

    # 构造 JSON 数据
    dataset_split = {
        "train": train_files,
        "val": val_files
    }

    # 将分割结果写入 JSON 文件
    with open(output_json_path, "w") as json_file:
        json.dump(dataset_split, json_file, indent=4)

    print(f"数据集分割已完成，结果已保存到 {output_json_path}")

# 调用函数
generate_dataset_split_json(input_h5file_path="/home/hulabdl/CMRxRecon2025/h5_dataset",
                            output_json_path="configs/data_split/cmr25-cardiac.json", test_size=0.2, random_seed=42)

数据集分割已完成，结果已保存到 configs/data_split/cmr25-cardiac.json
