In [1]:
import numpy as np
import h5py
import os

def merge_h5_files(chromosomes, input_dir, output_file):
    """
    合并多个HDF5文件中的数据
    
    参数:
    chromosomes (list): 染色体编号列表
    input_dir (str): 输入文件目录
    output_file (str): 输出文件路径
    """
    # 初始化存储特征和标签的列表
    X_list = []
    y_list = []
    
    # 遍历所有染色体文件
    for chrom in chromosomes:
        file_path = os.path.join(input_dir, f'chr{chrom}-数字矩阵.h5')
        
        # 检查文件是否存在
        if not os.path.exists(file_path):
            print(f"警告：文件 {file_path} 不存在，跳过。")
            continue
        
        # 打开文件
        try:
            with h5py.File(file_path, 'r') as file:
                # 提取特征和标签数据
                nuar = file['Nuar'][:]
                label = file['label'][:]
                
                # 添加到列表中
                X_list.append(nuar)
                y_list.append(label)
                
            print(f"已加载染色体 {chrom} 的数据。")
        except Exception as e:
            print(f"错误：加载文件 {file_path} 时出错，原因：{e}")
            continue
    
    # 检查是否有数据需要合并
    if not X_list or not y_list:
        raise ValueError("没有找到有效的数据文件，无法合并。")
    
    # 合并特征和标签
    X = np.concatenate(X_list, axis=0)
    y = np.concatenate(y_list, axis=0)
    
    # 保存合并后的数据到新的 HDF5 文件
    with h5py.File(output_file, 'w') as merged_file:
        merged_file.create_dataset('Nuar', data=X, dtype=np.float16)
        merged_file.create_dataset('label', data=y, dtype=np.float16)
    
    print(f"合并完成，数据已保存到 {output_file}")

# 定义染色体编号范围（1 到 16）
chromosomes = range(1, 17)

# 输入文件目录和输出文件路径
input_dir = '核小体数字矩阵'
output_file = 'D:/chr-数字矩阵.h5'

# 调用函数合并文件
merge_h5_files(chromosomes, input_dir, output_file)

已加载染色体 1 的数据。
已加载染色体 2 的数据。
已加载染色体 3 的数据。
已加载染色体 4 的数据。
已加载染色体 5 的数据。
已加载染色体 6 的数据。
已加载染色体 7 的数据。
已加载染色体 8 的数据。
已加载染色体 9 的数据。
已加载染色体 10 的数据。
已加载染色体 11 的数据。
已加载染色体 12 的数据。
已加载染色体 13 的数据。
已加载染色体 14 的数据。
已加载染色体 15 的数据。
已加载染色体 16 的数据。
合并完成，数据已保存到 D:/chr-数字矩阵.h5


In [2]:
import h5py
import numpy as np
file_path = 'D:/chr-数字矩阵.h5'
with h5py.File(file_path, 'r') as f:
    print("Data sets in the file:", list(f.keys()))
    if 'Nuar' in f and 'label' in f:
        nuar = f['Nuar'][:]
        label = f['label'][:]
        print("Nuar shape:", nuar.shape)
        print("label shape:", label.shape)
        print("Nuar dtype:", nuar.dtype)
        print("label dtype:", label.dtype)
    else:
        print("Error: 'Nuar' or 'label' dataset not found in the file.")

Data sets in the file: ['Nuar', 'label']
Nuar shape: (10774972, 16, 146)
label shape: (10774972,)
Nuar dtype: float16
label dtype: float16
