# HDF5 数据文件简介


## 创建 hdf5 文件

In [58]:
import h5py
import numpy as np

f=h5py.File("tmp/tmp1.hdf5",'w')
f.close()

## 创建数据集

In [59]:
with h5py.File("tmp/tmp1.hdf5",'w') as f:
    # `dset1` 是数据集的 name, `(20,)` 是数据集的 shape, `i` 是数据集的元素类型
    d1=f.create_dataset("dset1",(20,),"i")

    for i,key in enumerate(f.keys()):
        print("--->key",i,"=",key,"<---")
        print("f[key].name=",f[key].name)
        print("f[key].shape=",f[key].shape)
        print("f[key].value=",f[key][:])    # 数据集的输出是个 list

--->key 0 = dset1 <---
f[key].name= /dset1
f[key].shape= (20,)
f[key].value= [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]


## 数据集赋值

In [80]:
with h5py.File("tmp/tmp4.hdf5",'w') as f:
    d1=np.arange(20)    # 赋值方法1
    f["dset2"]=np.arange(15)    # 赋值方法2
    a=np.arange(20)
    d3=f.create_dataset("dset3",data=a) # 赋值方法3

    for i,key in enumerate(f.keys()):
        print("--->key{0}={1}<---".format(i,key))
        if type(f[key])==h5py.Dataset:
            print("{} is Dataset!".format(key))
        if isinstance(f[key],h5py.Dataset):
            print("f[{}].shape={}".format(key,f[key].shape))
            print("f[{}].values={}".format(key,f[key][:]))
            print("%s: %s" %(key, f[key][:]))
            pass

    for i,values in enumerate(f.values()):
        print("--->value{0}={1}<---".format(i,values))
        if isinstance(values,h5py.Dataset):
            print([value for value in values])

--->key0=dset2<---
dset2 is Dataset!
f[dset2].shape=(15,)
f[dset2].values=[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14]
dset2: [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14]
--->key1=dset3<---
dset3 is Dataset!
f[dset3].shape=(20,)
f[dset3].values=[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19]
dset3: [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19]
--->value0=<HDF5 dataset "dset2": shape (15,), type "<i4"><---
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14]
--->value1=<HDF5 dataset "dset3": shape (20,), type "<i4"><---
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19]


## 创建组（Group）

In [87]:
with h5py.File("tmp/tmp5.hdf5","w") as f:
    # 创建组 `bar1`, 创建组 `bar2`, 数据集 `dset`
    g1=f.create_group('bar1')
    g2=f.create_group('bar2')
    d=f.create_dataset('dset',data=np.arange(10))

    # 在 `bar1` 组里面创建组 `car1` 和 数据集 `dset1`
    c1=g1.create_group('car1')
    d1=g1.create_dataset('dset1',data=np.arange(20))

    # 在 `bar2` 组里面创建组 `car2` 和 数据集 `dset2`
    c2=g2.create_group('car2')
    c2=g2.create_group('car3')
    d2=g2.create_dataset('dset2',data=np.arange(20))

    print('='*10)
    print("f.name=",f.name)
    
    print('='*10)
    print("f下的项目")
    for i,key in enumerate(f.keys()):
        print("--->key{0}={1}<---".format(i,key))
        print("f[{}].name={}".format(key,f[key].name))
        print("f[{}].len={}".format(key,len(f[key])))
        if type(f[key])==h5py.Dataset:
            print("f[{}].values={}".format(key,f[key][:]))
        pass
    
    # 输出 `bar1` 下的 组和数据集
    print('='*10)
    print("bar1下的项目")
    for i,key in enumerate(g1.keys()):
        print("--->key{0}={1}<---".format(i,key))
        print("f[{}].name={}".format(key,g1[key].name))
        print("f[{}].attrs={}".format(key,g1[key].attrs))
        pass

    # 输出 `car1` 下的 组和数据集
    print('='*10)
    print("car1下的项目：没有输出")
    print("c1.keys()=",[key for key in c1.keys()])
    for i,key in enumerate(c1.keys()):
        print("--->key{0}={1}<---".format(i,key))
        print("f[{}].name={}".format(key,c1[key].name))
        pass

    # 遍历文件中的所有项目
    print('='*10)
    print("遍历文件中的所有项目")
    f.visit(lambda item: print(item))


f.name= /
f下的项目
--->key0=bar1<---
f[bar1].name=/bar1
f[bar1].len=2
--->key1=bar2<---
f[bar2].name=/bar2
f[bar2].len=3
--->key2=dset<---
f[dset].name=/dset
f[dset].len=10
f[dset].values=[0 1 2 3 4 5 6 7 8 9]
bar1下的项目
--->key0=car1<---
f[car1].name=/bar1/car1
f[car1].attrs=<Attributes of HDF5 object at 2576766960744>
--->key1=dset1<---
f[dset1].name=/bar1/dset1
f[dset1].attrs=<Attributes of HDF5 object at 2576766281000>
car1下的项目：没有输出
c1.keys()= []
遍历文件中的所有项目
bar1
bar1/car1
bar1/dset1
bar2
bar2/car2
bar2/car3
bar2/dset2
dset
