In [2]:
import numpy as np
import h5py

# h5py 文件介绍

一个h5py文件是 “dataset” 和 “group” 二合一的容器。 
1. dataset : 类似数组组织的数据的集合，像 numpy 数组一样工作
2. group : 包含了其它 dataset 和 其它 group ，像字典一样工作

看下图：
![h5py](images/h5py.png)

通过上图，我们可以知道 h5py 文件就像是文件夹一样，里面很放文件还有文件夹，主文件夹以 '/' 开始，这又像Linux的树形结构。知道这些我们就可以开始向 h5py 文件读取或者写入了。


In [32]:
"""
    下面代码展示了 h5py 既是dict又是numpy数组特征，我们可以通过 f.keys() 获得 / 下所有的文件及文件夹 ，然后通过 dict 再获取对应的对象
    
"""
def read_data(filename):
    with h5py.File(filename,'r') as f:
        
        def print_name(name):
            print(name)
        f.visit(print_name)
        print('---------------------------------------')
        subgroup = f['subgroup']  
        print(subgroup.keys())
        print('---------------------------------------')
        dset = f['test_numpy']
        print(dset)
        print(dset.name)
        print(dset.shape)
        print(dset.dtype)
        print(dset[:])
        print('---------------------------------------')

read_data('test.h5')


subgroup
subgroup/subsub
subgroup/subsub/test_numpy
subgroup/test_numpy
test_numpy
---------------------------------------
KeysView(<HDF5 group "/subgroup" (2 members)>)
---------------------------------------
<HDF5 dataset "test_numpy": shape (100,), type "<i4">
/test_numpy
(100,)
int32
[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49
 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74
 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99]
---------------------------------------


In [78]:
"""
    存储数据
"""
x = np.arange(100)

with h5py.File('test.h5','w') as f:
    f.create_dataset('test_numpy',data=x)
    subgroup = f.create_group('subgroup')
    subgroup.create_dataset('test_numpy',data=x)
    subsub = subgroup.create_group('subsub')
    subsub.create_dataset('test_numpy',data=x)

In [89]:
"""
    存储字符串
"""
dt = h5py.special_dtype(vlen=str)
data = np.array([['123'],['456']])
with h5py.File('testdict.h5','w') as f:
    ds = f.create_dataset('test_dict', data.shape , dtype=dt)
    ds[:] = data


with h5py.File('testdict.h5','r') as f:
    for key in f.keys():
        print(key)
    dset = f['test_dict']
    print(dset.shape)
    print(dset[:])