# hdf 5文件读写
    hdf5官网教程
    http://docs.h5py.org/en/stable/quick.html
    
    hdf5是一个层次结构的存储数据模型，有两个关键概念：Dataset,Group
    Dataset是存储数据的单元
    Group是目录的概念
    如：
        /
        /dataset1
        /dataset2
        /group1
        /group1/dataset3
        /group1/dataset4

* 引入模块
    import h5py
* 打开文件
    - f=h5py.File(sfile,"w")写
    - f=h5py.File(sfile,"r")读
    
    r  	        Readonly, file must exist        
    r+ 	        Read/write, file must exist         
    w 	        Create file, truncate if exists         
    w- or x 	Create file, fail if exists     
    a 	        Read/write if exists, create otherwise (default)    
    
    
* 关闭文件
    f.close()
* 所有关键字
    list(f.keys())
* 创建数据集
    f.create_dataset()
* 创建数据组
    f.create_group()

In [17]:
#读写操作范例
import os
import h5py
import numpy as np
#测试文件
sfile='%s/work/temp/temp.h5'%os.getenv('HOME')
os.remove(sfile) if os.path.exists(sfile) else ''

#创建文件
f=h5py.File(sfile,'w')
#状态查看
print(f.name)
print(list(f.keys()))
#构造数据
f['int']=1                                                    #标量:整型
f['str']='str'                                                #标量:字符串
f['list_int']=[1,2]                                           #标量:list
f['arr']=np.random.rand(2,3)                                  #数组
#字符串数组
dt_str = h5py.special_dtype(vlen=str) 
data = np.array([['123'],['456']]) 
ds = f.create_dataset('arr_str', data.shape , dtype=dt_str) 
ds[:] = data
#创建数据组
group1=f.create_group('group1')
group1['int']=2
#关闭文件
f.close()

print('---------读取文件-------------')
#打开文件
f=h5py.File(sfile,'r')
#是否为Dataset类型判断
print('-----是否为Dataset类型判断-----')
print(type(f['int'])==h5py.Dataset)
print(type(f['int'])==h5py.Group)
#是否为Group类型判断
print('-----是否为Group类型判断-----')
print(type(f['group1']==h5py.Dataset))
print(type(f['group1'])==h5py.Group)
#显示当前数据层的所有关键字
print('-----显示当前数据层的所有关键字-----')
print(list(f.keys()))
#数据元路径
print('-----数据元路径-----')
print(f.name)
print(f['group1']['int'].name)
#数据读取:标量-int
print('-----数据读取:标量-int-----')
print(f['int'].dtype)
print(np.array(f['int']))
#数据读取:标量-str
print('-----数据读取:标量-str-----')
print(f['str'].dtype)
print(np.array(f['str']))
#数据读取:list-int
print('-----数据读取:list-int-----')
print(f['list_int'].dtype)
print(list(f['list_int']))
#数据读取:np.array
print('-----数据读取:np.array-----')
print(f['arr'].dtype)
print(np.array(f['arr']))
#数据读取:字符串数组
print('-----数据读取:字符串数组-----')
print(f['arr_str'].dtype)
print(np.array(f['arr_str']))
#数据读取:指定路径 /group1/int
print('-----数据读取:指定路径 /group1/int-----')
print(f['/group1/int'].dtype)
print(np.array(f['/group1/int']))
#显示数组/group1的所有关键字
print('-----显示数组/group1的所有关键字-----')
print(list(f['group1'].keys()))
#关闭文件    
f.close()

/
[]
---------读取文件-------------
-----是否为Dataset类型判断-----
True
False
-----是否为Group类型判断-----
<class 'bool'>
True
-----显示当前数据层的所有关键字-----
['arr', 'arr_str', 'group1', 'int', 'list_int', 'str']
-----数据元路径-----
/
/group1/int
-----数据读取:标量-int-----
int64
1
-----数据读取:标量-str-----
object
str
-----数据读取:list-int-----
int64
[1, 2]
-----数据读取:np.array-----
float64
[[0.94528529 0.23530322 0.80064533]
 [0.23936784 0.33224643 0.39725064]]
-----数据读取:字符串数组-----
object
[['123']
 ['456']]
-----数据读取:指定路径 /group1/int-----
int64
2
-----显示数组/group1的所有关键字-----
['int']


## 大数据测试

In [28]:
import os
import numpy as np
import h5py

test_file='%s/work/temp/test.h5'%os.getenv('HOME')        #测试文件
os.remove(test_file) if os.path.exists(test_file) else '' #删除存在的文件

rows=100000 #行数
cols=1000   #列数

#======数据构造======
files=[]
values=[]
for i in range(rows):
    #构造数据:图像文件名序列
    files.append('image_file_%d.jpg'%(i))
    #构造数据:图像预测结果
    values.append(np.random.rand(1,cols))

#创建文件    
f=h5py.File(test_file,'w') 
#图像文件序列
dt_str = h5py.special_dtype(vlen=str) 
data = np.array(files) 
ds = f.create_dataset('files', data.shape , dtype=dt_str,compression='gzip') 
ds[:] = data
#图像预测结果
f.create_dataset('values',data=values,compression='gzip')
#关闭文件
f.close()
#--------

#======数据访问======
#打开文件
f=h5py.File(test_file,'r')
#读取图像文件序列
files2=np.array(f['files'])
#读取图像预测结果
values2=np.array(f['values'])
values2=np.reshape(values2,(-1,cols))
#关闭文件
f.close()

#======数据显示======
print('构造数据:files')
print(type(files))
print(len(files))
print('构造数据:values')
print(type(values))
print(len(values))
print('读取数据:files')
print(type(files2))
print(len(files2))
print(files2.shape)
print('读取数据:values')
print(type(values2))
print(len(values2))
print(values2.shape)

构造数据:files
<class 'list'>
100000
构造数据:values
<class 'list'>
100000
读取数据:files
<class 'numpy.ndarray'>
100000
(100000,)
读取数据:values
<class 'numpy.ndarray'>
100000
(100000, 1000)


In [30]:
print(files2[0])
print(values2[0])

image_file_0.jpg
[4.58224447e-01 7.21923409e-01 5.01213048e-01 9.72254869e-01
 2.36802759e-01 4.83450455e-01 6.96543599e-01 5.82167124e-01
 6.06845588e-02 9.41047603e-01 2.65697695e-02 4.13987934e-01
 3.56559429e-01 4.20999096e-01 1.56174182e-01 3.86992324e-01
 6.45932033e-01 4.41300229e-01 9.08484519e-01 3.66090669e-01
 4.40113716e-01 2.44337868e-02 4.83089318e-01 7.26582779e-01
 7.45718142e-01 8.61662518e-01 6.28208263e-01 7.03795377e-01
 9.73876063e-01 3.83204710e-01 9.61559442e-01 4.02190225e-01
 3.34635945e-01 2.40712463e-01 3.17765701e-01 3.93879744e-01
 7.00624410e-01 8.91801631e-01 9.29224253e-01 4.31620755e-01
 5.40833623e-01 5.17173730e-01 9.20829416e-01 1.69791561e-01
 3.09809695e-01 2.87890520e-01 1.01357617e-01 3.58735497e-01
 4.73578072e-01 2.83532446e-01 6.70625547e-02 2.22781427e-02
 9.93174954e-01 9.93832079e-01 9.64514632e-01 2.52777788e-01
 2.89388343e-01 6.65993675e-02 8.54877201e-02 2.31367419e-01
 2.62400910e-01 2.00770031e-01 2.71653561e-01 5.34946010e-01
 5.0926