HDF5 for Python: https://docs.h5py.org/en/stable/
<br>Pandas HDFStore: https://pandas.pydata.org/pandas-docs/stable/reference/io.html?highlight=hdfstore#hdfstore-pytables-hdf5
<br>Compression (Additional Topic): https://www.youtube.com/watch?v=FfkLFQR_nbc

In [1]:
import numpy as np
import h5py
import pandas as pd

In [2]:
#criando dados aleatórios
matrix1 = np.random.random(size = (1000,1000))
matrix2 = np.random.random(size = (1000,1000))
matrix3 = np.random.random(size = (1000,1000))
matrix4 = np.random.random(size = (1000,1000))
#print(matrix1)

In [3]:
#escrevendo um arquivo com mode = 'w' de writing
with h5py.File('hdf5_data.h5', mode = 'w') as hdf:
    hdf.create_dataset('dataset1', data = matrix1)
    hdf.create_dataset('dataset2', data = matrix2)

In [4]:
#lendo um arquivo com mode = 'r' de reading, com fechamento automático
with h5py.File('hdf5_data.h5', mode = 'r') as hdf:
    ls = list(hdf.keys())
    print('Lista de Datasets:\n', ls,'\n')
#coletando o dado
    data = hdf.get('dataset1')
    dataset1 = np.array(data)
    print(dataset1)

Lista de Datasets:
 ['dataset1', 'dataset2'] 

[[0.55278513 0.62240909 0.88230889 ... 0.50708217 0.95047539 0.48034496]
 [0.47246272 0.33327952 0.48406303 ... 0.31341004 0.02580535 0.94697971]
 [0.00217538 0.34710153 0.47126849 ... 0.22148122 0.33982791 0.0820403 ]
 ...
 [0.43101893 0.98445002 0.55166039 ... 0.55050911 0.16426889 0.33242244]
 [0.0148577  0.88182821 0.82763886 ... 0.01601607 0.9161697  0.6204427 ]
 [0.45737672 0.43420569 0.10360792 ... 0.00602328 0.30560827 0.39956688]]


In [5]:
#outra forma de ler arquivos
f = h5py.File('hdf5_data.h5', 'r')
ls = list(f.keys())
#fechamento do arquivo manual
f.close()
ls

['dataset1', 'dataset2']

In [6]:
#escrevendo um arquivo com grupos
with h5py.File('hdf5_data.h5', mode = 'w') as hdf:
    #criando grupo1 e objeto
    G1 = hdf.create_group('Group1')
    #criando datasets dentro do grupo
    G1.create_dataset('dataset1', data = matrix1)
    G1.create_dataset('dataset4', data = matrix4)
    
    #criando grupo2 e objeto
    G2 = hdf.create_group('Group2/SubGroup1')
    #criando datasets dentro do grupo
    G2.create_dataset('dataset3', data = matrix3)
    
    #criando grupo3 e objeto
    G3 = hdf.create_group('Group2/SubGroup2')
    #criando datasets dentro do grupo
    G3.create_dataset('dataset2', data = matrix2)
    
    #checando datasets criados
    print(hdf.get('Group1').keys())
    print(hdf.get('Group2').keys())
    print(hdf.get('Group2').get('SubGroup1').keys())
    print(hdf.get('Group2').get('SubGroup2').keys())
    #print(G3.keys())

<KeysViewHDF5 ['dataset1', 'dataset4']>
<KeysViewHDF5 ['SubGroup1', 'SubGroup2']>
<KeysViewHDF5 ['dataset3']>
<KeysViewHDF5 ['dataset2']>


In [None]:
#print(G3.keys())

In [7]:
#lendo grupos de um arquivo com mode = 'r' de reading
with h5py.File('hdf5_data.h5', mode = 'r') as hdf:
    base_items = list(hdf.items())
    print('Lista de Items no Root:\n', base_items,'\n')
    G1 = hdf.get('Group1')
    G1_items = list(G1.items())
    print('Lista de Items no G1:\n', G1_items,'\n')
    
    #coletando dados de dataset
    dataset4 = G1.get('dataset4')
    table = np.array(dataset4)
    print(table)
    print(table.shape,'\n')
    #df = pd.DataFrame(table)

Lista de Items no Root:
 [('Group1', <HDF5 group "/Group1" (2 members)>), ('Group2', <HDF5 group "/Group2" (2 members)>)] 

Lista de Items no G1:
 [('dataset1', <HDF5 dataset "dataset1": shape (1000, 1000), type "<f8">), ('dataset4', <HDF5 dataset "dataset4": shape (1000, 1000), type "<f8">)] 

[[0.9517096  0.77198293 0.86786051 ... 0.39726706 0.29607245 0.57686556]
 [0.85993389 0.68411044 0.58089068 ... 0.32944731 0.53285263 0.5922828 ]
 [0.03714377 0.00659872 0.14969506 ... 0.7221112  0.1011124  0.08066508]
 ...
 [0.44405693 0.54165458 0.49125741 ... 0.43673065 0.58357507 0.09173127]
 [0.12679462 0.80637966 0.01953461 ... 0.66482085 0.7186889  0.23854753]
 [0.23944659 0.02765846 0.62226838 ... 0.04072119 0.39286183 0.30905399]]
(1000, 1000) 



In [None]:
#lendo grupos de um arquivo com mode = 'r' de reading
with h5py.File('hdf5_data.h5', mode = 'r') as hdf:
    base_items = list(hdf.items())
    print('Lista de Items no Root:\n', base_items,'\n')
    
    #listando items do grupo 2
    G2 = hdf.get('Group2')
    G2_items = list(G2.items())
    print('Lista de Items no G2:\n', G2_items,'\n')
    
    #listando items do grupo 2, subgroup 1
    G21 = G2.get('SubGroup1')
    #G21 = hdf.get('/Group2/SubGroup1')
    G21_items = list(G21.items())
    print('Lista de Items no G2, SG1:\n', G21_items,'\n')

In [None]:
#criando arquivo com atributos (jeito oficial de armazenar metadados)
hdf = h5py.File('hdf5_data_metadata.h5', mode = 'w')

#criando datasets dentro do grupo
dataset1 = hdf.create_dataset('dataset1', data = matrix1)
dataset2 = hdf.create_dataset('dataset2', data = matrix2)

#determinando atributos
dataset1.attrs['CLASS'] = 'DATA MATRIX'
dataset1.attrs['VERSION'] = '1.1'

#fechamento manual
hdf.close()  
    

In [8]:
#lendo arquivo com atributos (jeito oficial de armazenar metadados)
hdf = h5py.File('hdf5_data_metadata.h5', mode = 'r')
ls = list(hdf.keys())
print('Lista de Items no Root:\n', ls,'\n')
data = hdf.get('dataset1')
dataset1 = np.array(data)
#lendo atributos
k = list(data.attrs.keys())
v = list(data.attrs.values())
print(k)
print(v)
print(list(data.attrs.keys()))
print(list(data.attrs.values()))


Lista de Items no Root:
 ['dataset1', 'dataset2'] 

['CLASS', 'VERSION']
['DATA MATRIX', '1.1']
['CLASS', 'VERSION']
['DATA MATRIX', '1.1']
