<a href="https://colab.research.google.com/github/cotozelo/Python_diversos/blob/main/src/HDF5_tutorial.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# HDF5

Estudo básico e introdutório sobre HDF5 usando python. 

Iremos apresentar vários exemplos de manipulação de dataset's, group's entre outros.

## Import's

In [1]:
import h5py
import numpy as np
import pandas as pd

# Criando Dados

In [2]:
matrix1 = np.random.random(size=(1000,1000))
matrix2 = np.random.random(size=(1000,10000))
matrix3 = np.random.random(size=(100,10000))
matrix4 = np.random.random(size=(1000,1000))
matrix5 = np.random.random(size=(100,100))

data = {
  "cidade" :['Campinas', 'Olímpia', 'São Paulo', 'Iquaquecetuba', 'Pintamonhagaba'],
  'rank'   :[         2,         1,           3,               4,                5],
  'tamanho':['média'   , 'pequena', 'grande'   , 'média'        , 'média']    
}
print(data, '\n')

df_cidade = pd.DataFrame(data, columns=data.keys())
print(df_cidade, '\n')

data = {
  "estado" :['Parana', 'Para', 'São Paulo', 'Rio de Janeiro', 'Acre'],
  'cidades':[    4232,   3413,       52452,           524254,     15]  
}
print(data, '\n')

df_estado = pd.DataFrame(data, columns=data.keys())
print(df_estado, '\n')

{'cidade': ['Campinas', 'Olímpia', 'São Paulo', 'Iquaquecetuba', 'Pintamonhagaba'], 'rank': [2, 1, 3, 4, 5], 'tamanho': ['média', 'pequena', 'grande', 'média', 'média']} 

           cidade  rank  tamanho
0        Campinas     2    média
1         Olímpia     1  pequena
2       São Paulo     3   grande
3   Iquaquecetuba     4    média
4  Pintamonhagaba     5    média 

{'estado': ['Parana', 'Para', 'São Paulo', 'Rio de Janeiro', 'Acre'], 'cidades': [4232, 3413, 52452, 524254, 15]} 

           estado  cidades
0          Parana     4232
1            Para     3413
2       São Paulo    52452
3  Rio de Janeiro   524254
4            Acre       15 



# HDF5 - Dataset Simples

Manipulando um HDF5 com dois dataset, cada dataset contém uma das matrizes criadas anteriormente.

In [3]:
dataset_simples = 'hdf5_dataset.h5'

## Criando

In [4]:
%%time
with h5py.File(dataset_simples, 'w') as hdf:
  hdf.create_dataset('dataset1', data=matrix1)
  hdf.create_dataset('dataset2', data=matrix2)

CPU times: user 204 µs, sys: 82.7 ms, total: 82.9 ms
Wall time: 83.7 ms


In [5]:
!du -sh hdf5_dataset.h5

84M	hdf5_dataset.h5


O tempo de criação do arquivo foi de 115ms e seu tamanho 84M. Para meus problemas é um tempo relativamente rápido.

## Listando

In [6]:
with h5py.File(dataset_simples, 'r') as hdf:
  ls = list(hdf.keys()) # obtém todas as keys (dataset ou group) na raiz do hdf.
  print(ls)

['dataset1', 'dataset2']


Ao listamos o HDF5 com dataset simples, vemos que na sua raiz só existe os dois dataset's.

## Lendo

In [7]:
%%time
with h5py.File(dataset_simples, 'r') as hdf:
  data1 = hdf.get('dataset1')
  dataset1 = np.array(data1)
  data2 = hdf.get('dataset2')
  dataset2 = np.array(data2)

CPU times: user 19.3 ms, sys: 64.4 ms, total: 83.7 ms
Wall time: 88.5 ms


Vemos pelo tempo da célula acima que o tempo de leitura tb é relativa rápido. Note que nesse tempo esta incluso a leitura do dataset e criação do array numpy.

In [8]:
print(f'Tipo do dado:\n{type(data1)}\n')
print(f'Conteúdo do dado:\n{data1}\n')

Tipo do dado:
<class 'h5py._hl.dataset.Dataset'>

Conteúdo do dado:
<Closed HDF5 dataset>



Pelo print acima vemos que o dataset obtido precisa ser convertido para sua estrutura de criação.

In [9]:
print(f'Tipo do dado:\n{type(dataset1)}\n')
print(f'Conteúdo do dado:\n{dataset1}\n')

Tipo do dado:
<class 'numpy.ndarray'>

Conteúdo do dado:
[[0.85344519 0.91879515 0.04219278 ... 0.53860758 0.79170853 0.45037284]
 [0.57598117 0.66806994 0.39395578 ... 0.53989399 0.09892599 0.69500278]
 [0.68404195 0.24287255 0.75104202 ... 0.36248623 0.19542893 0.56904453]
 ...
 [0.46389146 0.820671   0.12536702 ... 0.23997888 0.27386973 0.42254806]
 [0.40800266 0.16176775 0.70738742 ... 0.91138304 0.29355968 0.06466227]
 [0.46246918 0.27846881 0.82206059 ... 0.99782485 0.73849111 0.53104524]]



# HDF5 - Groups

Nesse exemplo iremos manipular um HDF5 com vários grupos, subgrupos e datasets.

In [10]:
hdf5_groups = 'hdf5_groups.h5'

## Criando

In [11]:
%%time
with h5py.File(hdf5_groups, 'w') as hdf:
  g1 = hdf.create_group('Group1')
  g1.create_dataset('dataset1', data=matrix1)
  g1.create_dataset('dataset4', data=matrix4)

  g21 = hdf.create_group('Group2/SubGroup1')
  g21.create_dataset('dataset2', data=matrix2)

  g22 = hdf.create_group('Group2/SubGroup2')
  g22.create_dataset('dataset3', data=matrix3)

  hdf.create_dataset('dataset5', data=matrix5)

CPU times: user 4.87 ms, sys: 143 ms, total: 148 ms
Wall time: 218 ms


In [12]:
!du -sh hdf5_groups.h5

100M	hdf5_groups.h5


Acima foi criado com sucesso o HDF5 com toda a estrutura de grupos e subgrupos, em um tempo relativamente rápido (103ms) e usando algo em torno de 100M de espaço.

## Listando

In [13]:
with h5py.File(hdf5_groups, 'r') as hdf:
  ls = list(hdf.keys()) # obtém todas as keys (dataset ou group) na raiz do hdf.
  print(ls)

['Group1', 'Group2', 'dataset5']


Ao listarmos o hdf5_groups, vemos os objetos em sua raiz, que são os dois grupos (Group1 e Group2) e o dataset (dataset5). Abaixo mostraremos que podemos lista informções dentro dos grupos.

In [14]:
with h5py.File(hdf5_groups, 'r') as hdf:
  g1 = hdf.get('Group1')
  ls = list(g1.keys())
  print(ls)

['dataset1', 'dataset4']


In [15]:
with h5py.File(hdf5_groups, 'r') as hdf:
  items = list(hdf.items())
  print('Itens na raiz:', items)
  print('Itens zero na raiz:', items[0])
  g1 = hdf.get('Group1')
  items = list(g1.items())
  print('Itens em Group1:', items)

Itens na raiz: [('Group1', <HDF5 group "/Group1" (2 members)>), ('Group2', <HDF5 group "/Group2" (2 members)>), ('dataset5', <HDF5 dataset "dataset5": shape (100, 100), type "<f8">)]
Itens zero na raiz: ('Group1', <HDF5 group "/Group1" (2 members)>)
Itens em Group1: [('dataset1', <HDF5 dataset "dataset1": shape (1000, 1000), type "<f8">), ('dataset4', <HDF5 dataset "dataset4": shape (1000, 1000), type "<f8">)]


Usando o items, conseguimos obter os objetos já na listagem.

## Lendo

In [16]:
%%time
with h5py.File(hdf5_groups, 'r') as hdf:
  data5 = hdf.get('dataset5')
  dataset5 = np.array(data5)

  g1 = hdf.get('Group1')
  data1 = g1.get('dataset1')
  dataset1 = np.array(data1)
  data4 = g1.get('dataset4')
  dataset4 = np.array(data4)

  g2 = hdf.get('Group2')
  sg1 = g2.get('SubGroup1')
  data2 = sg1.get('dataset2')
  dataset2 = np.array(data2)

  sg2 = g2.get('SubGroup2')
  data3 = sg2.get('dataset3')
  dataset3 = np.array(data3)

CPU times: user 38.5 ms, sys: 52.9 ms, total: 91.4 ms
Wall time: 91.7 ms


In [17]:
print(f'Tipo do dado:\n{type(dataset1)}\n')
print(f'Conteúdo do dado:\n{dataset1}\n')
print(f'Tipo do dado:\n{type(dataset2)}\n')
print(f'Conteúdo do dado:\n{dataset2}\n')
print(f'Tipo do dado:\n{type(dataset3)}\n')
print(f'Conteúdo do dado:\n{dataset3}\n')
print(f'Tipo do dado:\n{type(dataset4)}\n')
print(f'Conteúdo do dado:\n{dataset4}\n')
print(f'Tipo do dado:\n{type(dataset5)}\n')
print(f'Conteúdo do dado:\n{dataset5}\n')

Tipo do dado:
<class 'numpy.ndarray'>

Conteúdo do dado:
[[0.85344519 0.91879515 0.04219278 ... 0.53860758 0.79170853 0.45037284]
 [0.57598117 0.66806994 0.39395578 ... 0.53989399 0.09892599 0.69500278]
 [0.68404195 0.24287255 0.75104202 ... 0.36248623 0.19542893 0.56904453]
 ...
 [0.46389146 0.820671   0.12536702 ... 0.23997888 0.27386973 0.42254806]
 [0.40800266 0.16176775 0.70738742 ... 0.91138304 0.29355968 0.06466227]
 [0.46246918 0.27846881 0.82206059 ... 0.99782485 0.73849111 0.53104524]]

Tipo do dado:
<class 'numpy.ndarray'>

Conteúdo do dado:
[[0.17212819 0.66437629 0.51753223 ... 0.38544012 0.02083502 0.74286682]
 [0.14262978 0.21683076 0.11166321 ... 0.21724415 0.8887117  0.83491355]
 [0.90916919 0.98786694 0.14322404 ... 0.12272314 0.51839295 0.57779012]
 ...
 [0.96193964 0.93007638 0.59095301 ... 0.43614878 0.97760748 0.85422031]
 [0.63855335 0.51246765 0.40794281 ... 0.4124156  0.32642607 0.33989761]
 [0.59140023 0.49409906 0.27076834 ... 0.94601154 0.83884058 0.05732084

Podemos ver que toda recuperção dos dados ocorreram perfeitamente. E o tempo de recuperação foi pouco maior do que o próprio tempo de escrita.

# HDF5 - Compressão

Iremos criar HDF5 usando o recurso de comprimir os dataset's.
A leitura e listagem são semelhantes aos exemplos anteriores.

In [18]:
hdf5_groups_compression = 'hdf5_groups_compression.h5'

Usando ```compression='gzip', compression_opts=9```

In [19]:
%%time
with h5py.File(hdf5_groups_compression, 'w') as hdf:
  g1 = hdf.create_group('Group1')
  g1.create_dataset('dataset1', data=matrix1, compression='gzip', compression_opts=9)
  g1.create_dataset('dataset4', data=matrix4, compression='gzip', compression_opts=9)

  g21 = hdf.create_group('Group2/SubGroup1')
  g21.create_dataset('dataset2', data=matrix2, compression='gzip', compression_opts=9)

  g22 = hdf.create_group('Group2/SubGroup2')
  g22.create_dataset('dataset3', data=matrix3, compression='gzip', compression_opts=9)

  hdf.create_dataset('dataset5', data=matrix5, compression='gzip', compression_opts=9)

CPU times: user 4.45 s, sys: 126 ms, total: 4.58 s
Wall time: 4.59 s


In [20]:
!du -sh hdf5_groups_compression.h5

94M	hdf5_groups_compression.h5


Comparando os tempos de execução e tamanho vemos que:
  * Tempo de execução:
    * Sem Compressão: 175ms
    * Com Compressão: 4.82s

  * Tamanho de arquivo:
    * Sem Compressão: 100M
    * Com Compressão: 94M

Podemos notar que o tempo para criar o arquivo aumento em mais de 27 vezes. Ao passo que o tamanho do arquivo reduziu 6%. Essa pouca redução pode ser atribuida a característica do dado, ou seja, matriz numérica totalmente preenchida.

Nesse caso a compressão não me parece vantajosa. 

# HDF5 - Atributos

Manipularesmo HDF5 com atributos, além das estrutura vistas a cima.

In [21]:
hdf5_attr = 'hdf5_attr.h5'

## Criando

In [22]:
%%time
with h5py.File(hdf5_attr, 'w') as hdf:
  g1 = hdf.create_group('Group1')
  g1.attrs["NAME"] = 'Grupo 1'
  dataset1 = g1.create_dataset('dataset1', data=matrix1)
  dataset1.attrs['CLASSE'] = 'MATRIX'
  dataset1.attrs['TYPE'] = 'np'
  dataset1.attrs['LEN'] = f'{matrix1.shape}'

  dataset4 = g1.create_dataset('dataset4', data=matrix4)
  dataset4.attrs['CLASSE'] = 'MATRIX'
  dataset4.attrs['TYPE'] = 'np'
  dataset4.attrs['LEN'] = f'{matrix4.shape}'
  
  g21 = hdf.create_group('Group2/SubGroup1')
  g21.attrs['NAME'] = 'Grupo 2'
  dataset2 = g21.create_dataset('dataset2', data=matrix2)
  dataset2.attrs['CLASSE'] = 'MATRIX'
  dataset2.attrs['TYPE'] = 'np'
  dataset2.attrs['LEN'] = f'{matrix2.shape}'

  g22 = hdf.create_group('Group2/SubGroup2')
  dataset3 = g22.create_dataset('dataset3', data=matrix3)
  dataset3.attrs['CLASSE'] = 'MATRIX'
  dataset3.attrs['TYPE'] = 'np'
  dataset3.attrs['LEN'] = f'{matrix3.shape}'

  dataset5 = hdf.create_dataset('dataset5', data=matrix5)
  dataset5.attrs['CLASSE'] = 'MATRIX'
  dataset5.attrs['TYPE'] = 'np'
  dataset5.attrs['LEN'] = f'{matrix5.shape}'

CPU times: user 12.2 ms, sys: 139 ms, total: 152 ms
Wall time: 233 ms


In [23]:
!du -sh hdf5_groups_compression.h5

94M	hdf5_groups_compression.h5


Note que podemos adicionar atributos tanto em dataset quanto grupos e subgrupos.

## Lendo

In [24]:
with h5py.File(hdf5_attr, 'r') as hdf:
  print(f'Raiz -> keys: {hdf.keys()}\n')
  g1 = hdf.get('Group1')
  print(f'Group1 -> keys: {g1.keys()}\n')

  print(f'Group1 -> Atributos: {list(g1.attrs.items())}')
  print(f'Group1 -> Atributos keys: {list(g1.attrs.keys())}')
  print(f'Group1 -> Atributos values: {list(g1.attrs.values())}')

  dataset5 = hdf.get('dataset5')
  print(f'\ndataset5 -> Atributos: {list(dataset5.attrs.items())}')
  print(f'dataset5 -> Atributos keys: {list(dataset5.attrs.keys())}')
  print(f'dataset5 -> Atributos values: {list(dataset5.attrs.values())}')
  print(f'dataset5 -> Atributo["CLASSE"]: {dataset5.attrs["CLASSE"]}')
  for at in list(dataset5.attrs.keys()):
    print(f'dataset5 -> Atributo["{at}"]: {dataset5.attrs[at]}')

Raiz -> keys: <KeysViewHDF5 ['Group1', 'Group2', 'dataset5']>

Group1 -> keys: <KeysViewHDF5 ['dataset1', 'dataset4']>

Group1 -> Atributos: [('NAME', 'Grupo 1')]
Group1 -> Atributos keys: ['NAME']
Group1 -> Atributos values: ['Grupo 1']

dataset5 -> Atributos: [('CLASSE', 'MATRIX'), ('LEN', '(100, 100)'), ('TYPE', 'np')]
dataset5 -> Atributos keys: ['CLASSE', 'LEN', 'TYPE']
dataset5 -> Atributos values: ['MATRIX', '(100, 100)', 'np']
dataset5 -> Atributo["CLASSE"]: MATRIX
dataset5 -> Atributo["CLASSE"]: MATRIX
dataset5 -> Atributo["LEN"]: (100, 100)
dataset5 -> Atributo["TYPE"]: np


Os atributos podem ser recuperados tanto como itens, ou suas chaves ou valores, como mostrado no exemplo a cima.

# HDF5 - Pandas

Iremos manipular HDF5 que armaarmazena estrutura pandas. 

Apresentaremos também outro modo de criação.

In [25]:
hdf5_pandas = 'hdf5_pandas.h5'

## Criando

In [26]:
hdf = pd.HDFStore(hdf5_pandas)
hdf.put('CIDADE', df_cidade, format='table', data_columns=True)
hdf.put('ESTADO', df_estado, format='table', data_columns=True)
hdf.close()

## Lendo

In [27]:
hdf = pd.HDFStore(hdf5_pandas, mode='r')
print('Estruturas(keys) na raiz: ', list(hdf.keys()))

Estruturas(keys) na raiz:  ['/CIDADE', '/ESTADO']


Os nomes das estruturas na raiz são: '/CIDADE' e '/ESTADO'

In [28]:
data_cidade = hdf.get('/CIDADE')
print('Tipo do dado:', type(data_cidade))
print(f'\nCoteúdo do dado:\n{data_cidade}')

Tipo do dado: <class 'pandas.core.frame.DataFrame'>

Coteúdo do dado:
           cidade  rank  tamanho
0        Campinas     2    média
1         Olímpia     1  pequena
2       São Paulo     3   grande
3   Iquaquecetuba     4    média
4  Pintamonhagaba     5    média


Note que no caso do dataframe não foi preciso fazer a conversão, como ocorria com a matriz numpy.

# HDF5 - Outras formas de manipulação

In [29]:
hdf = h5py.File(dataset_simples, 'r')
data1 = hdf.get('dataset1')
dataset1 = np.array(data1)
hdf.close()
print(f'Tipo do dado:\n{type(data1)}\n')
print(f'Conteúdo do dado:\n{data1}\n')
print(f'Tipo do dado:\n{type(dataset1)}\n')
print(f'Conteúdo do dado:\n{dataset1}\n')

Tipo do dado:
<class 'h5py._hl.dataset.Dataset'>

Conteúdo do dado:
<Closed HDF5 dataset>

Tipo do dado:
<class 'numpy.ndarray'>

Conteúdo do dado:
[[0.85344519 0.91879515 0.04219278 ... 0.53860758 0.79170853 0.45037284]
 [0.57598117 0.66806994 0.39395578 ... 0.53989399 0.09892599 0.69500278]
 [0.68404195 0.24287255 0.75104202 ... 0.36248623 0.19542893 0.56904453]
 ...
 [0.46389146 0.820671   0.12536702 ... 0.23997888 0.27386973 0.42254806]
 [0.40800266 0.16176775 0.70738742 ... 0.91138304 0.29355968 0.06466227]
 [0.46246918 0.27846881 0.82206059 ... 0.99782485 0.73849111 0.53104524]]



Note que o resultado é o mesmo a diferente é que nesse caso precisamos explicitamente fechar (close) o arquivo que foi aberto.

In [30]:
with h5py.File(hdf5_groups, 'r') as hdf:
  items_hdf = list(hdf.items())
  print(f'Todos os itens da raiz: {items_hdf}\n')
  print(f'Tupla contendo o item ZERO: {items_hdf[0]}\n')
  print(f'Nome do item ZERO: {items_hdf[0][0]}\n')
  print(f'Valor do item ZERO: {items_hdf[0][1]}\n')

  nome_grupo = items_hdf[0][0]
  valor_group = items_hdf[0][1]  
  print(f'Itens tendo o item ZERO ({nome_grupo}): {list(valor_group.items())}\n')

  data1 = valor_group.get('dataset1')
  dataset1 = np.array(data1)
  print()

print(f'Tipo do dado:\n{type(dataset1)}\n')
print(f'Conteúdo do dado:\n{dataset1}\n')

Todos os itens da raiz: [('Group1', <HDF5 group "/Group1" (2 members)>), ('Group2', <HDF5 group "/Group2" (2 members)>), ('dataset5', <HDF5 dataset "dataset5": shape (100, 100), type "<f8">)]

Tupla contendo o item ZERO: ('Group1', <HDF5 group "/Group1" (2 members)>)

Nome do item ZERO: Group1

Valor do item ZERO: <HDF5 group "/Group1" (2 members)>

Itens tendo o item ZERO (Group1): [('dataset1', <HDF5 dataset "dataset1": shape (1000, 1000), type "<f8">), ('dataset4', <HDF5 dataset "dataset4": shape (1000, 1000), type "<f8">)]


Tipo do dado:
<class 'numpy.ndarray'>

Conteúdo do dado:
[[0.85344519 0.91879515 0.04219278 ... 0.53860758 0.79170853 0.45037284]
 [0.57598117 0.66806994 0.39395578 ... 0.53989399 0.09892599 0.69500278]
 [0.68404195 0.24287255 0.75104202 ... 0.36248623 0.19542893 0.56904453]
 ...
 [0.46389146 0.820671   0.12536702 ... 0.23997888 0.27386973 0.42254806]
 [0.40800266 0.16176775 0.70738742 ... 0.91138304 0.29355968 0.06466227]
 [0.46246918 0.27846881 0.82206059 ...

# HDF5 - File in Dataset

In [31]:
import base64

In [32]:
hdf5_to_in = 'hdf5_to_in.h5'
hdf5_with_hdf5 = 'hdf5_with_hdf5.h5'
hdf5_with_hdf5_ret = 'hdf5_with_hdf5_ret.h5'
print("Arquivo para incluir:", hdf5_to_in)
print("Arquivo com o hdf5 dentro:", hdf5_with_hdf5)
print("Arquivo com o hdf5 dentro retorno:", hdf5_with_hdf5_ret)

dados = np.array(range(100))
print("\nDados dentro do dataset:", dados)

with h5py.File(hdf5_to_in, 'w') as hdf:
  hdf.create_dataset(name='RANGE_10', data=dados)

with h5py.File(hdf5_to_in, 'r') as hdf:
  dset = hdf.get('RANGE_10')
  print("\nDados Retorno:", np.array(dset))

print("\nTamanho do HDF5", hdf5_to_in)
!du -sh hdf5_to_in.h5

Arquivo para incluir: hdf5_to_in.h5
Arquivo com o hdf5 dentro: hdf5_with_hdf5.h5
Arquivo com o hdf5 dentro retorno: hdf5_with_hdf5_ret.h5

Dados dentro do dataset: [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47
 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71
 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95
 96 97 98 99]

Dados Retorno: [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47
 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71
 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95
 96 97 98 99]

Tamanho do HDF5 hdf5_to_in.h5
4.0K	hdf5_to_in.h5


In [33]:
data_binary = None
with open(hdf5_to_in, 'rb') as f:
  data = f.read()
  print(data)
  data_binary = base64.b64encode(data)

print(data_binary)

b'\x89HDF\r\n\x1a\n\x00\x00\x00\x00\x00\x08\x08\x00\x04\x00\x10\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\xff\xff\xff\xff\xff\xff\xff\xff \x0b\x00\x00\x00\x00\x00\x00\xff\xff\xff\xff\xff\xff\xff\xff\x00\x00\x00\x00\x00\x00\x00\x00`\x00\x00\x00\x00\x00\x00\x00\x01\x00\x00\x00\x00\x00\x00\x00\x88\x00\x00\x00\x00\x00\x00\x00\xa8\x02\x00\x00\x00\x00\x00\x00\x01\x00\x01\x00\x01\x00\x00\x00\x18\x00\x00\x00\x00\x00\x00\x00\x11\x00\x10\x00\x00\x00\x00\x00\x88\x00\x00\x00\x00\x00\x00\x00\xa8\x02\x00\x00\x00\x00\x00\x00TREE\x00\x00\x01\x00\xff\xff\xff\xff\xff\xff\xff\xff\xff\xff\xff\xff\xff\xff\xff\xff\x00\x00\x00\x00\x00\x00\x00\x000\x04\x00\x00\x00\x00\x00\x00\x08\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x

In [34]:
np_data_binary = np.asarray(data_binary)
print(np_data_binary)

b'iUhERg0KGgoAAAAAAAgIAAQAEAAAAAAAAAAAAAAAAAD//////////yALAAAAAAAA//////////8AAAAAAAAAAGAAAAAAAAAAAQAAAAAAAACIAAAAAAAAAKgCAAAAAAAAAQABAAEAAAAYAAAAAAAAABEAEAAAAAAAiAAAAAAAAACoAgAAAAAAAFRSRUUAAAEA/////////////////////wAAAAAAAAAAMAQAAAAAAAAIAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAABIRUFQAAAAAFgAAAAAAAAAGAAAAAAAAADIAgAAAAAAAAAAAAAAAAAAUkFOR0VfMTAAAAAAAAAAAAEAAAAAAAAAQAAAAA

In [35]:
print("Arquivo salvo:", hdf5_with_hdf5)
with h5py.File(hdf5_with_hdf5, 'w') as hdf:
  dset = hdf.create_dataset('binary_data', data=np_data_binary)

!ls -ls

Arquivo salvo: hdf5_with_hdf5.h5
total 385484
101656 -rw-r--r-- 1 root root 104092288 Aug 23 12:49 hdf5_attr.h5
 85940 -rw-r--r-- 1 root root  88002048 Aug 23 12:49 hdf5_dataset.h5
 96000 -rw-r--r-- 1 root root  98302795 Aug 23 12:49 hdf5_groups_compression.h5
101652 -rw-r--r-- 1 root root 104088576 Aug 23 12:49 hdf5_groups.h5
   220 -rw-r--r-- 1 root root    222383 Aug 23 12:49 hdf5_pandas.h5
     4 -rw-r--r-- 1 root root      2848 Aug 23 12:49 hdf5_to_in.h5
     8 -rw-r--r-- 1 root root      5848 Aug 23 12:49 hdf5_with_hdf5.h5
     4 drwxr-xr-x 1 root root      4096 Aug 13 13:35 sample_data


In [36]:
print("Arquivo abertp:", hdf5_with_hdf5)
ret_data_binary = None
with h5py.File(hdf5_with_hdf5, 'r') as hdf: 
  ret_data_binary = np.array(hdf.get('binary_data'))

print(ret_data_binary)

Arquivo abertp: hdf5_with_hdf5.h5
b'iUhERg0KGgoAAAAAAAgIAAQAEAAAAAAAAAAAAAAAAAD//////////yALAAAAAAAA//////////8AAAAAAAAAAGAAAAAAAAAAAQAAAAAAAACIAAAAAAAAAKgCAAAAAAAAAQABAAEAAAAYAAAAAAAAABEAEAAAAAAAiAAAAAAAAACoAgAAAAAAAFRSRUUAAAEA/////////////////////wAAAAAAAAAAMAQAAAAAAAAIAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAABIRUFQAAAAAFgAAAAAAAAAGAAAAAAAAADIAgAAAAAAAAAAAAAAAAAAUkFO

In [37]:
hdf_ret_decode = base64.b64decode(ret_data_binary)
print(hdf_ret_decode)

with open(hdf5_with_hdf5_ret, 'wb') as f:
    f.write(hdf_ret_decode)

b'\x89HDF\r\n\x1a\n\x00\x00\x00\x00\x00\x08\x08\x00\x04\x00\x10\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\xff\xff\xff\xff\xff\xff\xff\xff \x0b\x00\x00\x00\x00\x00\x00\xff\xff\xff\xff\xff\xff\xff\xff\x00\x00\x00\x00\x00\x00\x00\x00`\x00\x00\x00\x00\x00\x00\x00\x01\x00\x00\x00\x00\x00\x00\x00\x88\x00\x00\x00\x00\x00\x00\x00\xa8\x02\x00\x00\x00\x00\x00\x00\x01\x00\x01\x00\x01\x00\x00\x00\x18\x00\x00\x00\x00\x00\x00\x00\x11\x00\x10\x00\x00\x00\x00\x00\x88\x00\x00\x00\x00\x00\x00\x00\xa8\x02\x00\x00\x00\x00\x00\x00TREE\x00\x00\x01\x00\xff\xff\xff\xff\xff\xff\xff\xff\xff\xff\xff\xff\xff\xff\xff\xff\x00\x00\x00\x00\x00\x00\x00\x000\x04\x00\x00\x00\x00\x00\x00\x08\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x

In [38]:
print("Arquivo aberto retorno:", hdf5_with_hdf5_ret)
with h5py.File(hdf5_with_hdf5_ret, 'r') as hdf: 
  print(hdf.keys())
  print(f'Dataset RANGE_10\n {np.array(hdf.get("RANGE_10"))}')

Arquivo aberto retorno: hdf5_with_hdf5_ret.h5
<KeysViewHDF5 ['RANGE_10']>
Dataset RANGE_10
 [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47
 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71
 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95
 96 97 98 99]
