# 29. HDF5 File Format (Hierarchical Data Format)

- h5py 패키지는 Python에서 HDF5 바이너리 데이터 포맷을 사용하기 위한 인터페이스 패키지.
- H5F5 포맷은 많은 양의 데이터를 카테고리 또는 속성별로 데이터를 나눠서 저장 할 수 있을 뿐만 아니라 numpy를 이용하여 데이터에 접근하여 사용할 수 있다.

<img src="hdf5.png" width="200"/>

- HDF5 파일은 배열과 같은 데이터 모음인 데이터 세트와 데이터 세트 및 기타 그룹을 보관하는 폴더와 같은 컨테이너인 그룹의 두 가지 종류의 개체를 위한 컨테이너입니다.

- 그룹은 dictionary처럼 작동하고 dataset는 NumPy 배열처럼 작동합니다.

### 설치
conda install h5py  또는,

pip install h5py

In [1]:
import h5py
import numpy as np
import os

try:
    os.remove('FileA.hdf5')
except OSError:
    pass

f = h5py.File('FileA.hdf5', 'w')

## 그룹/하위그룹 생성

In [2]:
g = f.create_group("groupA")
sub = g.create_group("subGroupB")

print (f.keys())
print (g.keys())

<KeysViewHDF5 ['groupA']>
<KeysViewHDF5 ['subGroupB']>


## group 내에 dataset 생성

- g.create_dataset(name_of_dataset, initial value)

In [3]:
dataset1 = g.create_dataset("dataset1", data = np.arange(20))  
dataset2 = g.create_dataset("dataset2", data= np.random.randint(0, 10))

In [4]:
print(g.keys())

for k in g.keys():
    dataset = g[k]
    print(dataset)

<KeysViewHDF5 ['dataset1', 'dataset2', 'subGroupB']>
<HDF5 dataset "dataset1": shape (20,), type "<i8">
<HDF5 dataset "dataset2": shape (), type "<i8">
<HDF5 group "/groupA/subGroupB" (0 members)>


### 하위 그룹의 dataset  생성

In [5]:
b = sub.create_dataset("dataset3", data = np.arange(20))

In [7]:
print(sub.keys())

for k in sub.keys():
    dataset = sub[k]
    print (dataset)
    print (dataset.dtype)
    print (dataset[:])

<KeysViewHDF5 ['dataset3']>
<HDF5 dataset "dataset3": shape (20,), type "<i8">
int64
[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19]


### 실제 data example

In [8]:
with h5py.File("test_catvnoncat.h5", 'r') as test_dataset:
    for k in test_dataset.keys():
        print(k)
    
    print(test_dataset["list_classes"])
    print(test_dataset["test_set_x"])
    print(test_dataset["test_set_y"])

list_classes
test_set_x
test_set_y
<HDF5 dataset "list_classes": shape (2,), type "|S7">
<HDF5 dataset "test_set_x": shape (50, 64, 64, 3), type "|u1">
<HDF5 dataset "test_set_y": shape (50,), type "<i8">


In [9]:
train_dataset = h5py.File("test_catvnoncat.h5", 'r')
X_train = np.array(train_dataset["test_set_x"])
y_train = np.array(train_dataset["test_set_y"])

In [10]:
print(X_train.shape, y_train.shape)

(50, 64, 64, 3) (50,)
