### 데이터 직렬화: 텐서를 파일로 보관했다가 나중에 다시 읽기 위해 필요
- 파이토치에서는 내부적으로 pickle을 사용
- 저장 공간을 위한 전용 직렬화 코드를 가지고 있음

### PyTorch로만 데이터를 저장하고 로드하는 경우
- torch.save()와 torch.load()

In [1]:
import torch
points = torch.randn(2,3)

points 텐서를 ourpoints.t 파일에 저장

In [2]:
torch.save(points, '../data/p1ch3/ourpoints.t')

혹은 파일 이름 대신 파일 descriptor를 넣어도 됨

In [3]:
with open('../data/p1ch3/ourpoints.t', 'wb') as f:
    torch.save(points, f)

텐서로 load

In [4]:
points = torch.load('../data/p1ch3/ourpoints.t')

혹은 (이렇게 사용할리는 없겠지만)

In [5]:
with open('../data/p1ch3/ourpoints.t', 'rb') as f:
    points = torch.load(f)

하지만, PyTorch를 사용해야하기 때문에 다른 딥러닝 프레임워크를 사용하고 있는 시스템이 있는 상태에서 호환성 문제가 발생할 수 있다

### HDF5 : 호환성이 중요할 경우 사용
- 이식성이 높고 광범위하게 지원됨
- 중첩된 키-값 딕셔너리에서 직렬화된 정형 다차원 배열을 표현하는 포맷
- 파이썬에서는 h5py 라이브러리를 통해 HDF5 포맷을 지원
- Numpy 배열 형태로 전달하거나 반환 받을 수 있음

In [6]:
!conda install h5py -y

Collecting package metadata (current_repodata.json): done
Solving environment: done


  current version: 22.9.0
  latest version: 23.1.0

Please update conda by running

    $ conda update -n base -c defaults conda



# All requested packages already installed.

Retrieving notices: ...working... done


In [7]:
import h5py

In [8]:
f = h5py.File('../data/p1ch3/ourpoints.hdf5', 'w')
dset = f.create_dataset('coord', data=points.numpy())
f.close()

'coord' : HDF5 파일의 키에 해당하는데 키와 키를 중첩(nested) 시킬 수 있다.

데이터셋의 가장 뒤 포인트 2개만 읽고 싶다면 numpy에서와 유사하게 데이터셋을 slicing해 가져올 수 있다

In [9]:
f = h5py.File('../data/p1ch3/ourpoints.hdf5', 'r')
dset = f['coord']
last_points = dset[-2:]

In [10]:
last_points

array([[-0.2544861 , -0.9302548 ,  2.099093  ],
       [-0.5908261 ,  1.2951008 , -0.48101923]], dtype=float32)

In [11]:
last_points_t = torch.from_numpy(dset[-2:])
f.close()

In [12]:
dset[-2:]

ValueError: Dset_id is not a dataset id (dset_id is not a dataset ID)

파일이 닫히고 나서는 데이터셋에 접근할 수 없다