# TFRecord

- Train/Test/Validation Dataset을 하나의 파일로 디스크(HDD)에 저장하는 Tensorflow 파일저장형식.
    - Train 시 파일로 저장된 Raw 데이터를 모델에 입력할 때 **데이터 입력, Label parsing**하는 것이 학습 속도를 떨어트리는 원인이 된다.
        - batch size 만큼의 이미지 파일을 읽어 들이면 batch size만큼의 파일 입력작업이 발생한다.
        - annotation 파일에서 정답(y)값을 parsing 하는 것도 속도 저하의 원인이 된다.
    - Tensorflow에서 학습시 데이터셋을 읽어들이는 속도를 향상시키기 위해 데이터들에 Serialization을 수행해서 하나의 파일로 저장할 수 있는 TFRecord 파일 포맷을 제공한다.
- https://www.tensorflow.org/tutorials/load_data/tfrecord   
> - **직렬화(Serialization):** 메모리에 저장된 다양한 타입의 값을 디스크(네트워크)에 저장할 수 있는 상태로 변환하는 것.
> - **binary data:** 디스크에 저장되는 0, 1로 구성된 데이터

- tf.train.Example
    - 하나의 데이터 포인트를 TFRecord에 저장하기 위해 변환하는 타입. 하나의 데이터포인트를 tf.train.Example 의 객체로 변환해서 직렬화 한 뒤 저장한다.

- tf.train.Feature
    - 하나의 데이터를 구성하는 속성(feature)들을 변환하는 클래스.
    - tf.train.Feature는 다음 세가지 타입을 지원한다.
        - tf.train.BytesList – string, bytes 타입을 변환
        - tf.train.FloatList –  float(float32), double(float64) 타입을 변환
        - tf.train.Int64List –  int, uint, bool, enum 타입을 변환

- tf.train.Example의 형태
```python
{
    "feature명":tf.train.Feature타입객체,
    "feature명":tf.train.Feature타입객체,
    ...
}
```


In [1]:
import tensorflow as tf
import numpy as np

In [2]:
# The following functions can be used to convert a value to a type compatible
# with tf.train.Example.

# 문자열(str), bytes(일반파일-ex. 이미지파일, 음성파일......)를 변환하는 함수
def _bytes_feature(value):
    """Returns a bytes_list from a string / byte."""
    if isinstance(value, type(tf.constant(0))):
        value = value.numpy() # BytesList won't unpack a string from an EagerTensor.
    return tf.train.Feature(bytes_list=tf.train.BytesList(value=[value]))

# 실수형 값을 변환하는 함수
def _float_feature(value):
    """Returns a float_list from a float / double."""
    return tf.train.Feature(float_list=tf.train.FloatList(value=[value]))

# 정수계열값(int, uint, bool, enum)을 반환하는 함수
def _int64_feature(value):
    """Returns an int64_list from a bool / enum / int / uint."""
    return tf.train.Feature(int64_list=tf.train.Int64List(value=[value]))

In [3]:
# 정수
v = _int64_feature(100)
print(type(v))
v

<class 'tensorflow.core.example.feature_pb2.Feature'>


int64_list {
  value: 100
}

In [4]:
# bool
# v = _int64_feature(True)
v = _int64_feature(False)
v

int64_list {
  value: 0
}

In [5]:
# float
v = _float_feature(0.234)
v

float_list {
  value: 0.23399999737739563
}

In [6]:
# 문자역 -> bytes타입으로 변환 후 변환
v = _bytes_feature(b'abc')
v

bytes_list {
  value: "abc"
}

In [7]:
s = '홍길동 abc'
# 문자열 -> bytes로 encoding
s2 = s.encode('utf-8')
v = _bytes_feature(s2)
v

bytes_list {
  value: "\355\231\215\352\270\270\353\217\231 abc"
}

In [13]:
print(s2)
print(s2.decode('utf-8')) # bytes -> 문자열로 변환

b'\xed\x99\x8d\xea\xb8\xb8\xeb\x8f\x99 abc'


'홍길동 abc'

In [18]:
# 파일
with open('labelme_data/cat.jpg', 'rb') as fr:
    img = fr.read()
print(type(img))
v = _bytes_feature(img)
print(type(v))

<class 'bytes'>
<class 'tensorflow.core.example.feature_pb2.Feature'>


## Example 생성 예제
- 문자열을 key로 Feature를 값으로 가지는 dictionary를 이용해 생성

## Feature 직렬화 예제
- Feature객체/Example객체.SerializeToString()
    - 각 Featuer(Feature객체를 통해 호출), Example의 Feature들(Example객체를 통해 호출)을 파일로 출력할 수 있도록 직렬화(bytes로 변환) 한다.
        - Feature객체->bytes 로 변환
    - tfrecord 파일로 출력하기 전에 Example의 Feature들은 직렬화 되어야 한다.

# TFRecord 생성 예제

## tf.train.Example 생성 및 직렬화(Serialize)
1. 각 관측값의 Feature들 하나하나는 위의 함수 중 하나를 사용하여 tf.train.Feature 타입으로 변환(인코딩)한다.
2. 1번에서 변환된 Feature들에 이름(key)를 붙여 tf.train.Example객체를 생성한다.
3. Example의 SerializeToString() 메소드를 이용해 직렬화 한다. 

## 출력(저장) 처리

- \_bytes_feature() , \_float_feature() , \_int64_feature() 중 하나를 사용하여 tf.train.Feature로 각각의 값을 변환한 뒤 tf.train.Example 메시지를 만든다.
- serializeToString()을 이용해 binary string 으로 변환한다.
- tf.io.TFRecordWriter를 이용해 출력한다.

# 저장된 TFRecord 파일 Loading 및 Dataset 생성
- tfrecord 파일로 저장된 직렬화된 데이터를 읽어 들어와서 feature들을 parsing
- tf.data.TFRecordDataset를 이용해 읽는다.