In [None]:
#학습하는 시점에 디렉토리를 기준으로 labeling 

#데이터셋을 하드디스크에 저장하기 위한 형식
#tf record : 데이터셋에 대한 내용을 모두 담고 있는 파일을 하나 만듦 

# TFRecord
- https://www.tensorflow.org/tutorials/load_data/tfrecord
- Tensorflow에서 제공하는 데이터셋을 파일에 저장방식.
    - 데이터 양이 많을 경우 이를 Binary로 Seralization(직렬화)하여 하나의 파일로 저장하고 있다가, 이를 다시 읽어 들여  처리하면 처리속도를 향상시킬 수 있다. Tensorflow에서 이를 위해서 데이터 셋을 Protocol Buffer 형태로 Serialization을 수행해서 저장할 수 있는 TFRecord 파일 포맷 형태를 지원한다. 
    - tf.train.Example 클래스를 이용해서 {“string” : tf.train.Feature} 의 딕셔너리 형태로 데이터들을 TFRecord 파일에 저장한다.
    
> - **직렬화(Serialization):** 메모리에 저장된 다양한 타입의 값을 디스크(네트워크)에 저장할 수 있는 상태로 변환하는 것.
> - **binary data:** 디스크에 저장되는 0, 1로 구성된 데이터

- tf.train.Example
    - 하나의 데이터를 TFRecord에 저장하기 위해 변환하는 클래스. 하나의 데이터를 tf.train.Example 의 객체로 변환해서 저장한다.

- tf.train.Feature
    - 하나의 데이터를 구성하는 속성(feature)들을 변환하는 클래스.
    - tf.train.Feature는 다음 세가지 타입을 지원한다.
        - tf.train.BytesList – string(byte로 바꿔줘야함), byte(바이너리 파일) 타입을 변환
        - tf.train.FloatList –  float(float32), double(float64) 타입을 변환
        - tf.train.Int64List – bool, enum(상수), int32, uint32, int64, uint64 타입을 변환

In [None]:
"""
image : BytesList
Class : ButesList
class_num:Int64List
좌표 x : FloatList
좌표 y : FloatList
"""

### - tf.tran.Example의 형태
```python
{
    "feature명":tf.train.Feature타입객체,
    "feature명":tf.train.Feature타입객체,
    ...
}
```


In [1]:
#example(table, 행) / feature(속성)

In [None]:
import tensorflow as tf
import numpy as np

In [None]:
def _bytes_feature(value):
    """Returns a bytes_list from a string / byte."""
    if isinstance(value, type(tf.constant(0))):
        #반드시 numpy 배열(ndarray)로 변환.
        value = value.numpy()
    return tf.train.Feature(bytes_list=tf.train.BytesList(value=[value]))

def _float_feature(value):
    """Returns a float_list from a float/double datatype value"""
    return tf.train.Feature(float_list=tf.train.FloatList(value=[value]))

def _int64_feature(value):
    """Returns a int64_list from a int / uint/ bool / enum datatype value"""
    return tf.train.Feature(int64_list=tf.train.Int64List(value=[value]))

In [None]:
# 정수
v = _int64_feature(20) #int(20)
print(type(v))
v

In [None]:
# bool
_int64_feature(True)

In [None]:
_int64_feature(False)

In [None]:
# ndarray:scaler uint32: 50
_int64_feature(np.array(50).astype(np.uint32))

In [None]:
# float
_float_feature(30.2)

In [None]:
# 문자열 - byte string(인코딩된 문자열)
#반드시 문자열은 바이너리로 (b'test') 다음과 같이 해야함.
#근데 (b'안녕')이대로 넣으면 오류
_bytes_feature(s.encode('utf-8')
_bytes_feature(b'test')

In [None]:
_bytes_feature('test'.encode('utf-8'))

In [None]:
# 파일(binary)
#이미지 파일 아무거나 꺼내서 image.jpg
with open('image.jpg', 'rb') as f:
    img = f.read()
print(type(img))
_bytes_feature(img)

### Feature 직렬화
- .SerializeToString()
    - proto 메세지를 bytes(binary string)로 직렬화
    - Example을 tfrecord로 출력하기 전에 변환해야 한다.

In [None]:
feature = _float_feature(30.2)
print(feature)
feature.SerializeToString() #Feature를 파일에 저장할 수 있는 binary(string)형태로 변환

### 직렬화 예제

In [None]:
#4개 feature(속성)들로 구성된 1000개의 임의의 데이터 생성

#1속성:Bool, 2:정수, 3:문자열, 4:실수
import numpy as np
N_DATA = 1000 #데이터개수

feature0 = np.random.choice([False, True], N_DATA)

feature1 = np.random.randint(0,5, N_DATA)
strings = np.array([b'cat',b'dog',b'chicken',b'horse',b'goat'])
feature2 = strings[feature1]
feature3 = np.random.randn(N_DATA)

In [None]:
feature0.dtype, feature1.dtype, feature2.dtype, feature3.dtype

# TFRecord 저장 및 읽기

## tf.train.Example 생성 및 직렬화(Serialize)
1. 각 관측값의 Feature들 하나하나는 위의 함수 중 하나를 사용하여 3 가지 호환 유형 중 하나를 포함하는 tf.train.Feature 로 변환(인코딩)되어야 한다.
2. Feature이름 문자열에 1번에서 에서 생성 된 인코딩 된 기능 값으로 딕셔너리를 생성한다.
3. 2 단계에서 생성 된 맵은 Features 메시지 로 변환한다.

In [None]:
import tensorflow as tf

def serialize_example(feature0, feature1, feature2, feature3):
    """
    한개의 데이터 포인트를 받아서 Serialize된 메세지(최종저장형태)를 만들어 반환
    각 속성값들을 타입에 맞는(bool, 정수, 문자열, 실수) Feature로 변환한 뒤 dictionary로 구성
    tf.train.Example 생성
    serialize 된 bytes 생성 후 반환"""
    
    feature = {
        #이름은 본인이 지정
        #'age':이렇게 해도 됨
        'feature0':_int64_feature(feature0),
        'feature1':_int64_feature(feature1),
        'feature2':_bytes_feature(feature2),
        'feature3':_float_feature(feature3)
    }
    #feature dictionary를 넣어서 Example을 생성
    #아래는 그냥 문법임
    example_proto = tf.train.Example(features=tf.train.Features(feature=feature))
    #Example 객체를 파일러 저장할 수 있도록 직렬화 해준뒤 반환
    return example_proto.SerializeToString()

#직렬화: 메모리에 있는 객체를 저장할 수 있는 형태로 만들어 주는것

## 출력(저장) 처리

- \_bytes_feature() , \_float_feature() , \_int64_feature() 중 하나를 사용하여 tf.train.Feature로 각각의 값을 변환한 뒤 tf.train.Example 메시지를 만든다.
- serializeToString()을 이용해 binary string 으로 변환한다.
- tf.io.TFRecordWriter를 이용해 출력한다.

In [None]:
import os
#tfrecord 파일을 저장할 디렉토리 생성
if not os.path.isdir('tfrecord'):
    os.mkdir('tfrecord')

In [None]:
# tfrecord 파일 경로
# tfrecord 파일 확장자: xxx.tfrecord, xxx.tfr, xxx.record
tfrecord_dir = "./tfrecord/data.tfrecord" 

#TFRecordWriter: tfrecord 파일에 데이터를 출력하는 객체
tfrecord_writer = tf.io.TFRecordWriter(tfrecord_dir)
#빈파일 만들어 둠

In [None]:
#zip을 통해 같은 인덱스에 있는 것들끼리 tuple로 넘어옴
for data in zip(feature0, feature1, feature2, feature3):
#    print((data[0].dtype, data[1].dtype, data[2].dtype, data[3].dtype))
    #numpy의 bool 타입은 파이썬 bool 타입으로 변환처리 해야함.
    pb = serialize_example(bool(data[0]), data[1], data[2], data[3])
    tfrecord_writer.write(pb) #tfrecord파일에 Example 출력
tfrecord_writer.close()    

In [None]:
serialized_example = serialize_example(False, 4, b'goat', 0.987)
serialized_example

## TFRecord파일 읽기 및 역직렬화(Deserialize)
- tfrecord 파일로 저장된 직렬화된 데이터를 읽어 들어와서 feature들을 parsing
- tf.data.TFRecordDataset를 이용해 읽는다.

In [None]:
example_proto = tf.train.Example.FromString(serialized_example)
print(type(example_proto))
print(example_proto)

In [None]:
def _parse_function(tfrecord_serialized):

    features = {
        "feature0":tf.io.FixedLenFeature([], tf.int64),
        "feature1":tf.io.FixedLenFeature([], tf.int64),
        "feature2":tf.io.FixedLenFeature([],tf.string),
        "feature3":tf.io.FixedLenFeature([],tf.float32)
    }
    
    parsed_features = tf.io.parse_single_example(tfrecord_serialized, features) 
    
    feature0 = tf.cast(parsed_features['feature0'], tf.bool)
    feature1 = tf.cast(parsed_features['feature1'], tf.int64)
    feature2 = tf.cast(parsed_features['feature2'], tf.string)
    feature3 = tf.cast(parsed_features['feature3'], tf.float32)
    
    return feature0, feature1,feature2,feature3

In [None]:
dataset = tf.data.TFRecordDataset(tfrecord_dir)
type(dataset)

In [None]:
for raw_data in dataset.take(3):
    print(repr(raw_data))

In [None]:
parsed_dataset = dataset.map(_parse_function)

In [None]:
for raw in parsed_dataset.take(2):  #(f1, f2, f3, f4) 튜플로 반환됨.
    print(raw)