# 4장. 텐서플로 데이터셋으로 공개 데이터 사용하기

**TFDS**   
1. 실습에 사용하기 쉽게 데이터셋을 제공한다.
2. 텐서플로와 유사한 API를 통하여 데이터를 얻는 모든 전처리 단계를 손쉽게 적용 가능.

* 주요 데이터셋의 종류 (https://oreil.ly/zL7zq)   
오디오 / 이미지 / 객체 탐지(object detection) / 구조적인 데이터 / 요약(summarization) / 텍스트 / 번역 / 비디오   

* 텐서플로 데이터셋은 텐서플로와는 별도의 패키지다(따로 import).   
</br></br>

**텐서플로 데이터셋과 이를 훈련과정에서 크게 간소화하는 방법**   
1. TFRecord 구조를 살펴보고 데이터 종류와 상관없이 일관성 있게 접근하기   
2. ETL (추출, 변환, 로드) : 텐서플로 데이터셋을 활용해 대용량 데이터로 모델을 효율적으로 훈련   

## 1. TFDS 시작하기

TFDS (텐서플로 데이터셋)  
(참고: 기존 데이터셋은 케라스에서 제공해주었다.)    

▼ 아래는 데이터 종류에 상관없이 사용할 수 있는 표준 인터페이스 (코드)

In [3]:
import tensorflow as tf
import tensorflow_datasets as tfds

# tfds.load 함수에 원하는 데이터셋 이름("fashion_mnist") 전달
mnist_data = tfds.load("fashion_mnist")
for item in mnist_data:
    print(item)

# 해당 데이터에서 쓸 수 있는 item 확인

[1mDownloading and preparing dataset Unknown size (download: Unknown size, generated: Unknown size, total: Unknown size) to C:\Users\Playdata\tensorflow_datasets\fashion_mnist\3.0.1...[0m


Dl Completed...: 0 url [00:00, ? url/s]

Dl Size...: 0 MiB [00:00, ? MiB/s]

Extraction completed...: 0 file [00:00, ? file/s]

Generating splits...:   0%|          | 0/2 [00:00<?, ? splits/s]

Generating train examples...: 0 examples [00:00, ? examples/s]

Shuffling C:\Users\Playdata\tensorflow_datasets\fashion_mnist\3.0.1.incompleteSO2MT0\fashion_mnist-train.tfrec…

Generating test examples...: 0 examples [00:00, ? examples/s]

Shuffling C:\Users\Playdata\tensorflow_datasets\fashion_mnist\3.0.1.incompleteSO2MT0\fashion_mnist-test.tfreco…

[1mDataset fashion_mnist downloaded and prepared to C:\Users\Playdata\tensorflow_datasets\fashion_mnist\3.0.1. Subsequent calls will reuse this data.[0m
train
test


In [2]:
mnist_train = tfds.load(name="fashion_mnist", split="train")
assert isinstance(mnist_train, tf.data.Dataset)
print(type(mnist_train))        # 반환된 객체 타입: PrefetchDataset

<class 'tensorflow.python.data.ops.dataset_ops.PrefetchDataset'>


In [5]:
# 위의 코드 블럭을 이렇게도 할 수 있...나? 내가 임의로 쓴 코드. 잘 작동되는듯?
mnist_data = tfds.load("fashion_mnist")
print(type(mnist_data))
mnist_train2 = mnist_data['train']
print(type(mnist_train2))

<class 'dict'>
<class 'tensorflow.python.data.ops.dataset_ops.PrefetchDataset'>


In [6]:
# 위에서 도출한 PrefetchDataset을 순회하면서 데이터 조사.
# take(1) 메서드로 첫번째 레코드를 가져올 수 있다.
for item in mnist_train2.take(1):
    print(type(item))               # 딕셔너리 타입인 것을 확인할 수 있다.
    print(item.keys())              # 이 딕셔너리의 key는 'image'와 'label'

<class 'dict'>
dict_keys(['image', 'label'])


In [8]:
# 데이터 값을 직접 확인하려면 딕셔너리에 키값을 넣어서 확인하는 형태로 가능하다.
for item in mnist_train2.take(1):
    print(item['image'])
    print(item['label'])

# 참고: 이미지 항목은 모두 tf.Tensor 타입인 것을 확인할 수 있다.
# 픽셀 강도를 나타내는 0~255 사이의 값이 들어있다.

tf.Tensor(
[[[  0]
  [  0]
  [  0]
  [  0]
  [  0]
  [  0]
  [  0]
  [  0]
  [  0]
  [ 18]
  [ 77]
  [227]
  [227]
  [208]
  [210]
  [225]
  [216]
  [ 85]
  [ 32]
  [  0]
  [  0]
  [  0]
  [  0]
  [  0]
  [  0]
  [  0]
  [  0]
  [  0]]

 [[  0]
  [  0]
  [  0]
  [  0]
  [  0]
  [  0]
  [  0]
  [ 61]
  [100]
  [ 97]
  [ 80]
  [ 57]
  [117]
  [227]
  [238]
  [115]
  [ 49]
  [ 78]
  [106]
  [108]
  [ 71]
  [  0]
  [  0]
  [  0]
  [  0]
  [  0]
  [  0]
  [  0]]

 [[  0]
  [  0]
  [  0]
  [  0]
  [  0]
  [  0]
  [ 81]
  [105]
  [ 80]
  [ 69]
  [ 72]
  [ 64]
  [ 44]
  [ 21]
  [ 13]
  [ 44]
  [ 69]
  [ 75]
  [ 75]
  [ 80]
  [114]
  [ 80]
  [  0]
  [  0]
  [  0]
  [  0]
  [  0]
  [  0]]

 [[  0]
  [  0]
  [  0]
  [  0]
  [  0]
  [ 26]
  [ 92]
  [ 69]
  [ 68]
  [ 75]
  [ 75]
  [ 71]
  [ 74]
  [ 83]
  [ 75]
  [ 77]
  [ 78]
  [ 74]
  [ 74]
  [ 83]
  [ 77]
  [108]
  [ 34]
  [  0]
  [  0]
  [  0]
  [  0]
  [  0]]

 [[  0]
  [  0]
  [  0]
  [  0]
  [  0]
  [ 55]
  [ 92]
  [ 69]
  [ 74]
  [ 74]
  [ 7

In [11]:
mnist_test, info = tfds.load(name="fashion_mnist", with_info="true")
print(info)

tfds.core.DatasetInfo(
    name='fashion_mnist',
    full_name='fashion_mnist/3.0.1',
    description="""
    Fashion-MNIST is a dataset of Zalando's article images consisting of a training set of 60,000 examples and a test set of 10,000 examples. Each example is a 28x28 grayscale image, associated with a label from 10 classes.
    """,
    homepage='https://github.com/zalandoresearch/fashion-mnist',
    data_path='C:\\Users\\Playdata\\tensorflow_datasets\\fashion_mnist\\3.0.1',
    file_format=tfrecord,
    download_size=29.45 MiB,
    dataset_size=36.42 MiB,
    features=FeaturesDict({
        'image': Image(shape=(28, 28, 1), dtype=uint8),
        'label': ClassLabel(shape=(), dtype=int64, num_classes=10),
    }),
    supervised_keys=('image', 'label'),
    disable_shuffling=False,
    splits={
        'test': <SplitInfo num_examples=10000, num_shards=1>,
        'train': <SplitInfo num_examples=60000, num_shards=1>,
    },
    citation="""@article{DBLP:journals/corr/abs-1708-07747,

텐서플로 데이터셋에서 가져온 데이터셋과 케라스 모델에서 가져온 데이터셋을 다루는 방법이 다르다.     
케라스 모델에서 TFDS를 사용할 때는 케라스 모델에 넣을 수 있게 데이터를 정리한다.

## 케라스 모델에서 TFDS 사용하기

케라스 데이터셋은 ndarray (예: (28, 28))로 반환된다.</br>   
텐서플로 데이터셋은 Dataset 객체 또는 Tensor 타입을 변환한 것. (예: (28, 28, 1))   
따라서 넘파이 배열(ndarray)로 변환하는 작업이 필요하다.

In [12]:
######## 케라스 데이터셋 예시 ########
# mnist = tf.keras.datasets.fashion_mnist

# (training_images, training_labels), (test_images, test_labels) = \
#     mnist.load_data()

In [13]:
######## 텐서플로 데이터셋 예시 ########
(training_images, training_labels), (test_images, test_labels) = \
    tfds.as_numpy(tfds.load('fashion_mnist',
                            split = ['train', 'test'], 
                            batch_size=-1, 
                            as_supervised=True))

In [14]:
######## MNIST 이미지 불러오기 ########
(training_images, training_labels), (test_images, test_labels) = \
    tfds.load('fashion_mnist', 
              split = ['train', 'test'],
              batch_size=-1, 
              as_supervised=True)

# 정규화
training_images = tf.cast(training_images, tf.float32) / 255.0      # float 타입으로 변환 후 255로 나눠주기
test_images = tf.cast(test_images, tf.float32) / 255.0

# 모델 생성
model = tf.keras.models.Sequential([
    tf.keras.layers.Flatten(input_shape=(28,28,1)),     # (28, 28, 1)의 3차원을 1차원으로 Flatten
    tf.keras.layers.Dense(128, activation=tf.nn.relu),
    tf.keras.layers.Dropout(0.2),
    tf.keras.layers.Dense(10, activation=tf.nn.softmax)
])

# 컴파일
model.compile(optimizer='adam',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])

# 학습
model.fit(training_images, training_labels, epochs=5)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<keras.callbacks.History at 0x2156f363d60>

In [15]:
######## horses_or_humans 데이터 불러오기 ########
data = tfds.load('horses_or_humans', split='train', as_supervised=True) # 훈련 세트만

# 데이터 섞어주기 + 10개만 뽑아오기
train_batches = data.shuffle(100).batch(10) 

# 컨볼루션 모델 만들기
model = tf.keras.models.Sequential([
    tf.keras.layers.Conv2D(16, (3, 3), activation='relu', 
                           input_shape=(300, 300, 3)),
    tf.keras.layers.MaxPooling2D((2, 2)),

    tf.keras.layers.Conv2D(32, (3, 3), activation='relu'),
    tf.keras.layers.MaxPooling2D((2, 2)),

    tf.keras.layers.Conv2D(64, (3, 3), activation='relu'),
    tf.keras.layers.MaxPooling2D((2, 2)),

    tf.keras.layers.Conv2D(64, (3, 3), activation='relu'),
    tf.keras.layers.MaxPooling2D((2, 2)),

    tf.keras.layers.Conv2D(64, (3, 3), activation='relu'),
    tf.keras.layers.MaxPooling2D((2, 2)),
    
    tf.keras.layers.Flatten(),
    tf.keras.layers.Dense(512, activation='relu'),
    tf.keras.layers.Dense(1, activation='sigmoid')
])

# 컴파일
model.compile(optimizer='Adam', loss='binary_crossentropy',     # 이진 분류
              metrics=['accuracy'])

# 학습
model.fit(train_batches, epochs=10)

[1mDownloading and preparing dataset Unknown size (download: Unknown size, generated: Unknown size, total: Unknown size) to C:\Users\Playdata\tensorflow_datasets\horses_or_humans\3.0.0...[0m


Dl Completed...: 0 url [00:00, ? url/s]

Dl Size...: 0 MiB [00:00, ? MiB/s]

Generating splits...:   0%|          | 0/2 [00:00<?, ? splits/s]

Generating train examples...: 0 examples [00:00, ? examples/s]

Shuffling C:\Users\Playdata\tensorflow_datasets\horses_or_humans\3.0.0.incomplete409X2B\horses_or_humans-train…

Generating test examples...: 0 examples [00:00, ? examples/s]

Shuffling C:\Users\Playdata\tensorflow_datasets\horses_or_humans\3.0.0.incomplete409X2B\horses_or_humans-test.…

[1mDataset horses_or_humans downloaded and prepared to C:\Users\Playdata\tensorflow_datasets\horses_or_humans\3.0.0. Subsequent calls will reuse this data.[0m
Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<keras.callbacks.History at 0x215001fe310>

In [10]:
# 검증용 데이터 
val_data = tfds.load('horses_or_humans', split='test', as_supervised=True)

In [11]:
validation_batches = val_data.batch(32)

In [12]:
model.fit(train_batches, epochs=10,
          validation_data=validation_batches)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<keras.callbacks.History at 0x7faa552e5670>

### 특정 버전의 데이터셋 로드하기

텐서플로에 있는 모든 데이터셋은 MAJOR.MINOR.PATCH의 버전 번호 시스템을 사용한다.   
PATCH : 동일 데이터가 반환되지만, 내부 구성이 변경되었을 가능성이 있다. 개발자에게 알려지지 않는다.
MINOR : 데이터는 그대로지만, 레코드마다 특성이 추가되었을 가능성이 있다. 레코드 순서는 변경이 없다.
MAJOR : 레코드 형태와 위치가 변경되었을 가능성이 있다. 특정 슬라이스는 다른 값을 반환할 수도 있다. 

In [19]:
# "horses_or_humans:3.0.0" : MAJOR = 3 / MINOR = 0 / PATCH = 0
data, info = tfds.load("horses_or_humans:3.0.0", with_info=True)
info.full_name

'horses_or_humans/3.0.0'

## 데이터 증식을 위해 매핑 함수 사용하기

In [23]:
data = tfds.load('horses_or_humans', split='train', as_supervised=True)
train_batches = data.shuffle(100).batch(10)

▼ tf.image 라이브러리에 이미지 증식 관련 함수들이 많다.   
https://oreil.ly/H5LZh

In [24]:
def augmentimages(image, label):
    image = tf.cast(image, tf.float32) / 255        # 정규화        
    image = tf.image.random_flip_left_right(image)  # 데이터 증식을 위한 변환 함수
    return image, label

In [25]:
train = data.map(augmentimages)
# 매핑 함수에 augmentimages 함수를 이용: image, label 값을 넣어서 변환한 후 return된 image, label 값을 train으로

In [26]:
train_batches = train.shuffle(100).batch(32)

### 텐서플로 애드온 사용하기

In [None]:
%pip install tensorflow-addons

In [28]:
import tensorflow_addons as tfa

def augmentimages(image, label):
    image = tf.cast(image, tf.float32)
    image = (image/255)
    image = tf.image.random_flip_left_right(image)
    image = tfa.image.rotate(image, 40, interpolation='NEAREST')    # tfa 이용
    return image, label

## 사용자 정의 분할 사용하기

다운로드 파일을 찾을 수 없다는 에러(404)가 나는 경우 다운로드 경로를 직접 지정하여 사용할 수 있습니다.   
예를 들어 다음처럼 cats_vs_dogs 모듈의 `_URL` 변수에 다운로드 경로를 지정합니다.   
cats_vs_dogs 데이터셋의 최신 다운로드 경로는 https://www.microsoft.com/en-us/download/details.aspx?id=54765 를 참고하세요.

In [29]:
tfds.image_classification.cats_vs_dogs._URL = \
    "https://download.microsoft.com/download/3/E/1/3E1C3F21-ECDB-4869-8368-6DEBA77B919F/kagglecatsanddogs_5340.zip"

In [None]:
data = tfds.load('cats_vs_dogs', split='train', as_supervised=True)

In [22]:
data = tfds.load('cats_vs_dogs', split='train[:10000]', as_supervised=True)

In [23]:
data = tfds.load('cats_vs_dogs', split='train[:20%]', as_supervised=True)

In [24]:
data = tfds.load('cats_vs_dogs', split='train[-1000:]+train[:1000]', 
                 as_supervised=True)

In [31]:
train_data = tfds.load('cats_vs_dogs', split='train[:80%]', 
                       as_supervised=True)
validation_data = tfds.load('cats_vs_dogs', split='train[80%:90%]', 
                            as_supervised=True)
test_data = tfds.load('cats_vs_dogs', split='train[-10%:]',
                       as_supervised=True)

**반환된 데이터셋은 일반적으로 길이 정보를 제공하지 않는다.**   
원본 데이터셋을 올바르게 나누었는지 확인이 어렵다.</br>   
방법 1. 인덱스 이용: 전체 셋을 순회하면서 하나씩 카운트해서 알아본다.

In [32]:
train_length = [i for i,_ in enumerate(train_data)][-1] + 1
print(train_length)

18610


방법 2. 함수 사용: tf.data.experimental.cardinality() -> tf.int64 타입의 텐서를 numpy의 스칼라 값으로 변환하여 출력

In [27]:
tf.data.experimental.cardinality(train_data).numpy()

18610

방법 3. fashion_mnist처럼 *미리 분할되어 있는 데이터셋*은 with_info=True로 지정하여 분할 셋의 크기를 확인할 수 있다.

In [28]:
train_data, info = tfds.load('fashion_mnist', with_info=True)
print(info.splits['train'].num_examples, info.splits['test'].num_examples)

60000 10000


## TFRecord 이해하기

텐서플로 데이터셋은 데이터를 다운로드하여 디스크에 TFRecord 포맷으로 캐싱한다.   
따라서, 사용할 때마다 데이터를 다운로드 하지 않는다.   

* TFRecord 포맷: 대용량의 데이터를 저장하고 추출할 때 선호하는 포맷.   

* TFRecord 포맷 파일의 구조: 매우 단순하며, 성능을 위해 **순차적**으로 읽는다.

디스크에 저장된 파일: 매우 간단한 형태이다.   
각 레코드는 레코드의 **(1)길이**를 나타내는 정수, 정수의 **(2)CRC**(순환 중복 검사), 데이터의 **(3)바이트 배열**, 바이트 **(4)배열의 CRC**로 구성되어 있다.   
<br>   
각 레코드가 연결되어 파일을 구성하고, 대규모 데이터셋일 경우 *샤딩*된다.   
(샤팅(Sharding): 대규모 데이터를 처리하기 위해 데이터를 여러 조각으로 나눠 저장하는 기술)

In [35]:
data, info = tfds.load("mnist", with_info=True)
print(info.features)

[1mDownloading and preparing dataset Unknown size (download: Unknown size, generated: Unknown size, total: Unknown size) to C:\Users\Playdata\tensorflow_datasets\mnist\3.0.1...[0m


Dl Completed...: 0 url [00:00, ? url/s]

Dl Size...: 0 MiB [00:00, ? MiB/s]

Extraction completed...: 0 file [00:00, ? file/s]

Generating splits...:   0%|          | 0/2 [00:00<?, ? splits/s]

Generating train examples...: 0 examples [00:00, ? examples/s]

Shuffling C:\Users\Playdata\tensorflow_datasets\mnist\3.0.1.incompleteBSLROZ\mnist-train.tfrecord*...:   0%|  …

Generating test examples...: 0 examples [00:00, ? examples/s]

Shuffling C:\Users\Playdata\tensorflow_datasets\mnist\3.0.1.incompleteBSLROZ\mnist-test.tfrecord*...:   0%|   …

[1mDataset mnist downloaded and prepared to C:\Users\Playdata\tensorflow_datasets\mnist\3.0.1. Subsequent calls will reuse this data.[0m
FeaturesDict({
    'image': Image(shape=(28, 28, 1), dtype=uint8),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=10),
})


▲ 데이터의 shape와 클래스 갯수를 확인할 수 있다.

원시 레코드 로드: TFRecordDataset   
예) raw_dataset = tf.data.TFRecordDataset(filename)   
다만, 파일 위치는 운영체제에 따라 달라질 수 있다.

In [36]:
import os 
import sys

if 'google.colab' in sys.modules:
    filename = '/content/~/tensorflow_datasets/mnist/3.0.1/mnist-test.tfrecord-00000-of-00001'
else:
    filename = os.path.join(os.path.expanduser('~') + 
                            '/tensorflow_datasets/mnist/3.0.1/mnist-test.tfrecord-00000-of-00001')
raw_dataset = tf.data.TFRecordDataset(filename)     # 원시 레코드 로드

for raw_record in raw_dataset.take(1):
    print(repr(raw_record))

<tf.Tensor: shape=(), dtype=string, numpy=b"\n\x85\x03\n\x0e\n\x05label\x12\x05\x1a\x03\n\x01\x02\n\xf2\x02\n\x05image\x12\xe8\x02\n\xe5\x02\n\xe2\x02\x89PNG\r\n\x1a\n\x00\x00\x00\rIHDR\x00\x00\x00\x1c\x00\x00\x00\x1c\x08\x00\x00\x00\x00Wf\x80H\x00\x00\x01)IDAT(\x91\xc5\xd2\xbdK\xc3P\x14\x05\xf0S(v\x13)\x04,.\x82\xc5Aq\xac\xedb\x1d\xdc\n.\x12\x87n\x0e\x82\x93\x7f@Q\xb2\x08\xba\tbQ0.\xe2\xe2\xd4\xb1\xa2h\x9c\x82\xba\x8a(\nq\xf0\x83Fh\x95\n6\x88\xe7R\x87\x88\xf9\xa8Y\xf5\x0e\x8f\xc7\xfd\xdd\x0b\x87\xc7\x03\xfe\xbeb\x9d\xadT\x927Q\xe3\xe9\x07:\xab\xbf\xf4\xf3\xcf\xf6\x8a\xd9\x14\xd29\xea\xb0\x1eKH\xde\xab\xea%\xaba\x1b=\xa4P/\xf5\x02\xd7\\\x07\x00\xc4=,L\xc0,>\x01@2\xf6\x12\xde\x9c\xde[t/\xb3\x0e\x87\xa2\xe2\xc2\xe0A<\xca\xb26\xd5(\x1b\xa9\xd3\xe8\x0e\xf5\x86\x17\xceE\xdarV\xae\xb7_\xf3AR\r!I\xf7(\x06m\xaaE\xbb\xb6\xac\r*\x9b$e<\xb8\xd7\xa2\x0e\x00\xd0l\x92\xb2\xd5\x15\xcc\xae'\x00\xf4m\x08O'+\xc2y\x9f\x8d\xc9\x15\x80\xfe\x99[q\x962@CN|i\xf7\xa9!=\xd7 \xab\x19\x00\xc8\xd6\xb8\xeb\xa1\xf0\

▲ 체크섬과 레코드 내용이 긴 문자열로 출력된다.   

참고: 체크섬(Checksum)   
네트워크로 어떤 코드들을 전송할 때, 코드가 변형 여부를 파악하기 위해 사용한다.<br>   
파일 전송 시, (1) 코드의 체크섬을 *계산*하고, (2) 이 체크섬을 보낼 *코드에 붙여서* 전송한다.   
그러면 수신자 측에서 코드를 전송받고 (3) 다시 체크섬을 *계산*한다.   
(4) 받은 체크섬과 *비교*를 해서 -> 일치하면 변형 없음 / 불일치하면 변형이 있음.
<br>
참고2: numpy=b 부분의 b는 byte 타입을 의미한다.   
label 앞에는 header 영역이 있다. == meta 데이터   

위에서 info.features로 확인한 내용을 바탕으로 특성 디스크립션을 만든다.   

```
FeaturesDict({
    'image': Image(shape=(28, 28, 1), dtype=uint8),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=10),
})
```

In [31]:
# (1) 특성 디스크립션을 만듭니다.
feature_description = {
    'image': tf.io.FixedLenFeature([], dtype=tf.string),
    'label': tf.io.FixedLenFeature([], dtype=tf.int64),
}

def _parse_function(example_proto):
    # (2) 위에서 만든 딕셔너리로 입력을 파싱합니다.
    return tf.io.parse_single_example(example_proto, feature_description)

parsed_dataset = raw_dataset.map(_parse_function)       # raw_dataset 데이터를 map 함수를 통해서 _parse_function, 즉 parse_single_example 함수에 넣는다.
                                                        # 즉, feature_description 형태로 raw_dataset을 변환(파싱)한다.
for parsed_record in parsed_dataset.take(1):            # 파싱 완료된 데이터 확인
    print((parsed_record))

{'image': <tf.Tensor: shape=(), dtype=string, numpy=b"\x89PNG\r\n\x1a\n\x00\x00\x00\rIHDR\x00\x00\x00\x1c\x00\x00\x00\x1c\x08\x00\x00\x00\x00Wf\x80H\x00\x00\x01)IDAT(\x91\xc5\xd2\xbdK\xc3P\x14\x05\xf0S(v\x13)\x04,.\x82\xc5Aq\xac\xedb\x1d\xdc\n.\x12\x87n\x0e\x82\x93\x7f@Q\xb2\x08\xba\tbQ0.\xe2\xe2\xd4\xb1\xa2h\x9c\x82\xba\x8a(\nq\xf0\x83Fh\x95\n6\x88\xe7R\x87\x88\xf9\xa8Y\xf5\x0e\x8f\xc7\xfd\xdd\x0b\x87\xc7\x03\xfe\xbeb\x9d\xadT\x927Q\xe3\xe9\x07:\xab\xbf\xf4\xf3\xcf\xf6\x8a\xd9\x14\xd29\xea\xb0\x1eKH\xde\xab\xea%\xaba\x1b=\xa4P/\xf5\x02\xd7\\\x07\x00\xc4=,L\xc0,>\x01@2\xf6\x12\xde\x9c\xde[t/\xb3\x0e\x87\xa2\xe2\xc2\xe0A<\xca\xb26\xd5(\x1b\xa9\xd3\xe8\x0e\xf5\x86\x17\xceE\xdarV\xae\xb7_\xf3AR\r!I\xf7(\x06m\xaaE\xbb\xb6\xac\r*\x9b$e<\xb8\xd7\xa2\x0e\x00\xd0l\x92\xb2\xd5\x15\xcc\xae'\x00\xf4m\x08O'+\xc2y\x9f\x8d\xc9\x15\x80\xfe\x99[q\x962@CN|i\xf7\xa9!=\xd7 \xab\x19\x00\xc8\xd6\xb8\xeb\xa1\xf0\xd8l\xca\xfb]\xee\xfb]*\x9fV\xe1\x07\xb7\xc9\x8b55\xe7M\xef\xb0\x04\xc0\xfd&\x89\x01<\xbe\xf9\x0

▲ 'IDAT'로 시작하는 부분이 이미지 데이터가 시작되는 부분.   
'END'에서 이미지 데이터가 끝난다.   

파싱된 결과를 PNG 이미지로 디코딩하려면 Pillow 라이브러리를 사용할 수 있다.

## 텐서플로에서 데이터 관리를 위한 ETL 프로세스

In [39]:
import tensorflow as tf
import tensorflow_datasets as tfds
import tensorflow_addons as tfa

# 모델 정의 시작 #
model = tf.keras.models.Sequential([
    tf.keras.layers.Conv2D(16, (3, 3), activation='relu', 
                           input_shape=(300, 300, 3)),
    tf.keras.layers.MaxPooling2D((2, 2)),

    tf.keras.layers.Conv2D(32, (3, 3), activation='relu'),
    tf.keras.layers.MaxPooling2D((2, 2)),

    tf.keras.layers.Conv2D(64, (3, 3), activation='relu'),
    tf.keras.layers.MaxPooling2D((2, 2)),

    tf.keras.layers.Conv2D(64, (3, 3), activation='relu'),
    tf.keras.layers.MaxPooling2D((2, 2)),

    tf.keras.layers.Conv2D(64, (3, 3), activation='relu'),
    tf.keras.layers.MaxPooling2D((2, 2)),

    tf.keras.layers.Flatten(),
    tf.keras.layers.Dense(512, activation='relu'),
    tf.keras.layers.Dense(1, activation='sigmoid')
])
model.compile(optimizer='Adam', loss='binary_crossentropy', 
              metrics=['accuracy'])
# 모델 정의 끝 #

# 데이터 추출 단계 시작 #
data = tfds.load('horses_or_humans', split='train', 
                 as_supervised=True)                        # 훈련 세트
val_data = tfds.load('horses_or_humans', split='test', 
                     as_supervised=True)                    # 검증 세트
# 데이터 추출 단계 끝 #

# 데이터 변환 단계 시작 #
def augmentimages(image, label):
    # image = tf.cast(image, tf.float32)
    # image = (image/255)
    image = tf.cast(image, tf.float32) / 255                # 정규화
    image = tf.image.random_flip_left_right(image)          # flip 증식
    image = tfa.image.rotate(image, 40, interpolation='NEAREST')    # rotate 증식
    return image, label

train = data.map(augmentimages)                             # augmentimages 실행
train_batches = train.shuffle(100).batch(32)                # suffle
validation_batches = val_data.batch(32)
# 데이터 변환 단계 끝 #

# 학습 로드 단계 시작 #
history = model.fit(train_batches, epochs=10, 
                    validation_data=validation_batches)
# 학습 로드 단계 끝 #

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


In [48]:
classification = model.predict(validation_batches)

classification[0:6]



array([[1.       ],
       [0.9925934],
       [1.       ],
       [1.       ],
       [0.       ],
       [1.       ]], dtype=float32)

#### 장점: 데이터 파이프라인이 데이터나 모델 구조 변화에 덜 민감하도록 만들 수 있다.   
텐서플로 데이터셋을 이용하여 데이터를 추출하는 **(1)구조**는 **데이터 크기와 상관없이 동일하다**.   
**(2)변환**도 tf.data API의 일관성을 바탕으로, 데이터 소스와 상관없이 비슷한 변환이 이루어진다.   
**(3)데이터 로딩** 단계도 어떤 프로세서에서 훈련하는지와는 상관없이 동일하다.   

단점: 데이터를 로드하는 단계가 훈련하는 속도에 영향을 미칠 수 있다?!

### 훈련 속도 향상을 위한 ETL 병렬화

1. 로드 단계 최적화하기.

CPU와 GPU, TPU 간에 서로 다른 역할을 부여한다. 작업 부하를 잘 배분.   
* CPU - 데이터 다운로드, 압축 해제, 레코드 순회 처리 실행   
* GPU, TPU - 훈련 시 사용

(가정: 대규모 데이터셋, 배치 데이터를 준비해야 하는 경우)   
(1) CPU에서 첫 번째 배치가 준비 & GPU/TPU는 유휴상태   
(2) 준비가 끝나면, GPU/TPU에 전송 -> GPU/TPU 훈련 & CPU 유휴상태   

2. 병렬화   
적절한 배치크기 조절로, 'CPU의 배치파일 준비 시간'과 'GPU/TPU의 훈련 시간' 간에 차이를 최소화/최적화 한다.   
GPU/TPU의 비용이 더 비싸므로, 가능하면 GPU/TPU의 유휴시간을 줄이는 것이 좋다.

<img src="pipeline.PNG" width=600>

In [49]:
train_data = tfds.load('cats_vs_dogs', split='train', with_info=True)

In [50]:
import sys

if 'google.colab' in sys.modules:
    file_pattern = '/content/~/tensorflow_datasets/cats_vs_dogs/4.0.0/cats_vs_dogs-train.tfrecord*'
else:
    file_pattern = os.path.join(
        os.path.expanduser('~') + 
        '/tensorflow_datasets/cats_vs_dogs/4.0.0/cats_vs_dogs-train.tfrecord*'
    )
files = tf.data.Dataset.list_files(file_pattern)

In [51]:
########## 추출 단계 병렬화 #########

train_dataset = files.interleave(
    tf.data.TFRecordDataset, 
    cycle_length=4,                                     # 내가 사용할 코어의 개수 (동시에 전처리할 입력 원소의 개수) : 동시에 4개의 레코드를 처리한다.
    num_parallel_calls=tf.data.experimental.AUTOTUNE    # 병렬 실행 횟수 : AUTOTUNE으로 지정하면 CPU 개수에 따라 동적으로 설정된다.
)

In [55]:
train_dataset.shape

<bound method DatasetV2.get_single_element of <ParallelMapDataset element_spec=(TensorSpec(shape=(300, 300, 3), dtype=tf.float32, name=None), TensorSpec(shape=(), dtype=tf.int64, name=None))>>

In [52]:
######### 변환 단계 병렬화 #########
def read_tfrecord(serialized_example):
    feature_description={
        "image": tf.io.FixedLenFeature((), tf.string, ""),
        "label": tf.io.FixedLenFeature((), tf.int64, -1),
    }
    example = tf.io.parse_single_example(
        serialized_example, feature_description
    )
    image = tf.io.decode_jpeg(example['image'], channels=3)         # JPEG 이미지를 디코딩 (3차원: channels=3)
    image = tf.cast(image, tf.float32)                              # 정규화
    image = image / 255
    image = tf.image.resize(image, (300,300))                       # (300, 300)으로 resize       
    return image, example['label']

In [53]:
import multiprocessing              # 실제 정렬화는 선언한 매핑함수(cores)를 호출할 때 수행된다.

cores = multiprocessing.cpu_count() # 자동 설정을 원치 않으면 multiprocessing 라이브러리를 사용해 CPU 개수를 카운트 한다.
print(cores)
train_dataset = train_dataset.map(read_tfrecord, num_parallel_calls=cores)  # 전체 코어를 다 사용 (num_parallel_calls=cores)
# 코랩의 경우 데이터셋을 캐싱하면 메모리 부족으로 런타임이 다운될 수 있으므로 주석처리힙니다.
# train_dataset = train_dataset.cache()

8


In [56]:
######### 로딩과 훈련 병렬화 #########
# 사용 가능한 CPU 코어 개수를 바탕으로 데이터를 프리페치(prefetch)
# 훈련세트 병렬화 준비
train_dataset = train_dataset.shuffle(1024).batch(32)
train_dataset = train_dataset.prefetch(tf.data.experimental.AUTOTUNE)

In [None]:
# 모델 훈련
model.fit(train_dataset, epochs=10, verbose=1)