In [2]:
import tensorflow as tf
import random
import numpy as np
import os
import cv2

# importing data with Tensorflow tf.data API

tf.data는 간단한 수준에서 복잡한 수준까지의 Input pipeline을 구성할 수 있도록 하는 API이다. 구체적으로 제공하는 기능은 다음과 같다.

## 1. tf.data.Dataset

tf.data.Dataset은 연속된 element 집합으로, 각각의 element가 Tensor object로 구성되어있다. 이때 각각의 element는 Training을 위한 data와 label의 pair로 볼 수 있을 것이다.

크게 다음과 같은 구성을 가진다.

- Creating source : 다수의 tf.Tensor object로부터 dataset을 구성한다.

  e.g : Dataset.from_tensor_slices()

- Applying a transformation : 하나 또는 여러 개의 dataset object들로부터 새로운 dataset을 구성한다.

  e.g : Dataset.batch()


### Definition of data source
1. tf.data.Dataset.from_tensors() or tf.data.Dataset.from_tensor_slices() :
   memory 상의 tensor들로 dataset을 만드는 경우
2. tf.data.TFRecordDataset :
   Disk 상의 file들로 dataset을 만드는 경우

In [14]:
dataset1 = tf.data.Dataset.from_tensor_slices( tf.random_uniform([4, 10], dtype = tf.float32) )
print("dataset1 : ")
print(dataset1.output_types)
print(dataset1.output_shapes)

dataset2 = tf.data.Dataset.from_tensor_slices( 
    (tf.random_uniform( [4] ),
     tf.random_uniform( [4, 10], maxval=100, dtype = tf.int32)))

print("dataset2 : ")
print(dataset2.output_types)
print(dataset2.output_shapes)
    
dataset3 = tf.data.Dataset.zip( (dataset1, dataset2) )
print("dataset3 : ")
print(dataset3.output_types)
print(dataset3.output_shapes)
    

dataset1 : 
<dtype: 'float32'>
(10,)
dataset2 : 
(tf.float32, tf.int32)
(TensorShape([]), TensorShape([Dimension(10)]))
dataset3 : 
(tf.float32, (tf.float32, tf.int32))
(TensorShape([Dimension(10)]), (TensorShape([]), TensorShape([Dimension(10)])))


## 2. tf.data.Iterator

tf.data.Iterator는 dataset으로부터 element들을 추출해내는 주된 방법을 제공한다. Iterator.get_next()이 실해오딜 때 dataset의 다음 element를 return하도록 구현되어 있다. 따라서 이 object는 input pipeline과 model 사이의 interface 역할을 한다.

- Simple usage : "one-shot iterator"는 특정한 dataset에 대해서 한번 반복적으로 iteration을 수행한다. editting이 필요한 부분!!!
- Sophisticated usage : Iterator.initializer operator를 통해서 여러 dataset들의 iterator들을 다시 초기화하여 같은 프로그램 내에서 여러 종류의 dataset에 대한 더욱 복잡한 형태의 model에 대한 data 입력을 구현할 수 있다.

1. 다양한 source로부터의 입력
   1. local file system
   2. distributed file system
   3. On-memory data
   4. real-time data generator
