## TF Dataset
* 학습 및 테스트 데이타 입력 파이브 라인 
* `tf.data.Dataset`
    * `from_tesor_slice(tensors)`
    * `from_tensors(tensor)`
    * `from_generator(generator)`
* `tf.data.TextLineDataset`
* `tf.data.TFRecordDataset`


In [59]:
import tensorflow as tf
import numpy as np

data = np.arange(10)
data

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

### Dataset 생성
* `from_tensor_slices(array)`

In [23]:
dataset = tf.data.Dataset.from_tensor_slices(data)
dataset

<TensorSliceDataset shapes: (), types: tf.int32>

### Iterable Object
* for-in 구문으로 순회 가능

In [25]:
for i, e in enumerate(dataset):
    print(i, e.numpy(), e)

0 0 tf.Tensor(0, shape=(), dtype=int32)
1 1 tf.Tensor(1, shape=(), dtype=int32)
2 2 tf.Tensor(2, shape=(), dtype=int32)
3 3 tf.Tensor(3, shape=(), dtype=int32)
4 4 tf.Tensor(4, shape=(), dtype=int32)
5 5 tf.Tensor(5, shape=(), dtype=int32)
6 6 tf.Tensor(6, shape=(), dtype=int32)
7 7 tf.Tensor(7, shape=(), dtype=int32)
8 8 tf.Tensor(8, shape=(), dtype=int32)
9 9 tf.Tensor(9, shape=(), dtype=int32)


### Iterator 생성
* `iter(dataset)`
    * `next(it)`

In [61]:
it = iter(dataset)
for i in range(10):
    print(next(it))

tf.Tensor(0, shape=(), dtype=int32)
tf.Tensor(1, shape=(), dtype=int32)
tf.Tensor(2, shape=(), dtype=int32)
tf.Tensor(3, shape=(), dtype=int32)
tf.Tensor(4, shape=(), dtype=int32)
tf.Tensor(5, shape=(), dtype=int32)
tf.Tensor(6, shape=(), dtype=int32)
tf.Tensor(7, shape=(), dtype=int32)
tf.Tensor(8, shape=(), dtype=int32)
tf.Tensor(9, shape=(), dtype=int32)


### Shuffle
* `dataset.suffle(buffer_size)`
    * buffer_size > len(data)

In [63]:
shuffled = dataset.shuffle(10)
for e in dataset:
    print(e.numpy(), end=" ")
print("\n", "-"*30)
for e in shuffled:
    print(e.numpy(), end=" ")

0 1 2 3 4 5 6 7 8 9 
 ------------------------------
8 6 2 0 3 9 4 5 7 1 

### Batch
* `dataset.batch(batch_size, drop_remainder=False)`
    * `drop_remainder` : 배수가 되지 못하는 set 버리기

In [70]:
batched = dataset.batch(3)
for i, e in enumerate(batched):
    print(f"{i}:{e.numpy()}, ", end="")


0:[0 1 2], 1:[3 4 5], 2:[6 7 8], 3:[9], 

* `drop_remainder=True`

In [71]:
batched = dataset.batch(3, True)
for i, e in enumerate(batched):
    print(f"{i}:{e.numpy()}, ", end="")

0:[0 1 2], 1:[3 4 5], 2:[6 7 8], 

### Repeat
* 데이타의 끝까지 도달하면 자동으로 처음 부터 반복
* `dataset.repeat([count])`
    * `count=None` : 무한 반복

In [72]:
for e in dataset.repeat(2):
    print(e.numpy(), end=" ")


0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 

### take
* `dataset.take(count)`
    * 주어진 갯수만으로 dataset 생성

In [46]:
for e in dataset.take(5):
    print(e.numpy(), end=" ")

0 1 2 3 4 

### Map
* 각 요소를 함수와 맵핑
* `dataset.mapa(func)`

In [56]:
maped = dataset.map(lambda x : x + 10)
for e in maped :
    print(e)

tf.Tensor(10, shape=(), dtype=int32)
tf.Tensor(11, shape=(), dtype=int32)
tf.Tensor(12, shape=(), dtype=int32)
tf.Tensor(13, shape=(), dtype=int32)
tf.Tensor(14, shape=(), dtype=int32)
tf.Tensor(15, shape=(), dtype=int32)
tf.Tensor(16, shape=(), dtype=int32)
tf.Tensor(17, shape=(), dtype=int32)
tf.Tensor(18, shape=(), dtype=int32)
tf.Tensor(19, shape=(), dtype=int32)


### Prefetch
* `dataset.prefetch(buffer_size)`
    * 메모리(CPU/GPU)에 미리 올려두기
    * input dataset에 적용에 주의
        * `dataset.prefetch(2)` : 2개의 요소 prefetch
        * `dataset.batch(20).prefetch(2)` : 2batch prefetch

In [76]:
for e in dataset.prefetch(2):
    print(e)

tf.Tensor(0, shape=(), dtype=int32)
tf.Tensor(1, shape=(), dtype=int32)
tf.Tensor(2, shape=(), dtype=int32)
tf.Tensor(3, shape=(), dtype=int32)
tf.Tensor(4, shape=(), dtype=int32)
tf.Tensor(5, shape=(), dtype=int32)
tf.Tensor(6, shape=(), dtype=int32)
tf.Tensor(7, shape=(), dtype=int32)
tf.Tensor(8, shape=(), dtype=int32)
tf.Tensor(9, shape=(), dtype=int32)


### Chaining Methods
* 모든 함수가 dataset를 반환하기 때문에 연결해서 호출 가능

In [75]:
it = iter(dataset.shuffle(10).batch(3).repeat())
for i in range(10):
    print(next(it))


tf.Tensor([0 1 2], shape=(3,), dtype=int32)
tf.Tensor([8 4 3], shape=(3,), dtype=int32)
tf.Tensor([5 9 6], shape=(3,), dtype=int32)
tf.Tensor([7], shape=(1,), dtype=int32)
tf.Tensor([9 8 4], shape=(3,), dtype=int32)
tf.Tensor([5 2 1], shape=(3,), dtype=int32)
tf.Tensor([3 6 0], shape=(3,), dtype=int32)
tf.Tensor([7], shape=(1,), dtype=int32)
tf.Tensor([4 7 2], shape=(3,), dtype=int32)
tf.Tensor([6 5 8], shape=(3,), dtype=int32)
