전체적인 데이터 API의 중심에는 데이터셋 개념이 있습니다.<br>
일반적으로 디스크에서 데이터를 점진적으로 읽는 데이터셋을 사용하지만,<br>
지금은 간단히 tf.data.Dataset.from_tensor_slices()를 사용해서 메모리에서 전체 데이터셋을 만들어보겠습니다.

In [1]:
import tensorflow as tf

In [10]:
X = tf.range(10)  # 샘플 데이터 텐서
dataset = tf.data.Dataset.from_tensor_slices(X)

In [11]:
dataset

<TensorSliceDataset shapes: (), types: tf.int32>

In [12]:
for item in dataset:
    print(item)

tf.Tensor(0, shape=(), dtype=int32)
tf.Tensor(1, shape=(), dtype=int32)
tf.Tensor(2, shape=(), dtype=int32)
tf.Tensor(3, shape=(), dtype=int32)
tf.Tensor(4, shape=(), dtype=int32)
tf.Tensor(5, shape=(), dtype=int32)
tf.Tensor(6, shape=(), dtype=int32)
tf.Tensor(7, shape=(), dtype=int32)
tf.Tensor(8, shape=(), dtype=int32)
tf.Tensor(9, shape=(), dtype=int32)


이렇게 만든 데이터셋은 tf.data.Dataset.range(10)과 동일합니다.

# 연쇄 변환
데이터셋이 준비되면 변환 메소드를 호출해 여러 종류의 변환을 수행할 수 있습니다.

In [13]:
dataset = dataset.repeat(3).batch(7)

이렇게 데이터셋을 형성하면, 원래 데이터셋을 세 번 반복하고,<br>
30개의 아이템을 7개씩 나눠줍니다.

In [14]:
for item in dataset:
    print(item)

tf.Tensor([0 1 2 3 4 5 6], shape=(7,), dtype=int32)
tf.Tensor([7 8 9 0 1 2 3], shape=(7,), dtype=int32)
tf.Tensor([4 5 6 7 8 9 0], shape=(7,), dtype=int32)
tf.Tensor([1 2 3 4 5 6 7], shape=(7,), dtype=int32)
tf.Tensor([8 9], shape=(2,), dtype=int32)


그런데 끝에 개수가 맞지 않아서 2개가 남는데,<br>
이렇게 남는 건 batch()메소드에서 drop_remainder=True로 설정하면 길이가 모자란 마지막 배치를 버립니다.

map() 메소드를 호출해 아이템을 변환할 수도 있습니다.<br>
예를 들어 아래 코드는 모든 아이템에 2를 곱해 새 데이터셋을 만듭니다.

이 때 전달하는 함수는 텐서플로 함수로 변환이 가능해야 합니다.

In [15]:
dataset = dataset.map(lambda x: x * 2)

In [16]:
for item in dataset:
    print(item)

tf.Tensor([ 0  2  4  6  8 10 12], shape=(7,), dtype=int32)
tf.Tensor([14 16 18  0  2  4  6], shape=(7,), dtype=int32)
tf.Tensor([ 8 10 12 14 16 18  0], shape=(7,), dtype=int32)
tf.Tensor([ 2  4  6  8 10 12 14], shape=(7,), dtype=int32)
tf.Tensor([16 18], shape=(2,), dtype=int32)


map() 메소드가 각 아이템에 변환을 적용하지만<br>
apply() 메소드는 데이터셋 전체에 변환을 적용합니다.

아래 코드는 데이터셋에 unbatch() 함수를 적용합니다.<br>
새로 만들어진 데이터셋의 각 아이템은 7개의 정수로 이뤄진 배치가 아니라 하나의 정수 텐서가 됩니다.

In [17]:
dataset = dataset.apply(tf.data.experimental.unbatch())

Instructions for updating:
Use `tf.data.Dataset.unbatch()`.


In [18]:
for item in dataset:
    print(item)

tf.Tensor(0, shape=(), dtype=int32)
tf.Tensor(2, shape=(), dtype=int32)
tf.Tensor(4, shape=(), dtype=int32)
tf.Tensor(6, shape=(), dtype=int32)
tf.Tensor(8, shape=(), dtype=int32)
tf.Tensor(10, shape=(), dtype=int32)
tf.Tensor(12, shape=(), dtype=int32)
tf.Tensor(14, shape=(), dtype=int32)
tf.Tensor(16, shape=(), dtype=int32)
tf.Tensor(18, shape=(), dtype=int32)
tf.Tensor(0, shape=(), dtype=int32)
tf.Tensor(2, shape=(), dtype=int32)
tf.Tensor(4, shape=(), dtype=int32)
tf.Tensor(6, shape=(), dtype=int32)
tf.Tensor(8, shape=(), dtype=int32)
tf.Tensor(10, shape=(), dtype=int32)
tf.Tensor(12, shape=(), dtype=int32)
tf.Tensor(14, shape=(), dtype=int32)
tf.Tensor(16, shape=(), dtype=int32)
tf.Tensor(18, shape=(), dtype=int32)
tf.Tensor(0, shape=(), dtype=int32)
tf.Tensor(2, shape=(), dtype=int32)
tf.Tensor(4, shape=(), dtype=int32)
tf.Tensor(6, shape=(), dtype=int32)
tf.Tensor(8, shape=(), dtype=int32)
tf.Tensor(10, shape=(), dtype=int32)
tf.Tensor(12, shape=(), dtype=int32)
tf.Tensor(14, sh

filter() 메소드를 사용해 데이터셋을 필터링할 수 있습니다.

In [19]:
dataset = dataset.filter(lambda x: x < 10)

In [20]:
for item in dataset:
    print(item)

tf.Tensor(0, shape=(), dtype=int32)
tf.Tensor(2, shape=(), dtype=int32)
tf.Tensor(4, shape=(), dtype=int32)
tf.Tensor(6, shape=(), dtype=int32)
tf.Tensor(8, shape=(), dtype=int32)
tf.Tensor(0, shape=(), dtype=int32)
tf.Tensor(2, shape=(), dtype=int32)
tf.Tensor(4, shape=(), dtype=int32)
tf.Tensor(6, shape=(), dtype=int32)
tf.Tensor(8, shape=(), dtype=int32)
tf.Tensor(0, shape=(), dtype=int32)
tf.Tensor(2, shape=(), dtype=int32)
tf.Tensor(4, shape=(), dtype=int32)
tf.Tensor(6, shape=(), dtype=int32)
tf.Tensor(8, shape=(), dtype=int32)


데이터셋에 있는 몇 개의 아이템만 보고 싶다면 take() 메소드를 사용합니다.

In [21]:
for item in dataset.take(3):
    print(item)

tf.Tensor(0, shape=(), dtype=int32)
tf.Tensor(2, shape=(), dtype=int32)
tf.Tensor(4, shape=(), dtype=int32)


# 데이터 셔플링
