#### Tensorflow에서 데이터셋 관련 모듈
- tensorflow.data 서브 모듈
- 데이터를 모델에 적합한 형태의 Tensor로 변환해주는 기능의 모듈
- Dataset 클래스 사용
    * 구성 : 피쳐 + 라벨 [지도], 피쳐[비지도/강화]

[1] 모듈 로딩 및 데이터 준비<hr>

In [48]:
#모듈 로딩
import tensorflow as tf #텐서 관련
from tensorflow.data import Dataset
import numpy as np

In [49]:
# 데이터 준비 -> 임의의 데이터 생성 
data = tf.constant([[[10,12,14,16],[1,3,5,7]], [[10,12,14,16],[1,3,5,7]]])
data

<tf.Tensor: shape=(2, 2, 4), dtype=int32, numpy=
array([[[10, 12, 14, 16],
        [ 1,  3,  5,  7]],

       [[10, 12, 14, 16],
        [ 1,  3,  5,  7]]])>

[2] 데이터셋 텐서 생성 2가지 방법 <hr>
* 단일 Dataset 생성 : Dataset.from_tensors()
* 여러개 Dataset 생성 : Dataset.from_tensor_slices()

In [50]:
#데이터셋 생성 - 방법(1) from_tensors()
dataset0 = Dataset.from_tensors(data)
print(dataset0)

<TensorDataset element_spec=TensorSpec(shape=(2, 2, 4), dtype=tf.int32, name=None)>


In [51]:
#데이터셋은 반복 기능 즉, iterable 기능 -> 내부에 반복자 iterator
for ts in dataset0:
    print(ts)

tf.Tensor(
[[[10 12 14 16]
  [ 1  3  5  7]]

 [[10 12 14 16]
  [ 1  3  5  7]]], shape=(2, 2, 4), dtype=int32)


In [52]:
#데이터셋 생성 - 방법(2) from_tensor_slices()
dataset1 = Dataset.from_tensor_slices(data)
print(dataset1)

<TensorSliceDataset element_spec=TensorSpec(shape=(2, 4), dtype=tf.int32, name=None)>


In [53]:
for ts in dataset1:
    print(ts)

tf.Tensor(
[[10 12 14 16]
 [ 1  3  5  7]], shape=(2, 4), dtype=int32)
tf.Tensor(
[[10 12 14 16]
 [ 1  3  5  7]], shape=(2, 4), dtype=int32)


[3] 데이터셋에서 데이터 추출<hr>

In [54]:
for data in dataset0:
    print(data)

tf.Tensor(
[[[10 12 14 16]
  [ 1  3  5  7]]

 [[10 12 14 16]
  [ 1  3  5  7]]], shape=(2, 2, 4), dtype=int32)


In [55]:
for data in dataset0.as_numpy_iterator():
    print(data, type(data))

[[[10 12 14 16]
  [ 1  3  5  7]]

 [[10 12 14 16]
  [ 1  3  5  7]]] <class 'numpy.ndarray'>


In [56]:
for data in dataset1.as_numpy_iterator():
    print(data, type(data))

[[10 12 14 16]
 [ 1  3  5  7]] <class 'numpy.ndarray'>
[[10 12 14 16]
 [ 1  3  5  7]] <class 'numpy.ndarray'>


In [63]:
list(dataset0.batch(8).as_numpy_iterator())

[array([[[[10, 12, 14, 16],
          [ 1,  3,  5,  7]],
 
         [[10, 12, 14, 16],
          [ 1,  3,  5,  7]]]])]

In [64]:
list(dataset0.batch(3).as_numpy_iterator())

[array([[[[10, 12, 14, 16],
          [ 1,  3,  5,  7]],
 
         [[10, 12, 14, 16],
          [ 1,  3,  5,  7]]]])]

<hr>

- [MNIST 내장 데이터셋 사용해서 실습]

In [57]:
#모듈 로딩
from tensorflow.keras.datasets import mnist

In [58]:
#내장 데이터셋 로딩
(X_train, y_train), (X_test, y_test) = mnist.load_data()

In [59]:
#다중 데이터셋 인스턴스 생성 -> 지도학습으로 피쳐와 라벨이 하나로 묶음
train_XY = Dataset.from_tensor_slices((X_train, y_train))

In [60]:
#데이터셋으로 첫번째 데이터셋 요소만 추출
for data, label in train_XY:
    print(data.shape, label)
    break

(28, 28) tf.Tensor(5, shape=(), dtype=uint8)
