# 3.6 텐서플로 데이터셋 API

[https://datascienceschool.net/view-notebook/57714103a75c43ed9a7d95f96135f0ad/](https://datascienceschool.net/view-notebook/57714103a75c43ed9a7d95f96135f0ad/)

텐서플로는 `tf.data` 서브패키지에서 데이터 입력 파이프라인을 위한 데이터셋 API를 제공한다. 데이터 입력 파이프라인은 모델에 공급되는 데이터에 대한 모든 작업을 담당한다. 

예를 들어 이미지 데이터의 경우 분산 파일시스템으로부터 이미지를 모으는 작업, 이미지에 노이즈를 주거나 변형하는 작업, 배치 학습을 위해 무작위로 데이터를 선택하여 배치데이터를 만드는 작업을 할 수 있다. 

텍스트 데이터의 경우 원문을 토큰화하거나 임베팅하는 작업, 길이가 다른 데이터를 패딩하여 합치는 작업등을 한다.

데이터셋 API는 최종적으로 `tf.data.Dataset` 추상 클래스에서 상속된 여러가지 클래스 객체를 만든다.

데이터셋 API를 사용하려면 세 가지 단계를 거친다.

1. 데이터셋 생성
  - `from_tensor_slices()`, `from_generator()` 클래스 메서드 또는 `tf.data.TFRecordDataset` 클래스를 사용하여 메모리나 파일에 있는 데이터를 데이터 소스로 만든다.
1. 데이터셋 변형
  - `map()`, `filter()`, `batch()` 등의 메서드를 사용하여 데이터 소스를 변형한다.
1. for 반복문에서 데이터셋 사용

## 데이터셋 생성

In [1]:
!pip install tensorflow-gpu==2.0.0-beta1

Collecting tensorflow-gpu==2.0.0-beta1
[?25l  Downloading https://files.pythonhosted.org/packages/2b/53/e18c5e7a2263d3581a979645a185804782e59b8e13f42b9c3c3cfb5bb503/tensorflow_gpu-2.0.0b1-cp36-cp36m-manylinux1_x86_64.whl (348.9MB)
[K     |████████████████████████████████| 348.9MB 43kB/s 
Collecting tb-nightly<1.14.0a20190604,>=1.14.0a20190603
[?25l  Downloading https://files.pythonhosted.org/packages/a4/96/571b875cd81dda9d5dfa1422a4f9d749e67c0a8d4f4f0b33a4e5f5f35e27/tb_nightly-1.14.0a20190603-py3-none-any.whl (3.1MB)
[K     |████████████████████████████████| 3.1MB 38.7MB/s 
Collecting tf-estimator-nightly<1.14.0.dev2019060502,>=1.14.0.dev2019060501
[?25l  Downloading https://files.pythonhosted.org/packages/32/dd/99c47dd007dcf10d63fd895611b063732646f23059c618a373e85019eb0e/tf_estimator_nightly-1.14.0.dev2019060501-py2.py3-none-any.whl (496kB)
[K     |████████████████████████████████| 501kB 23.3MB/s 
Installing collected packages: tb-nightly, tf-estimator-nightly, tensorflow-gpu
Su

In [2]:
import tensorflow as tf
tf.__version__

  _np_qint8 = np.dtype([("qint8", np.int8, 1)])
  _np_quint8 = np.dtype([("quint8", np.uint8, 1)])
  _np_qint16 = np.dtype([("qint16", np.int16, 1)])
  _np_quint16 = np.dtype([("quint16", np.uint16, 1)])
  _np_qint32 = np.dtype([("qint32", np.int32, 1)])
  np_resource = np.dtype([("resource", np.ubyte, 1)])
  _np_qint8 = np.dtype([("qint8", np.int8, 1)])
  _np_quint8 = np.dtype([("quint8", np.uint8, 1)])
  _np_qint16 = np.dtype([("qint16", np.int16, 1)])
  _np_quint16 = np.dtype([("quint16", np.uint16, 1)])
  _np_qint32 = np.dtype([("qint32", np.int32, 1)])
  np_resource = np.dtype([("resource", np.ubyte, 1)])


'2.0.0-beta1'

`from_tensor_slices` 클래스 메서드를 사용하면 리스트, 넘파이, 텐서플로 자료형에서 데이터셋을 만들 수 있다.

In [3]:
dataset1 = tf.data.Dataset.from_tensor_slices([8, 3, 0, 8, 2, 1])
dataset1

<TensorSliceDataset shapes: (), types: tf.int32>

생성된 데이터셋을 사용하면 for 문에서 반복작업을 할 수 있다.

In [4]:
for elem in dataset1 :
  print(elem.numpy())

8
3
0
8
2
1


데이터셋의 원소들은 모두 동일한 자료구조를 가지고 있어야 한다. 데이터셋의 `element_spec` 속성은 원소의 자료구조를 반환한다.

In [None]:
#dataset1.element_spec # 2.0.0 지원 x

데이터셋의 원소는 단일 텐서가 될 수도 있고 튜플이나 리스트가 될 수도 있다. 예를 들어 4x10 행렬로부터 만들어진 데이터셋 소스는 길이가 10인 1차원 텐서를 4개 출력한다.

In [None]:
dataset2 = tf.data.Dataset.from_tensor_slices(tf.random.uniform([4,10],
                                                                 minval=1,
                                                                 maxval=10,
                                                                 dtype=tf.int32))

In [11]:
for elem in dataset2 :
  print(elem.numpy())

[6 5 2 3 5 1 5 9 7 6]
[2 8 1 3 3 2 6 6 1 5]
[4 7 7 5 7 8 3 7 5 9]
[6 3 3 7 2 6 7 8 9 7]


예를 들어 (4벡터, 4x5 행렬)인 튜플로부터 만들어진 데이터셋 소스는 (스칼라, 길이가 5인 1차원 텐서) 데이터 튜플을 4개 출력한다.

In [None]:
dataset3 = tf.data.Dataset.from_tensor_slices((tf.random.uniform([4]),
                                               tf.random.uniform([4, 10],
                                                                  maxval=10,
                                                                  dtype=tf.int32)))
#dataset3.element_spec # 2.0.0 지원 x

In [13]:
for elem in dataset3 :
  print(elem)

(<tf.Tensor: id=55, shape=(), dtype=float32, numpy=0.17800987>, <tf.Tensor: id=56, shape=(10,), dtype=int32, numpy=array([7, 5, 0, 7, 2, 0, 4, 5, 6, 7], dtype=int32)>)
(<tf.Tensor: id=59, shape=(), dtype=float32, numpy=0.4066062>, <tf.Tensor: id=60, shape=(10,), dtype=int32, numpy=array([3, 9, 5, 7, 0, 8, 3, 2, 9, 0], dtype=int32)>)
(<tf.Tensor: id=63, shape=(), dtype=float32, numpy=0.60646176>, <tf.Tensor: id=64, shape=(10,), dtype=int32, numpy=array([2, 7, 7, 8, 3, 0, 8, 6, 1, 9], dtype=int32)>)
(<tf.Tensor: id=67, shape=(), dtype=float32, numpy=0.8984535>, <tf.Tensor: id=68, shape=(10,), dtype=int32, numpy=array([0, 1, 2, 7, 6, 6, 9, 5, 9, 8], dtype=int32)>)


`zip` 클래스 메서드로 이미 만들어진 데이터셋을 조합하여 다른 데이터셋을 만들수도 있다.

In [None]:
dataset4 = tf.data.Dataset.zip((dataset2, dataset3))

`from_generator` 클래스 메서드를 사용하면 생성자에서 데이터셋을 만들 수도 있다. 이 때는 `output_types`, `output_shapes` 인수로 출력 자료형과 크기를 지정해주어야 한다.

In [15]:
def count(stop) :
  i = 0

  while i < stop :
    yield i
    i += 1

dataset5 = tf.data.Dataset.from_generator(count,
                                           args=[4],
                                           output_types=tf.int32,
                                           output_shapes=())
dataset5

Instructions for updating:
tf.py_func is deprecated in TF V2. Instead, there are two
    options available in V2.
    - tf.py_function takes a python function which manipulates tf eager
    tensors instead of numpy arrays. It's easy to convert a tf eager tensor to
    an ndarray (just call tensor.numpy()) but having access to eager tensors
    means `tf.py_function`s can use accelerators such as GPUs as well as
    being differentiable using a gradient tape.
    - tf.numpy_function maintains the semantics of the deprecated tf.py_func
    (it is not differentiable, and manipulates numpy arrays). It drops the
    stateful argument making all functions stateful.
    


<DatasetV1Adapter shapes: (), types: tf.int32>

In [16]:
for elem in dataset5 :
  print(elem.numpy())

0
1
2
3


## 데이터셋 변형

- `repeat()`
- `take()`
- `skip()`
- `batch()`
- `shuffle()`
- `map()`
- `filter()`
- `concatenate()`

### `repeat()`

`repeat()` 메서드는 데이터를 반복시킨다. 숫자를 지정하지 않으면 계속 반복한다.

In [17]:
for elem in dataset5.repeat(2) :
  print(elem.numpy())

0
1
2
3
0
1
2
3


### `take()`

`take()` 메서드는 전체 데이터 중 지정한 개수의 일부 데이터로만 출력을 제한한다.

In [18]:
for elem in dataset5.take(3) :
  print(elem.numpy())

0
1
2


### `skip()`

`skip()` 메서드는 일부 데이터를 건너뛰고 다음 데이터를 출력한다.

In [19]:
for elem in dataset5.skip(2).take(3):
  print(elem.numpy())

2
3


### `batch()`

`batch()` 메서드는 지정한 개수의 데이터를 묶어서 출력한다.

In [20]:
for elem in dataset5.batch(5):
  print(elem.numpy())

[0 1 2 3]


### `shuffle(buffer_size)`

`shuffle(buffer_size)` 메서드는 `buffer_size`로 지정한 개수의 데이터를 무작위로 섞어서 출력한다.

In [22]:
for elem in dataset5.repeat().shuffle(buffer_size=3).take(3):
  print(elem.numpy())

2
0
3


### `concatenate()`

`concatenate()` 메서드는 두 데이터셋을 연결한다.

In [23]:
dataset6 = dataset1.concatenate(dataset2)

for elem in dataset6 :
  print(elem.numpy())

8
3
0
8
2
1
[6 5 2 3 5 1 5 9 7 6]
[2 8 1 3 3 2 6 6 1 5]
[4 7 7 5 7 8 3 7 5 9]
[6 3 3 7 2 6 7 8 9 7]


### `map()`

`map()` 메서드는 함수로 지정한 변환을 한 데이터를 출력한다.

In [24]:
f = lambda x: 2 * x

for elem in dataset5.map(f) :
  print(elem.numpy())

0
2
4
6


### `filter()`

`filter()` 메서드는 함수로 지정한 조건을 만족한 데이터만 출력한다.

In [None]:
f = lambda x: x % 2 == 0

for elem in dataset5.filter(f) :
  print(elem.numpy())