# tf.Dataset, batch, window, flat_map을 활용한 loader 만들기

In [1]:
import tensorflow as tf

daily_sales_numbers = [21, 22, -100, 31, -1, 32, 34, 31]

tf_dataset = tf.data.Dataset.from_tensor_slices(daily_sales_numbers)
tf_dataset

<TensorSliceDataset shapes: (), types: tf.int32>

In [2]:
for sales in tf_dataset:
    print(sales)

tf.Tensor(21, shape=(), dtype=int32)
tf.Tensor(22, shape=(), dtype=int32)
tf.Tensor(-100, shape=(), dtype=int32)
tf.Tensor(31, shape=(), dtype=int32)
tf.Tensor(-1, shape=(), dtype=int32)
tf.Tensor(32, shape=(), dtype=int32)
tf.Tensor(34, shape=(), dtype=int32)
tf.Tensor(31, shape=(), dtype=int32)


### as_numpy_iterator

In [3]:
for sales in tf_dataset.as_numpy_iterator():
    print(sales)

21
22
-100
31
-1
32
34
31


### take

In [4]:
for sales in tf_dataset.take(3):
    print(sales.numpy())

21
22
-100


### filter

In [5]:
tf_dataset = tf_dataset.filter(lambda x: x > 0)

for sales in tf_dataset.as_numpy_iterator():
    print(sales)

21
22
31
32
34
31


### map

- Dataset 전체에 함수를 맵핑합니다.

In [6]:
tf_dataset = tf_dataset.map(lambda x: x * 2)

for sales in tf_dataset.as_numpy_iterator():
    print(sales)

42
44
62
64
68
62


### shuffle
- 데이터세트는 buffer_size 요소로 버퍼를 채운 다음이 버퍼에서 요소를 무작위로 샘플링하여 선택한 요소를 새 요소로 바꿉니다.

- 완벽한 셔플 링을 위해서는 데이터 세트의 전체 크기보다 크거나 같은 버퍼 크기가 필요합니다.

- 예를 들어, 데이터 집합에 10,000 개의 element가 있지만 buffer_size가 1,000으로 설정된 경우 셔플은 처음에 버퍼의 처음 1,000 개 element 중 임의의 element 만 선택합니다.

- element가 선택되면 버퍼의 공간이 다음 element (즉, 1,001-st)로 대체되어 1,000 element 버퍼를 유지합니다.

In [8]:
tf_dataset = tf_dataset.shuffle(10)
for sales in tf_dataset.as_numpy_iterator():
    print(sales)

44
62
64
68
62
42


In [9]:
for sales_batch in tf_dataset.batch(2):
    print(sales_batch.numpy())

[68 42]
[62 44]
[64 62]


In [10]:
for sales_batch in tf_dataset.batch(3):
    print(sales_batch.numpy())

[68 42 62]
[64 62 44]


In [11]:
for sales in tf_dataset.batch(4):
    print(sales.numpy())

[62 42 44 68]
[64 62]


In [12]:
for sales in tf_dataset.batch(4, drop_remainder=True):
    print(sales.numpy())

[62 68 44 64]


- 위 모든 것을 한 줄로 결합

In [19]:
daily_sales_numbers = [21, 22, -100, 31, -1, 32, 34, 31]
tf_dataset = tf.data.Dataset.from_tensor_slices(daily_sales_numbers)
tf_dataset = tf_dataset.filter(lambda x: x > 0) \
        .map(lambda y: y * 2).shuffle(3).batch(4, drop_remainder=True)

for sales_batch in tf_dataset.as_numpy_iterator():
    print(sales_batch)

[62 64 42 44]


## batch, repeat  간의 관계 정리

### How `ds.repeat()` works

- 반복할 때마다 데이터셋을 다시 초기화
- element의 무한 시퀀스를 생성

In [24]:
arr = [1, 2, 3, 4, 5, 6]
dataset = tf.data.Dataset.from_tensor_slices(arr)
dataset = dataset.shuffle(buffer_size=3).repeat()

for idx, elem in enumerate(dataset):
  print((idx, elem.numpy()), end=" ")
  if idx >= 20:
    break

(0, 3) (1, 4) (2, 2) (3, 5) (4, 1) (5, 6) (6, 2) (7, 1) (8, 3) (9, 4) (10, 5) (11, 6) (12, 3) (13, 2) (14, 4) (15, 1) (16, 5) (17, 6) (18, 2) (19, 4) (20, 5) 

### What will `ds.repeat().batch()` produce  

- 배치 전에 `ds.repeat()`가 있으므로 데이터 생성이 계속됩니다. 그러나 batch내 element의 순서는 `ds.random()`으로 인해 달라집니다. 고려해야 할 점은 랜덤 버퍼의 크기로 인해 6이 첫 번째 배치에 존재하지 않는다는 것입니다.

In [25]:
arr = [1, 2, 3, 4, 5, 6]
dataset = tf.data.Dataset.from_tensor_slices(arr)
dataset = dataset.shuffle(buffer_size=3).repeat().batch(3)

for idx, elem in enumerate(dataset):
  print(idx, elem.numpy())
  if idx >= 5:
    break

0 [2 4 3]
1 [1 5 6]
2 [1 3 5]
3 [2 4 6]
4 [2 1 5]
5 [4 3 6]


## window: Time Series 데이터셋 생성에 유용
- window: 그룹화 할 윈도우 크기(갯수)  
- drop_remainder: 남은 부분을 버릴지 살릴지 여부  
- shift는 1 iteration당 몇 개씩 이동할 것인지  

In [55]:
ds = tf.data.Dataset.range(10) 
ds = ds.window(5, shift=1, drop_remainder=False)
for d in ds:
    print(list(d.as_numpy_iterator()))

[0, 1, 2, 3, 4]
[1, 2, 3, 4, 5]
[2, 3, 4, 5, 6]
[3, 4, 5, 6, 7]
[4, 5, 6, 7, 8]
[5, 6, 7, 8, 9]
[6, 7, 8, 9]
[7, 8, 9]
[8, 9]
[9]


### drop_remainder=True

In [56]:
ds = tf.data.Dataset.range(10) 
ds = ds.window(5, shift=1, drop_remainder=True)
for d in ds:
    print(list(d.as_numpy_iterator()))

[0, 1, 2, 3, 4]
[1, 2, 3, 4, 5]
[2, 3, 4, 5, 6]
[3, 4, 5, 6, 7]
[4, 5, 6, 7, 8]
[5, 6, 7, 8, 9]


### shift=2

In [84]:
ds = tf.data.Dataset.range(10) 
ds = ds.window(5, shift=2, drop_remainder=True)
for d in ds:
    print(list(d.as_numpy_iterator()))

[0, 1, 2, 3, 4]
[2, 3, 4, 5, 6]
[4, 5, 6, 7, 8]


### `flat_map()`
- flat_map은 dataset에 함수를 apply해주고, 결과를 flatten하게 펼쳐 줍니다.

- 아래는 lambda 함수를 통해 5개의 batch를 읽어들인 뒤 flatten된 리턴값을 받습니다.

In [106]:
dataset = tf.data.Dataset.from_tensor_slices([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
dataset = dataset.flat_map(lambda x: tf.data.Dataset.from_tensor_slices(x))
list(dataset.as_numpy_iterator())

[1, 2, 3, 4, 5, 6, 7, 8, 9]

In [103]:
ds = tf.data.Dataset.range(10) 
ds = ds.window(3, shift=1, drop_remainder=True)
ds = ds.flat_map(lambda w: w.batch(3))
for d in ds:
    print(d)

tf.Tensor([0 1 2], shape=(3,), dtype=int64)
tf.Tensor([1 2 3], shape=(3,), dtype=int64)
tf.Tensor([2 3 4], shape=(3,), dtype=int64)
tf.Tensor([3 4 5], shape=(3,), dtype=int64)
tf.Tensor([4 5 6], shape=(3,), dtype=int64)
tf.Tensor([5 6 7], shape=(3,), dtype=int64)
tf.Tensor([6 7 8], shape=(3,), dtype=int64)
tf.Tensor([7 8 9], shape=(3,), dtype=int64)


### `map()`
- Time Series Dataset을 만드려는 경우, train/label 값을 분류하는 용도로 `map()`을 활용할 수 있습니다.

- `x[:-1]`, `x[-1:]` 의 의도는 각 row의 마지막 index 전까지는 train data로, 마지막 index는 label로 활용하겠다는 의도입니다.

In [95]:
window_size=5

ds = tf.data.Dataset.range(10) 
ds = ds.window(window_size+1, shift=1, drop_remainder=True)
ds = ds.flat_map(lambda w: w.batch(window_size+1))
ds = ds.shuffle(10)
ds = ds.map(lambda x: (x[:-1], x[-1:])) # 첫 4개와 마지막 1개를 분리

for x, y in ds:
    print(x.numpy(), y.numpy())

[2 3 4 5 6] [7]
[0 1 2 3 4] [5]
[4 5 6 7 8] [9]
[3 4 5 6 7] [8]
[1 2 3 4 5] [6]


### 실습 예제: Sunspots 데이터셋을 활용하여 window_dataset 만들기

In [46]:
import csv
import tensorflow as tf
import numpy as np
import urllib

url = 'https://storage.googleapis.com/download.tensorflow.org/data/Sunspots.csv'
urllib.request.urlretrieve(url, 'sunspots.csv')

('sunspots.csv', <http.client.HTTPMessage at 0x7fddc5c2a390>)

In [47]:
with open('sunspots.csv') as csvfile:
    reader = csv.reader(csvfile, delimiter=',')
    next(reader) # 첫 줄은 header이므로 skip 
    i = 0
    for row in reader:
        print(row)
        i+=1
        if i > 5:
            break

['0', '1749-01-31', '96.7']
['1', '1749-02-28', '104.3']
['2', '1749-03-31', '116.7']
['3', '1749-04-30', '92.8']
['4', '1749-05-31', '141.7']
['5', '1749-06-30', '139.2']


각 row의 2번 index의 데이터를 우리가 time series 데이터로 만들어 보려고 합니다.

In [48]:
train_data = []

with open('sunspots.csv') as csvfile:
    reader = csv.reader(csvfile, delimiter=',')
    next(reader)  # 첫 줄은 header이므로 skip 
    for row in reader:
        train_data.append(float(row[2]))
        
train_data[:5]

[96.7, 104.3, 116.7, 92.8, 141.7]

In [49]:
train_data = np.asarray(train_data)
train_data = np.expand_dims(train_data, 1)
train_data.shape

(3235, 1)

과거의 3일의 데이터를 보고 4일 째의 데이터를 예측해야한다라고 가정한다면,  
window_size = 3 + 1 로 잡아줍니다.  
3개는 train data의 갯수, 1은 label의 갯수입니다.

In [50]:
window_size = 3
batch_size = 3
shuffle_buffer = 1000

def windowed_dataset(data, window_size, batch_size, shuffle_buffer):
    data = np.expand_dims(data, axis=1)
    ds = tf.data.Dataset.from_tensor_slices(data)
    ds = ds.window(window_size+1, shift=1, drop_remainder=True)
    ds = ds.flat_map(lambda w: w.batch(window_size+1))
    ds = ds.shuffle(shuffle_buffer)
    ds = ds.map(lambda w: (w[:-1], w[-1:]))
    return ds.batch(batch_size)

ds = windowed_dataset(train_data, window_size, batch_size, shuffle_buffer)
ds

<BatchDataset shapes: ((None, None, 1, 1), (None, None, 1, 1)), types: (tf.float64, tf.float64)>

In [123]:
for d in ds:
    print(d)
    break

(<tf.Tensor: shape=(3, 3, 1, 1), dtype=float64, numpy=
array([[[[ 73. ]],

        [[ 85.5]],

        [[ 47.5]]],


       [[[  0. ]],

        [[  0. ]],

        [[  0. ]]],


       [[[112.3]],

        [[ 85.7]],

        [[ 35.7]]]])>, <tf.Tensor: shape=(3, 1, 1, 1), dtype=float64, numpy=
array([[[[29.2]]],


       [[[ 0. ]]],


       [[[66.5]]]])>)
