# Time Series 를 DNN 용의 지도학습 dataset 으로 전환

## tf.data.Dataset

    - range(start, stop, step) - step 단계로 구분된 범위 값의 데이터 집합을 생성
    - window(size, shift) - input element를 윈도우 데이터셋으로 결합
    - flat_map(map_func) - 이 데이터세트 전체에 map_func를 매핑하고 그 결과를 flatten 
    - batch - 이 데이터 세트의 연속 elements를 batch로 결합
    - map - 이 데이터세트의 element 전체에 map_func를 매핑
    - shuffle - 이 데이터 세트의 elements를 무작위로 섞습니다.
    - prefetch(buffer_size) - buffer_size batch를 prefetch
    - from_tensor_slices - elements가 주어진 텐서의 조각인 Dataset을 생성.

In [1]:
import tensorflow as tf
import numpy as np
import pandas as pd

## `range(start, stop, step)`
- step 단계로 구분된 범위 값의 데이터 집합을 생성

In [2]:
ds = tf.data.Dataset.range(10)

for val in ds:
    print(val.numpy())

0
1
2
3
4
5
6
7
8
9


## window(size, shift)
- 1 element씩 shift하며, input element를 윈도우 적용

In [8]:
ds = tf.data.Dataset.range(10)
ds = ds.window(5, shift=1)

for window_ds in ds:
    for val in window_ds:
        print(val.numpy(), end='')
    print()

01234
12345
23456
34567
45678
56789
6789
789
89
9


### ds.take(count)

- count 갯수만큼 취함

In [20]:
for sales in ds.take(3):
    print(sales.numpy())

21
22
31


### filter(filter_fn)

In [21]:
ds = ds.filter(lambda x: x > 0)

for sales in ds:
    print(sales.numpy())

21
22
31
32
34
31


### map

- Dataset 전체에 함수를 맵핑합니다.

In [22]:
ds = ds.map(lambda x: x * 2)

for sales in ds:
    print(sales.numpy())

42
44
62
64
68
62


## window(size, shift, drop_remainder=True)

- ds.window : window dataset 생성

    - window: 그룹화 할 window size  
    - drop_remainder: 남은 부분을 버릴지 살릴지 여부  
    - shift는 1 iteration당 몇 element씩 이동할 것인지  

In [26]:
ds = tf.data.Dataset.range(10)
ds = ds.window(5, shift=1, drop_remainder=True)

for window_ds in ds:
    for w in window_ds:
        print(w.numpy(), end='')
    print()

01234
12345
23456
34567
45678
56789


## flat_map(map_func)
- flat_map은 dataset에 함수를 apply해주고, 결과를 flatten하게 펼쳐 줍니다.

- 아래는 lambda 함수를 통해 5개의 batch를 읽어들인 뒤 flatten된 리턴값을 받습니다.

In [35]:
ds = tf.data.Dataset.range(10)
ds = ds.window(5, shift=1, drop_remainder=True)

# window element들을 하나의 list로 결합
ds = ds.flat_map(lambda w: w.batch(5))   
for window_ds in ds:
    print(window_ds.numpy())

[0 1 2 3 4]
[1 2 3 4 5]
[2 3 4 5 6]
[3 4 5 6 7]
[4 5 6 7 8]
[5 6 7 8 9]


- ds.flat_map(lambda w: w.batch(5))은 아래의 coding 과 동일

In [36]:
ds = tf.data.Dataset.range(10)
ds = ds.window(5, shift=1, drop_remainder=True)

for window_ds in ds:
    tmp = []
    for w in window_ds:
        tmp.append(w.numpy()) # window element들을 하나의 list로 결합
    print(np.array(tmp))

[0 1 2 3 4]
[1 2 3 4 5]
[2 3 4 5 6]
[3 4 5 6 7]
[4 5 6 7 8]
[5 6 7 8 9]


## feature / label 분할

- Time Series Dataset을 만드려는 경우, train/label 값을 분류하는 용도로 `map()`을 활용할 수 있습니다.

- `x[:-1]`, `x[-1:]` 의 의도는 각 row의 마지막 index 전까지는 train data로, 마지막 index는 label로 활용하겠다는 의도입니다.

In [46]:
ds = tf.data.Dataset.range(10)
ds = ds.window(5, shift=1, drop_remainder=True)
ds = ds.flat_map(lambda w: w.batch(5))   
ds = ds.map(lambda w: (w[:-1], w[-1:]))

for x, y in ds:
    print(x.numpy(), y.numpy())

[0 1 2 3] [4]
[1 2 3 4] [5]
[2 3 4 5] [6]
[3 4 5 6] [7]
[4 5 6 7] [8]
[5 6 7 8] [9]


## shuffle(buffer_size)

- 데이터세트는 buffer_size elements로 버퍼를 채운 다음이 버퍼에서 elements를 무작위로 샘플링하여 선택한 elements를 새 elements로 바꿉니다.

- buffer_size: 새 데이터 세트가 샘플링할 이 데이터 세트의 element 수

- 완벽한 셔플 링을 위해서는 데이터 세트의 전체 크기보다 크거나 같은 버퍼 크기가 필요합니다.

- 예를 들어, 데이터 집합에 10,000 개의 element가 있지만 buffer_size가 1,000으로 설정된 경우 셔플은 처음에 버퍼의 처음 1,000 개 element 중 임의의 element 만 선택합니다.

- element가 선택되면 버퍼의 공간이 다음 element (즉, 1,001번째)로 대체되어 1,000 element 버퍼를 유지합니다.

- shuffle 의 위치는 input, label 분리 이전, 이후 모두 무방

### Sequence bias (시퀀스 편향)

- 시퀀스 편향은 시장 조사에서 목록의 특정 순서로 인해 사물, 사람 또는 그룹에 표시되는 편견 또는 호의로 정의됩니다. 예를 들어 응답자에게 가장 좋아하는 음식이 무엇이고 피자가 항상 햄버거와 핫도그보다 먼저 순서대로 나열되어 있는 경우 응답자는 피자를 가장 먼저 읽었기 때문에 피자를 선택하는 경향이 더 높을 수 있습니다. 표시된 마지막 음식(핫도그)에 대해서도 마찬가지입니다. 이 경우 해당 음식이 목록의 마지막에 있기 때문에 선택될 가능성이 가장 낮을 수 있습니다.  


- 이러한 문제를 방지하기 위해 dataset을 shuffle 합니다.

In [40]:
ds = tf.data.Dataset.range(10)
ds = ds.window(5, shift=1, drop_remainder=True)
ds = ds.flat_map(lambda w: w.batch(5))   
ds = ds.map(lambda w: (w[:-1], w[-1:]))
ds = ds.shuffle(buffer_size=10)  # data shuffle

for x, y in ds:
    print(x.numpy(), y.numpy())

[1 2 3 4] [5]
[5 6 7 8] [9]
[2 3 4 5] [6]
[3 4 5 6] [7]
[4 5 6 7] [8]
[0 1 2 3] [4]


### prefetch(buffer_size) 
- GPU memory 상으로 buffer_size batch를 prefetch

In [45]:
ds = tf.data.Dataset.range(10)
ds = ds.window(5, shift=1, drop_remainder=True)
ds = ds.flat_map(lambda w: w.batch(5))  
ds = ds.map(lambda w: (w[:-1], w[-1:]))
ds = ds.shuffle(buffer_size=10)
ds = ds.batch(2).prefetch(1)

for x, y in ds:
    print("x = ", x.numpy())
    print("y = ", y.numpy())

x =  [[3 4 5 6]
 [0 1 2 3]]
y =  [[7]
 [4]]
x =  [[4 5 6 7]
 [2 3 4 5]]
y =  [[8]
 [6]]
x =  [[1 2 3 4]
 [5 6 7 8]]
y =  [[5]
 [9]]


## repeat 

- 반복할 때마다 데이터셋을 다시 초기화
- element의 무한 시퀀스를 생성

In [47]:
arr = [1, 2, 3, 4, 5, 6]
ds = tf.data.Dataset.from_tensor_slices(arr)
ds = ds.shuffle(buffer_size=3).repeat()

for idx, elem in enumerate(ds):
    print((idx, elem.numpy()), end=" ")
    if idx >= 10:
        break

(0, 3) (1, 1) (2, 5) (3, 4) (4, 2) (5, 6) (6, 3) (7, 2) (8, 1) (9, 6) (10, 5) 

###  `ds.repeat().batch()` 가 생성하는 것

- 배치 전에 `ds.repeat()`가 있으므로 데이터 생성이 계속됩니다. 그러나 batch내 element의 순서는 `ds.random()`으로 인해 달라집니다. 고려해야 할 점은 랜덤 버퍼의 크기로 인해 6이 첫 번째 배치에 존재하지 않는다는 것입니다.

In [48]:
arr = [1, 2, 3, 4, 5, 6]
dataset = tf.data.Dataset.from_tensor_slices(arr)
dataset = dataset.shuffle(buffer_size=3).repeat().batch(3)

for idx, elem in enumerate(dataset):
  print(idx, elem.numpy())
  if idx >= 5:
    break

0 [3 2 4]
1 [6 5 1]
2 [3 2 4]
3 [6 5 1]
4 [3 1 2]
5 [6 4 5]


## Pure Python Code 와 tf.data.Dataset 비교

### 순수 Python code 로 지도학습 data 생성

In [49]:
def series_to_supervised(series, window_size):
    X, y = [], []
    for i in range(len(series)-window_size):
        seq_x, seq_y = series[i:i+window_size], series[i+window_size]
        X.append(seq_x)
        y.append(seq_y)
    return np.array(X), np.array(y)

In [50]:
data = [i for i in range(10)]
X, y = series_to_supervised(data, 4)

for i in range(len(X)):
     print(X[i], y[i])

[0 1 2 3] 4
[1 2 3 4] 5
[2 3 4 5] 6
[3 4 5 6] 7
[4 5 6 7] 8
[5 6 7 8] 9


## tf.data.Dataset 을 이용한 windowed dataset 생성

In [55]:
def windowed_dataset(series, window_size, batch_size, shuffle_buffer):
    ds = tf.data.Dataset.from_tensor_slices(series)
    ds = ds.window(window_size+1, shift=1, drop_remainder=True)
    ds = ds.flat_map(lambda w: w.batch(window_size+1))
    ds = ds.map(lambda w: (w[:-1], w[-1]))
    return ds

In [56]:
data = [i for i in range(10)]
ds = windowed_dataset(data, 4, 1, 10)

for x, y in ds:
    print(x.numpy(), y.numpy())

[0 1 2 3] 4
[1 2 3 4] 5
[2 3 4 5] 6
[3 4 5 6] 7
[4 5 6 7] 8
[5 6 7 8] 9
