전체적인 데이터 API의 중심에는 데이터셋 개념이 있습니다.<br>
일반적으로 디스크에서 데이터를 점진적으로 읽는 데이터셋을 사용하지만,<br>
지금은 간단히 tf.data.Dataset.from_tensor_slices()를 사용해서 메모리에서 전체 데이터셋을 만들어보겠습니다.

In [1]:
import tensorflow as tf

In [2]:
X = tf.range(10)  # 샘플 데이터 텐서
dataset = tf.data.Dataset.from_tensor_slices(X)

In [3]:
dataset

<TensorSliceDataset shapes: (), types: tf.int32>

In [4]:
for item in dataset:
    print(item)

tf.Tensor(0, shape=(), dtype=int32)
tf.Tensor(1, shape=(), dtype=int32)
tf.Tensor(2, shape=(), dtype=int32)
tf.Tensor(3, shape=(), dtype=int32)
tf.Tensor(4, shape=(), dtype=int32)
tf.Tensor(5, shape=(), dtype=int32)
tf.Tensor(6, shape=(), dtype=int32)
tf.Tensor(7, shape=(), dtype=int32)
tf.Tensor(8, shape=(), dtype=int32)
tf.Tensor(9, shape=(), dtype=int32)


이렇게 만든 데이터셋은 tf.data.Dataset.range(10)과 동일합니다.

# 연쇄 변환
데이터셋이 준비되면 변환 메소드를 호출해 여러 종류의 변환을 수행할 수 있습니다.

In [5]:
dataset = dataset.repeat(3).batch(7)

이렇게 데이터셋을 형성하면, 원래 데이터셋을 세 번 반복하고,<br>
30개의 아이템을 7개씩 나눠줍니다.

In [6]:
for item in dataset:
    print(item)

tf.Tensor([0 1 2 3 4 5 6], shape=(7,), dtype=int32)
tf.Tensor([7 8 9 0 1 2 3], shape=(7,), dtype=int32)
tf.Tensor([4 5 6 7 8 9 0], shape=(7,), dtype=int32)
tf.Tensor([1 2 3 4 5 6 7], shape=(7,), dtype=int32)
tf.Tensor([8 9], shape=(2,), dtype=int32)


그런데 끝에 개수가 맞지 않아서 2개가 남는데,<br>
이렇게 남는 건 batch()메소드에서 drop_remainder=True로 설정하면 길이가 모자란 마지막 배치를 버립니다.

map() 메소드를 호출해 아이템을 변환할 수도 있습니다.<br>
예를 들어 아래 코드는 모든 아이템에 2를 곱해 새 데이터셋을 만듭니다.

이 때 전달하는 함수는 텐서플로 함수로 변환이 가능해야 합니다.

In [7]:
dataset = dataset.map(lambda x: x * 2)

In [8]:
for item in dataset:
    print(item)

tf.Tensor([ 0  2  4  6  8 10 12], shape=(7,), dtype=int32)
tf.Tensor([14 16 18  0  2  4  6], shape=(7,), dtype=int32)
tf.Tensor([ 8 10 12 14 16 18  0], shape=(7,), dtype=int32)
tf.Tensor([ 2  4  6  8 10 12 14], shape=(7,), dtype=int32)
tf.Tensor([16 18], shape=(2,), dtype=int32)


map() 메소드가 각 아이템에 변환을 적용하지만<br>
apply() 메소드는 데이터셋 전체에 변환을 적용합니다.

아래 코드는 데이터셋에 unbatch() 함수를 적용합니다.<br>
새로 만들어진 데이터셋의 각 아이템은 7개의 정수로 이뤄진 배치가 아니라 하나의 정수 텐서가 됩니다.

In [9]:
dataset = dataset.apply(tf.data.experimental.unbatch())

Instructions for updating:
Use `tf.data.Dataset.unbatch()`.


In [10]:
for item in dataset:
    print(item)

tf.Tensor(0, shape=(), dtype=int32)
tf.Tensor(2, shape=(), dtype=int32)
tf.Tensor(4, shape=(), dtype=int32)
tf.Tensor(6, shape=(), dtype=int32)
tf.Tensor(8, shape=(), dtype=int32)
tf.Tensor(10, shape=(), dtype=int32)
tf.Tensor(12, shape=(), dtype=int32)
tf.Tensor(14, shape=(), dtype=int32)
tf.Tensor(16, shape=(), dtype=int32)
tf.Tensor(18, shape=(), dtype=int32)
tf.Tensor(0, shape=(), dtype=int32)
tf.Tensor(2, shape=(), dtype=int32)
tf.Tensor(4, shape=(), dtype=int32)
tf.Tensor(6, shape=(), dtype=int32)
tf.Tensor(8, shape=(), dtype=int32)
tf.Tensor(10, shape=(), dtype=int32)
tf.Tensor(12, shape=(), dtype=int32)
tf.Tensor(14, shape=(), dtype=int32)
tf.Tensor(16, shape=(), dtype=int32)
tf.Tensor(18, shape=(), dtype=int32)
tf.Tensor(0, shape=(), dtype=int32)
tf.Tensor(2, shape=(), dtype=int32)
tf.Tensor(4, shape=(), dtype=int32)
tf.Tensor(6, shape=(), dtype=int32)
tf.Tensor(8, shape=(), dtype=int32)
tf.Tensor(10, shape=(), dtype=int32)
tf.Tensor(12, shape=(), dtype=int32)
tf.Tensor(14, sh

filter() 메소드를 사용해 데이터셋을 필터링할 수 있습니다.

In [11]:
dataset = dataset.filter(lambda x: x < 10)

In [12]:
for item in dataset:
    print(item)

tf.Tensor(0, shape=(), dtype=int32)
tf.Tensor(2, shape=(), dtype=int32)
tf.Tensor(4, shape=(), dtype=int32)
tf.Tensor(6, shape=(), dtype=int32)
tf.Tensor(8, shape=(), dtype=int32)
tf.Tensor(0, shape=(), dtype=int32)
tf.Tensor(2, shape=(), dtype=int32)
tf.Tensor(4, shape=(), dtype=int32)
tf.Tensor(6, shape=(), dtype=int32)
tf.Tensor(8, shape=(), dtype=int32)
tf.Tensor(0, shape=(), dtype=int32)
tf.Tensor(2, shape=(), dtype=int32)
tf.Tensor(4, shape=(), dtype=int32)
tf.Tensor(6, shape=(), dtype=int32)
tf.Tensor(8, shape=(), dtype=int32)


데이터셋에 있는 몇 개의 아이템만 보고 싶다면 take() 메소드를 사용합니다.

In [13]:
for item in dataset.take(3):
    print(item)

tf.Tensor(0, shape=(), dtype=int32)
tf.Tensor(2, shape=(), dtype=int32)
tf.Tensor(4, shape=(), dtype=int32)


# 데이터 셔플링
경사 하강법은 훈련 세트에 있는 샘플이 독립적이고 동일한 분포일 때 최고 성능을 발휘합니다.<br>
이렇게 하는 간단한 방법은 shuffle() 메소드를 사용하는 것입니다.<br>
이 메소드는 원본 데이터셋의 처음 아이템을 buffer_size 개수만큼 추출해 버퍼에 채웁니다.<br>
그 다음 새로운 아이템이 요청되면 버퍼에서 랜덤하게 하나를 꺼내 반환합니다.<br>
원본 데이터셋에서 새로운 아이템을 추출해 비워진 버퍼를 채웁니다.<br>
원본 데이터셋의 모든 아이템이 사용될 때까지 반복합니다.<br>
그 다음엔 버퍼가 비워질 때까지 계속해 랜덤하게 아이템을 반환합니다.

이 메소드를 사용할 때에는 버퍼 크기를 지정해줘야 하고,<br>
버퍼 크기를 충분히 크게 하는 것이 중요합니다. (그렇지 않으면 셔플링의 효과가 감소됩니다.)<br>
그렇지만 보유한 메모리 크기를 넘지 않아야 하고,<br>
충분한 메모리가 있더라도 버퍼 크기가 메모리 크기보다 클 필요는 없습니다.

In [14]:
dataset = tf.data.Dataset.range(10).repeat(3)
dataset = dataset.shuffle(buffer_size=5, seed=42).batch(7)
for item in dataset:
    print(item)

tf.Tensor([0 2 3 6 7 9 4], shape=(7,), dtype=int64)
tf.Tensor([5 0 1 1 8 6 5], shape=(7,), dtype=int64)
tf.Tensor([4 8 7 1 2 3 0], shape=(7,), dtype=int64)
tf.Tensor([5 4 2 7 8 9 9], shape=(7,), dtype=int64)
tf.Tensor([3 6], shape=(2,), dtype=int64)


셔플된 데이터셋에 repeat() 메소드를 호출하면 기본적으로 반복마다 새로운 순서를 생성하는데,<br>
매번 같은 순서를 써야한다면 shuffle() 메소드에 reshuffle_each_iteration=False 로 설정합니다.

In [15]:
for item in dataset.repeat(3):
    print(item)

tf.Tensor([3 5 2 1 8 4 0], shape=(7,), dtype=int64)
tf.Tensor([1 2 3 7 9 5 0], shape=(7,), dtype=int64)
tf.Tensor([7 4 0 9 6 8 1], shape=(7,), dtype=int64)
tf.Tensor([2 6 6 4 9 8 5], shape=(7,), dtype=int64)
tf.Tensor([7 3], shape=(2,), dtype=int64)
tf.Tensor([2 1 3 5 8 9 4], shape=(7,), dtype=int64)
tf.Tensor([1 0 7 3 5 6 7], shape=(7,), dtype=int64)
tf.Tensor([2 4 9 1 0 3 6], shape=(7,), dtype=int64)
tf.Tensor([0 4 7 5 2 8 6], shape=(7,), dtype=int64)
tf.Tensor([9 8], shape=(2,), dtype=int64)
tf.Tensor([1 4 6 7 5 2 3], shape=(7,), dtype=int64)
tf.Tensor([8 2 0 0 3 5 1], shape=(7,), dtype=int64)
tf.Tensor([4 8 0 6 9 9 2], shape=(7,), dtype=int64)
tf.Tensor([5 3 7 4 1 8 6], shape=(7,), dtype=int64)
tf.Tensor([9 7], shape=(2,), dtype=int64)


그런데 메모리 용량보다 큰 대규모 데이터셋은 버퍼가 데이터셋에 비해 작아서 간단한 셔플링 버퍼 방식으로는 불충분합니다. 이를 해결하는 방법은 원본 데이터셋 자체를 섞는 것입니다. 이렇게 하면 셔플링 효과가 크게 향상됩니다. 어렵지 않습니다. 그 방법을 알아보겠습니다.

## 캘리포니아 주택 데이터셋 나누기
먼저 뒤에서 다룰 내용을 위해 캘리포니아 주택 데이터셋을 나눠서 저장해보겠습니다.

In [21]:
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
import numpy as np
import os

housing = fetch_california_housing()
X_train_full, X_test, y_train_full, y_test = train_test_split(
    housing.data, housing.target.reshape(-1, 1), random_state=42)
X_train, X_valid, y_train, y_valid = train_test_split(
    X_train_full, y_train_full, random_state=42)

scaler = StandardScaler()
scaler.fit(X_train)
X_mean = scaler.mean_
X_std = scaler.scale_

In [17]:
def save_to_multiple_csv_files(data, name_prefix, header=None, n_parts=10):
    housing_dir = os.path.join("datasets", "housing")
    os.makedirs(housing_dir, exist_ok=True)
    path_format = os.path.join(housing_dir, "my_{}_{:02d}.csv")

    filepaths = []
    m = len(data)
    for file_idx, row_indices in enumerate(np.array_split(np.arange(m), n_parts)):
        part_csv = path_format.format(name_prefix, file_idx)
        filepaths.append(part_csv)
        with open(part_csv, "wt", encoding="utf-8") as f:
            if header is not None:
                f.write(header)
                f.write("\n")
            for row_idx in row_indices:
                f.write(",".join([repr(col) for col in data[row_idx]]))
                f.write("\n")
    return filepaths

In [22]:
train_data = np.c_[X_train, y_train]
valid_data = np.c_[X_valid, y_valid]
test_data = np.c_[X_test, y_test]
header_cols = housing.feature_names + ["MedianHouseValue"]
header = ",".join(header_cols)

train_filepaths = save_to_multiple_csv_files(train_data, "train", header, n_parts=20)
valid_filepaths = save_to_multiple_csv_files(valid_data, "valid", header, n_parts=10)
test_filepaths = save_to_multiple_csv_files(test_data, "test", header, n_parts=10)

## 여러 파일에서 한 줄씩 번갈아 읽기
