[참고](https://github.com/rickiepark/handson-ml2/blob/master/13_loading_and_preprocessing_data.ipynb)

텐서플로는 데이터 API로 대규모 데이터셋을 처리할 수 있다. <br/>
대용량 데이터를 읽는 것 뿐만 아니라 원-핫 인코딩, BoW 인코딩, **임베딩**(embedding) 등을 사용하여 인코딩되어야하는 <br/> 
전처리 과정을 처리하기 위해 사용자 정의 전처리 층을 만드는 방법도 있다.

- TF 변환(tf.transform) <br/> 
    : 실행 속도를 높이기 위해 훈련 전에 전체 훈련 세트에 대해 실행하는 전처리 함수를 작성하고 텐서플로 함수로 변환에 상용 환경에 배포.
- TF 데이터셋(TFDS) <br/>
    : 각종 데이터셋을 다운로드할 수 있는 편리한 함수 제공. API로 조작할 수 있는 편리한 데이터셋 객체도 제공.
    
# 13.1 데이터 API
- 데이터셋(dataset) : 연속된 데이터 샘플.

In [1]:
# 메모리에서 전체 데이터셋 생성
import tensorflow as tf

X = tf.range(10)
dataset = tf.data.Dataset.from_tensor_slices(X) # 텐서를 받아 데이터셋을 만든다.
dataset

<TensorSliceDataset shapes: (), types: tf.int32>

In [2]:
# 데이터셋의 아이템 순회
for item in dataset:
    print(item)

tf.Tensor(0, shape=(), dtype=int32)
tf.Tensor(1, shape=(), dtype=int32)
tf.Tensor(2, shape=(), dtype=int32)
tf.Tensor(3, shape=(), dtype=int32)
tf.Tensor(4, shape=(), dtype=int32)
tf.Tensor(5, shape=(), dtype=int32)
tf.Tensor(6, shape=(), dtype=int32)
tf.Tensor(7, shape=(), dtype=int32)
tf.Tensor(8, shape=(), dtype=int32)
tf.Tensor(9, shape=(), dtype=int32)


## 13.1.1 연쇄 변환

In [3]:
dataset = dataset.repeat(3).batch(7)
for item in dataset:
    print(item)

tf.Tensor([0 1 2 3 4 5 6], shape=(7,), dtype=int32)
tf.Tensor([7 8 9 0 1 2 3], shape=(7,), dtype=int32)
tf.Tensor([4 5 6 7 8 9 0], shape=(7,), dtype=int32)
tf.Tensor([1 2 3 4 5 6 7], shape=(7,), dtype=int32)
tf.Tensor([8 9], shape=(2,), dtype=int32)


`batch()` 메서드에서 `drop_remainder=True`로 호출하면 길이가 모자란 마지막 배치를 머리고 모든 배치를 동일한 크기로 맞춘다. <br/>
데이터셋 메서드는 데이터셋을 바꾸지 않고 새로운 데이터셋을 만들기 때문에 새로운 데이터셋을 반환받아야 한다(`dataset=...` 이런 식으로).

In [4]:
# 아이템 변환 : map()
dataset = dataset.map(lambda x: x*2) 

In [5]:
dataset

<MapDataset shapes: (None,), types: tf.int32>

In [6]:
for item in dataset:
    print(item)

tf.Tensor([ 0  2  4  6  8 10 12], shape=(7,), dtype=int32)
tf.Tensor([14 16 18  0  2  4  6], shape=(7,), dtype=int32)
tf.Tensor([ 8 10 12 14 16 18  0], shape=(7,), dtype=int32)
tf.Tensor([ 2  4  6  8 10 12 14], shape=(7,), dtype=int32)
tf.Tensor([16 18], shape=(2,), dtype=int32)


In [8]:
dataset = dataset.unbatch()

In [9]:
for item in dataset:
    print(item)

tf.Tensor(0, shape=(), dtype=int32)
tf.Tensor(2, shape=(), dtype=int32)
tf.Tensor(4, shape=(), dtype=int32)
tf.Tensor(6, shape=(), dtype=int32)
tf.Tensor(8, shape=(), dtype=int32)
tf.Tensor(10, shape=(), dtype=int32)
tf.Tensor(12, shape=(), dtype=int32)
tf.Tensor(14, shape=(), dtype=int32)
tf.Tensor(16, shape=(), dtype=int32)
tf.Tensor(18, shape=(), dtype=int32)
tf.Tensor(0, shape=(), dtype=int32)
tf.Tensor(2, shape=(), dtype=int32)
tf.Tensor(4, shape=(), dtype=int32)
tf.Tensor(6, shape=(), dtype=int32)
tf.Tensor(8, shape=(), dtype=int32)
tf.Tensor(10, shape=(), dtype=int32)
tf.Tensor(12, shape=(), dtype=int32)
tf.Tensor(14, shape=(), dtype=int32)
tf.Tensor(16, shape=(), dtype=int32)
tf.Tensor(18, shape=(), dtype=int32)
tf.Tensor(0, shape=(), dtype=int32)
tf.Tensor(2, shape=(), dtype=int32)
tf.Tensor(4, shape=(), dtype=int32)
tf.Tensor(6, shape=(), dtype=int32)
tf.Tensor(8, shape=(), dtype=int32)
tf.Tensor(10, shape=(), dtype=int32)
tf.Tensor(12, shape=(), dtype=int32)
tf.Tensor(14, sh

In [11]:
# 데이터셋 전체 변환 : apply()
?dataset.apply 

In [12]:
# 데이터셋 필터링 : filter()
dataset = dataset.filter(lambda x: x<10)

In [13]:
for item in dataset:
    print(item)

tf.Tensor(0, shape=(), dtype=int32)
tf.Tensor(2, shape=(), dtype=int32)
tf.Tensor(4, shape=(), dtype=int32)
tf.Tensor(6, shape=(), dtype=int32)
tf.Tensor(8, shape=(), dtype=int32)
tf.Tensor(0, shape=(), dtype=int32)
tf.Tensor(2, shape=(), dtype=int32)
tf.Tensor(4, shape=(), dtype=int32)
tf.Tensor(6, shape=(), dtype=int32)
tf.Tensor(8, shape=(), dtype=int32)
tf.Tensor(0, shape=(), dtype=int32)
tf.Tensor(2, shape=(), dtype=int32)
tf.Tensor(4, shape=(), dtype=int32)
tf.Tensor(6, shape=(), dtype=int32)
tf.Tensor(8, shape=(), dtype=int32)


In [14]:
# 데이터셋에 있는 몇 개의 아이템만 볼 때 : take()
for item in dataset.take(3) :
    print(item)

tf.Tensor(0, shape=(), dtype=int32)
tf.Tensor(2, shape=(), dtype=int32)
tf.Tensor(4, shape=(), dtype=int32)


## 13.1.2 데이터 셔플링
`shuffle()` 메서드 :
1. 원본 데이터셋의 처음 아이템을 `buffer_size` 갯수만큼 추출하여 버퍼에 채운다.
2. 새로운 아이템이 요청되면 이 버퍼에서 랜덤하게 하나를 꺼내 반환.
3. 원본 데이터셋에서 새로운 아이템을 추출하여 비워진 버퍼를 채운다.
4. 원본 데이터셋의 모든 아이템이 사용될 때까지 반복.
5. 버퍼가 비워지 때까지 랜덤하게 아이템을 반환.

프로그램을 실행할 때마다 셔플링되는 순서를 동일하게 만드려면 랜덤 시드 부여.

In [15]:
tf.random.set_seed(42)

dataset = tf.data.Dataset.range(10).repeat(3)
dataset = dataset.shuffle(buffer_size=3, seed=42).batch(7)
for item in dataset:
    print(item)

tf.Tensor([1 3 0 4 2 5 6], shape=(7,), dtype=int64)
tf.Tensor([8 7 1 0 3 2 5], shape=(7,), dtype=int64)
tf.Tensor([4 6 9 8 9 7 0], shape=(7,), dtype=int64)
tf.Tensor([3 1 4 5 2 8 7], shape=(7,), dtype=int64)
tf.Tensor([6 9], shape=(2,), dtype=int64)


셔플된 데이터셋에 `repeat()` 메서드 호출하면 반복마다 새로운 순서를 생성하는데, <br/> 
반복마다 동일한 순서를 사용해야 한다면 `shuffle()` 메서드에 `reshuffle_each_iteration=False`를 지정하면 된다.

대규모 데이터셋을 셔플링하는 방법
1. 원본 데이터 자체를 섞는 것. 일반적으로 원본 데이터를 섞어도 에포크마다 한 번 더 섞는다.
2. 원본 데이터를 여러 파일로 나눈 다음 훈련하는 동안 무작위로 읽는 것. 여기에 `shuffle()` 메서드를 사용해 셔플링 버퍼를 추가할 수 있음.

### 여러 파일에서 한 줄씩 번갈아 읽기

In [16]:
# 캘리포니아 주택 데이터셋을 여러 개의 CSV로 나누기
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

housing = fetch_california_housing()
X_train_full, X_test, y_train_full, y_test = train_test_split(
    housing.data, housing.target.reshape(-1, 1), random_state=42)
X_train, X_valid, y_train, y_valid = train_test_split(
    X_train_full, y_train_full, random_state=42)

scaler = StandardScaler()
scaler.fit(X_train)
X_mean = scaler.mean_
X_std = scaler.scale_

메모리에 맞지 않는 매우 큰 데이터셋인 경우 일반적으로 먼저 여러 개의 파일로 나누고 텐서플로에서 이 파일들을 병렬로 읽게 한다.

In [17]:
# 주택 데이터셋을 20개의 CSV 파일로 나누기
def save_to_multiple_csv_files(data, name_prefix, header=None, n_parts=10):
    housing_dir = os.path.join("datasets", "housing")
    os.makedirs(housing_dir, exist_ok=True)
    path_format = os.path.join(housing_dir, "my_{}_{:02d}.csv")

    filepaths = []
    m = len(data)
    for file_idx, row_indices in enumerate(np.array_split(np.arange(m), n_parts)):
        part_csv = path_format.format(name_prefix, file_idx)
        filepaths.append(part_csv)
        with open(part_csv, "wt", encoding="utf-8") as f:
            if header is not None:
                f.write(header)
                f.write("\n")
            for row_idx in row_indices:
                f.write(",".join([repr(col) for col in data[row_idx]]))
                f.write("\n")
    return filepaths

In [20]:
import numpy as np
import os

train_data = np.c_[X_train, y_train]
valid_data = np.c_[X_valid, y_valid]
test_data = np.c_[X_test, y_test]
header_cols = housing.feature_names + ["MedianHouseValue"]
header = ",".join(header_cols)

train_filepaths = save_to_multiple_csv_files(train_data, "train", header, n_parts=20)
valid_filepaths = save_to_multiple_csv_files(valid_data, "valid", header, n_parts=10)
test_filepaths = save_to_multiple_csv_files(test_data, "test", header, n_parts=10)

In [21]:
# CSV 파일 중에서 몇 줄만 출력해보자.
import pandas as pd

pd.read_csv(train_filepaths[0]).head()

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude,MedianHouseValue
0,3.5214,15.0,3.049945,1.106548,1447.0,1.605993,37.63,-122.43,1.442
1,5.3275,5.0,6.49006,0.991054,3464.0,3.44334,33.69,-117.39,1.687
2,3.1,29.0,7.542373,1.591525,1328.0,2.250847,38.44,-122.98,1.621
3,7.1736,12.0,6.289003,0.997442,1054.0,2.695652,33.55,-117.7,2.621
4,2.0549,13.0,5.312457,1.085092,3297.0,2.244384,33.93,-116.93,0.956


In [22]:
# 텍스트 파일로 읽으면
with open(train_filepaths[0]) as f:
    for i in range(5):
        print(f.readline(), end="")

MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude,MedianHouseValue
3.5214,15.0,3.0499445061043287,1.106548279689234,1447.0,1.6059933407325193,37.63,-122.43,1.442
5.3275,5.0,6.490059642147117,0.9910536779324056,3464.0,3.4433399602385686,33.69,-117.39,1.687
3.1,29.0,7.5423728813559325,1.5915254237288134,1328.0,2.2508474576271187,38.44,-122.98,1.621
7.1736,12.0,6.289002557544757,0.9974424552429667,1054.0,2.6956521739130435,33.55,-117.7,2.621


In [23]:
# 파일 훈련 경로를 담은 리스트
train_filepaths

['datasets\\housing\\my_train_00.csv',
 'datasets\\housing\\my_train_01.csv',
 'datasets\\housing\\my_train_02.csv',
 'datasets\\housing\\my_train_03.csv',
 'datasets\\housing\\my_train_04.csv',
 'datasets\\housing\\my_train_05.csv',
 'datasets\\housing\\my_train_06.csv',
 'datasets\\housing\\my_train_07.csv',
 'datasets\\housing\\my_train_08.csv',
 'datasets\\housing\\my_train_09.csv',
 'datasets\\housing\\my_train_10.csv',
 'datasets\\housing\\my_train_11.csv',
 'datasets\\housing\\my_train_12.csv',
 'datasets\\housing\\my_train_13.csv',
 'datasets\\housing\\my_train_14.csv',
 'datasets\\housing\\my_train_15.csv',
 'datasets\\housing\\my_train_16.csv',
 'datasets\\housing\\my_train_17.csv',
 'datasets\\housing\\my_train_18.csv',
 'datasets\\housing\\my_train_19.csv']

In [24]:
# 파일 경로가 담긴 데이터셋 만들기
filepath_dataset = tf.data.Dataset.list_files(train_filepaths, seed=42) # list_files() : 파일 경로를 섞은 데이터셋을 반환함.

In [25]:
# 한 번에 다섯 개의 파일을 한 줄씩 번갈아 읽기
n_readers = 5
dataset = filepath_dataset.interleave( # filepath_dataset에 있는 다섯 개의 파일 경로에서 데이터를 읽는 데이터셋을 만든다.
    lambda filepath: tf.data.TextLineDataset(filepath).skip(1), # 각 파일의 첫 번째 줄은 열 이름이라 skip(1)로 건너뜀.
    cycle_length=n_readers)

`interleave()` 메서드가 잘 작동하려면 파일의 길이가 동일한 것이 좋음. <br/>
기본적으로 병렬화를 사용하지 않으므로 각 파일에서 한 번에 한 줄씩 순서대로 읽는다. <br/>
병렬로 읽고 싶다면 `num_parallel_calls` 매개변수에 원하는 스레드 갯수를 지정한다.

In [26]:
# 지금까지의 데이터셋 확인
for line in dataset.take(5) :
    print(line.numpy())

b'4.7361,7.0,7.464968152866242,1.1178343949044587,846.0,2.694267515923567,34.49,-117.27,1.745'
b'3.6641,17.0,5.577142857142857,1.1542857142857144,511.0,2.92,40.85,-121.07,0.808'
b'4.5909,16.0,5.475877192982456,1.0964912280701755,1357.0,2.9758771929824563,33.63,-117.71,2.418'
b'3.6875,44.0,4.524475524475524,0.993006993006993,457.0,3.195804195804196,34.04,-118.15,1.625'
b'2.3,25.0,5.828178694158075,0.9587628865979382,909.0,3.1237113402061856,36.25,-119.4,1.328'


잘 나오긴 했는데 바이트 스트링이라 파싱하고 스케일을 조절해줘야 한다.

## 13.1.3 데이터 전처리

In [28]:
# 전처리를 수행하기 위한 간단한 함수
n_inputs = 8

def preprocess(line): # CSV 한 라인을 받아 파싱한다. 
    defs = [0.] * n_inputs + [tf.constant([], dtype=tf.float32)]
    fields = tf.io.decode_csv(line, record_defaults=defs) # 파싱할 라인과 파일의 각 열에 대한 기본값 두 개의 매개변수를 받는다. 
    x = tf.stack(fields[:-1])
    y = tf.stack(fields[-1:])
    return (x - X_mean) / X_std, y # 스케일 조정

`decode_csv()` 함수는 열마다 한 개씩 스칼라 텐서의 리스트를 반환해 모든 텐서를 쌓아 1D 배열을 만든다.

In [29]:
# 전처리 함수 테스트
preprocess(b'4.7361,7.0,7.464968152866242,1.1178343949044587,846.0,2.694267515923567,34.49,-117.27,1.745')

(<tf.Tensor: shape=(8,), dtype=float32, numpy=
 array([ 0.4422319 , -1.7106786 ,  0.78773797,  0.03910041, -0.5277444 ,
        -0.11205271, -0.541763  ,  1.156645  ], dtype=float32)>,
 <tf.Tensor: shape=(1,), dtype=float32, numpy=array([1.745], dtype=float32)>)