[참고](https://github.com/rickiepark/handson-ml2/blob/master/13_loading_and_preprocessing_data.ipynb)

텐서플로는 데이터 API로 대규모 데이터셋을 처리할 수 있다. <br/>
대용량 데이터를 읽는 것 뿐만 아니라 원-핫 인코딩, BoW 인코딩, **임베딩**(embedding) 등을 사용하여 인코딩되어야하는 <br/> 
전처리 과정을 처리하기 위해 사용자 정의 전처리 층을 만드는 방법도 있다.

- TF 변환(tf.transform) <br/> 
    : 실행 속도를 높이기 위해 훈련 전에 전체 훈련 세트에 대해 실행하는 전처리 함수를 작성하고 텐서플로 함수로 변환에 상용 환경에 배포.
- TF 데이터셋(TFDS) <br/>
    : 각종 데이터셋을 다운로드할 수 있는 편리한 함수 제공. API로 조작할 수 있는 편리한 데이터셋 객체도 제공.
    
# 13.1 데이터 API
- 데이터셋(dataset) : 연속된 데이터 샘플.

In [None]:
# 메모리에서 전체 데이터셋 생성
import tensorflow as tf

X = tf.range(10)
dataset = tf.data.Dataset.from_tensor_slices(X) # 텐서를 받아 데이터셋을 만든다.
dataset

In [None]:
# 데이터셋의 아이템 순회
for item in dataset:
    print(item)

## 13.1.1 연쇄 변환

In [None]:
dataset = dataset.repeat(3).batch(7)
for item in dataset:
    print(item)

`batch()` 메서드에서 `drop_remainder=True`로 호출하면 길이가 모자란 마지막 배치를 머리고 모든 배치를 동일한 크기로 맞춘다. <br/>
데이터셋 메서드는 데이터셋을 바꾸지 않고 새로운 데이터셋을 만들기 때문에 새로운 데이터셋을 반환받아야 한다(`dataset=...` 이런 식으로).

In [None]:
# 아이템 변환 : map()
dataset = dataset.map(lambda x: x*2) 

In [None]:
dataset

In [None]:
for item in dataset:
    print(item)

In [None]:
dataset = dataset.unbatch()

In [None]:
for item in dataset:
    print(item)

In [None]:
# 데이터셋 전체 변환 : apply()
?dataset.apply 

In [None]:
# 데이터셋 필터링 : filter()
dataset = dataset.filter(lambda x: x<10)

In [None]:
for item in dataset:
    print(item)

In [None]:
# 데이터셋에 있는 몇 개의 아이템만 볼 때 : take()
for item in dataset.take(3) :
    print(item)

## 13.1.2 데이터 셔플링
`shuffle()` 메서드 :
1. 원본 데이터셋의 처음 아이템을 `buffer_size` 갯수만큼 추출하여 버퍼에 채운다.
2. 새로운 아이템이 요청되면 이 버퍼에서 랜덤하게 하나를 꺼내 반환.
3. 원본 데이터셋에서 새로운 아이템을 추출하여 비워진 버퍼를 채운다.
4. 원본 데이터셋의 모든 아이템이 사용될 때까지 반복.
5. 버퍼가 비워지 때까지 랜덤하게 아이템을 반환.

프로그램을 실행할 때마다 셔플링되는 순서를 동일하게 만드려면 랜덤 시드 부여.

In [None]:
tf.random.set_seed(42)

dataset = tf.data.Dataset.range(10).repeat(3)
dataset = dataset.shuffle(buffer_size=3, seed=42).batch(7)
for item in dataset:
    print(item)

셔플된 데이터셋에 `repeat()` 메서드 호출하면 반복마다 새로운 순서를 생성하는데, <br/> 
반복마다 동일한 순서를 사용해야 한다면 `shuffle()` 메서드에 `reshuffle_each_iteration=False`를 지정하면 된다.

대규모 데이터셋을 셔플링하는 방법
1. 원본 데이터 자체를 섞는 것. 일반적으로 원본 데이터를 섞어도 에포크마다 한 번 더 섞는다.
2. 원본 데이터를 여러 파일로 나눈 다음 훈련하는 동안 무작위로 읽는 것. 여기에 `shuffle()` 메서드를 사용해 셔플링 버퍼를 추가할 수 있음.

### 여러 파일에서 한 줄씩 번갈아 읽기

In [None]:
import os
import tarfile
import urllib.request

DOWNLOAD_ROOT = "https://raw.githubusercontent.com/rickiepark/handson-ml2/master/"
HOUSING_PATH = os.path.join("datasets", "housing")
HOUSING_URL = DOWNLOAD_ROOT + "datasets/housing/housing.tgz"

def fetch_housing_data(housing_url=HOUSING_URL, housing_path=HOUSING_PATH):
    os.makedirs(housing_path, exist_ok=True)
    tgz_path = os.path.join(housing_path, "housing.tgz")
    urllib.request.urlretrieve(housing_url, tgz_path)
    housing_tgz = tarfile.open(tgz_path)
    housing_tgz.extractall(path=housing_path)
    housing_tgz.close()

In [None]:
fetch_housing_data()

In [None]:
import pandas as pd

def load_housing_data(housing_path=HOUSING_PATH):
    csv_path = os.path.join(housing_path, "housing.csv")
    return pd.read_csv(csv_path)

In [None]:
housing = load_housing_data()
housing.head()

In [None]:
# 캘리포니아 주택 데이터셋을 여러 개의 CSV로 나누기
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

housing = fetch_california_housing()
X_train_full, X_test, y_train_full, y_test = train_test_split(
    housing.data, housing.target.reshape(-1, 1), random_state=42)
X_train, X_valid, y_train, y_valid = train_test_split(
    X_train_full, y_train_full, random_state=42)

scaler = StandardScaler()
scaler.fit(X_train)
X_mean = scaler.mean_
X_std = scaler.scale_

메모리에 맞지 않는 매우 큰 데이터셋인 경우 일반적으로 먼저 여러 개의 파일로 나누고 텐서플로에서 이 파일들을 병렬로 읽게 한다.

In [None]:
# 주택 데이터셋을 20개의 CSV 파일로 나누기
def save_to_multiple_csv_files(data, name_prefix, header=None, n_parts=10):
    housing_dir = os.path.join("datasets", "housing")
    os.makedirs(housing_dir, exist_ok=True)
    path_format = os.path.join(housing_dir, "my_{}_{:02d}.csv")

    filepaths = []
    m = len(data)
    for file_idx, row_indices in enumerate(np.array_split(np.arange(m), n_parts)):
        part_csv = path_format.format(name_prefix, file_idx)
        filepaths.append(part_csv)
        with open(part_csv, "wt", encoding="utf-8") as f:
            if header is not None:
                f.write(header)
                f.write("\n")
            for row_idx in row_indices:
                f.write(",".join([repr(col) for col in data[row_idx]]))
                f.write("\n")
    return filepaths

In [None]:
import numpy as np
import os

train_data = np.c_[X_train, y_train]
valid_data = np.c_[X_valid, y_valid]
test_data = np.c_[X_test, y_test]
header_cols = housing.feature_names + ["MedianHouseValue"]
header = ",".join(header_cols)

train_filepaths = save_to_multiple_csv_files(train_data, "train", header, n_parts=20)
valid_filepaths = save_to_multiple_csv_files(valid_data, "valid", header, n_parts=10)
test_filepaths = save_to_multiple_csv_files(test_data, "test", header, n_parts=10)

In [None]:
# CSV 파일 중에서 몇 줄만 출력해보자.
import pandas as pd

pd.read_csv(train_filepaths[0]).head()

In [None]:
# 텍스트 파일로 읽으면
with open(train_filepaths[0]) as f:
    for i in range(5):
        print(f.readline(), end="")

In [None]:
# 파일 훈련 경로를 담은 리스트
train_filepaths

In [None]:
# 파일 경로가 담긴 데이터셋 만들기
filepath_dataset = tf.data.Dataset.list_files(train_filepaths, seed=42) # list_files() : 파일 경로를 섞은 데이터셋을 반환함.

In [None]:
# 한 번에 다섯 개의 파일을 한 줄씩 번갈아 읽기
n_readers = 5
dataset = filepath_dataset.interleave( # filepath_dataset에 있는 다섯 개의 파일 경로에서 데이터를 읽는 데이터셋을 만든다.
    lambda filepath: tf.data.TextLineDataset(filepath).skip(1), # 각 파일의 첫 번째 줄은 열 이름이라 skip(1)로 건너뜀.
    cycle_length=n_readers)

`interleave()` 메서드가 잘 작동하려면 파일의 길이가 동일한 것이 좋음. <br/>
기본적으로 병렬화를 사용하지 않으므로 각 파일에서 한 번에 한 줄씩 순서대로 읽는다. <br/>
병렬로 읽고 싶다면 `num_parallel_calls` 매개변수에 원하는 스레드 갯수를 지정한다.

In [None]:
# 지금까지의 데이터셋 확인
for line in dataset.take(5) :
    print(line.numpy())

잘 나오긴 했는데 바이트 스트링이라 파싱하고 스케일을 조절해줘야 한다.

## 13.1.3 데이터 전처리

In [None]:
# 전처리를 수행하기 위한 간단한 함수
n_inputs = 8

def preprocess(line): # CSV 한 라인을 받아 파싱한다. 
    defs = [0.] * n_inputs + [tf.constant([], dtype=tf.float32)]
    fields = tf.io.decode_csv(line, record_defaults=defs) # 파싱할 라인과 파일의 각 열에 대한 기본값 두 개의 매개변수를 받는다. 
    x = tf.stack(fields[:-1])
    y = tf.stack(fields[-1:])
    return (x - X_mean) / X_std, y # 스케일 조정

`decode_csv()` 함수는 열마다 한 개씩 스칼라 텐서의 리스트를 반환해 모든 텐서를 쌓아 1D 배열을 만든다.

In [None]:
# 전처리 함수 테스트
preprocess(b'4.7361,7.0,7.464968152866242,1.1178343949044587,846.0,2.694267515923567,34.49,-117.27,1.745')

## 13.1.4 데이터 적재와 전처리를 합치기

In [None]:
# CSV 파일에서 캘리포니아 주택 데이터셋을 효율적으로 적재하고 전처리, 셔플링, 반복, 배치를 적용한 데이터셋을 만들어 반환하는 함수
def csv_reader_dataset(filepaths, repeat=1, n_readers=5,
                       n_read_threads=None, shuffle_buffer_size=10000,
                       n_parse_threads=5, batch_size=32):
    dataset = tf.data.Dataset.list_files(filepaths).repeat(repeat)
    dataset = dataset.interleave(
        lambda filepath: tf.data.TextLineDataset(filepath).skip(1),
        cycle_length=n_readers, num_parallel_calls=n_read_threads)
    dataset = dataset.shuffle(shuffle_buffer_size)
    dataset = dataset.map(preprocess, num_parallel_calls=n_parse_threads)
    dataset = dataset.batch(batch_size)
    return dataset.prefetch(1)

## 13.1.5 프리패치
`prefetch(1)`를 호출하면 데이터셋은 항상 한 배치가 미리 준비되도록 한다. 즉, 알고리즘이 작업을 하는 동안 다음 배치를 준비한다. <br/>
이렇게 하면 훈련 속도가 더 빨라질 것이다. 

GPU 카드를 구입할 때 초당 RAM에서 입출력할 수 있는 데이터의 수치인 **메모리 대역폭**(memory bandwidth)이 중요하다.

`tf.data.experimental` 패키지에 실험적인 기능들이 있는데, 이 중 많은 기능이 향후 릴리스에 핵심 API가 될 가능성이 높다.

## 13.1.6 tf.keras와 데이터셋 사용하기

In [None]:
# 훈련 세트로 사용할 데이터셋 만들기
tf.random.set_seed(42)

train_set = csv_reader_dataset(train_filepaths, repeat=None)
valid_set = csv_reader_dataset(valid_filepaths)
test_set = csv_reader_dataset(test_filepaths)

In [None]:
from tensorflow import keras

keras.backend.clear_session()
np.random.seed(42)
tf.random.set_seed(42)

model = keras.models.Sequential([
    keras.layers.Dense(30, activation="relu", input_shape=X_train.shape[1:]),
    keras.layers.Dense(1),
])

In [None]:
model.compile(loss="mse", optimizer=keras.optimizers.SGD(lr=1e-3))

In [None]:
batch_size = 32
model.fit(train_set, steps_per_epoch=len(X_train) // batch_size, epochs=10,
          validation_data=valid_set)

In [None]:
model.evaluate(test_set, steps=len(X_test) // batch_size)

In [None]:
new_set = test_set.map(lambda X, y: X) # we could instead just pass test_set, Keras would ignore the labels
X_new = X_test
model.predict(new_set, steps=len(X_new) // batch_size) # 새로운 샘플이 들어있는 데이터셋

In [None]:
# 자신만의 훈련 반복을 만들고 싶으면 그냥 훈련 세트를 반복하면 됨.
optimizer = keras.optimizers.Nadam(lr=0.01)
loss_fn = keras.losses.mean_squared_error

n_epochs = 5
batch_size = 32
n_steps_per_epoch = len(X_train) // batch_size
total_steps = n_epochs * n_steps_per_epoch
global_step = 0

for X_batch, y_batch in train_set.take(total_steps): 
    # 경사 하강법 수행
    global_step += 1
    print("\rGlobal step {}/{}".format(global_step, total_steps), end="")
    with tf.GradientTape() as tape:
        y_pred = model(X_batch)
        main_loss = tf.reduce_mean(loss_fn(y_batch, y_pred))
        loss = tf.add_n([main_loss] + model.losses)
    gradients = tape.gradient(loss, model.trainable_variables)
    optimizer.apply_gradients(zip(gradients, model.trainable_variables))

In [None]:
# 전체 훈련 반복을 수행하는 텐서플로 함수를 만들 수도 있음.
keras.backend.clear_session()
np.random.seed(42)
tf.random.set_seed(42)

optimizer = keras.optimizers.Nadam(lr=0.01)
loss_fn = keras.losses.mean_squared_error

@tf.function
def train(model, n_epochs, batch_size=32,
          n_readers=5, n_read_threads=5, shuffle_buffer_size=10000, n_parse_threads=5):
    train_set = csv_reader_dataset(train_filepaths, repeat=n_epochs, n_readers=n_readers,
                       n_read_threads=n_read_threads, shuffle_buffer_size=shuffle_buffer_size,
                       n_parse_threads=n_parse_threads, batch_size=batch_size)
    for X_batch, y_batch in train_set:
        with tf.GradientTape() as tape:
            y_pred = model(X_batch)
            main_loss = tf.reduce_mean(loss_fn(y_batch, y_pred))
            loss = tf.add_n([main_loss] + model.losses)
        gradients = tape.gradient(loss, model.trainable_variables)
        optimizer.apply_gradients(zip(gradients, model.trainable_variables))

train(model, 5)

In [None]:
# Dataset 클래스에 있는 메서드의 간략한 설명
for m in dir(tf.data.Dataset):
    if not (m.startswith("_") or m.endswith("_")):
        func = getattr(tf.data.Dataset, m)
        if hasattr(func, "__doc__"):
            print("● {:21s}{}".format(m + "()", func.__doc__.split("\n")[0]))

CSV 파일이나 어떤 특정 포맷을 선호한다면 `TFRecord`를 사용할 필요는 없음. <br/>
`TFRecord`는 훈련 과정에서 데이터를 적재하고 전처리하는 데 병목이 생기는 경우에 유용.

# 13.2 TFRecord 포맷
TFRecord : 크기가 다른 연속된 이진 레코드를 저장하는 단순한 이진 포맷. <br/>
각 레코드는 레코드 길이, 길이가 올바른지 체크하는 CRC 체크섬(checksum), 실제 데이터, 데이터를 위한 CRC 체크섬으로 구성됨.

In [None]:
# TFRecord 만들기
with tf.io.TFRecordWriter("my_data.tfrecord") as f:
    f.write(b"This is the first record")
    f.write(b"And this is the second record")

In [None]:
# 하나 이상의 TFRecord 읽기
filepaths = ["my_data.tfrecord"]
dataset = tf.data.TFRecordDataset(filepaths)
for item in dataset:
    print(item)

기본적으로 `TFRecordDataset`은 파일을 하나씩 차례로 읽지만 `num_parallel_reads`를 지정하여 여러 파일에서 번갈아 읽을 수 있음.

## 13.2.1 압축된 TFRecord 파일
특별히 네트워크를 통해 읽어야 하는 경우 TFRecord 파일을 압축할 필요가 있음.

In [None]:
# 압축된 TFRecord 파일 만들기 : options
options = tf.io.TFRecordOptions(compression_type="GZIP")
with tf.io.TFRecordWriter("my_compressed.tfrecord", options) as f:
    f.write(b"This is the first record")
    f.write(b"And this is the second record")

In [None]:
# 압축된 TFRecord 파일 읽기
dataset = tf.data.TFRecordDataset(["my_compressed.tfrecord"],
                                  compression_type="GZIP") # 압축 형식을 지정해야 함.
for item in dataset:
    print(item)

## 13.2.2 프로토콜 버퍼 개요
- 프로토콜 버퍼(protocol buffer, protobuf) : 이식성과 확장성이 좋고 효율적인 이진 포맷. TFRecord는 직렬화된 프로토콜 버퍼를 담고 있음.

In [None]:
# 프로토콜 버퍼 정의
%%writefile person.proto
syntax = "proto3";
message Person {
  string name = 1;
  int32 id = 2;
  repeated string email = 3;
}

In [None]:
!protoc person.proto --python_out=. --descriptor_set_out=person.desc --include_imports

In [None]:
from person_pb2 import Person

person = Person(name="Al", id=123, email=["a@b.com"])  # Person 생성
print(person)  # Person 출력

In [None]:
person.name  # 필드 읽기
person.name = "Alice"  # 필드 수정
person.name = "Alice"  # 필드 수정
person.name = "Alice"  # 필드 수정

s = person.SerializeToString()  # 바이트 문자열로 직렬화
s

person2 = Person()  # 새로운 Person 생성
person2.ParseFromString(s)  # 바이트 문자열 파싱 (27 바이트)

person == person2  # 동일

## 13.2.3 텐서플로 프로토콜 버퍼

프로토콜 버퍼의 정의


    syntax = "proto3";

    message BytesList { repeated bytes value = 1; }
    message FloatList { repeated float value = 1 [packed = true]; }
    message Int64List { repeated int64 value = 1 [packed = true]; }
    message Feature {
        oneof kind {
            BytesList bytes_list = 1;
            FloatList float_list = 2;
            Int64List int64_list = 3;
        }
    };
    message Features { map<string, Feature> feature = 1; };
    message Example { Features features = 1; };


In [None]:
from tensorflow.train import BytesList, FloatList, Int64List
from tensorflow.train import Feature, Features, Example

person_example = Example(
    features=Features(
        feature={
            "name": Feature(bytes_list=BytesList(value=[b"Alice"])),
            "id": Feature(int64_list=Int64List(value=[123])),
            "emails": Feature(bytes_list=BytesList(value=[b"a@b.com", b"c@d.com"]))
        }))

In [None]:
with tf.io.TFRecordWriter("my_contacts.tfrecord") as f:
    f.write(person_example.SerializeToString())

## 13.2.3 Example 프로토콜 버퍼를 읽고 파싱하기
`tf.data.TFRecordDataset`을 사용하고 `tf.io.parse_single_example()`을 사용하여 각 `Example`을 파싱.

In [None]:
# 설명 딕셔너리를 정의하고 TFRecordDataset을 순회하면서 데이터셋에 포함된 직렬화된 Example 프로토콜 퍼버를 파싱.
feature_description = {
    "name": tf.io.FixedLenFeature([], tf.string, default_value=""),
    "id": tf.io.FixedLenFeature([], tf.int64, default_value=0),
    "emails": tf.io.VarLenFeature(tf.string),
}
for serialized_example in tf.data.TFRecordDataset(["my_contacts.tfrecord"]):
    parsed_example = tf.io.parse_single_example(serialized_example,
                                                feature_description)

In [None]:
tf.sparse.to_dense(parsed_example["emails"], default_value=b"")

In [None]:
parsed_example["emails"].values

In [None]:
# 배치 단위로 파싱
dataset = tf.data.TFRecordDataset(["my_contacts.tfrecord"]).batch(10)
for serialized_examples in dataset:
    parsed_examples = tf.io.parse_example(serialized_examples,
                                          feature_description)

## 13.2.4 SequenceExample 프로토콜 버퍼를 사용해 리스트의 리스트 다루기

프로토콜 버퍼

    syntax = "proto3";

    message FeatureList { repeated Feature feature = 1; };
    message FeatureLists { map<string, FeatureList> feature_list = 1; };
    message SequenceExample {
      Features context = 1;
      FeatureLists feature_lists = 2;
    };

In [None]:
from tensorflow.train import FeatureList, FeatureLists, SequenceExample

context = Features(feature={
    "author_id": Feature(int64_list=Int64List(value=[123])),
    "title": Feature(bytes_list=BytesList(value=[b"A", b"desert", b"place", b"."])),
    "pub_date": Feature(int64_list=Int64List(value=[1623, 12, 25]))
})

content = [["When", "shall", "we", "three", "meet", "again", "?"],
           ["In", "thunder", ",", "lightning", ",", "or", "in", "rain", "?"]]
comments = [["When", "the", "hurlyburly", "'s", "done", "."],
            ["When", "the", "battle", "'s", "lost", "and", "won", "."]]

def words_to_feature(words):
    return Feature(bytes_list=BytesList(value=[word.encode("utf-8")
                                               for word in words]))

content_features = [words_to_feature(sentence) for sentence in content]
comments_features = [words_to_feature(comment) for comment in comments]
            
sequence_example = SequenceExample(
    context=context,
    feature_lists=FeatureLists(feature_list={
        "content": FeatureList(feature=content_features),
        "comments": FeatureList(feature=comments_features)
    }))

In [None]:
sequence_example

In [None]:
serialized_sequence_example = sequence_example.SerializeToString()

In [None]:
context_feature_descriptions = {
    "author_id": tf.io.FixedLenFeature([], tf.int64, default_value=0),
    "title": tf.io.VarLenFeature(tf.string),
    "pub_date": tf.io.FixedLenFeature([3], tf.int64, default_value=[0, 0, 0]),
}
sequence_feature_descriptions = {
    "content": tf.io.VarLenFeature(tf.string),
    "comments": tf.io.VarLenFeature(tf.string),
}
parsed_context, parsed_feature_lists = tf.io.parse_single_sequence_example(
    serialized_sequence_example, context_feature_descriptions,
    sequence_feature_descriptions)

# 13.3 입력 특성 전처리


In [None]:
keras.backend.clear_session()
tf.random.set_seed(42)
np.random.seed(42)

class Standardization(keras.layers.Layer):
    def adapt(self, data_sample):
        self.means_ = np.mean(data_sample, axis=0, keepdims=True)
        self.stds_ = np.std(data_sample, axis=0, keepdims=True)
    def call(self, inputs):
        return (inputs - self.means_) / (self.stds_ + keras.backend.epsilon())

In [None]:
standardization = Standardization(input_shape=[28, 28])

sample_image_batches = train_set.take(100).map(lambda image, label: image)
sample_images = np.concatenate(list(sample_image_batches.as_numpy_iterator()),
                               axis=0).astype(np.float32)
standardization.adapt(sample_images)

In [None]:
model = keras.models.Sequential([
    standardization,
    keras.layers.Flatten(),
    keras.layers.Dense(100, activation="relu"),
    keras.layers.Dense(10, activation="softmax") # error
])
model.compile(loss="sparse_categorical_crossentropy",
              optimizer="nadam", metrics=["accuracy"])

model.fit(train_set, epochs=5, validation_data=valid_set,
          callbacks=[tensorboard_cb])

## 13.3.1 원-핫 벡터를 사용해 범주형 특성 인코딩하기

In [None]:
# 캘리포니아 주택 데이터셋
ocean_prox_vocab = ['<1H OCEAN', 'INLAND', 'ISLAND', 'NEAR BAY', 'NEAR OCEAN'] # 어휘 사전(vocabulary) 정의
ocean_proximity = tf.feature_column.categorical_column_with_vocabulary_list(
    "ocean_proximity", ocean_prox_vocab)

In [None]:
ocean_proximity_one_hot = tf.feature_column.indicator_column(ocean_proximity)

In [None]:
class TextVectorization(keras.layers.Layer):
    def __init__(self, max_vocabulary_size=1000, n_oov_buckets=100, dtype=tf.string, **kwargs):
        super().__init__(dtype=dtype, **kwargs)
        self.max_vocabulary_size = max_vocabulary_size
        self.n_oov_buckets = n_oov_buckets

    def adapt(self, data_sample):
        self.vocab = get_vocabulary(data_sample, self.max_vocabulary_size)
        words = tf.constant(self.vocab)
        word_ids = tf.range(len(self.vocab), dtype=tf.int64)
        vocab_init = tf.lookup.KeyValueTensorInitializer(words, word_ids)
        self.table = tf.lookup.StaticVocabularyTable(vocab_init, self.n_oov_buckets)
        
    def call(self, inputs):
        preprocessed_inputs = preprocess(inputs)
        return self.table.lookup(preprocessed_inputs)

In [None]:
ocean_proximity

In [None]:
indices = tf.range(len(ocean_prox_vocab), dtype=tf.int64)
table_init = tf.lookup.KeyValueTensorInitializer(ocean_prox_vocab, indices)
num_oov_buckets = 2
table = tf.lookup.StaticVocabularyTable(table_init, num_oov_buckets)

In [None]:
# 룩업 테이블을 사용해 몇 개의 범주 특성을 원-핫 벡터로 인코딩
categories = tf.constant(["NEAR BAY", "DESERT", "INLAND", "INLAND"])
cat_indices = table.lookup(categories)
cat_indices

In [None]:
cat_one_hot = tf.one_hot(cat_indices, depth=len(ocean_prox_vocab) + num_oov_buckets)
cat_one_hot

## 13.3.2 임베딩을 사용해 범주형 특성 인코딩하기
표현 학습(representation learning) : 범주가 유용하게 표현되도록 임베딩이 훈련되는 학습.

### 단어 임베딩(word embedding)
ex) King-Man+Woman => Queen

임베딩 행렬(embedding matrix) : 각 범주의 임베딩을 담은 행렬. 범주와 oov 버킷마다 하나의 행이 있고 임베딩 차원마다 하나의 열을 가진다.

In [None]:
embedding_dim = 2
embed_init = tf.random.uniform([len(ocean_prox_vocab) + num_oov_buckets, embedding_dim])
embedding_matrix = tf.Variable(embed_init)

In [None]:
embedding_matrix

In [None]:
tf.nn.embedding_lookup(embedding_matrix, cat_indices) # 임베딩 행렬에서 주어진 인덱스에 해당하는 행을 찾는다.

In [None]:
embedding = keras.layers.Embedding(input_dim = len(ocean_prox_vocab) + num_oov_buckets,
                                  output_dim = embedding_dim)

embedding(cat_indices)

In [None]:
regular_inputs = keras.layers.Input(shape=[8])
categories = keras.layers.Input(shape=[], dtype=tf.string)
cat_indices = keras.layers.Lambda(lambda cats: table.lookup(cats))(categories)
cat_embed = keras.layers.Embedding(input_dim=6, output_dim=2)(cat_indices)
encoded_inputs = keras.layers.concatenate([regular_inputs, cat_embed])
outputs = keras.layers.Dense(1)(encoded_inputs)
model = keras.models.Model(inputs=[regular_inputs, categories],
                          outputs=[outputs])

## 13.3.3 케라스 전처리 층
새로운 API는 사용하기 어렵고 직관적이지 않은 기존의 특성 열(feature column) API를 대체한다. <br/>
이 API에 포함될 `keras.layers.Discretization` 층은 연속적인 데이터를 몇 개의 구간(bin)으로 나누고 각 구간을 원-핫 벡터로 인코딩한다. <br/>
`PreprocessingStage` 클래스를 사용해 여러 전처리 층을 연결할 수 있는데, <br/>
예를 들어 입력을 정규화하고 그 다음 이산화(discretization)하는 전처리 파이프라인을 만들 수 있다(사이킷런 파이프라인과 비슷).

In [None]:
def preprocess(X_batch, n_words=50):
    shape = tf.shape(X_batch) * tf.constant([1, 0]) + tf.constant([0, n_words])
    Z = tf.strings.substr(X_batch, 0, 300)
    Z = tf.strings.lower(Z)
    Z = tf.strings.regex_replace(Z, b"<br\\s*/?>", b" ")
    Z = tf.strings.regex_replace(Z, b"[^a-z]", b" ")
    Z = tf.strings.split(Z)
    return Z.to_tensor(shape=shape, default_value=b"<pad>")

X_example = tf.constant(["It's a great, great movie! I loved it.", "It was terrible, run away!!!"])
preprocess(X_example)

In [None]:
from collections import Counter

def get_vocabulary(data_sample, max_size=1000):
    preprocessed_reviews = preprocess(data_sample).numpy()
    counter = Counter()
    for words in preprocessed_reviews:
        for word in words:
            if word != b"<pad>":
                counter[word] += 1
    return [b"<pad>"] + [word for word, count in counter.most_common(max_size)]

get_vocabulary(X_example)

In [None]:
from sklearn.preprocessing import StandardScaler

normalization = keras.layers.LayerNormalization()
discretization = keras.layers.experimental.preprocessing.Discretization([...])
pipeline = keras.layers.experimental.preprocessing.PreprocessingLayer([normalization, discretization])
pipeline.adapt(X_example)

- BOW(bag of word) : 단어의 순서를 완전히 무시하고 빈도만 나타내는 텍스트 표현 방법.
- TF-IDF(term frequency-inverse document frequency) : 단어 카운트는 자주 등장하는 단어의 중요도를 줄이는 방향으로 정규화되어야 하기 때문에 <br/>
    전체 샘플 수를 단어가 등장하는 훈련 샘플 갯수로 나눈 로그를 계산한 후 단어 카운토와 곱하는 기법.
    
# 13.4 TF 변환
- 훈련/서빙 왜곡(training/serving skew) : 전처리 과정을 바꿀 때마다 여러 과정에 걸쳐져 수정을 해야하고, 시간이 많이 걸릴 뿐만 아니라 에러를 만들기 쉽다. 훈련 전에 수행한 전처리 연산과 앱이나 브라우저에서 수행하는 전처리가 차이가 날 수 있음. 이 때문에 버그나 성능 감소로 이어질 수 있다.
- TF 변환 : 텐서플로 모델 상품화를 위한 엔드-투-엔드(end-to-end) 플랫폼인 TFX(TensorFlow Extended)의 일부분.

In [None]:
try:
    import tensorflow_transform as tft

    def preprocess(inputs):  # inputs is a batch of input features
        median_age = inputs["housing_median_age"]
        ocean_proximity = inputs["ocean_proximity"]
        standardized_age = tft.scale_to_z_score(median_age - tft.mean(median_age))
        ocean_proximity_id = tft.compute_and_apply_vocabulary(ocean_proximity)
        return {
            "standardized_median_age": standardized_age,
            "ocean_proximity_id": ocean_proximity_id
        }
except ImportError:
    print("TF Transform is not installed. Try running: pip3 install -U tensorflow-transform")

애널라이저(analyzer) : 특성의 평균, 표준편차와 특성의 어휘 사전 같은 통계를 계산하는 컴포넌트

# 13.5 텐서플로 데이터셋(TFDS) 프로젝트


In [None]:
import tensorflow_datasets as tfds

datasets = tfds.load(name="mnist")
mnist_train, mnist_test = datasets["train"], datasets["test"]

In [None]:
%matplotlib inline
import matplotlib as mpl
import matplotlib.pyplot as plt

plt.figure(figsize=(6,3))
mnist_train = mnist_train.repeat(5).batch(32).prefetch(1)
for item in mnist_train:
    images = item["image"]
    labels = item["label"]
    for index in range(5):
        plt.subplot(1, 5, index + 1)
        image = images[index, ..., 0]
        label = labels[index].numpy()
        plt.imshow(image, cmap="binary")
        plt.title(label)
        plt.axis("off")
    break # just showing part of the first batch