
#  Chapter 13: Loading and Preprocessing Data with TensorFlow

## 1. Pendahuluan

Pada bab ini, kita belajar cara memuat dan memproses data dalam pipeline yang efisien menggunakan **TensorFlow Data API**. Pendekatan ini sangat penting untuk melatih model skala besar secara cepat.



## 2. TensorFlow Data API

`tf.data` API digunakan untuk membangun pipeline input data yang scalable, reusable, dan efisien.


In [None]:

import tensorflow as tf

dataset = tf.data.Dataset.range(10)
for item in dataset:
    print(item.numpy())



## 3. Chaining Transformations

Dataset mendukung *method chaining* seperti `map`, `filter`, dan `batch`:


In [None]:

dataset = tf.data.Dataset.range(10)
dataset = dataset.map(lambda x: x * 2)
dataset = dataset.filter(lambda x: x < 10)
dataset = dataset.batch(3)

for batch in dataset:
    print(batch.numpy())



## 4. Shuffle dan Repeat

Untuk *stochastic training*, data perlu di-*shuffle*:


In [None]:

dataset = tf.data.Dataset.range(10)
dataset = dataset.shuffle(buffer_size=5).repeat(2).batch(3)

for batch in dataset:
    print(batch.numpy())



## 5. Preprocessing Data

Pipeline dapat melakukan preprocessing, seperti normalisasi:


In [None]:

def normalize(x):
    return (x - tf.reduce_mean(x)) / tf.math.reduce_std(x)

dataset = tf.data.Dataset.range(10)
dataset = dataset.map(normalize)

for item in dataset:
    print(item.numpy())



## 6. Prefetching

Gunakan `prefetch` untuk overlap loading & execution, meningkatkan performa GPU:


In [None]:

dataset = tf.data.Dataset.range(10)
dataset = dataset.prefetch(buffer_size=1)

for item in dataset:
    print(item.numpy())



## 7. Menggunakan Dataset dengan Keras

Dataset dapat langsung dipakai di `model.fit`:


In [None]:

# Contoh pseudo-code
# model.compile(...)
# model.fit(dataset, epochs=5, steps_per_epoch=50)



## 8. Format TFRecord

Untuk dataset besar, format binary `TFRecord` lebih cepat dari file CSV.

### Menulis TFRecord:


In [None]:

# with tf.io.TFRecordWriter("my_data.tfrecord") as writer:
#     for record in records:
#         writer.write(record.SerializeToString())



### Membaca TFRecord:


In [None]:

# dataset = tf.data.TFRecordDataset(["my_data.tfrecord"])



## 9. Protocol Buffers

TFRecord menyimpan data dalam format **Protocol Buffers** (`protobuf`). Protobuf adalah format serialisasi yang efisien dan extensible.



## 10. Preprocessing Fitur Input

**One-Hot Encoding** atau **Embedding** dapat digunakan untuk atribut kategorikal.


In [None]:

from tensorflow.keras.layers import StringLookup, CategoryEncoding

lookup = StringLookup(vocabulary=["A", "B", "C"])
one_hot = CategoryEncoding(num_tokens=3)

strings = tf.constant(["B", "A", "C"])
encoded = lookup(strings)
one_hot_encoded = one_hot(encoded)

print(one_hot_encoded.numpy())



## 11. TF Transform

`TF Transform` dapat digunakan untuk preprocessing skala produksi yang konsisten antara training & serving.



## 12. TensorFlow Datasets (TFDS)

`tfds` menyediakan dataset siap pakai dengan satu baris kode:


In [None]:

import tensorflow_datasets as tfds

dataset = tfds.load("mnist", split="train")
print(dataset)
