<a href="https://colab.research.google.com/github/muhiqbalalamin/DeepLearning-UAS/blob/main/Chapter_19_Teori.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Training and Deploying TensorFlow Models at Scale**

## Tujuan
Bab ini bertujuan untuk memahami cara:

* Menyimpan dan menyajikan model TensorFlow dalam lingkungan produksi

* Melakukan deployment model ke cloud, perangkat mobile, maupun perangkat embedded

* Mempercepat pelatihan menggunakan GPU atau pelatihan terdistribusi

* Menggunakan TensorFlow Serving dan Google Cloud AI Platform

## Menyajikan Model TensorFlow
### Konsep
Model TensorFlow dapat disimpan dalam format SavedModel, dan disajikan melalui:

* TensorFlow Serving: server performa tinggi berbasis REST/gRPC

* Google Cloud AI Platform

Keuntungan:

* Mendukung berbagai versi model

* Skalabilitas tinggi

* Mendukung batching permintaan secara otomatis

## Struktur SavedModel

saved_model.pb  
variables/  
  â”œâ”€ variables.data-00000-of-00001  
  â””â”€ variables.index  
assets/

## Deployment ke Google Cloud AI Platform
### Langkah-langkah:
1. Simpan model dalam format SavedModel

2. Unggah ke Google Cloud Storage

3. Buat model dan versinya di AI Platform

4. Gunakan endpoint API untuk prediksi

Keuntungan:

* Mendukung autoscaling

* Load balancing otomatis

* Integrasi dengan pipeline data

## Deployment ke Perangkat Mobile dan Embedded
Gunakan TensorFlow Lite (TFLite) untuk:

* Mengonversi model ke format FlatBuffer

* Melakukan optimisasi pasca pelatihan (post-training quantization)

* Menjalankan inferensi cepat di Android, iOS, atau perangkat edge

### Post-Training Quantization
Konversi bobot float32 ke int8:

\[
$w_q = \left\lfloor \frac{w}{m} \times 127 \right\rfloor$
\]

Hasil:

* Ukuran model berkurang hingga 4x

* Inferensi menjadi lebih cepat

## Akselerasi Pelatihan dengan GPU
Keuntungan:

* Akselerasi pelatihan 10â€“100 kali lebih cepat

* Ideal untuk model besar dan deep learning

Opsi pengaturan:

* GPU lokal (dengan dukungan CUDA dan cuDNN)

* Cloud GPU instances (misalnya GCP, AWS)

## Pelatihan Terdistribusi (Distributed Training)
### Strategi Utama:
* Data Parallelism: model direplikasi, batch data dibagi ke masing-masing GPU

* Model Parallelism: model dibagi ke beberapa perangkat

Sinkronisasi Gradien (AllReduce):

\[
$\bar{g} = \frac{1}{N} \sum_{i=1}^{N} g_i$
\]

Gunakan strategi:
* tf.distribute.MirroredStrategy (multi-GPU, satu mesin)

* tf.distribute.MultiWorkerMirroredStrategy (multi-node)

* tf.distribute.TPUStrategy (untuk TPU)

## Pelatihan di Google Cloud AI Platform
### Contoh Perintah:
gcloud ai-platform jobs submit training ...
--module-name trainer.task
--package-path ./trainer
--job-dir gs://your-bucket/model

###Fitur yang Didukung:
* Lingkungan pelatihan yang telah dikonfigurasi sebelumnya

* Logging dan monitoring otomatis

* Penyesuaian hyperparameter secara otomatis

## Tuning Hyperparameter Otomatis
Google Cloud AI Platform menyediakan fitur tuning otomatis untuk menemukan konfigurasi hyperparameter terbaik tanpa pencarian manual.

### Langkah-langkah:
1. Tentukan hyperparameter yang ingin dituning:
Contoh: learning_rate, n_neurons, batch_size, dll.

2. Definisikan ruang pencarian:

    * Rentang nilai (linear/log scale)

    * Daftar nilai diskret

3. Pilih strategi pencarian:

    * Grid search

    * Random search

    * Bayesian optimization (lebih efisien)

4. Platform akan:

    * Menjalankan pelatihan secara paralel

    * Mengevaluasi performa berdasarkan metrik validasi

    * Melaporkan kombinasi terbaik

## Ringkasan Konsep dan Rumus
### ðŸ”¹ Struktur SavedModel:
saved_model.pb  
variables/  
  â”œâ”€ variables.data-00000-of-00001  
  â””â”€ variables.index  
assets/

### Post-Training Quantization:
\[
$w_q = \left\lfloor \frac{w}{m} \times 127 \right\rfloor$
\]

* \($ w $\): bobot asli (float)
* \($ m $\): nilai maksimum absolut dari bobot

### Average Gradien (AllReduce):

\[
$\bar{g} = \frac{1}{N} \sum_{i=1}^{N} g_i$
\]

* \($ g_i $\): gradien dari device ke-i
* \($ N $\): jumlah perangkat (GPU/TPU/VM)

# **Kesimpulan**
* Model TensorFlow dapat disimpan dalam format SavedModel dan disajikan menggunakan TensorFlow Serving atau Google Cloud AI Platform.

* Untuk inferensi di perangkat mobile dan embedded, gunakan TensorFlow Lite yang ringan dan teroptimasi.

* Untuk pelatihan berskala besar, manfaatkan GPU dan strategi pelatihan terdistribusi melalui API tf.distribute.

* Hyperparameter tuning otomatis mempercepat proses eksperimen dan meningkatkan performa model.

* Produksi model ML memerlukan infrastruktur yang andal, bukan sekadar algoritma yang akurat.

# **Referensi**
GÃ©ron, A. (2019). Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow. Oâ€™Reilly Media.