TensorFlow adalah *library* yang kuat untuk komputasi numerik, khususnya sangat cocok untuk *Machine Learning* skala besar. TensorFlow dikembangkan oleh tim Google Brain dan mendukung banyak layanan skala besar Google, seperti Google Cloud Speech, Google Photos, dan Google Search. TensorFlow menjadi *open source* pada November 2015 dan kini merupakan *library Deep Learning* paling populer.

Berikut adalah fitur utama TensorFlow:
* Intinya sangat mirip dengan NumPy, tetapi dengan dukungan GPU.
* Mendukung komputasi terdistribusi di berbagai perangkat dan server.
* Mencakup *compiler just-in-time* (JIT) yang mengoptimalkan komputasi untuk kecepatan dan penggunaan memori. Ini bekerja dengan mengekstrak *computation graph* dari fungsi Python, mengoptimalkannya, dan menjalankannya secara efisien (misalnya, menjalankan operasi independen secara paralel).
* *Computation graph* dapat diekspor ke format portabel, memungkinkan model TensorFlow dilatih di satu lingkungan dan dijalankan di lingkungan lain.
* Mengimplementasikan *autodiff* dan menyediakan *optimizer* yang sangat baik seperti RMSProp dan Nadam, yang memudahkan minimasi berbagai fungsi *loss*.
* Menawarkan banyak fitur lain di atas fitur intinya, termasuk `tf.keras`, `tf.data` (untuk *loading* dan *preprocessing* data), `tf.image` (untuk *image processing*), `tf.signal` (untuk *signal processing*), dan lainnya.
* Menyertakan API *Deep Learning* lain bernama Estimators API, tetapi tim TensorFlow merekomendasikan penggunaan `tf.keras` sebagai gantinya.

**Perbedaan antara TensorFlow dan NumPy:**

* **Dukungan GPU:** TensorFlow mendukung komputasi GPU untuk mempercepat operasi, sementara NumPy tidak.
* **Komputasi Terdistribusi:** TensorFlow mendukung komputasi terdistribusi di berbagai perangkat dan server, fitur yang tidak ada di NumPy.
* ***Computation Graphs*:** TensorFlow dapat membuat dan mengoptimalkan *computation graphs* untuk eksekusi yang efisien dan portabilitas. NumPy tidak memiliki konsep *computation graphs*.
* ***Autodiff* dan *Optimizers*:** TensorFlow memiliki *autodiff* bawaan untuk menghitung *gradient* secara otomatis dan menyediakan *optimizer* yang canggih untuk meminimalkan fungsi *loss*. NumPy tidak memiliki fungsionalitas ini secara *built-in*.
* **Tipe Data:** NumPy secara *default* menggunakan presisi 64-bit, sedangkan TensorFlow menggunakan presisi 32-bit karena umumnya cukup untuk *neural network*, lebih cepat, dan menggunakan lebih sedikit RAM.
* **Konversi Tipe:** TensorFlow tidak melakukan konversi tipe secara otomatis dan akan menimbulkan *exception* jika mencoba melakukan operasi pada *tensor* dengan tipe yang tidak kompatibel. Ini untuk menghindari masalah performa dan *bug* yang tidak disengaja. NumPy lebih fleksibel dalam konversi tipe.
* **Immutability vs. Mutability:** *Tensor* TensorFlow (tf.Tensor) bersifat *immutable* (tidak dapat diubah setelah dibuat). Untuk nilai yang dapat diubah (seperti *weight* model), TensorFlow menyediakan `tf.Variable`. *Array* NumPy bersifat *mutable*.
* **Operasi Transposisi:** Dalam TensorFlow, `tf.transpose(t)` membuat *tensor* baru dengan salinan data yang ditransposisi, sementara di NumPy, `t.T` hanyalah *view* yang ditransposisi pada data yang sama.

**Struktur Data TensorFlow Selain *Regular Tensors***:

* **Sparse Tensors (`tf.SparseTensor`):** Digunakan untuk merepresentasikan *tensor* yang sebagian besar berisi nilai nol secara efisien. Paket `tf.sparse` berisi operasi untuk *sparse tensors*.
* **Tensor Arrays (`tf.TensorArray`):** Merupakan daftar *tensor*. Mereka memiliki ukuran tetap secara *default* tetapi dapat dibuat dinamis. Semua *tensor* yang dikandungnya harus memiliki *shape* dan tipe data yang sama.
* **Ragged Tensors (`tf.RaggedTensor`):** Merepresentasikan daftar *list* *tensor* statis, di mana setiap *tensor* memiliki *shape* dan tipe data yang sama. Paket `tf.ragged` berisi operasi untuk *ragged tensors*.
* **String Tensors (`tf.string`):** Merupakan *tensor* reguler bertipe `tf.string` yang merepresentasikan *byte string*, bukan *Unicode string*. Jika *Unicode string* digunakan, mereka akan di-*encode* secara otomatis ke UTF-8. Paket `tf.strings` berisi operasi untuk *byte string* dan *Unicode string*. Penting untuk dicatat bahwa `tf.string` bersifat atomik, artinya panjangnya tidak muncul di *shape tensor*.
* **Sets (direpresentasikan sebagai *regular tensors* atau *sparse tensors*):** Setiap *set* direpresentasikan oleh sebuah vektor di sumbu terakhir *tensor*. Operasi untuk memanipulasi *set* tersedia di paket `tf.sets`.
* **Queues:** Digunakan untuk menyimpan *tensor* di beberapa *step*. TensorFlow menawarkan berbagai jenis *queue*, seperti FIFO queues (`FIFOQueue`), *priority queues* (`PriorityQueue`), *shuffling queues* (`RandomShuffleQueue`), dan *batching queues` (`PaddingFIFOQueue`). Kelas-kelas ini berada di paket `tf.queue`.

**Perbandingan `tf.range(10)` dan `tf.constant(np.arange(10))`:**

Tidak, hasilnya tidak sama persis, meskipun keduanya menghasilkan *tensor* dengan nilai yang sama.

* `tf.range(10)`: Akan menghasilkan `tf.Tensor` dengan nilai `[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]` dan `dtype` *default* `tf.int32` atau `tf.int64` tergantung pada arsitektur sistem.
* `tf.constant(np.arange(10))`: `np.arange(10)` akan menghasilkan *NumPy array* dengan nilai `[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]` dan `dtype` *default* `int64` (untuk sebagian besar sistem). Ketika ini dikonversi ke `tf.constant()`, TensorFlow akan membuat `tf.Tensor` dengan nilai yang sama, tetapi *dtype*-nya akan menjadi `tf.int64` karena *NumPy array* sumbernya adalah `int64`.

Perbedaan utama ada pada `dtype` bawaan. NumPy menggunakan presisi 64-bit secara *default*, sedangkan TensorFlow cenderung menggunakan 32-bit untuk *neural network* karena alasan performa.

**Kapan Menggunakan Fungsi atau Subclass untuk *Custom Loss Function***:

* **Menggunakan Fungsi:**
    * Ketika *loss function* tidak memiliki *hyperparameter* yang perlu disimpan. Fungsi sederhana yang menerima `y_true` dan `y_pred` sebagai argumen sudah cukup.
    * Untuk kesederhanaan dan kemudahan implementasi. Ini adalah cara tercepat untuk membuat *custom loss* jika tidak ada persyaratan tambahan.
    * Ketika *loss* dihitung hanya berdasarkan *label* dan *prediksi*.
    * **Contoh:**
        ```python
        def huber_fn(y_true, y_pred):
            error = y_true - y_pred
            is_small_error = tf.abs(error) < 1
            squared_loss = tf.square(error) / 2
            linear_loss = tf.abs(error) - 0.5
            return tf.where(is_small_error, squared_loss, linear_loss)
        ```
        Untuk menyimpan model dengan fungsi ini, Anda perlu menyediakan kamus yang memetakan nama fungsi ke fungsi sebenarnya saat memuat model:
        ```python
        model = keras.models.load_model("my_model_with_a_custom_loss.h5",
                                        custom_objects={"huber_fn": huber_fn})
        ```
        Jika *loss function* perlu dikonfigurasi (misalnya, dengan *threshold*), Anda bisa membuat fungsi pembungkus:
        ```python
        def create_huber(threshold=1.0):
            def huber_fn(y_true, y_pred):
                error = y_true - y_pred
                is_small_error = tf.abs(error) < threshold
                squared_loss = tf.square(error) / 2
                linear_loss = threshold * tf.abs(error) - self.threshold**2 / 2
                return tf.where(is_small_error, squared_loss, linear_loss)
            return huber_fn
        ```
        Namun, *threshold* tidak akan disimpan dengan model, sehingga perlu ditentukan ulang saat memuat:
        ```python
        model = keras.models.load_model("my_model_with_a_custom_loss_threshold_2.h5",
                                        custom_objects={"huber_fn": create_huber(2.0)})
        ```
* **Mensubklaskan `keras.losses.Loss`:**
    * Ketika *loss function* memiliki *hyperparameter* yang perlu disimpan bersama model. Dengan mengimplementasikan metode `get_config()`, *hyperparameter* ini akan otomatis disimpan dan dimuat.
    * Ketika Anda ingin *loss* menjadi portabel ke implementasi Keras lainnya. Meskipun API Keras saat ini hanya secara eksplisit menentukan *subclassing* untuk *layer*, *model*, *callback*, dan *regularizer*, ada kemungkinan akan diperbarui untuk semua komponen.
    * Ketika Anda membutuhkan kontrol lebih atas inisialisasi atau perilaku internal.
    * **Contoh:**
        ```python
        class HuberLoss(keras.losses.Loss):
            def __init__(self, threshold=1.0, **kwargs):
                self.threshold = threshold
                super().__init__(**kwargs)

            def call(self, y_true, y_pred):
                error = y_true - y_pred
                is_small_error = tf.abs(error) < self.threshold
                squared_loss = tf.square(error) / 2
                linear_loss = self.threshold * tf.abs(error) - self.threshold**2 / 2
                return tf.where(is_small_error, squared_loss, linear_loss)

            def get_config(self):
                base_config = super().get_config()
                return {**base_config, "threshold": self.threshold}
        ```
        Model dapat dikompilasi dengan *loss* ini:
        ```python
        model.compile(loss=HuberLoss(2.), optimizer="nadam")
        ```
        Saat memuat model, Anda hanya perlu memetakan nama kelas ke kelas itu sendiri:
        ```python
        model = keras.models.load_model("my_model_with_a_custom_loss_class.h5",
                                        custom_objects={"HuberLoss": HuberLoss})
        ```

**Kapan Menggunakan Fungsi atau Subclass untuk *Custom Metric***:

* **Menggunakan Fungsi:**
    * Ketika metrik dapat dihitung sebagai rata-rata dari hasil setiap *batch*. Keras secara otomatis akan menghitung rata-rata metrik yang dikembalikan oleh fungsi untuk setiap *batch* selama *epoch*.
    * Jika metrik tidak perlu mempertahankan *state* di seluruh *batch* (bukan *streaming metric*). Contohnya adalah *Mean Squared Error* (MSE) atau *Mean Absolute Error* (MAE) sebagai metrik, yang dapat dihitung rata-ratanya secara langsung.
    * **Contoh (menggunakan `create_huber` sebagai metrik):**
        ```python
        model.compile(loss="mse", optimizer="nadam", metrics=[create_huber(2.0)])
        ```
        Di sini, `create_huber(2.0)` akan dipanggil untuk setiap *batch*, dan Keras akan melacak rata-rata *Huber loss* selama *epoch*.

* **Mensubklaskan `keras.metrics.Metric`:**
    * Ketika metrik adalah "streaming metric" (atau *stateful metric*) yang perlu memperbarui *state*-nya di seluruh *batch* dan menghitung hasil akhir berdasarkan *state* akumulatif. Contoh klasik adalah *precision*, di mana rata-rata *precision* per *batch* tidak memberikan hasil yang benar untuk *precision* keseluruhan. Anda perlu melacak *true positives* dan *false positives* secara kumulatif.
    * Ketika metrik memiliki *hyperparameter* yang perlu disimpan bersama model. Mirip dengan *custom loss*, metode `get_config()` memungkinkan penyimpanan *hyperparameter*.
    * Ketika Anda ingin mengontrol bagaimana *state* metrik diperbarui (`update_state`) dan bagaimana hasil akhir dihitung (`result`).
    * **Contoh:**
        ```python
        class HuberMetric(keras.metrics.Metric):
            def __init__(self, threshold=1.0, **kwargs):
                super().__init__(**kwargs) # handles base args (e.g., dtype)
                self.threshold = threshold
                self.huber_fn = create_huber(threshold)
                self.total = self.add_weight("total", initializer="zeros")
                self.count = self.add_weight("count", initializer="zeros")

            def update_state(self, y_true, y_pred, sample_weight=None):
                metric = self.huber_fn(y_true, y_pred)
                self.total.assign_add(tf.reduce_sum(metric))
                self.count.assign_add(tf.cast(tf.size(y_true), tf.float32))

            def result(self):
                return self.total / self.count

            def get_config(self):
                base_config = super().get_config()
                return {**base_config, "threshold": self.threshold}
        ```
        Dalam kelas ini, `update_state` melacak total *Huber loss* dan jumlah *instance*, dan `result` menghitung rata-ratanya.

**Kapan Membuat *Custom Layer* versus *Custom Model***:

* **Membuat *Custom Layer* (`keras.layers.Layer`):**
    * Ketika Anda ingin membuat blok bangunan yang dapat digunakan kembali dalam model. *Layer* adalah unit komputasi dasar dalam jaringan saraf. Contohnya termasuk *layer* Dense, Convolutional, Batch Normalization, atau bahkan blok *layer* yang sering diulang.
    * Ketika *layer* tersebut tidak memiliki *fit()*, *evaluate()*, atau *predict()* metodenya sendiri. *Layer* beroperasi pada *tensor* input dan menghasilkan *tensor* output.
    * Ketika Anda ingin mengelola *weight* dan *state* tertentu dalam operasi komputasi. Metode `build()` digunakan untuk membuat *weight* *layer*.
    * **Contoh:** Implementasi sederhana dari *layer* Dense, atau *layer* yang menambahkan *Gaussian noise*.
        ```python
        class MyDense(keras.layers.Layer):
            def __init__(self, units, activation=None, **kwargs):
                super().__init__(**kwargs)
                self.units = units
                self.activation = keras.activations.get(activation)

            def build(self, batch_input_shape):
                self.kernel = self.add_weight(
                    name="kernel", shape=[batch_input_shape[-1], self.units],
                    initializer="glorot_normal")
                self.bias = self.add_weight(
                    name="bias", shape=[self.units], initializer="zeros")
                super().build(batch_input_shape)

            def call(self, X):
                return self.activation(X @ self.kernel + self.bias)

            def compute_output_shape(self, batch_input_shape):
                return tf.TensorShape(batch_input_shape.as_list()[:-1] + [self.units])

            def get_config(self):
                base_config = super().get_config()
                return {**base_config, "units": self.units,
                        "activation": keras.activations.serialize(self.activation)}
        ```

* **Membuat *Custom Model* (`keras.Model`):**
    * Ketika Anda ingin membangun arsitektur jaringan saraf secara keseluruhan, yang memiliki metode *training*, *evaluation*, dan *prediction* sendiri. `keras.Model` adalah kelas yang lebih tinggi yang mengumpulkan *layer* menjadi model yang dapat dilatih.
    * Ketika model memiliki arsitektur yang kompleks, seperti *multiple inputs*, *multiple outputs*, atau *skip connections*, atau *loops* yang sulit direpresentasikan dengan API Sequential atau Functional saja.
    * Ketika Anda perlu menambahkan *loss* atau *metric* berdasarkan internal model, bukan hanya *output* dan *label*. Model memiliki metode `add_loss()` dan `add_metric()`.
    * **Contoh:** Model *Regressor* dengan blok residual, atau model dengan *auxiliary output* dan *reconstruction loss*.
        ```python
        class ResidualBlock(keras.layers.Layer):
            def __init__(self, n_layers, n_neurons, **kwargs):
                super().__init__(**kwargs)
                self.hidden = [keras.layers.Dense(n_neurons, activation="elu",
                                                  kernel_initializer="he_normal")
                               for _ in range(n_layers)]
            def call(self, inputs):
                Z = inputs
                for layer in self.hidden:
                    Z = layer(Z)
                return inputs + Z

        class ResidualRegressor(keras.Model):
            def __init__(self, output_dim, **kwargs):
                super().__init__(**kwargs)
                self.hidden1 = keras.layers.Dense(30, activation="elu",
                                                  kernel_initializer="he_normal")
                self.block1 = ResidualBlock(2, 30)
                self.block2 = ResidualBlock(2, 30)
                self.out = keras.layers.Dense(output_dim)

            def call(self, inputs):
                Z = self.hidden1(inputs)
                for _ in range(1 + 3): # 1 initial + 3 additional applications
                    Z = self.block1(Z)
                Z = self.block2(Z)
                return self.out(Z)
        ```
        Secara umum, bedakan antara komponen internal yang dapat digunakan kembali (*layer*) dari model yang akan Anda latih (*model*).

**Kasus Penggunaan yang Membutuhkan Penulisan *Custom Training Loop***:

Meskipun metode `fit()` Keras sangat fleksibel dan mencakup sebagian besar kasus penggunaan, ada beberapa skenario langka di mana Anda mungkin perlu menulis *custom training loop* Anda sendiri:

* **Penggunaan *Optimizer* Berbeda untuk Bagian Jaringan yang Berbeda:** Beberapa arsitektur model canggih, seperti model *Wide & Deep*, menggunakan *optimizer* yang berbeda untuk bagian *wide* dan *deep* dari jaringan. Karena metode `fit()` hanya menggunakan satu *optimizer* yang ditentukan saat kompilasi model, hal ini memerlukan *custom training loop*.
* **Transformasi atau Batasan *Gradient* yang Spesial:** Jika Anda perlu menerapkan transformasi atau batasan yang kompleks pada *gradient* (selain *clipping* sederhana) sebelum menerapkannya ke *weight* model, *custom training loop* memberikan kontrol yang diperlukan.
* **Kontrol Penuh atas Proses *Training*:** Terkadang, *developer* mungkin ingin memiliki kendali eksplisit atas setiap langkah dalam *training loop* untuk memahami secara pasti apa yang terjadi atau untuk tujuan *debugging* yang mendalam, meskipun ini membuat kode lebih panjang dan rentan kesalahan.
* **Penggunaan *Loss Function* atau Metrik yang Sangat Kompleks dan Interaktif:** Meskipun `add_loss()` dan `add_metric()` sudah sangat fleksibel, ada kemungkinan kasus di mana Anda perlu kontrol lebih lanjut atas bagaimana *loss* atau metrik dihitung dan diintegrasikan ke dalam proses *training*, terutama jika mereka bergantung pada interaksi yang tidak standar antar komponen model.
* **Penyesuaian Aliran Data dan *Sampling* yang Sangat Spesifik:** Meskipun `tf.data` sangat kuat, jika Anda memiliki kebutuhan *sampling* atau *preprocessing* data yang sangat spesifik dan non-standar yang tidak dapat dengan mudah diakomodasi oleh API *data* Keras, *custom training loop* memungkinkan integrasi logika tersebut secara langsung.

**Komponen Keras Kustom dan Kode Python Arbitrer vs. TF Functions**:

Secara umum, **komponen Keras kustom (seperti fungsi *loss*, metrik, *layer*, atau *model*) harus dapat dikonversi ke TF Functions**. Ini berarti bahwa kode di dalamnya harus ditulis menggunakan operasi TensorFlow (`tf.`) sebanyak mungkin, dan menghindari penggunaan *library* Python eksternal (seperti NumPy) jika operasinya dimaksudkan untuk menjadi bagian dari *computation graph*.

**Mengapa demikian?**
* **Performa:** TF Functions mengonversi kode Python menjadi *computation graph* yang dapat dioptimalkan dan dijalankan dengan sangat efisien oleh TensorFlow, terutama di GPU atau TPU. Jika kode Python arbitrer (non-TensorFlow) disertakan, TensorFlow tidak dapat mengoptimalkan bagian tersebut, yang dapat menghambat performa.
* **Portabilitas:** *Computation graph* TensorFlow dapat diekspor dan dijalankan di berbagai platform (misalnya, Android, iOS, *browser*, server) tanpa Python. Jika ada kode Python arbitrer, portabilitas akan berkurang karena platform target harus memiliki Python dan *library* yang relevan terinstal.
* **Automatic Graph Generation (AutoGraph):** Keras secara otomatis mengonversi fungsi Python Anda menjadi TF Functions ketika Anda menggunakannya dalam model. Proses ini, yang disebut AutoGraph, menganalisis kode sumber Python dan mengganti *control flow statement* (seperti `for` *loop* dan `if` *statement*) dengan operasi TensorFlow yang setara. Jika ada kode yang tidak dapat di-*parse* atau dikonversi oleh AutoGraph, hal itu dapat menyebabkan kesalahan atau fungsionalitas yang terbatas.
* **Side Effects:** *Side effects* dari kode Python non-TensorFlow (seperti *logging* atau memperbarui *counter* Python) hanya akan terjadi saat fungsi di-*trace* (yaitu, saat *graph* dibangun), bukan setiap kali TF Function dipanggil.

**Namun, ada beberapa pengecualian atau skenario di mana kode Python arbitrer dapat muncul:**
* **Selama Tahap Tracing:** Kode Python yang tidak berbasis TensorFlow akan dieksekusi selama tahap *tracing* (yaitu, saat *computation graph* dibuat), tetapi tidak akan menjadi bagian dari *graph* yang dieksekusi selanjutnya. Ini berguna jika Anda menggunakan Python untuk tujuan membangun *graph* itu sendiri (misalnya, menentukan arsitektur model berdasarkan parameter Python).
* **Menggunakan `tf.py_function()`:** Anda dapat secara eksplisit membungkus kode Python arbitrer dalam operasi `tf.py_function()`. Namun, ini akan mengorbankan performa dan portabilitas karena TensorFlow tidak dapat mengoptimalkan bagian kode ini dan memerlukan Python di lingkungan eksekusi.

**Aturan Utama untuk Fungsi yang Dapat Dikonversi ke TF Function**:

Agar fungsi Python Anda dapat dikonversi dengan lancar menjadi TF Function oleh AutoGraph, ikuti aturan berikut:

1.  **Gunakan Operasi TensorFlow:** Gunakan operasi TensorFlow (`tf.`) sebanyak mungkin untuk komputasi Anda (misalnya, `tf.reduce_sum()` alih-alih `np.sum()`, `tf.sort()` alih-alih `sorted()`). Kode yang memanggil *library* eksternal atau standar Python hanya akan berjalan selama *tracing* dan tidak akan menjadi bagian dari *graph*.
2.  **Perhatikan Efek Samping (Side Effects):** Efek samping dari kode Python non-TensorFlow (misalnya, *logging*, memperbarui *counter* Python) hanya akan terjadi saat fungsi di-*trace* (yaitu, saat *graph* dibangun), bukan setiap kali TF Function dipanggil.
3.  **Memanggil Fungsi Lain:** Anda dapat memanggil fungsi Python atau TF Function lain, tetapi mereka juga harus mengikuti aturan yang sama, karena TensorFlow akan menangkap operasi mereka dalam *computation graph*. Fungsi lain ini tidak perlu dihiasi dengan `@tf.function`.
4.  **Pembuatan Variabel:** Jika fungsi membuat `tf.Variable` (atau objek TensorFlow *stateful* lainnya seperti *dataset* atau *queue*), itu harus dilakukan pada panggilan pertama dan hanya sekali itu saja. Jika tidak, Anda akan mendapatkan *exception*. Sebaiknya buat *variabel* di luar TF Function (misalnya, di metode `build()` dari *custom layer*).
5.  **Penugasan Variabel:** Saat menetapkan nilai baru ke variabel TensorFlow, selalu gunakan metode `assign()` variabel tersebut (misalnya, `variable.assign(new_value)`) daripada operator penugasan Python (`=`).
6.  **Ketersediaan Kode Sumber:** Kode sumber fungsi Python Anda harus tersedia untuk TensorFlow. Jika tidak tersedia (misalnya, jika didefinisikan di *Python shell* atau hanya menyebarkan file `.pyc`), proses pembuatan *graph* mungkin gagal atau fungsionalitasnya terbatas.
7.  **Loop Iterasi Tensor/Dataset:** TensorFlow hanya akan menangkap *for loop* yang berulang melalui *tensor* atau *dataset* (`tf.range()`). Gunakan `for i in tf.range(x)` daripada `for i in range(x)`, atau *loop* tidak akan ditangkap dalam *graph* dan hanya akan berjalan selama *tracing*.
8.  **Vektorisasi:** Untuk alasan performa, selalu pilih implementasi *vectorized* daripada menggunakan *loop* jika memungkinkan.

**Kapan Anda Perlu Membuat *Dynamic Keras Model*? Bagaimana Caranya? Mengapa Tidak Semua Model Dibuat Dinamis?**:

**Kapan Anda Perlu Membuat *Dynamic Keras Model*?**
Secara *default*, Keras secara otomatis mengonversi fungsi Python Anda (termasuk *custom layer*, *loss*, dan *model*) menjadi TF Functions, yang menghasilkan *computation graph* statis. Ini bagus untuk performa dan portabilitas. Namun, ada kasus di mana *graph* statis mungkin tidak cukup:

* **Logika Kondisional atau *Loop* yang Bergantung pada Data:** Jika logika model Anda (misalnya, arsitektur yang berubah, jumlah *layer* yang bergantung pada input) sangat bergantung pada nilai data aktual (bukan hanya *shape* atau *dtype*), *graph* statis mungkin tidak dapat menanganinya karena *graph* dibuat sebelum data aktual dieksekusi.
* ***Debugging* Eagerly:** Saat mengembangkan dan melakukan *debugging*, mode *eager execution* (di mana operasi dieksekusi segera tanpa membangun *graph*) seringkali lebih mudah karena Anda bisa menggunakan *debugger* Python standar. Membuat model dinamis secara efektif membuat Keras beroperasi dalam mode *eager*.
* **Operasi Python Arbitrer yang Tidak Dapat Dikonversi:** Meskipun tidak direkomendasikan untuk performa atau portabilitas, jika Anda memiliki kebutuhan yang sangat spesifik untuk menjalankan kode Python arbitrer (non-TensorFlow) yang tidak dapat dibungkus dalam `tf.py_function()` di dalam *forward pass* model Anda, model dinamis mungkin satu-satunya cara.

**Bagaimana Anda Membuat *Dynamic Keras Model*?**
Ada dua cara utama untuk mencegah Keras mengonversi fungsi Python Anda ke TF Functions dan memaksa mode *eager execution*:

1.  **Set `dynamic=True` Saat Membuat *Custom Layer* atau *Custom Model*:**
    Jika Anda membuat *custom layer* atau *custom model* dengan mensubklaskan `keras.layers.Layer` atau `keras.Model`, Anda bisa meneruskan `dynamic=True` di konstruktor:
    ```python
    class MyDynamicLayer(keras.layers.Layer):
        def __init__(self, **kwargs):
            super().__init__(dynamic=True, **kwargs)
            # ...

        def call(self, inputs):
            # Logika yang mungkin bergantung pada nilai data aktual
            # atau mencakup operasi Python non-TensorFlow
            pass

    class MyDynamicModel(keras.Model):
        def __init__(self, **kwargs):
            super().__init__(dynamic=True, **kwargs)
            # ...

        def call(self, inputs):
            # ...
            pass
    ```
2.  **Set `run_eagerly=True` Saat Memanggil Metode `compile()` Model:**
    Ini adalah cara yang lebih umum untuk membuat seluruh model (termasuk *layer* bawaan Keras dan *custom component*) berjalan dalam mode *eager*:
    ```python
    model = keras.Sequential([...])
    model.compile(loss="mse", optimizer="adam", run_eagerly=True)
    ```
    Ketika `run_eagerly=True` diatur, Keras tidak akan membangun *graph* komputasi untuk *forward pass* dan *backward pass*, melainkan akan mengeksekusi operasi secara langsung.

**Mengapa Tidak Membuat Semua Model Dinamis?**
Meskipun model dinamis memberikan fleksibilitas tambahan, ada beberapa alasan kuat mengapa Anda tidak boleh membuat semua model Anda dinamis kecuali memang diperlukan:

* **Penurunan Performa yang Signifikan:** Ini adalah alasan utama. TF Functions (dan *graph* yang mendasarinya) dioptimalkan secara signifikan untuk kecepatan dan penggunaan memori. Mereka dapat menjalankan operasi secara paralel, melakukan *pruning* node yang tidak terpakai, dan menyederhanakan ekspresi. Mode *eager execution* jauh lebih lambat karena setiap operasi dieksekusi secara individual, dengan *overhead* Python yang lebih tinggi.
* **Kurangnya Portabilitas:** Model dinamis tidak dapat dengan mudah diekspor ke format portabel (seperti SavedModel yang dapat dijalankan oleh TensorFlow Lite atau TensorFlow.js) karena mereka bergantung pada eksekusi kode Python.
* **Kesulitan Debugging Gradien:** Meskipun *debugging* kode Python lebih mudah dalam mode *eager*, *debugging* masalah yang terkait dengan *gradient* (misalnya, *gradient* menjadi `None` atau `NaN`) bisa menjadi lebih sulit tanpa manfaat dari *graph* yang dioptimalkan dan fitur *autodiff* bawaan TensorFlow.
* **Peningkatan Penggunaan Memori:** Membuat *graph* baru untuk setiap set *input shape* dan *dtype* yang berbeda saat menggunakan nilai Python numerik sebagai argumen dapat menyebabkan banyak *graph* dihasilkan, yang menghabiskan banyak RAM.

Singkatnya, gunakan model dinamis hanya ketika *fit()* tidak cukup fleksibel untuk kebutuhan spesifik Anda, seperti *debugging* atau logika *control flow* yang sangat bergantung pada nilai data. Untuk sebagian besar kasus, model non-dinamis (berbasis *graph*) adalah pilihan yang lebih baik karena performa, portabilitas, dan kemudahan penggunaan yang disediakan oleh Keras dan TensorFlow.

**Implementasi *Custom Layer* Normalisasi *Layer***

Berikut adalah implementasi *custom layer* Layer Normalization, yang membandingkannya dengan `keras.layers.LayerNormalization` untuk memverifikasi hasilnya:

```python
import tensorflow as tf
from tensorflow import keras
import numpy as np

class MyLayerNormalization(keras.layers.Layer):
    def __init__(self, epsilon=0.001, **kwargs):
        super().__init__(**kwargs)
        self.epsilon = epsilon # smoothing term to avoid division by zero

    def build(self, batch_input_shape):
        # a (gamma) should be initialized with 1s
        self.alpha = self.add_weight(
            name="alpha",
            shape=batch_input_shape[-1:], # Shape should match the last dimension of inputs
            initializer="ones"
        )
        # b (beta) should be initialized with 0s
        self.beta = self.add_weight(
            name="beta",
            shape=batch_input_shape[-1:], # Shape should match the last dimension of inputs
            initializer="zeros"
        )
        super().build(batch_input_shape) # Must be at the end

    def call(self, inputs):
        # Compute mean and standard deviation of each instance's features
        # axes=-1 means normalize over the last axis (features axis)
        # keepdims=True ensures the output shape allows for broadcasting
        mean, variance = tf.nn.moments(inputs, axes=-1, keepdims=True)
        std_dev = tf.sqrt(variance + self.epsilon)

        # Compute and return alpha * (X - mu) / (sigma + epsilon) + beta
        return self.alpha * (inputs - mean) / std_dev + self.beta

    def compute_output_shape(self, batch_input_shape):
        # Layer Normalization preserves the input shape
        return batch_input_shape

    def get_config(self):
        base_config = super().get_config()
        return {**base_config, "epsilon": self.epsilon}

# Verifikasi dengan membandingkan dengan keras.layers.LayerNormalization
# Buat data dummy
X = tf.constant(np.random.rand(2, 5).astype(np.float32)) # Batch size 2, 5 features

# Buat instance custom layer
my_norm = MyLayerNormalization()
my_output = my_norm(X)

# Buat instance Keras LayerNormalization
keras_norm = keras.layers.LayerNormalization()
keras_output = keras_norm(X)

print("Input X:\n", X.numpy())
print("\nOutput dari MyLayerNormalization:\n", my_output.numpy())
print("\nOutput dari Keras LayerNormalization:\n", keras_output.numpy())

# Periksa apakah hasilnya sangat mirip
np.testing.assert_allclose(my_output.numpy(), keras_output.numpy(), rtol=1e-5, atol=1e-5)
print("\nVerifikasi berhasil: Output dari custom layer sangat mirip dengan Keras LayerNormalization.")

# Output contoh:
# Input X:
#  [[0.34217143 0.2831874  0.03859665 0.3297598  0.06553835]
#  [0.8521035  0.7224213  0.22384666 0.1508216  0.6427328 ]]
#
# Output dari MyLayerNormalization:
#  [[-0.04655648 -0.3204936  -1.5034606   0.26462746 -1.2131175 ]
#  [ 1.1077757   0.5510659  -1.050672    1.3323143  -0.9404838 ]]
#
# Output dari Keras LayerNormalization:
#  [[-0.0465564  -0.3204935  -1.5034604   0.26462746 -1.2131175 ]
#  [ 1.1077757   0.551066   -1.050672    1.3323143  -0.9404838 ]]
#
# Verifikasi berhasil: Output dari custom layer sangat mirip dengan Keras LayerNormalization.
```

**Penjelasan Kode:**
* **`__init__(self, epsilon=0.001, **kwargs)`:**
    * Konstruktor menginisialisasi `epsilon`, sebuah konstanta kecil untuk menghindari pembagian dengan nol saat menghitung deviasi standar.
    * `super().__init__(**kwargs)` memanggil konstruktor kelas induk `keras.layers.Layer` untuk menangani argumen standar seperti `name` atau `dtype`.
* **`build(self, batch_input_shape)`:**
    * Metode ini dipanggil saat *layer* pertama kali digunakan dan bentuk input diketahui.
    * `self.alpha` (sering disebut *gamma*) dan `self.beta` adalah *weight* yang dapat dilatih oleh *layer*. `add_weight()` digunakan untuk mendaftarkan *variabel* ini dengan Keras.
    * `shape=batch_input_shape[-1:]` mengatur *shape* *weight* agar sesuai dengan dimensi fitur terakhir dari input (misalnya, jika input adalah `(batch_size, num_features)`, *shape* akan menjadi `(num_features,)`).
    * `alpha` diinisialisasi dengan satu dan `beta` dengan nol.
    * `super().build(batch_input_shape)` harus dipanggil di akhir metode ini untuk memberi tahu Keras bahwa *layer* sudah dibuat (`self.built=True`).
* **`call(self, inputs)`:**
    * Metode ini mendefinisikan *forward pass* dari *layer*.
    * `tf.nn.moments(inputs, axes=-1, keepdims=True)` menghitung *mean* ($\mu$) dan *variance* ($\sigma^2$) dari *feature* setiap *instance* di sepanjang sumbu terakhir (`axes=-1`). `keepdims=True` memastikan *shape output* mempertahankan dimensi yang dihilangkan sebagai `1`, yang penting untuk *broadcasting*.
    * Deviasi standar ($\sigma$) dihitung dari *variance*, dengan menambahkan `epsilon` untuk stabilitas numerik.
    * Rumus normalisasi *layer* diterapkan: $\alpha \otimes (X - \mu) / (\sigma + \epsilon) + \beta$. Di sini $\otimes$ menunjukkan perkalian *element-wise*.
* **`compute_output_shape(self, batch_input_shape)`:**
    * Untuk Normalisasi *Layer*, *shape output* sama dengan *shape input*.
    * Keras seringkali dapat menyimpulkan bentuk *output* secara otomatis, tetapi menyediakannya secara eksplisit dapat membantu dalam kasus tertentu atau implementasi Keras lainnya.
* **`get_config(self)`:**
    * Metode ini memungkinkan *hyperparameter* *layer* (`epsilon`) untuk disimpan dan dimuat bersama dengan model.

**Melatih Model Menggunakan *Custom Training Loop* untuk Dataset Fashion MNIST**:

Pertama, siapkan dataset Fashion MNIST dan preprocess:

```python
import tensorflow as tf
from tensorflow import keras
import numpy as np

# Muat dan siapkan dataset Fashion MNIST
(X_train_full, y_train_full), (X_test, y_test) = keras.datasets.fashion_mnist.load_data()
X_train_full = X_train_full / 255.0
X_test = X_test / 255.0

# Pisahkan dataset menjadi training dan validation
X_valid, X_train = X_train_full[:5000], X_train_full[5000:]
y_valid, y_train = y_train_full[:5000], y_train_full[5000:]

# Flatten gambar
X_train_scaled = X_train.reshape(-1, 28 * 28).astype(np.float32)
X_valid_scaled = X_valid.reshape(-1, 28 * 28).astype(np.float32)
X_test_scaled = X_test.reshape(-1, 28 * 28).astype(np.float32)

# Buat model sederhana
model = keras.Sequential([
    keras.layers.Dense(256, activation="relu", input_shape=[28 * 28]),
    keras.layers.Dense(128, activation="relu"),
    keras.layers.Dense(10, activation="softmax")
])

# Fungsi untuk mengambil batch acak
def random_batch(X, y, batch_size=32):
    idx = np.random.randint(len(X), size=batch_size)
    return X[idx], y[idx]

# Fungsi untuk menampilkan status bar (disederhanakan dari buku)
def print_status_bar(iteration, total, loss, metrics=None):
    metrics_str = " - ".join(["{}: {:.4f}".format(m.name, m.result())
                              for m in [loss] + (metrics or [])])
    end = "" if iteration < total else "\n"
    print(f"\r{iteration}/{total} - {metrics_str}", end=end)

# Definisikan hyperparameter dan komponen training
n_epochs = 10
batch_size = 32
n_steps_per_epoch = len(X_train_scaled) // batch_size
learning_rate = 0.01

optimizer = keras.optimizers.Nadam(learning_rate=learning_rate)
loss_fn = keras.losses.SparseCategoricalCrossentropy() # Untuk klasifikasi, label int
mean_loss = keras.metrics.Mean(name="mean_loss")
mean_accuracy = keras.metrics.SparseCategoricalAccuracy(name="mean_accuracy")

# Loop training kustom
for epoch in range(1, n_epochs + 1):
    print(f"Epoch {epoch}/{n_epochs}")
    for step in range(1, n_steps_per_epoch + 1):
        X_batch, y_batch = random_batch(X_train_scaled, y_train)

        with tf.GradientTape() as tape:
            y_pred = model(X_batch, training=True)
            main_loss = loss_fn(y_batch, y_pred)
            loss = tf.add_n([main_loss] + model.losses) # Tambahkan regularization losses jika ada

        gradients = tape.gradient(loss, model.trainable_variables)
        optimizer.apply_gradients(zip(gradients, model.trainable_variables))

        # Update metrics for training
        mean_loss(loss)
        mean_accuracy(y_batch, y_pred)

        # Tampilkan status bar
        print_status_bar(step, n_steps_per_epoch, mean_loss, [mean_accuracy])

    # Di akhir epoch, hitung validasi loss dan accuracy
    # Reset state metrics training sebelum validasi (opsional, tergantung keinginan)
    # mean_loss.reset_states()
    # mean_accuracy.reset_states()

    # Hitung validasi loss dan accuracy
    val_loss = keras.metrics.Mean(name="val_loss")
    val_accuracy = keras.metrics.SparseCategoricalAccuracy(name="val_accuracy")

    # Iterate over validation set in batches
    n_valid_steps = len(X_valid_scaled) // batch_size
    for val_step in range(1, n_valid_steps + 1):
        X_val_batch, y_val_batch = random_batch(X_valid_scaled, y_valid, batch_size)
        y_val_pred = model(X_val_batch) # training=False by default for model()
        val_main_loss = loss_fn(y_val_batch, y_val_pred)
        val_loss(val_main_loss)
        val_accuracy(y_val_batch, y_val_pred)

    # Tampilkan hasil akhir epoch termasuk validasi
    print_status_bar(n_steps_per_epoch, n_steps_per_epoch, mean_loss,
                     [mean_accuracy, val_loss, val_accuracy])

    # Reset metrics untuk epoch berikutnya
    mean_loss.reset_states()
    mean_accuracy.reset_states()
    val_loss.reset_states()
    val_accuracy.reset_states()
```

**Penjelasan Kode *Custom Training Loop*:**
* **Persiapan Data dan Model:** Memuat dataset Fashion MNIST, melakukan *preprocessing* dasar (normalisasi dan *flattening*), dan mendefinisikan model Sequential sederhana.
* **`random_batch()`:** Fungsi pembantu untuk mengambil *batch* data pelatihan secara acak.
* **`print_status_bar()`:** Fungsi untuk menampilkan *progress training* pada satu baris.
* **Definisi Hyperparameter dan Komponen Training:** Menentukan jumlah *epoch*, ukuran *batch*, *optimizer* (`Nadam`), fungsi *loss* (`SparseCategoricalCrossentropy` karena label adalah bilangan bulat), dan *metrics* (`Mean` untuk *loss* rata-rata, `SparseCategoricalAccuracy` untuk *accuracy* rata-rata).
* **Loop Epoch:** Iterasi melalui setiap *epoch*.
* **Loop Step (Batch):** Iterasi melalui setiap *batch* dalam satu *epoch*.
    * **Pengambilan *Batch*:** Mengambil *batch* acak dari data pelatihan.
    * **`tf.GradientTape()`:** Digunakan untuk merekam operasi yang melibatkan *variabel* yang dapat dilatih untuk perhitungan *gradient* otomatis.
    * **Forward Pass:** Model dipanggil dengan *batch* input (`model(X_batch, training=True)`). `training=True` penting untuk *layer* yang berperilaku berbeda selama pelatihan (misalnya, `Dropout`, `BatchNormalization`).
    * **Perhitungan *Loss*:** *Main loss* dihitung menggunakan `loss_fn`. Jika ada *regularization loss* dari *layer* (seperti `kernel_regularizer` dalam model), mereka ditambahkan ke *main loss* menggunakan `tf.add_n()` dan `model.losses`.
    * **Perhitungan *Gradient*:** `tape.gradient()` menghitung *gradient* dari *loss* terhadap semua *variabel* model yang dapat dilatih (`model.trainable_variables`).
    * **Penerapan *Gradient*:** `optimizer.apply_gradients()` menggunakan *gradient* untuk memperbarui *weight* model. `zip()` digunakan untuk memasangkan *gradient* dengan *variabel* yang sesuai.
    * **Pembaruan Metrik:** Metrik `mean_loss` dan `mean_accuracy` diperbarui dengan hasil *batch* saat ini.
    * **Tampilan Status:** `print_status_bar()` menampilkan *progress training*.
* **Validasi (Akhir Epoch):**
    * Setelah loop *training* *batch* selesai, *loss* dan *accuracy* validasi dihitung dengan cara yang sama.
    * `model(X_val_batch)` secara *default* akan berjalan dalam mode *inference* (setara dengan `training=False`).
    * Hasil validasi ditampilkan di *status bar*.
* **Reset Metrik:** *State* dari semua metrik direset di akhir setiap *epoch* agar dapat menghitung metrik baru untuk *epoch* berikutnya.

**Mencoba *Optimizer* Berbeda dengan *Learning Rate* Berbeda untuk *Upper* dan *Lower Layers***:

Ini adalah skenario yang memerlukan *custom training loop* karena `model.compile()` hanya mendukung satu *optimizer*. Untuk mengimplementasikan ini, kita perlu membagi *variabel* yang dapat dilatih model menjadi kelompok *upper layer* dan *lower layer* dan menerapkan *optimizer* terpisah untuk setiap kelompok.

```python
import tensorflow as tf
from tensorflow import keras
import numpy as np

# Muat dan siapkan dataset Fashion MNIST (sama seperti sebelumnya)
(X_train_full, y_train_full), (X_test, y_test) = keras.datasets.fashion_mnist.load_data()
X_train_full = X_train_full / 255.0
X_test = X_test / 255.0

X_valid, X_train = X_train_full[:5000], X_train_full[5000:]
y_valid, y_train = y_train_full[:5000], y_train_full[5000:]

X_train_scaled = X_train.reshape(-1, 28 * 28).astype(np.float32)
X_valid_scaled = X_valid.reshape(-1, 28 * 28).astype(np.float32)
X_test_scaled = X_test.reshape(-1, 28 * 28).astype(np.float32)

# Fungsi untuk mengambil batch acak
def random_batch(X, y, batch_size=32):
    idx = np.random.randint(len(X), size=batch_size)
    return X[idx], y[idx]

# Fungsi untuk menampilkan status bar (disederhanakan dari buku)
def print_status_bar(iteration, total, loss, metrics=None):
    metrics_str = " - ".join(["{}: {:.4f}".format(m.name, m.result())
                              for m in [loss] + (metrics or [])])
    end = "" if iteration < total else "\n"
    print(f"\r{iteration}/{total} - {metrics_str}", end=end)

# Buat model (misalnya, dengan 3 Dense layers)
# Kita akan menganggap layer pertama sebagai "lower layer" dan sisanya "upper layers"
model = keras.Sequential([
    keras.layers.Dense(256, activation="relu", input_shape=[28 * 28], name="lower_layer_1"),
    keras.layers.Dense(128, activation="relu", name="upper_layer_1"),
    keras.layers.Dense(10, activation="softmax", name="upper_output_layer")
])

# Pisahkan variabel yang dapat dilatih berdasarkan layer
lower_layers_vars = model.get_layer("lower_layer_1").trainable_variables
upper_layers_vars = []
for layer_name in ["upper_layer_1", "upper_output_layer"]:
    upper_layers_vars.extend(model.get_layer(layer_name).trainable_variables)

print("Lower layer variables:", [v.name for v in lower_layers_vars])
print("Upper layers variables:", [v.name for v in upper_layers_vars])


# Definisikan hyperparameter dan komponen training
n_epochs = 10
batch_size = 32
n_steps_per_epoch = len(X_train_scaled) // batch_size

# Optimizer terpisah dengan learning rate berbeda
lower_optimizer = keras.optimizers.Nadam(learning_rate=0.005) # Lebih kecil untuk lower layers
upper_optimizer = keras.optimizers.Nadam(learning_rate=0.01) # Lebih besar untuk upper layers

loss_fn = keras.losses.SparseCategoricalCrossentropy()
mean_loss = keras.metrics.Mean(name="mean_loss")
mean_accuracy = keras.metrics.SparseCategoricalAccuracy(name="mean_accuracy")

# Loop training kustom
for epoch in range(1, n_epochs + 1):
    print(f"Epoch {epoch}/{n_epochs}")
    for step in range(1, n_steps_per_epoch + 1):
        X_batch, y_batch = random_batch(X_train_scaled, y_train)

        with tf.GradientTape(persistent=True) as tape: # persistent=True karena kita akan memanggil tape.gradient dua kali
            y_pred = model(X_batch, training=True)
            main_loss = loss_fn(y_batch, y_pred)
            loss = tf.add_n([main_loss] + model.losses)

        # Hitung gradient untuk lower layers dan terapkan
        lower_gradients = tape.gradient(loss, lower_layers_vars)
        lower_optimizer.apply_gradients(zip(lower_gradients, lower_layers_vars))

        # Hitung gradient untuk upper layers dan terapkan
        upper_gradients = tape.gradient(loss, upper_layers_vars)
        upper_optimizer.apply_gradients(zip(upper_gradients, upper_layers_vars))

        del tape # Hapus tape setelah digunakan

        # Update metrics for training
        mean_loss(loss)
        mean_accuracy(y_batch, y_pred)

        # Tampilkan status bar
        print_status_bar(step, n_steps_per_epoch, mean_loss, [mean_accuracy])

    # Validasi di akhir epoch (sama seperti sebelumnya)
    val_loss = keras.metrics.Mean(name="val_loss")
    val_accuracy = keras.metrics.SparseCategoricalAccuracy(name="val_accuracy")

    n_valid_steps = len(X_valid_scaled) // batch_size
    for val_step in range(1, n_valid_steps + 1):
        X_val_batch, y_val_batch = random_batch(X_valid_scaled, y_valid, batch_size)
        y_val_pred = model(X_val_batch)
        val_main_loss = loss_fn(y_val_batch, y_val_pred)
        val_loss(val_main_loss)
        val_accuracy(y_val_batch, y_val_pred)

    print_status_bar(n_steps_per_epoch, n_steps_per_epoch, mean_loss,
                     [mean_accuracy, val_loss, val_accuracy])

    mean_loss.reset_states()
    mean_accuracy.reset_states()
    val_loss.reset_states()
    val_accuracy.reset_states()
```

**Penjelasan Perubahan untuk *Multiple Optimizers***:
* **Identifikasi *Trainable Variables*:** Kita perlu mengidentifikasi *variabel* mana yang termasuk dalam "lower layers" dan "upper layers". Di sini, saya memberikan nama pada *layer* Dense di model dan menggunakan `model.get_layer(name).trainable_variables` untuk mendapatkan *variabel* yang terkait.
* **Dua *Optimizer*:** Buat dua *optimizer* terpisah, masing-masing dengan *learning rate* yang berbeda.
* **`tf.GradientTape(persistent=True)`:** Karena kita perlu memanggil `tape.gradient()` lebih dari sekali (satu kali untuk *lower layers* dan satu kali untuk *upper layers*), kita harus mengatur `persistent=True` saat membuat `tf.GradientTape()`. Setelah kedua panggilan `gradient()`, penting untuk menghapus `tape` (`del tape`) untuk membebaskan sumber daya memori.
* **Penerapan *Gradient* Terpisah:**
    * `lower_gradients = tape.gradient(loss, lower_layers_vars)` menghitung *gradient* *loss* hanya terhadap *variabel* *lower layer*.
    * `lower_optimizer.apply_gradients(zip(lower_gradients, lower_layers_vars))` kemudian menerapkan *gradient* ini menggunakan *optimizer* `lower_optimizer`.
    * Proses yang sama diulang untuk *upper layers*.

Dengan pendekatan ini, Anda mendapatkan kontrol granular atas proses *training*, memungkinkan skenario yang tidak didukung secara langsung oleh API `fit()` Keras. Namun, seperti yang disebutkan sebelumnya, kompleksitas dan potensi kesalahan meningkat secara signifikan.