# Bab 10: Introduction to Artificial Neural Networks (Pengenalan Jaringan Saraf Tiruan)

### 1. Pendahuluan

Bab 10 merupakan titik balik penting dalam buku ini, beralih dari model *machine learning* tradisional ke pengantar **Artificial Neural Networks (ANNs)** atau **Jaringan Saraf Tiruan (JST)**, yang merupakan inti dari *Deep Learning*. JST adalah model yang sangat kuat, serbaguna, dan skalabel yang dapat melakukan tugas klasifikasi, regresi, deteksi anomali, dan banyak lagi, terutama pada dataset yang sangat besar dan kompleks.

Bab ini akan membahas:
* Gambaran singkat sejarah JST.
* Bagaimana JST diilhami oleh otak manusia.
* Arsitektur JST populer dan cara menggunakannya dengan Keras (API tingkat tinggi untuk TensorFlow).
* Pelatihan JST dengan *Gradient Descent*.

### 2. Dari Otak Biologis ke Jaringan Saraf Tiruan (From Biological to Artificial Neurons)

Bagian ini memulai dengan membandingkan neuron biologis dengan neuron buatan.

#### a. Neuron Biologis (Biological Neurons)
* Neuron biologis menerima sinyal input melalui **dendrit**.
* Sinyal-sinyal ini diakumulasikan di **soma** (badan sel).
* Ketika akumulasi sinyal mencapai ambang batas tertentu, neuron menembakkan impuls listrik (disebut **potensi aksi**) sepanjang **akson**.
* Akson ini kemudian mentransmisikan sinyal ke neuron lain melalui koneksi yang disebut **sinapsis**. Kekuatan koneksi sinapsis (*synaptic weights*) dapat berubah, yang diyakini sebagai dasar pembelajaran.

#### b. Neuron Buatan (Artificial Neurons)
Neuron buatan adalah model matematika sederhana yang mencoba meniru fungsi dasar neuron biologis.
* Setiap neuron menerima satu atau lebih input, yang dapat berupa nilai fitur atau output dari neuron lain.
* Setiap input dikalikan dengan suatu **bobot (weight)**.
* Hasil perkalian ini dijumlahkan, bersama dengan **bias term**.
* Jumlah ini kemudian dilewatkan melalui **fungsi aktivasi (activation function)**, yang menghasilkan output neuron.

#### c. Model Perseptrons (Perceptron Models)
Perceptron adalah arsitektur JST yang paling sederhana, dikembangkan oleh Frank Rosenblatt pada tahun 1957.
* Sebuah Perceptron terdiri dari satu lapisan neuron buatan (disebut **Threshold Logic Units - TLUs**).
* TLU menghitung jumlah bobot input ($\mathbf{z} = \mathbf{w}^\intercal \mathbf{x} + b$), kemudian menerapkan fungsi *step* (fungsi ambang) untuk menghasilkan output biner (0 atau 1).
* JST Perceptron dapat dilatih dengan **Aturan Pembelajaran Perceptron (Perceptron Learning Rule)**, yang merupakan varian dari *Gradient Descent*. Jika prediksi salah, bobot diatur untuk mengurangi *error*.

**Batasan Perceptron:** Perceptron tidak dapat menyelesaikan masalah yang tidak dapat dipisahkan secara linier (misalnya, masalah XOR). Ini menyebabkan "AI winter" pertama.

#### d. Multi-Layer Perceptrons (MLPs)
*Multi-Layer Perceptron (MLP)** adalah JST yang terdiri dari satu atau lebih lapisan TLU yang disebut **lapisan tersembunyi (hidden layers)**, dan satu lapisan output. Setiap lapisan dihubungkan ke lapisan berikutnya, tetapi tidak ada koneksi di dalam lapisan yang sama atau koneksi kembali (tidak ada *loops*). JST semacam ini disebut **feedforward neural network (FNN)**.
* **Input Layer:** Lapisan tempat data input masuk.
* **Hidden Layers:** Lapisan perantara yang melakukan transformasi non-linier pada input. Jumlah lapisan tersembunyi menentukan "kedalaman" jaringan.
* **Output Layer:** Lapisan yang menghasilkan prediksi.

MLP mampu menyelesaikan masalah yang tidak dapat dipisahkan secara linier dan dapat menangani masalah yang sangat kompleks. Kesuksesan MLP sebagian besar karena algoritma **Backpropagation (Propagasi Balik)**.

### 3. Backpropagation Training (Pelatihan Backpropagation)

Algoritma Backpropagation adalah inti dari pelatihan JST yang kompleks. Ini adalah varian *Gradient Descent* yang cerdas yang memungkinkan pelatihan seluruh JST secara efisien.

**Prinsip Kerja:**
1.  **Forward Pass:** Sebuah *instance training* dimasukkan ke jaringan. Output setiap neuron dihitung, lapis demi lapis, sampai output akhir dihasilkan.
2.  **Error Calculation:** *Error* model (perbedaan antara output yang diprediksi dan target sebenarnya) dihitung.
3.  **Backward Pass:** *Error* ini disebarkan mundur melalui jaringan, dari lapisan output ke lapisan input. Algoritma menghitung kontribusi *error* setiap neuron di setiap lapisan.
4.  **Gradient Computation:** Algoritma menghitung *gradient* fungsi biaya terhadap setiap parameter (bobot dan bias) dalam jaringan.
5.  **Parameter Update:** *Gradient Descent* digunakan untuk memperbarui setiap parameter berdasarkan *gradient* yang dihitung, dalam upaya meminimalkan fungsi biaya.

**Fungsi Aktivasi (Activation Functions):**
Fungsi aktivasi adalah komponen kunci dalam JST, memungkinkan jaringan mempelajari pola non-linier.
* **Step Function:** (Digunakan di Perceptrons) output biner, tidak dapat dibedakan, tidak cocok untuk *Gradient Descent*.
* **Sigmoid Function:** Output antara 0 dan 1, cocok untuk klasifikasi probabilitas. Masalah *vanishing gradients* pada nilai input yang ekstrem.
* **Hyperbolic Tangent (tanh) Function:** Output antara -1 dan 1, berpusat di 0. Lebih baik dari sigmoid dalam beberapa kasus, tetapi masih rentan terhadap *vanishing gradients*.
* **Rectified Linear Unit (ReLU) Function:** Output 0 untuk input negatif, dan input itu sendiri untuk input positif. Cepat dihitung, tidak ada masalah *vanishing gradients* untuk input positif. Masalah *dying ReLUs* (neuron macet di 0).
* **Softmax Function:** Digunakan di lapisan output untuk klasifikasi multikelas, menghasilkan distribusi probabilitas.

### 4. Regression MLPs (MLP untuk Regresi)

MLP dapat digunakan untuk regresi.
* **Lapisan Output:** Untuk regresi, lapisan output biasanya hanya memiliki satu neuron (untuk prediksi nilai tunggal).
* **Fungsi Aktivasi Output:** Tidak ada fungsi aktivasi di lapisan output, atau fungsi aktivasi linear (identitas).
* **Fungsi Biaya:** *Mean Squared Error* (MSE) adalah fungsi biaya umum.

### 5. Classification MLPs (MLP untuk Klasifikasi)

MLP dapat digunakan untuk klasifikasi biner dan multikelas.
* **Klasifikasi Biner:** Lapisan output dengan satu neuron dan fungsi aktivasi *sigmoid*.
* **Klasifikasi Multikelas:** Lapisan output dengan satu neuron per kelas dan fungsi aktivasi *softmax*.

### 6. Membangun JST dengan Keras (Building an Image Classifier Using the Keras Sequential API)

Bagian ini memperkenalkan Keras sebagai API tingkat tinggi dan user-friendly untuk membangun dan melatih model *deep learning*.

#### a. Menggunakan Keras untuk Membangun Model

Langkah-langkah umum untuk membangun model JST menggunakan Keras Sequential API:
1.  **Memuat Dataset:** Contoh menggunakan dataset Fashion MNIST (mirip dengan MNIST, tetapi dengan gambar pakaian).
2.  **Pra-pemrosesan Data:** Skala fitur ke rentang 0-1 (normalisasi).
3.  **Membangun Model Sequential:**
    * `tf.keras.models.Sequential()`: Model linier tumpukan lapisan.
    * `tf.keras.layers.Flatten()`: Lapisan pertama untuk mengkonversi data input (misalnya, gambar 2D) menjadi array 1D.
    * `tf.keras.layers.Dense()`: Lapisan tersembunyi biasa dengan jumlah neuron dan fungsi aktivasi tertentu (misalnya, `relu`).
    * Lapisan `Dense` terakhir (lapisan output) dengan jumlah neuron sesuai jumlah kelas dan fungsi aktivasi `softmax` (untuk klasifikasi multikelas) atau `sigmoid` (untuk klasifikasi biner).
4.  **Mengompilasi Model:**
    * `model.compile()`: Mengkonfigurasi model untuk pelatihan.
    * `optimizer`: Algoritma optimisasi (misalnya, `"sgd"` untuk *Stochastic Gradient Descent*, `"adam"`).
    * `loss`: Fungsi biaya (misalnya, `"sparse_categorical_crossentropy"` untuk klasifikasi multikelas dengan label integer, `"binary_crossentropy"` untuk biner).
    * `metrics`: Metrik kinerja yang akan dievaluasi selama pelatihan (misalnya, `"accuracy"`).
5.  **Melatih Model:**
    * `model.fit()`: Melatih model pada data pelatihan.
    * `epochs`: Jumlah *epoch* (berapa kali model akan melewati seluruh *training set*).
    * `validation_data`: Data validasi untuk memantau kinerja selama pelatihan.

#### b. Mengevaluasi Model

Setelah pelatihan, model dievaluasi pada *test set* menggunakan `model.evaluate()`.

#### c. Membuat Prediksi

`model.predict()` digunakan untuk mendapatkan probabilitas kelas, dan `model.predict_classes()` (atau `np.argmax(model.predict(), axis=1)`) digunakan untuk mendapatkan kelas yang diprediksi.

### 7. Membangun JST Kompleks Menggunakan Keras Functional API atau Subclassing API (Building Complex Models Using the Keras Functional API or the Subclassing API)

Bagian ini memperkenalkan cara membangun arsitektur JST yang lebih kompleks yang tidak dapat direpresentasikan oleh model Sequential.

#### a. Functional API (API Fungsional)
Digunakan untuk model yang memiliki input non-sequential, output ganda, atau koneksi lompat (*skip connections*).
* Input didefinisikan secara eksplisit (`tf.keras.layers.Input`).
* Lapisan dihubungkan seperti fungsi (misalnya, `output_layer = Dense(...)(input_from_previous_layer)`).
* `tf.keras.Model()` digunakan untuk membuat model.

#### b. Subclassing API (API Subclassing)
Memberikan fleksibilitas maksimum dengan memungkinkan Anda mewarisi dari `tf.keras.Model` dan mendefinisikan arsitektur model Anda dalam metode `__init__()` dan `call()`.
* Metode `call()` mendefinisikan *forward pass* model.
* Ini sangat berguna untuk model yang memiliki *loops*, logika bersyarat, atau perilaku dinamis lainnya.

### 8. Menyimpan dan Memuat Model (Saving and Restoring Models)

Keras menyediakan cara mudah untuk menyimpan model yang telah dilatih (`model.save()`) dan memuatnya kembali (`tf.keras.models.load_model()`). Ini sangat berguna untuk melanjutkan pelatihan atau menggunakan model yang sudah dilatih.

### 9. Menggunakan Callbacks selama Pelatihan (Using Callbacks During Training)

*Callbacks* adalah objek khusus yang dapat dipanggil oleh model pada berbagai titik selama pelatihan (misalnya, di awal/akhir *epoch*, sebelum/sesudah *batch*). Ini berguna untuk:
* **Early Stopping:** Menghentikan pelatihan ketika *error* validasi tidak lagi membaik.
* **Model Checkpointing:** Menyimpan *snapshot* model terbaik selama pelatihan.
* **Kustomisasi:** Melakukan tindakan khusus (misalnya, *logging*, penyesuaian *learning rate*).

Contoh `ModelCheckpoint` dan `EarlyStopping` ditunjukkan.

### 10. Menggunakan TensorBoard untuk Visualisasi (Using TensorBoard for Visualization)

TensorBoard adalah alat visualisasi interaktif yang disediakan oleh TensorFlow. Ini memungkinkan Anda melihat *learning curves*, memvisualisasikan grafik komputasi, dan menganalisis metrik lainnya selama dan setelah pelatihan.
* `tf.keras.callbacks.TensorBoard()` digunakan untuk mengaktifkan *logging* data pelatihan ke direktori log.
* TensorBoard kemudian dijalankan dari *command line* (`tensorboard --logdir=my_logs`).

### 11. Penyetelan Hyperparameter (Fine-Tuning Neural Network Hyperparameters)

*Hyperparameter* JST meliputi jumlah lapisan, jumlah neuron per lapisan, fungsi aktivasi, *learning rate*, *optimizer*, ukuran *batch*, jumlah *epoch*, dan banyak lagi. Menyetel *hyperparameter* adalah seni dan sains.

* **Grid Search / Randomized Search:** Teknik standar untuk mencari *hyperparameter* optimal. Dapat menggunakan `GridSearchCV` atau `RandomizedSearchCV` dari Scikit-Learn dengan Keras.
* **Keras Tuner:** Pustaka terpisah yang dirancang khusus untuk menyetel *hyperparameter* model Keras.

### 12. Kesimpulan

Bab 10 merupakan pengantar yang sangat baik untuk Jaringan Saraf Tiruan, meliputi dasar-dasar biologis dan matematis, arsitektur fundamental (Perceptron, MLP), serta algoritma pelatihan kunci (Backpropagation). Bagian implementasi dengan Keras sangat praktis, menunjukkan bagaimana membangun, melatih, mengevaluasi, menyimpan, dan menyetel JST. Pemahaman yang kokoh di bab ini adalah pondasi untuk eksplorasi lebih lanjut ke dalam *Deep Learning* di bab-bab berikutnya.


## 1. Building an Image Classifier Using the Keras Sequential API


### Importing TensorFlow and other libraries

In [None]:
import tensorflow as tf
from tensorflow import keras
import numpy as np
import matplotlib.pyplot as plt

### Loading the Fashion MNIST dataset

In [None]:
fashion_mnist = keras.datasets.fashion_mnist
(X_train_full, y_train_full), (X_test, y_test) = fashion_mnist.load_data()

### Data Preprocessing (Scaling)

In [None]:
X_train_full = X_train_full / 255.0
X_test = X_test / 255.0

### Splitting data into training, validation, and test sets

In [None]:
X_valid, X_train = X_train_full[:5000], X_train_full[5000:]
y_valid, y_train = y_train_full[:5000], y_train_full[5000:]

### Class names for Fashion MNIST

In [None]:
class_names = ["T-shirt/top", "Trouser", "Pullover", "Dress", "Coat",
               "Sandal", "Shirt", "Sneaker", "Bag", "Ankle boot"]

### Building the Sequential Model

In [None]:
model = keras.models.Sequential([
    keras.layers.Flatten(input_shape=[28, 28]),
    keras.layers.Dense(300, activation="relu"),
    keras.layers.Dense(100, activation="relu"),
    keras.layers.Dense(10, activation="softmax")
])

### Model summary

In [None]:
model.summary()

In [None]:
keras.utils.plot_model(model, "my_fashion_mnist_model.png", show_shapes=True)

In [None]:
# Accessing layers, weights, and biases
hidden1 = model.layers[1]
hidden1.name
model.get_layer(hidden1.name)
weights, biases = hidden1.get_weights()

### Compiling the Model

In [None]:
model.compile(loss="sparse_categorical_crossentropy",
              optimizer="sgd",
              metrics=["accuracy"])

### Training the Model

In [None]:
history = model.fit(X_train, y_train, epochs=30,
                    validation_data=(X_valid, y_valid))

### Plotting Learning Curves

In [None]:
import pandas as pd
pd.DataFrame(history.history).plot(figsize=(8, 5))
plt.grid(True)
plt.gca().set_ylim(0, 1) # set the vertical range to [0-1]
plt.show()

### Evaluating the Model

In [None]:
model.evaluate(X_test, y_test)

### Making Predictions

In [None]:
X_new = X_test[:3]
y_proba = model.predict(X_new)
y_proba.round(2)

In [None]:
y_pred = np.argmax(y_proba, axis=1) # Alternative to model.predict_classes()
y_pred

In [None]:
np.array(class_names)[y_pred]

In [None]:
y_new = y_test[:3]
y_new

## 2. Building Complex Models Using the Keras Functional API or the Subclassing API

### Functional API

In [None]:
input_ = keras.layers.Input(shape=X_train.shape[1:])
hidden1 = keras.layers.Dense(300, activation="relu")(input_)
hidden2 = keras.layers.Dense(100, activation="relu")(hidden1)
concat = keras.layers.concatenate([input_, hidden2])
output = keras.layers.Dense(10, activation="softmax")(concat)
model_functional = keras.models.Model(inputs=[input_], outputs=[output])

In [None]:
model_functional.summary()

In [None]:
keras.utils.plot_model(model_functional, "my_complex_model.png", show_shapes=True)

In [None]:
model_functional.compile(loss="sparse_categorical_crossentropy",
                         optimizer="sgd",
                         metrics=["accuracy"])

In [None]:
history_functional = model_functional.fit(X_train, y_train, epochs=20,
                                          validation_data=(X_valid, y_valid))

### Model with multiple inputs

In [None]:
input_A = keras.layers.Input(shape=[5], name="wide_input")
input_B = keras.layers.Input(shape=[6], name="deep_input")
hidden1 = keras.layers.Dense(30, activation="relu")(input_B)
hidden2 = keras.layers.Dense(30, activation="relu")(hidden1)
concat = keras.layers.concatenate([input_A, hidden2])
output = keras.layers.Dense(1, name="output")(concat)
model_multi_input = keras.models.Model(inputs=[input_A, input_B], outputs=[output])

In [None]:
model_multi_input.compile(loss="mse", optimizer=keras.optimizers.SGD(learning_rate=1e-3))

In [None]:
# Prepare dummy data for multi-input model (as X_train, y_train are for Fashion MNIST)
# X_train_A, X_train_B = ... (dummy data)
# X_valid_A, X_valid_B = ... (dummy data)
# y_train_multi_input = ... (dummy data)
# y_valid_multi_input = ... (dummy data)

# history_multi_input = model_multi_input.fit((X_train_A, X_train_B), y_train_multi_input, epochs=10,
#                                             validation_data=((X_valid_A, X_valid_B), y_valid_multi_input))

### Model with multiple outputs

In [None]:
input_A = keras.layers.Input(shape=[6], name="input_A")
input_B = keras.layers.Input(shape=[8], name="input_B")

hidden1 = keras.layers.Dense(30, activation="relu")(input_B)
hidden2 = keras.layers.Dense(30, activation="relu")(hidden1)

concat = keras.layers.concatenate([input_A, hidden2])

output_main = keras.layers.Dense(1, name="main_output")(concat)
output_aux = keras.layers.Dense(1, name="aux_output")(hidden2)

model_multi_output = keras.models.Model(inputs=[input_A, input_B],
                                         outputs=[output_main, output_aux])

In [None]:
model_multi_output.compile(loss=["mse", "mse"], loss_weights=[0.9, 0.1], optimizer="sgd")

In [None]:
# Prepare dummy data for multi-output model
# X_train_A, X_train_B = ... (dummy data)
# X_valid_A, X_valid_B = ... (dummy data)
# y_train_main, y_train_aux = ... (dummy data)
# y_valid_main, y_valid_aux = ... (dummy data)

# history_multi_output = model_multi_output.fit(
#     (X_train_A, X_train_B), (y_train_main, y_train_aux), epochs=20,
#     validation_data=((X_valid_A, X_valid_B), (y_valid_main, y_valid_aux)))

### Subclassing API

In [None]:
class MySequentialModel(keras.models.Sequential):
    def call(self, inputs):
        return super().call(inputs)

class MyModel(keras.Model):
    def __init__(self, units=30, activation="relu", **kwargs):
        super().__init__(**kwargs)
        self.dense1 = keras.layers.Dense(units, activation=activation)
        self.dense2 = keras.layers.Dense(units, activation=activation)
        self.dense3 = keras.layers.Dense(10, activation="softmax")

    def call(self, inputs):
        x = self.dense1(inputs)
        x = self.dense2(x)
        return self.dense3(x)

# Example usage (needs data and compilation)
# model_subclass = MyModel(name="my_model")
# model_subclass.compile(loss="sparse_categorical_crossentropy", optimizer="sgd", metrics=["accuracy"])
# model_subclass.fit(X_train, y_train, epochs=10, validation_data=(X_valid, y_valid))

## 3. Saving and Restoring Models

In [None]:
model.save("my_keras_model.h5")

In [None]:
model_loaded = keras.models.load_model("my_keras_model.h5")

## 4. Using Callbacks During Training

### Model Checkpointing and Early Stopping

In [None]:
checkpoint_cb = keras.callbacks.ModelCheckpoint("my_keras_model.h5", save_best_only=True)
early_stopping_cb = keras.callbacks.EarlyStopping(patience=10, restore_best_weights=True)

history_callbacks = model.fit(X_train, y_train, epochs=100,
                              validation_data=(X_valid, y_valid),
                              callbacks=[checkpoint_cb, early_stopping_cb])

## 5. Using TensorBoard for Visualization

In [None]:
import os

root_logdir = os.path.join(os.curdir, "my_logs")

def get_run_logdir():
    import time
    run_id = time.strftime("run_%Y_%m_%d-%H_%M_%S")
    return os.path.join(root_logdir, run_id)

run_logdir = get_run_logdir()

In [None]:
tensorboard_cb = keras.callbacks.TensorBoard(run_logdir)
history_tensorboard = model.fit(X_train, y_train, epochs=30,
                                validation_data=(X_valid, y_valid),
                                callbacks=[tensorboard_cb])

## 6. Fine-Tuning Neural Network Hyperparameters

### Using GridSearchCV with Keras models

In [None]:
# Build a Keras model inside a function
def build_model(n_hidden=1, n_neurons=30, learning_rate=3e-3, input_shape=[28, 28]):
    model = keras.models.Sequential()
    model.add(keras.layers.Flatten(input_shape=input_shape))
    for layer in range(n_hidden):
        model.add(keras.layers.Dense(n_neurons, activation="relu"))
    model.add(keras.layers.Dense(10, activation="softmax"))
    optimizer = keras.optimizers.SGD(learning_rate=learning_rate)
    model.compile(loss="sparse_categorical_crossentropy", optimizer=optimizer, metrics=["accuracy"])
    return model

# Wrap the Keras model in a Scikit-Learn compatible estimator
keras_clf = keras.wrappers.scikit_learn.KerasClassifier(build_model)

In [None]:
from sklearn.model_selection import GridSearchCV

param_distribs = {
    "n_hidden": [1, 2, 3],
    "n_neurons": [50, 100, 150],
    "learning_rate": [3e-3, 3e-2]
}

grid_search_cv = GridSearchCV(keras_clf, param_distribs, cv=3, n_jobs=-1, verbose=2)
grid_search_cv.fit(X_train, y_train, epochs=10,
                    validation_data=(X_valid, y_valid),
                    callbacks=[early_stopping_cb]) # Using early stopping here

In [None]:
grid_search_cv.best_params_

In [None]:
grid_search_cv.best_score_

In [None]:
# Final model from grid search
best_model = grid_search_cv.best_estimator_.model
best_model.evaluate(X_test, y_test)