# Chapter 10: Introduction to Artificial Neural Networks with Keras

Pada chapter ini, kita mulai memasuki inti dari **Deep Learning**, yaitu **Artificial Neural Networks (ANN)**.

Chapter ini sangat penting karena menjadi jembatan antara Machine Learning klasik (seperti regresi, SVM, dan decision tree) menuju model yang lebih kompleks dan fleksibel, yaitu jaringan saraf tiruan.

Fokus utama chapter ini adalah:
- memahami asal-usul dan intuisi neural network,
- mengenal komponen dasar ANN seperti neuron, layer, dan activation function,
- memahami bagaimana **Multilayer Perceptron (MLP)** bekerja,
- serta mengimplementasikan ANN menggunakan **Keras (tf.keras)**.

Chapter ini juga menyiapkan fondasi konseptual untuk chapter selanjutnya yang akan membahas **Deep Neural Networks**, **training tricks**, dan **advanced architectures**.

## 1. Dari Neuron Biologis ke Neuron Artifisial

Ide dasar neural network terinspirasi dari **cara kerja otak manusia**.

Otak manusia terdiri dari miliaran neuron biologis yang saling terhubung. Masing-masing neuron:
- menerima sinyal dari neuron lain,
- mengolah sinyal tersebut,
- lalu mengirimkan sinyal ke neuron berikutnya.

Meskipun satu neuron terlihat sederhana, kombinasi jutaan neuron mampu menghasilkan perilaku yang sangat kompleks, seperti pengenalan pola, bahasa, dan pengambilan keputusan.

Artificial Neural Network (ANN) mencoba meniru **konsep dasarnya**, bukan meniru otak secara biologis penuh.

ANN modern tidak harus realistis secara biologis. Yang terpenting adalah:
- model tersebut **bisa belajar dari data**,
- mampu melakukan generalisasi,
- dan memberikan performa yang baik pada masalah kompleks.

Hal ini mirip dengan pesawat terbang: terinspirasi dari burung, tetapi tidak mengepakkan sayap.

## 2. Neuron Artifisial Awal (McCulloch–Pitts Neuron)

Model neuron artifisial pertama diperkenalkan pada tahun 1943 oleh **McCulloch dan Pitts**.

Neuron ini:
- memiliki input biner (0 atau 1),
- menghasilkan output biner,
- aktif jika jumlah input aktif melebihi suatu ambang batas.

Walaupun sangat sederhana, neuron ini mampu merepresentasikan operasi logika seperti **AND**, **OR**, dan **NOT**.

Dengan menggabungkan banyak neuron sederhana, kita dapat membangun jaringan yang mampu merepresentasikan ekspresi logika yang lebih kompleks.

Konsep ini menunjukkan bahwa:
- **kompleksitas dapat muncul dari unit-unit sederhana**,
- struktur jaringan lebih penting daripada kecanggihan satu neuron.

Gagasan ini menjadi fondasi utama perkembangan neural network modern.

## 3. Perceptron

**Perceptron** adalah salah satu arsitektur ANN paling awal dan sederhana, diperkenalkan oleh **Frank Rosenblatt (1957)**.

Perceptron menggunakan neuron yang disebut **Threshold Logic Unit (TLU)**, yang:
- menerima input numerik,
- mengalikan setiap input dengan bobot (weight),
- menjumlahkannya,
- lalu menerapkan fungsi ambang (step function).

Secara intuitif, TLU bekerja seperti ini:

1. Hitung kombinasi linear input:
   $$z = w_1 x_1 + w_2 x_2 + \dots + w_n x_n + b$$
2. Terapkan fungsi aktivasi berbentuk step:
   - jika $z \geq 0$ → output = 1
   - jika $z < 0$ → output = 0

Perceptron dapat digunakan untuk **klasifikasi linear**, mirip dengan Logistic Regression atau Linear SVM.

## 4. Training a Perceptron

Salah satu keunggulan utama perceptron adalah adanya **aturan pembelajaran (training rule)** yang sederhana dan intuitif.

Tujuan training perceptron adalah mencari bobot (weights) dan bias yang mampu memisahkan data ke dalam kelas-kelas yang benar.

### 4.1 Perceptron Learning Rule

Perceptron dilatih secara **iteratif** menggunakan contoh data satu per satu.

Untuk setiap data:
- jika prediksi benar → bobot tidak diubah,
- jika prediksi salah → bobot diperbarui.

Pembaruan bobot dilakukan dengan aturan sederhana:

$$w_i \leftarrow w_i + \eta (y - \hat{y}) x_i$$

di mana:
- $\eta$ adalah learning rate,
- $y$ adalah label sebenarnya,
- $\hat{y}$ adalah prediksi perceptron.

Intuisi dari aturan ini adalah:
- jika model memprediksi terlalu rendah, bobot ditingkatkan,
- jika model memprediksi terlalu tinggi, bobot dikurangi.

Dengan cara ini, decision boundary akan bergeser secara bertahap menuju posisi yang lebih tepat.

### 4.2 Konvergensi Perceptron

Perceptron memiliki properti penting:

> Jika data **linearly separable**, maka perceptron **pasti akan konvergen** dalam jumlah iterasi terbatas.

Namun, jika data **tidak linearly separable**, perceptron **tidak akan pernah konvergen** dan bobot akan terus berubah.

## 5. Implementasi Perceptron dengan Scikit-Learn

Scikit-Learn menyediakan implementasi perceptron melalui class `Perceptron`.

Implementasi ini sangat berguna untuk eksperimen dan pemahaman konsep dasar neural network.

In [None]:
from sklearn.linear_model import Perceptron
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

iris = load_iris()
X = iris.data[:, (2, 3)]
y = (iris.target == 0).astype(int)

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

perceptron = Perceptron(random_state=42)
perceptron.fit(X_train, y_train)

Model perceptron di atas dilatih untuk membedakan kelas Iris Setosa dari kelas lainnya.

Perceptron hanya mampu menemukan **decision boundary linier**, sehingga performanya sangat bergantung pada apakah data dapat dipisahkan secara linier.

## 6. Keterbatasan Perceptron

Meskipun penting secara historis, perceptron memiliki keterbatasan besar:
- hanya mampu mempelajari pola linier,
- tidak dapat menyelesaikan masalah non-linear seperti XOR,
- tidak menghasilkan probabilitas keluaran.

Keterbatasan ini sempat menyebabkan penurunan minat terhadap neural network pada akhir tahun 1960-an.

Keterbatasan perceptron inilah yang mendorong pengembangan:
- **Multilayer Perceptron (MLP)**,
- fungsi aktivasi non-linear,
- dan algoritma **backpropagation**.

Topik-topik tersebut akan dibahas pada bagian selanjutnya.

## 7. Multilayer Perceptron (MLP)

Untuk mengatasi keterbatasan perceptron tunggal, dikembangkan arsitektur yang disebut **Multilayer Perceptron (MLP)**.

MLP terdiri dari beberapa layer neuron yang disusun berurutan, yaitu:
- **input layer**: menerima fitur dari data,
- **hidden layer(s)**: melakukan transformasi non-linear,
- **output layer**: menghasilkan prediksi akhir.

Dengan adanya hidden layer dan fungsi aktivasi non-linear, MLP mampu mempelajari pola **non-linear** yang tidak dapat ditangani oleh perceptron tunggal.

### 7.1 Peran Hidden Layer

Hidden layer memungkinkan jaringan saraf membangun **representasi bertingkat (hierarchical representations)**.

Layer awal biasanya mempelajari pola sederhana, sedangkan layer yang lebih dalam mempelajari pola yang lebih kompleks.

Inilah alasan mengapa neural network sangat efektif untuk data kompleks seperti gambar, suara, dan teks.

Secara matematis, setiap neuron dalam MLP melakukan operasi:

$$z = w_1 x_1 + w_2 x_2 + \dots + w_n x_n + b$$

Kemudian menerapkan fungsi aktivasi non-linear:

$$a = f(z)$$

Fungsi aktivasi inilah yang memberi kemampuan non-linear pada jaringan.

## 8. Backpropagation

**Backpropagation** adalah algoritma inti yang digunakan untuk melatih MLP.

Algoritma ini memungkinkan jaringan saraf memperbarui bobot secara efisien dengan menghitung **gradien error** terhadap setiap bobot di seluruh layer.

### 8.1 Intuisi Backpropagation

Backpropagation bekerja dengan dua tahap utama:

1. **Forward pass**: data dilewatkan dari input layer hingga output untuk menghasilkan prediksi.
2. **Backward pass**: error pada output dihitung dan disebarkan kembali ke layer sebelumnya untuk memperbarui bobot.

Proses ini menggunakan aturan rantai (*chain rule*) dari kalkulus.

Intuisi sederhananya:
- jika output terlalu besar → bobot tertentu perlu dikurangi,
- jika output terlalu kecil → bobot tertentu perlu ditingkatkan.

Setiap bobot diperbarui secara proporsional terhadap kontribusinya pada error.

## 9. Universal Approximation Theorem

Salah satu hasil teoretis penting dalam neural network adalah **Universal Approximation Theorem**.

Teorema ini menyatakan bahwa:

> Sebuah MLP dengan **satu hidden layer** yang cukup besar mampu mendekati fungsi kontinu apa pun dengan tingkat akurasi tertentu.

Artinya, MLP memiliki kapasitas representasi yang sangat kuat.

Namun, dalam praktik:
- menggunakan **beberapa hidden layer** sering kali lebih efisien,
- jaringan yang terlalu besar berisiko overfitting,
- training menjadi lebih stabil dengan arsitektur yang tepat.

Inilah alasan mengapa *deep learning* (banyak layer) menjadi pendekatan dominan saat ini.

## 10. Activation Functions

Fungsi aktivasi merupakan komponen kunci dalam neural network.

Tanpa fungsi aktivasi non-linear, jaringan saraf dengan banyak layer akan setara dengan satu model linear saja, sehingga tidak mampu mempelajari pola kompleks.

Fungsi aktivasi menentukan bagaimana sinyal input yang telah dikombinasikan secara linear akan diubah menjadi output neuron.

Dengan kata lain, fungsi aktivasi menentukan **apakah dan seberapa kuat sebuah neuron akan aktif**.

### 10.1 Sigmoid Function

Fungsi **sigmoid** merupakan salah satu fungsi aktivasi paling awal yang digunakan dalam neural network.

Sigmoid memetakan nilai input ke rentang (0, 1), sehingga sering diinterpretasikan sebagai probabilitas.

Secara matematis, fungsi sigmoid didefinisikan sebagai:

$$\sigma(z) = \frac{1}{1 + e^{-z}}$$

Sigmoid banyak digunakan pada:
- output layer untuk klasifikasi biner,
- model-model awal neural network.

Namun, sigmoid memiliki kelemahan utama:
- **vanishing gradient** pada nilai ekstrem,
- output tidak berpusat di nol,
- training menjadi lambat pada jaringan dalam.

Karena alasan ini, sigmoid jarang digunakan pada hidden layer modern.

### 10.2 ReLU (Rectified Linear Unit)

**ReLU** merupakan fungsi aktivasi yang paling populer dalam deep learning saat ini.

ReLU didefinisikan sebagai:

$$\text{ReLU}(z) = \max(0, z)$$

ReLU sederhana, efisien, dan membantu mengurangi masalah vanishing gradient.

Kelebihan ReLU:
- komputasi sangat cepat,
- mempercepat konvergensi training,
- bekerja baik pada jaringan dalam.

Namun, ReLU juga memiliki kelemahan yaitu **dying ReLU**, di mana neuron berhenti aktif jika bobotnya terus menghasilkan output negatif.

### 10.3 Softmax Function

Fungsi **softmax** biasanya digunakan pada output layer untuk **klasifikasi multikelas**.

Softmax mengubah vektor skor menjadi distribusi probabilitas yang jumlahnya sama dengan 1.

Secara matematis:

$$\text{softmax}(z_i) = \frac{e^{z_i}}{\sum_{j} e^{z_j}}$$

Output softmax memudahkan interpretasi hasil model sebagai probabilitas untuk setiap kelas.

Pemilihan fungsi aktivasi sangat bergantung pada konteks:
- **Sigmoid**: output biner,
- **ReLU**: hidden layer,
- **Softmax**: output multikelas.

Pemilihan yang tepat dapat meningkatkan stabilitas dan performa training secara signifikan.

## 11. Membangun Multilayer Perceptron dengan Keras

Setelah memahami konsep dasar neural network dan fungsi aktivasi, langkah berikutnya adalah membangun **Multilayer Perceptron (MLP)** secara praktis.

Pada chapter ini, framework yang digunakan adalah **Keras**, yang merupakan high-level API untuk membangun dan melatih neural network dengan mudah dan efisien.

Keras menyediakan beberapa pendekatan untuk membangun model, dan yang paling sederhana adalah **Sequential API**.

Sequential API cocok digunakan ketika:
- model berbentuk tumpukan layer secara berurutan,
- setiap layer hanya memiliki satu input dan satu output,
- tidak ada arsitektur bercabang atau skip connection.

### 11.1 Dataset MNIST

Sebagai contoh, kita akan menggunakan dataset **MNIST**, yang berisi gambar tulisan tangan angka 0–9.

Setiap gambar berukuran 28×28 piksel dan direpresentasikan sebagai vektor fitur numerik.

Dataset ini sering digunakan sebagai *hello world* dalam deep learning karena cukup sederhana namun tetap menantang.

In [None]:
import tensorflow as tf
from tensorflow import keras

(X_train, y_train), (X_test, y_test) = keras.datasets.mnist.load_data()

Data MNIST terdiri dari:
- `X_train`: gambar training,
- `y_train`: label training,
- `X_test`: gambar testing,
- `y_test`: label testing.

Sebelum digunakan, data perlu diproses agar sesuai dengan input neural network.

### 11.2 Preprocessing Data

Langkah preprocessing utama adalah:
- menormalisasi nilai piksel ke rentang [0, 1],
- mengubah label menjadi format yang sesuai.

Normalisasi membantu mempercepat dan menstabilkan proses training.

In [None]:
X_train = X_train / 255.0
X_test = X_test / 255.0

### 11.3 Membangun Arsitektur Model

Model MLP dibangun menggunakan beberapa layer:
- **Flatten layer** untuk mengubah gambar 2D menjadi vektor 1D,
- **Dense hidden layers** dengan fungsi aktivasi ReLU,
- **Dense output layer** dengan fungsi aktivasi Softmax untuk klasifikasi multikelas.

In [None]:
model = keras.models.Sequential([
    keras.layers.Flatten(input_shape=[28, 28]),
    keras.layers.Dense(300, activation="relu"),
    keras.layers.Dense(100, activation="relu"),
    keras.layers.Dense(10, activation="softmax")
])

Arsitektur di atas merepresentasikan MLP dengan dua hidden layer.

Jumlah neuron dan layer dapat disesuaikan tergantung kompleksitas masalah dan ketersediaan data.

## 12. Compiling the Neural Network

Setelah arsitektur model didefinisikan, langkah selanjutnya adalah **compile** model.

Proses compile bertujuan untuk:
- menentukan **loss function** yang akan diminimalkan,
- memilih **optimizer** untuk memperbarui bobot,
- menentukan **metrics** untuk evaluasi performa model.

Pada kasus klasifikasi multikelas seperti MNIST:
- loss function yang umum digunakan adalah `sparse_categorical_crossentropy`,
- optimizer yang sering digunakan adalah `SGD` atau `Adam`,
- metric evaluasi yang paling umum adalah `accuracy`.

In [None]:
model.compile(
    loss="sparse_categorical_crossentropy",
    optimizer="sgd",
    metrics=["accuracy"]
)

Pemilihan konfigurasi di atas sesuai dengan contoh pada buku:
- `SGD` (Stochastic Gradient Descent) digunakan untuk menunjukkan konsep dasar optimisasi,
- loss function disesuaikan dengan format label integer pada dataset MNIST.

## 13. Training the Model

Setelah model di-compile, proses selanjutnya adalah **training**.

Training dilakukan menggunakan method `fit()`, yang akan:
- melakukan forward pass,
- menghitung loss,
- melakukan backpropagation,
- memperbarui bobot secara iteratif.

In [None]:
history = model.fit(
    X_train,
    y_train,
    epochs=30,
    validation_split=0.1
)

Selama training, Keras menampilkan:
- nilai loss dan accuracy pada data training,
- nilai loss dan accuracy pada data validation.

Validation set digunakan untuk memantau apakah model mengalami **overfitting**.

Objek `history` menyimpan seluruh riwayat training, termasuk nilai loss dan accuracy pada setiap epoch.

Informasi ini sangat berguna untuk analisis dan visualisasi proses training.

## 14. Evaluating the Model

Setelah training selesai, model dievaluasi menggunakan data **test** yang benar-benar belum pernah dilihat sebelumnya.

Evaluasi ini memberikan gambaran performa generalisasi model.

In [None]:
model.evaluate(X_test, y_test)

Hasil evaluasi biasanya menunjukkan bahwa MLP sederhana sudah mampu mencapai akurasi yang cukup tinggi pada dataset MNIST.

Hal ini menunjukkan kekuatan neural network bahkan dengan arsitektur yang relatif sederhana.

## 15. Making Predictions with the Trained Model

Setelah model selesai dilatih dan dievaluasi, langkah berikutnya adalah menggunakan model tersebut untuk **membuat prediksi** pada data baru.

Pada kasus MNIST, prediksi dilakukan untuk menentukan angka apa yang paling mungkin direpresentasikan oleh sebuah gambar tulisan tangan.

Keras menyediakan method `predict()` untuk menghasilkan output model.

Karena output layer menggunakan fungsi aktivasi **softmax**, hasil prediksi berupa **probabilitas untuk setiap kelas**.

In [None]:
y_proba = model.predict(X_test[:5])
y_proba

Setiap baris pada output di atas merepresentasikan distribusi probabilitas untuk kelas 0 hingga 9.

Kelas dengan probabilitas tertinggi merupakan prediksi akhir model.

In [None]:
y_pred = y_proba.argmax(axis=1)
y_pred

Hasil `argmax` memberikan label kelas dengan probabilitas tertinggi untuk setiap gambar.

Prediksi ini kemudian dapat dibandingkan dengan label sebenarnya untuk analisis lebih lanjut.

## Closing Summary (Chapter 10)

Chapter 10 merupakan pengenalan fundamental terhadap **Artificial Neural Networks (ANN)** dan menjadi pintu masuk ke dunia **Deep Learning**.

Pada chapter ini, kita mempelajari:
- inspirasi biologis di balik neural network,
- perceptron dan keterbatasannya,
- Multilayer Perceptron (MLP) sebagai solusi pola non-linear,
- konsep backpropagation sebagai algoritma training utama,
- fungsi aktivasi seperti sigmoid, ReLU, dan softmax,
- serta implementasi MLP menggunakan Keras.

Melalui contoh dataset MNIST, chapter ini menunjukkan bagaimana:
- neural network dibangun secara bertahap,
- proses training dan evaluasi dilakukan,
- serta bagaimana model digunakan untuk membuat prediksi nyata.

Contoh ini memberikan gambaran praktis end-to-end mengenai workflow deep learning sederhana.