# Chapter 10: Introduction to Artificial Neural Networks with Keras

Pada chapter ini, pembahasan mulai beralih dari Machine Learning klasik menuju paradigma **Deep Learning**, dengan fokus utama pada **Artificial Neural Networks (ANN)**.

Artificial Neural Networks merupakan model yang terinspirasi oleh sistem saraf biologis manusia, namun dirancang secara matematis dan komputasional agar mampu mempelajari pola kompleks dari data.

Chapter ini berfungsi sebagai fondasi penting sebelum mempelajari arsitektur deep learning yang lebih dalam, seperti Convolutional Neural Networks (CNN) dan Recurrent Neural Networks (RNN).

Topik utama yang akan dibahas meliputi:
- asal-usul dan intuisi jaringan saraf tiruan,
- neuron artifisial dan perceptron,
- Multilayer Perceptron (MLP),
- algoritma backpropagation,
- fungsi aktivasi,
- serta implementasi ANN menggunakan Keras.


## 1. Dari Neuron Biologis ke Neuron Artifisial

Otak manusia terdiri dari jaringan neuron biologis yang sangat besar dan kompleks. Setiap neuron menerima sinyal listrik dari neuron lain, memproses sinyal tersebut, dan meneruskannya ke neuron berikutnya.

Meskipun satu neuron biologis relatif sederhana, kombinasi miliaran neuron mampu menghasilkan kemampuan luar biasa seperti:
- pengenalan pola,
- pemrosesan bahasa,
- pengambilan keputusan,
- dan pembelajaran adaptif.

Artificial Neural Networks tidak bertujuan meniru otak secara biologis, melainkan meniru **konsep pemrosesan informasinya** secara abstrak.


ANN modern lebih menekankan pada kemampuan:
- belajar dari data,
- melakukan generalisasi,
- dan menyelesaikan masalah kompleks.

Pendekatan ini serupa dengan pesawat terbang yang terinspirasi dari burung, tetapi menggunakan prinsip aerodinamika, bukan kepakan sayap biologis.


## 2. Neuron Artifisial Awal (McCulloch–Pitts Neuron)

Model neuron artifisial pertama diperkenalkan oleh McCulloch dan Pitts pada tahun 1943.

Neuron ini memiliki karakteristik:
- input biner (0 atau 1),
- output biner,
- sebuah ambang batas aktivasi.

Neuron akan aktif jika jumlah input aktif melebihi ambang batas tertentu.

Walaupun sangat sederhana, model ini mampu merepresentasikan operasi logika dasar seperti AND, OR, dan NOT.


Model McCulloch–Pitts menunjukkan bahwa dengan menggabungkan unit-unit sederhana, sistem yang lebih kompleks dapat dibangun.

Konsep ini menjadi dasar pemikiran bahwa **kompleksitas dapat muncul dari struktur**, bukan dari kecanggihan satu unit tunggal.


## 3. Perceptron

Perceptron diperkenalkan oleh Frank Rosenblatt pada tahun 1957 sebagai model pembelajaran berbasis neuron artifisial.

Perceptron menggunakan unit yang disebut **Threshold Logic Unit (TLU)**, yang bekerja dengan cara:
- menerima input numerik,
- mengalikan input dengan bobot,
- menjumlahkannya,
- lalu menerapkan fungsi ambang (step function).


Secara matematis, perceptron menghitung:

$$
z = w_1x_1 + w_2x_2 + \dots + w_nx_n + b
$$

Kemudian menghasilkan output:

- 1 jika $z \geq 0$
- 0 jika $z < 0$

Perceptron dapat digunakan untuk klasifikasi linier, mirip dengan Logistic Regression atau Linear SVM.


## 4. Training a Perceptron

Keunggulan utama perceptron adalah adanya aturan pembelajaran yang sederhana dan intuitif.

Tujuan training adalah mencari bobot dan bias yang mampu memisahkan data ke dalam kelas yang benar.


### 4.1 Perceptron Learning Rule

Aturan pembelajaran perceptron memperbarui bobot hanya ketika terjadi kesalahan prediksi.

Rumus pembaruan bobot:

$$
w_i \leftarrow w_i + \eta (y - \hat{y}) x_i
$$

di mana:
- $\eta$ adalah learning rate,
- $y$ adalah label sebenarnya,
- $\hat{y}$ adalah prediksi model.


Intuisi dari aturan ini adalah menggeser decision boundary agar kesalahan klasifikasi semakin berkurang pada iterasi berikutnya.


### 4.2 Konvergensi Perceptron

Perceptron memiliki jaminan konvergensi jika data bersifat linearly separable.

Namun, jika data tidak dapat dipisahkan secara linier, perceptron tidak akan pernah konvergen.


## 5. Implementasi Perceptron dengan Scikit-Learn

Scikit-Learn menyediakan implementasi perceptron yang memudahkan eksperimen dan pembelajaran konsep dasar neural network.


In [None]:
from sklearn.linear_model import Perceptron
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

iris = load_iris()
X = iris.data[:, (2, 3)]
y = (iris.target == 0).astype(int)

X_train, X_test, y_train, y_test = train_test_split(
    X, y, random_state=42
)

perceptron = Perceptron(random_state=42)
perceptron.fit(X_train, y_train)


Perceptron di atas digunakan untuk memisahkan kelas Iris Setosa dari kelas lainnya.

Model ini hanya mampu membentuk decision boundary linier.


## 6. Keterbatasan Perceptron

Perceptron memiliki keterbatasan utama:
- hanya menangani pola linier,
- gagal menyelesaikan masalah XOR,
- tidak menghasilkan probabilitas output.

Keterbatasan ini mendorong pengembangan jaringan saraf multilayer.


## 7. Multilayer Perceptron (MLP)

Multilayer Perceptron dikembangkan untuk mengatasi keterbatasan perceptron tunggal.

MLP terdiri dari:
- input layer,
- satu atau lebih hidden layer,
- output layer.

Dengan fungsi aktivasi non-linear, MLP mampu mempelajari pola non-linear.


### 7.1 Peran Hidden Layer

Hidden layer memungkinkan jaringan membangun representasi bertingkat.

Layer awal menangkap pola sederhana, sedangkan layer yang lebih dalam menangkap pola kompleks.


## 8. Backpropagation

Backpropagation adalah algoritma inti untuk melatih MLP.

Algoritma ini menghitung gradien error terhadap setiap bobot menggunakan aturan rantai dari kalkulus.


### 8.1 Intuisi Backpropagation

Backpropagation terdiri dari:
1. Forward pass untuk menghitung output
2. Backward pass untuk menyebarkan error dan memperbarui bobot


## 9. Universal Approximation Theorem

Teorema ini menyatakan bahwa MLP dengan satu hidden layer yang cukup besar mampu mendekati fungsi kontinu apa pun.

Namun, dalam praktik, jaringan dengan banyak layer lebih efisien dan stabil.


## 10. Activation Functions

Fungsi aktivasi merupakan komponen **paling krusial** dalam Artificial Neural Networks (ANN).
Tanpa fungsi aktivasi non-linear, jaringan saraf yang terdiri dari banyak layer **tidak akan lebih kuat daripada model linear sederhana**.

Fungsi aktivasi menentukan bagaimana sinyal hasil kombinasi linear dari input akan diubah menjadi output neuron.
Dengan kata lain, fungsi aktivasi menentukan:
- apakah neuron akan aktif,
- seberapa besar sinyal yang diteruskan ke layer berikutnya,
- dan bagaimana jaringan mempelajari pola kompleks.

Tanpa fungsi aktivasi non-linear, beberapa layer Dense akan setara dengan satu layer linear saja.


### 10.1 Sigmoid Function

Sigmoid merupakan salah satu fungsi aktivasi **tertua** dalam neural network.
Fungsi ini memetakan nilai input ke rentang **(0, 1)**, sehingga sering diinterpretasikan sebagai probabilitas.

Secara matematis, sigmoid didefinisikan sebagai:

\[
\sigma(z) = \frac{1}{1 + e^{-z}}
\]

Karakteristik sigmoid:
- output berada di antara 0 dan 1,
- cocok untuk klasifikasi biner,
- sering digunakan pada output layer model klasik.


Namun, sigmoid memiliki beberapa kelemahan serius:
- **Vanishing gradient** pada nilai ekstrem (z sangat besar atau sangat kecil),
- output tidak berpusat di nol sehingga memperlambat konvergensi,
- tidak cocok untuk jaringan dalam (deep neural network).

Karena alasan ini, sigmoid **jarang digunakan pada hidden layer** modern, tetapi masih relevan untuk output layer klasifikasi biner.


### 10.2 ReLU (Rectified Linear Unit)

ReLU adalah fungsi aktivasi paling populer dalam deep learning modern.
Fungsi ini sederhana dan sangat efisien secara komputasi.

Definisi ReLU:

\[
\text{ReLU}(z) = \max(0, z)
\]

Artinya:
- jika z > 0 → output = z
- jika z ≤ 0 → output = 0


Kelebihan ReLU:
- mengurangi masalah vanishing gradient,
- mempercepat proses training,
- komputasi sangat cepat,
- bekerja sangat baik pada jaringan dalam.

Kelemahan ReLU:
- **Dying ReLU**, yaitu neuron bisa berhenti aktif jika bobotnya terus menghasilkan nilai negatif.

Walaupun memiliki kelemahan, ReLU tetap menjadi pilihan default untuk hidden layer.


### 10.3 Softmax Function

Softmax digunakan hampir secara eksklusif pada **output layer untuk klasifikasi multikelas**.
Fungsi ini mengubah vektor skor menjadi **distribusi probabilitas** yang jumlahnya sama dengan 1.

Definisi softmax:

\[
\text{softmax}(z_i) = \frac{e^{z_i}}{\sum_{j} e^{z_j}}
\]

Output softmax memudahkan interpretasi hasil model sebagai probabilitas setiap kelas.


Softmax sangat cocok digunakan ketika:
- jumlah kelas lebih dari dua,
- hanya satu kelas yang benar (mutually exclusive),
- ingin interpretasi probabilistik dari output model.


## 11. Membangun Multilayer Perceptron dengan Keras

Setelah memahami konsep neuron, layer, backpropagation, dan fungsi aktivasi,
langkah berikutnya adalah **mengimplementasikan Multilayer Perceptron (MLP)** secara praktis.

Framework yang digunakan adalah **Keras**, yang merupakan API tingkat tinggi dari TensorFlow.
Keras memudahkan pembangunan, pelatihan, dan evaluasi neural network.


### 11.1 Dataset MNIST

Dataset MNIST berisi gambar tulisan tangan angka 0–9.
Setiap gambar berukuran 28×28 piksel dalam bentuk grayscale.

MNIST sering digunakan sebagai contoh awal deep learning karena:
- ukurannya relatif kecil,
- cukup kompleks untuk menunjukkan kekuatan neural network,
- mudah digunakan.


In [None]:
import tensorflow as tf
from tensorflow import keras

(X_train, y_train), (X_test, y_test) = keras.datasets.mnist.load_data()


Dataset ini terdiri dari:
- X_train dan y_train untuk training,
- X_test dan y_test untuk testing.

Nilai piksel berada pada rentang 0–255, sehingga perlu dilakukan preprocessing.


### 11.2 Preprocessing Data

Preprocessing sangat penting agar training neural network stabil dan cepat.
Langkah utama adalah normalisasi nilai piksel ke rentang [0, 1].

Normalisasi dilakukan dengan membagi nilai piksel dengan 255.


In [None]:
X_train = X_train / 255.0
X_test = X_test / 255.0


### 11.3 Membangun Arsitektur Model

Model MLP akan terdiri dari:
- Flatten layer untuk mengubah input 2D menjadi vektor 1D,
- dua hidden layer dengan aktivasi ReLU,
- output layer dengan aktivasi Softmax.


In [None]:
model = keras.models.Sequential([
    keras.layers.Flatten(input_shape=[28, 28]),
    keras.layers.Dense(300, activation="relu"),
    keras.layers.Dense(100, activation="relu"),
    keras.layers.Dense(10, activation="softmax")
])


Arsitektur ini cukup sederhana namun sangat efektif untuk MNIST.
Jumlah neuron dapat disesuaikan sesuai kompleksitas data.


## 12. Compiling the Neural Network

Sebelum training, model harus di-compile.
Proses compile menentukan:
- loss function,
- optimizer,
- metrics evaluasi.


In [None]:
model.compile(
    loss="sparse_categorical_crossentropy",
    optimizer="sgd",
    metrics=["accuracy"]
)


Loss function dipilih sesuai format label integer.
Optimizer SGD digunakan untuk menunjukkan konsep dasar optimisasi.


## 13. Training the Model

Training dilakukan menggunakan method `fit()`.
Pada tahap ini, model akan:
- melakukan forward pass,
- menghitung loss,
- melakukan backpropagation,
- memperbarui bobot.


In [None]:
history = model.fit(
    X_train,
    y_train,
    epochs=30,
    validation_split=0.1
)


Validation set digunakan untuk memantau overfitting selama training.


In [None]:
model.evaluate(X_test, y_test)


Evaluasi ini menunjukkan kemampuan generalisasi model.


## 15. Making Predictions with the Trained Model

Model yang telah dilatih dapat digunakan untuk membuat prediksi pada data baru.
Output berupa probabilitas dari setiap kelas.


In [None]:
y_proba = model.predict(X_test[:5])
y_pred = y_proba.argmax(axis=1)

y_pred


Prediksi diperoleh dengan mengambil kelas dengan probabilitas tertinggi.


## Closing Summary (Chapter 10)

Pada chapter ini, kita mempelajari:
- fungsi aktivasi utama (Sigmoid, ReLU, Softmax),
- membangun Multilayer Perceptron dengan Keras,
- preprocessing data,
- training, evaluasi, dan prediksi model.

Chapter ini menjadi fondasi utama untuk memahami Deep Neural Networks
dan menjadi pintu masuk ke arsitektur yang lebih kompleks pada chapter berikutnya.
