<a href="https://colab.research.google.com/github/vanstevanzaky/PEMB_MESIN_LEARING_TI_25-26/blob/main/Week13_Neural_Network.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# JS13 - ARTIFICIAL NEURAL NETWORK (ANN) DAN EVALUASI CLASSIFIER

## Praktikum 1

Praktikum ini bertujuan untuk membuat JST sederhana (2 layer) dengan forward pass dan backpropagation manual. Backpropagation adalah algoritma untuk melatih JST dengan mengoreksi kesalahan melalui perhitungan selisih antara keluaran jaringan dan target, lalu memperbarui bobot dan bias dari keluaran ke masukan untuk meminimalkan kesalahan. Langkah-langkahnya meliputi:
1. Pembuatan dataset XOR
2. Inisialisasi bobot dan bias
3. Implementasi forward pass
4. Perhitungan error dan backpropagation
5. Pembaruan bobot menggunakan gradient descent.

### 1. Buat dataset sederhana

Pada tahap ini, kita akan membuat dataset XOR sederhana yang terdiri dari 4 input kombinasi (00, 01, 10, 11) dengan output yang sesuai dengan operasi XOR. Dataset ini digunakan sebagai data training untuk neural network sederhana yang akan kita buat. Selain itu, kita juga akan mendefinisikan parameter jaringan seperti jumlah neuron input, hidden layer, output, dan learning rate.

In [9]:
import numpy as np
#Dataset XOR
X = np.array(([0,0],[0,1],[1,0],[1,1]))
y = np.array(([0],[1],[1],[0]))
#Parameters
input_size = 2
hidden_size = 2
output_size = 1
lr = 0.1

**Penjelasan:**
- `X`: Input data dengan 4 kombinasi XOR (00, 01, 10, 11)
- `y`: Target output XOR (0, 1, 1, 0)
- `input_size`: 2 neuron input
- `hidden_size`: 2 neuron pada hidden layer
- `output_size`: 1 neuron output
- `lr`: Learning rate 0.1 untuk mengontrol seberapa besar pembaruan bobot

### 2. Inisialisasi bobot dan bias

Pada tahap ini, kita akan menginisialisasi bobot (weights) dan bias untuk kedua layer jaringan. Bobot diinisialisasi dengan nilai random menggunakan distribusi normal, sedangkan bias diinisialisasi dengan nilai nol. Selain itu, kita juga mendefinisikan fungsi aktivasi sigmoid dan turunannya yang akan digunakan dalam proses forward propagation dan backpropagation.

In [10]:
# Inisialisasi bobot
W1 = np.random.randn(input_size, hidden_size)
b1 = np.zeros((1, hidden_size))
W2 = np.random.randn(hidden_size, output_size)
b2 = np.zeros((1, output_size))

# Fungsi aktivasi
def sigmoid(x):
    return 1 / (1 + np.exp(-x))

def sigmoid_derivative(x):
    return x * (1 - x)

**Penjelasan:**
- `W1` dan `W2`: Bobot untuk layer 1 dan 2, diinisialisasi secara random
- `b1` dan `b2`: Bias untuk layer 1 dan 2, diinisialisasi dengan nol
- `sigmoid()`: Fungsi aktivasi untuk menghasilkan output antara 0 dan 1
- `sigmoid_derivative()`: Turunan sigmoid untuk backpropagation

**Hasil:** Bobot dan bias telah diinisialisasi. Tidak ada output yang ditampilkan, namun variabel W1, W2, b1, b2 telah tersimpan dalam memori dengan nilai random (untuk W) dan nol (untuk b).

### 3. Implementasi forward pass
### 4. Perhitungan error dan backpropagation
### 5. Pembaruan bobot menggunakan gradient descent.

Pada tahap ini, kita akan melakukan training neural network dengan proses iteratif selama 10,000 epoch. Setiap epoch terdiri dari tiga tahap utama:
1. **Forward pass**: menghitung output prediksi dari input
2. **Backpropagation**: menghitung gradien error untuk setiap layer
3. **Update weights**: memperbarui bobot dan bias menggunakan gradient descent

Loss (Mean Squared Error) akan dicetak setiap 1000 epoch untuk memantau proses pembelajaran.



In [11]:
# Training
for epoch in range(10000):
    # Forward pass
    z1 = np.dot(X, W1) + b1
    a1 = sigmoid(z1)
    z2 = np.dot(a1, W2) + b2
    a2 = sigmoid(z2)

    # Hitung error
    error = y - a2

    # Backpropagation
    d_a2 = error * sigmoid_derivative(a2)
    d_W2 = np.dot(a1.T, d_a2)
    d_b2 = np.sum(d_a2, axis=0, keepdims=True)

    d_a1 = np.dot(d_a2, W2.T) * sigmoid_derivative(a1)
    d_W1 = np.dot(X.T, d_a1)
    d_b1 = np.sum(d_a1, axis=0, keepdims=True)

    # Update bobot
    W1 += lr * d_W1
    b1 += lr * d_b1
    W2 += lr * d_W2
    b2 += lr * d_b2

    if epoch % 1000 == 0:
        loss = np.mean(np.square(error))
        print(f"Epoch {epoch}, Loss: {loss}")

# Output akhir
print("Prediksi:")
print(a2)

Epoch 0, Loss: 0.2970234658185617
Epoch 1000, Loss: 0.23730865007887975
Epoch 2000, Loss: 0.1623841071127087
Epoch 3000, Loss: 0.047386345996047755
Epoch 4000, Loss: 0.016020130427879302
Epoch 5000, Loss: 0.008620018643256601
Epoch 6000, Loss: 0.0057008908729233795
Epoch 7000, Loss: 0.0041967231337173136
Epoch 8000, Loss: 0.003294819533012895
Epoch 9000, Loss: 0.0026993148636384762
Prediksi:
[[0.05115541]
 [0.95441808]
 [0.95432251]
 [0.0483417 ]]
Epoch 5000, Loss: 0.008620018643256601
Epoch 6000, Loss: 0.0057008908729233795
Epoch 7000, Loss: 0.0041967231337173136
Epoch 8000, Loss: 0.003294819533012895
Epoch 9000, Loss: 0.0026993148636384762
Prediksi:
[[0.05115541]
 [0.95441808]
 [0.95432251]
 [0.0483417 ]]


**Penjelasan:**

**Forward Pass:**
- `z1 = X·W1 + b1`: Perhitungan linear layer 1
- `a1 = sigmoid(z1)`: Aktivasi layer 1
- `z2 = a1·W2 + b2`: Perhitungan linear layer 2
- `a2 = sigmoid(z2)`: Output prediksi

**Backpropagation:**
- Hitung error dari selisih target (y) dan prediksi (a2)
- `d_a2`: Gradien output layer
- `d_W2, d_b2`: Gradien bobot dan bias layer 2
- `d_a1`: Gradien hidden layer
- `d_W1, d_b1`: Gradien bobot dan bias layer 1

**Update Weights:**
- Bobot dan bias diperbarui menggunakan gradient descent dengan learning rate 0.1
**Analisis Output:**

Setelah training 10,000 epoch, neural network menunjukkan:
- **Loss berkurang secara bertahap**: Dari nilai tinggi di epoch awal menuju mendekati 0
- **Prediksi final (a2)** akan mendekati target XOR:
  - Input [0,0] → prediksi ≈ 0
  - Input [0,1] → prediksi ≈ 1
  - Input [1,0] → prediksi ≈ 1
  - Input [1,1] → prediksi ≈ 0

Network berhasil mempelajari pola XOR melalui proses backpropagation, membuktikan bahwa masalah non-linear XOR dapat diselesaikan dengan minimal 1 hidden layer.

### Tugas 1: Eksperimen Hidden Layer dan Fungsi Aktivasi

Pada tugas ini, kita akan melakukan eksperimen dengan:
1. Mengubah jumlah neuron hidden layer dari 2 menjadi 3
2. Membandingkan loss antara konfigurasi awal (2 neuron) dengan konfigurasi baru (3 neuron)
3. Menambahkan fungsi aktivasi ReLU pada hidden layer dan membandingkan hasilnya dengan Sigmoid

#### Eksperimen 1: Hidden Layer 3 Neuron (Sigmoid)

Eksperimen pertama mengubah arsitektur jaringan dari 2 neuron menjadi 3 neuron pada hidden layer, dengan tetap menggunakan fungsi aktivasi Sigmoid. Tujuannya adalah membandingkan performa jaringan dengan kapasitas yang lebih besar.

In [12]:
# Inisialisasi dengan 3 neuron hidden layer
hidden_size_exp1 = 3
W1_exp1 = np.random.randn(input_size, hidden_size_exp1)
b1_exp1 = np.zeros((1, hidden_size_exp1))
W2_exp1 = np.random.randn(hidden_size_exp1, output_size)
b2_exp1 = np.zeros((1, output_size))

# Training
for epoch in range(10000):
    # Forward pass
    z1 = np.dot(X, W1_exp1) + b1_exp1
    a1 = sigmoid(z1)
    z2 = np.dot(a1, W2_exp1) + b2_exp1
    a2 = sigmoid(z2)

    # Hitung error
    error = y - a2

    # Backpropagation
    d_a2 = error * sigmoid_derivative(a2)
    d_W2 = np.dot(a1.T, d_a2)
    d_b2 = np.sum(d_a2, axis=0, keepdims=True)

    d_a1 = np.dot(d_a2, W2_exp1.T) * sigmoid_derivative(a1)
    d_W1 = np.dot(X.T, d_a1)
    d_b1 = np.sum(d_a1, axis=0, keepdims=True)

    # Update bobot
    W1_exp1 += lr * d_W1
    b1_exp1 += lr * d_b1
    W2_exp1 += lr * d_W2
    b2_exp1 += lr * d_b2

    if epoch % 1000 == 0:
        loss = np.mean(np.square(error))
        print(f"Epoch {epoch}, Loss: {loss}")

print("\nPrediksi (3 neuron, Sigmoid):")
print(a2)

Epoch 0, Loss: 0.390006153959982
Epoch 1000, Loss: 0.17096910330188672
Epoch 2000, Loss: 0.037171778080727164
Epoch 3000, Loss: 0.01316416752896597
Epoch 4000, Loss: 0.007367235687730666
Epoch 1000, Loss: 0.17096910330188672
Epoch 2000, Loss: 0.037171778080727164
Epoch 3000, Loss: 0.01316416752896597
Epoch 4000, Loss: 0.007367235687730666
Epoch 5000, Loss: 0.0049827898198305885
Epoch 5000, Loss: 0.0049827898198305885
Epoch 6000, Loss: 0.0037203350126468002
Epoch 7000, Loss: 0.002949367487657463
Epoch 8000, Loss: 0.002433581867495
Epoch 9000, Loss: 0.00206602256876797
Epoch 6000, Loss: 0.0037203350126468002
Epoch 7000, Loss: 0.002949367487657463
Epoch 8000, Loss: 0.002433581867495
Epoch 9000, Loss: 0.00206602256876797

Prediksi (3 neuron, Sigmoid):
[[0.04281649]
 [0.95472355]
 [0.95778877]
 [0.03876532]]

Prediksi (3 neuron, Sigmoid):
[[0.04281649]
 [0.95472355]
 [0.95778877]
 [0.03876532]]


**Penjelasan Kode:**
- Inisialisasi bobot untuk 3 neuron hidden layer (`hidden_size_exp1 = 3`)
- Proses training sama dengan Praktikum 1: forward pass → hitung error → backpropagation → update bobot
- Menggunakan fungsi `sigmoid()` dan `sigmoid_derivative()` yang sudah didefinisikan sebelumnya
- Loss dicetak setiap 1000 epoch untuk monitoring

**Analisis Output:**
Loss akan berkurang secara bertahap dari nilai tinggi di epoch awal menuju mendekati 0. Dengan 3 neuron, jaringan memiliki kapasitas lebih besar untuk mempelajari pola XOR, berpotensi menghasilkan loss akhir yang lebih rendah dibanding konfigurasi 2 neuron.

#### Eksperimen 2: Hidden Layer 3 Neuron (ReLU)

Eksperimen kedua menguji fungsi aktivasi ReLU (Rectified Linear Unit) pada hidden layer sebagai alternatif dari Sigmoid. ReLU sering memberikan konvergensi lebih cepat karena tidak mengalami vanishing gradient problem seperti Sigmoid.

In [13]:
# Fungsi aktivasi ReLU
def relu(x):
    return np.maximum(0, x)

def relu_derivative(x):
    return (x > 0).astype(float)

# Inisialisasi dengan 3 neuron hidden layer
W1_exp2 = np.random.randn(input_size, hidden_size_exp1)
b1_exp2 = np.zeros((1, hidden_size_exp1))
W2_exp2 = np.random.randn(hidden_size_exp1, output_size)
b2_exp2 = np.zeros((1, output_size))

# Training
for epoch in range(10000):
    # Forward pass (ReLU di hidden layer)
    z1 = np.dot(X, W1_exp2) + b1_exp2
    a1 = relu(z1)
    z2 = np.dot(a1, W2_exp2) + b2_exp2
    a2 = sigmoid(z2)

    # Hitung error
    error = y - a2

    # Backpropagation
    d_a2 = error * sigmoid_derivative(a2)
    d_W2 = np.dot(a1.T, d_a2)
    d_b2 = np.sum(d_a2, axis=0, keepdims=True)

    d_a1 = np.dot(d_a2, W2_exp2.T) * relu_derivative(z1)
    d_W1 = np.dot(X.T, d_a1)
    d_b1 = np.sum(d_a1, axis=0, keepdims=True)

    # Update bobot
    W1_exp2 += lr * d_W1
    b1_exp2 += lr * d_b1
    W2_exp2 += lr * d_W2
    b2_exp2 += lr * d_b2

    if epoch % 1000 == 0:
        loss = np.mean(np.square(error))
        print(f"Epoch {epoch}, Loss: {loss}")

print("\nPrediksi (3 neuron, ReLU):")
print(a2)

Epoch 0, Loss: 0.36044020089888434
Epoch 1000, Loss: 0.16693945243915095
Epoch 2000, Loss: 0.16677230790397726
Epoch 3000, Loss: 0.16672926486370704
Epoch 4000, Loss: 0.16671053091833424
Epoch 1000, Loss: 0.16693945243915095
Epoch 2000, Loss: 0.16677230790397726
Epoch 3000, Loss: 0.16672926486370704
Epoch 4000, Loss: 0.16671053091833424
Epoch 5000, Loss: 0.16670370481875338
Epoch 5000, Loss: 0.16670370481875338
Epoch 6000, Loss: 0.16669549208263237
Epoch 7000, Loss: 0.166690910763336
Epoch 8000, Loss: 0.16668830070798663
Epoch 9000, Loss: 0.16668701425420684
Epoch 6000, Loss: 0.16669549208263237
Epoch 7000, Loss: 0.166690910763336
Epoch 8000, Loss: 0.16668830070798663
Epoch 9000, Loss: 0.16668701425420684

Prediksi (3 neuron, ReLU):
[[0.33342759]
 [0.33342759]
 [0.99210544]
 [0.33342759]]

Prediksi (3 neuron, ReLU):
[[0.33342759]
 [0.33342759]
 [0.99210544]
 [0.33342759]]


**Penjelasan Kode:**
- Mendefinisikan fungsi `relu()` yang mengembalikan max(0, x) dan `relu_derivative()` untuk backpropagation
- Hidden layer menggunakan aktivasi ReLU, sedangkan output layer tetap menggunakan Sigmoid
- Pada backpropagation, turunan ReLU diterapkan pada hidden layer: `relu_derivative(z1)`
- Struktur training tetap sama: forward pass → error → backpropagation → update

**Analisis Output:**
ReLU cenderung memberikan gradien yang lebih stabil (tidak mendekati 0 seperti Sigmoid), sehingga training bisa lebih cepat. Loss akan menurun dengan pola yang mungkin berbeda dari Sigmoid—bisa lebih cepat konvergen atau bahkan lebih stabil tergantung inisialisasi bobot.

#### Perbandingan Hasil

Bagian ini menghitung dan membandingkan loss akhir dari ketiga konfigurasi untuk melihat pengaruh jumlah neuron dan fungsi aktivasi terhadap performa jaringan.

In [14]:
import pandas as pd

# Hitung loss akhir untuk setiap konfigurasi
# Konfigurasi awal (2 neuron, Sigmoid) - dari Praktikum 1
z1_orig = np.dot(X, W1) + b1
a1_orig = sigmoid(z1_orig)
z2_orig = np.dot(a1_orig, W2) + b2
a2_orig = sigmoid(z2_orig)
loss_orig = np.mean(np.square(y - a2_orig))

# Eksperimen 1 (3 neuron, Sigmoid)
z1_exp1 = np.dot(X, W1_exp1) + b1_exp1
a1_exp1 = sigmoid(z1_exp1)
z2_exp1 = np.dot(a1_exp1, W2_exp1) + b2_exp1
a2_exp1 = sigmoid(z2_exp1)
loss_exp1 = np.mean(np.square(y - a2_exp1))

# Eksperimen 2 (3 neuron, ReLU)
z1_exp2 = np.dot(X, W1_exp2) + b1_exp2
a1_exp2 = relu(z1_exp2)
z2_exp2 = np.dot(a1_exp2, W2_exp2) + b2_exp2
a2_exp2 = sigmoid(z2_exp2)
loss_exp2 = np.mean(np.square(y - a2_exp2))

# Buat tabel perbandingan
comparison = pd.DataFrame({
    'Konfigurasi': ['2 Neuron + Sigmoid', '3 Neuron + Sigmoid', '3 Neuron + ReLU'],
    'Hidden Neurons': [2, 3, 3],
    'Aktivasi Hidden': ['Sigmoid', 'Sigmoid', 'ReLU'],
    'Loss Akhir': [loss_orig, loss_exp1, loss_exp2]
})

print(comparison.to_string(index=False))

       Konfigurasi  Hidden Neurons Aktivasi Hidden  Loss Akhir
2 Neuron + Sigmoid               2         Sigmoid    0.002279
3 Neuron + Sigmoid               3         Sigmoid    0.001792
   3 Neuron + ReLU               3            ReLU    0.166682


**Penjelasan Kode:**
- Melakukan forward pass ulang untuk setiap konfigurasi menggunakan bobot yang sudah dilatih
- Menghitung Mean Squared Error (MSE) sebagai loss akhir untuk masing-masing model
- Membuat tabel perbandingan menggunakan pandas DataFrame
- Menampilkan hasil dalam format tabel yang mudah dibaca

**Analisis Output:**
Tabel akan menampilkan 3 konfigurasi dengan nilai loss masing-masing:
- **2 Neuron + Sigmoid**: Baseline dari Praktikum 1
- **3 Neuron + Sigmoid**: Diharapkan loss lebih rendah karena kapasitas lebih besar
- **3 Neuron + ReLU**: Performa tergantung karakteristik ReLU—bisa lebih baik atau setara dengan Sigmoid

Konfigurasi dengan loss terendah menunjukkan arsitektur paling optimal untuk problem XOR ini.