# Tugas Praktikum
Gunakan JST untuk klasifikasi angka tulisan tangan (MNIST).

Langkah:

Load dataset MNIST dari Keras.

Bangun model dengan 2 hidden layer.

Latih model dan evaluasi akurasi.

In [None]:
import tensorflow as tf
from tensorflow.keras.datasets import mnist
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Flatten
from tensorflow.keras.utils import to_categorical
import time # Untuk menghitung durasi training

# 1. Load dataset MNIST
(X_train, y_train), (X_test, y_test) = mnist.load_data()

# Normalisasi data (0-255 -> 0-1)
X_train = X_train / 255.0
X_test = X_test / 255.0

# One-hot encoding label (Misal angka 5 jadi [0,0,0,0,0,1,0,0,0,0])
y_train = to_categorical(y_train, 10)
y_test = to_categorical(y_test, 10)

print("Data siap! Ukuran gambar:", X_train.shape[1:])

Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/mnist.npz
[1m11490434/11490434[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 0us/step
Data siap! Ukuran gambar: (28, 28)


In [None]:
def latih_model(nama_eksperimen, neurons_list, activation_func):
    print(f"\n=== {nama_eksperimen} ===")

    model = Sequential()
    # Layer Input (Flatten mengubah gambar 28x28 jadi vektor 784)
    model.add(Flatten(input_shape=(28, 28)))

    # Menambahkan Hidden Layers secara dinamis sesuai list
    for n in neurons_list:
        model.add(Dense(n, activation=activation_func))

    # Output Layer (Selalu 10 neuron untuk angka 0-9, pakai Softmax)
    model.add(Dense(10, activation='softmax'))

    # Kompilasi
    model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])

    # Latih & Hitung Waktu
    start_time = time.time()
    history = model.fit(X_train, y_train, epochs=5, batch_size=128, validation_split=0.1, verbose=1)
    end_time = time.time()

    # Evaluasi
    loss, acc = model.evaluate(X_test, y_test, verbose=0)
    print(f"-> Waktu Pelatihan: {end_time - start_time:.2f} detik")
    print(f"-> Akurasi Test: {acc:.4f}")
    return acc

Ubah jumlah neuron di hidden layer (misal: 256 dan 128).

In [None]:
# Skenario 1: Model Standard (Misal 128 dan 64)
latih_model("Model Awal (128, 64) - ReLU", [128, 64], 'relu')

# Skenario 2: Perintah Tugas (Ubah neuron jadi 256 dan 128)
latih_model("Tugas Ubah Neuron (256, 128) - ReLU", [256, 128], 'relu')


=== Model Awal (128, 64) - ReLU ===
Epoch 1/5


  super().__init__(**kwargs)


[1m422/422[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m3s[0m 6ms/step - accuracy: 0.8042 - loss: 0.6816 - val_accuracy: 0.9592 - val_loss: 0.1429
Epoch 2/5
[1m422/422[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m4s[0m 3ms/step - accuracy: 0.9558 - loss: 0.1545 - val_accuracy: 0.9698 - val_loss: 0.1094
Epoch 3/5
[1m422/422[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 3ms/step - accuracy: 0.9702 - loss: 0.1023 - val_accuracy: 0.9728 - val_loss: 0.0947
Epoch 4/5
[1m422/422[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m3s[0m 4ms/step - accuracy: 0.9768 - loss: 0.0775 - val_accuracy: 0.9755 - val_loss: 0.0832
Epoch 5/5
[1m422/422[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 5ms/step - accuracy: 0.9816 - loss: 0.0610 - val_accuracy: 0.9768 - val_loss: 0.0750
-> Waktu Pelatihan: 14.27 detik
-> Akurasi Test: 0.9767

=== Tugas Ubah Neuron (256, 128) - ReLU ===
Epoch 1/5
[1m422/422[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m4s[0m 6ms/step - accuracy: 0.8509 

0.9785000085830688


Tambahkan satu hidden layer lagi.

In [None]:
# Skenario 3: Tambah 1 Layer (256, 128, 64)
latih_model("Tugas Tambah Layer (256, 128, 64) - ReLU", [256, 128, 64], 'relu')


=== Tugas Tambah Layer (256, 128, 64) - ReLU ===
Epoch 1/5
[1m422/422[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m3s[0m 6ms/step - accuracy: 0.8330 - loss: 0.5762 - val_accuracy: 0.9642 - val_loss: 0.1164
Epoch 2/5
[1m422/422[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m3s[0m 8ms/step - accuracy: 0.9646 - loss: 0.1173 - val_accuracy: 0.9747 - val_loss: 0.0853
Epoch 3/5
[1m422/422[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m4s[0m 9ms/step - accuracy: 0.9783 - loss: 0.0708 - val_accuracy: 0.9778 - val_loss: 0.0786
Epoch 4/5
[1m422/422[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m3s[0m 6ms/step - accuracy: 0.9833 - loss: 0.0505 - val_accuracy: 0.9710 - val_loss: 0.0916
Epoch 5/5
[1m422/422[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m3s[0m 7ms/step - accuracy: 0.9879 - loss: 0.0401 - val_accuracy: 0.9800 - val_loss: 0.0703
-> Waktu Pelatihan: 16.08 detik
-> Akurasi Test: 0.9791


0.9790999889373779

Eksperimen dengan fungsi aktivasi Sigmoid vs ReLU.

In [None]:
# Skenario 4: Pakai Sigmoid (Struktur sama dengan Skenario 2)
latih_model("Eksperimen Sigmoid (256, 128) - Sigmoid", [256, 128], 'sigmoid')


=== Eksperimen Sigmoid (256, 128) - Sigmoid ===
Epoch 1/5
[1m422/422[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 8ms/step - accuracy: 0.7020 - loss: 1.1205 - val_accuracy: 0.9323 - val_loss: 0.2429
Epoch 2/5
[1m422/422[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 7ms/step - accuracy: 0.9207 - loss: 0.2693 - val_accuracy: 0.9507 - val_loss: 0.1739
Epoch 3/5
[1m422/422[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m3s[0m 6ms/step - accuracy: 0.9428 - loss: 0.1922 - val_accuracy: 0.9605 - val_loss: 0.1416
Epoch 4/5
[1m422/422[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 6ms/step - accuracy: 0.9559 - loss: 0.1517 - val_accuracy: 0.9640 - val_loss: 0.1273
Epoch 5/5
[1m422/422[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m3s[0m 8ms/step - accuracy: 0.9650 - loss: 0.1203 - val_accuracy: 0.9715 - val_loss: 0.1004
-> Waktu Pelatihan: 18.77 detik
-> Akurasi Test: 0.9660


0.9660000205039978

In [None]:
# Skenario 5: Pakai Sigmoid (Struktur sama dengan Skenario 3)
latih_model("Eksperimen Sigmoid (256, 128) - Sigmoid", [256, 128, 64], 'sigmoid')


=== Eksperimen Sigmoid (256, 128) - Sigmoid ===
Epoch 1/5
[1m422/422[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 9ms/step - accuracy: 0.5638 - loss: 1.4988 - val_accuracy: 0.9292 - val_loss: 0.2806
Epoch 2/5
[1m422/422[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m3s[0m 7ms/step - accuracy: 0.9218 - loss: 0.2868 - val_accuracy: 0.9557 - val_loss: 0.1691
Epoch 3/5
[1m422/422[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m3s[0m 7ms/step - accuracy: 0.9462 - loss: 0.1880 - val_accuracy: 0.9663 - val_loss: 0.1277
Epoch 4/5
[1m422/422[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m3s[0m 7ms/step - accuracy: 0.9594 - loss: 0.1403 - val_accuracy: 0.9682 - val_loss: 0.1133
Epoch 5/5
[1m422/422[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m3s[0m 6ms/step - accuracy: 0.9696 - loss: 0.1057 - val_accuracy: 0.9722 - val_loss: 0.0953
-> Waktu Pelatihan: 17.79 detik
-> Akurasi Test: 0.9679


0.9678999781608582

Bandingkan akurasi dan waktu pelatihan.



### Tabel Rangkuman Hasil

| Skenario | Konfigurasi Neurons | Fungsi Aktivasi | Waktu Training (detik) | Akurasi Test |
| :--- | :--- | :--- | :--- | :--- |
| **1 (Baseline)** | [128, 64] | **ReLU** | **14.27s** (Tercepat) | 97.67% |
| **2 (Large)** | [256, 128] | **ReLU** | 21.40s (Terlama) | 97.85% |
| **3 (Deep)** | [256, 128, 64] | **ReLU** | 16.08s | **97.91%** (Tertinggi) |
| **4 (Sigmoid)**| [256, 128] | Sigmoid | 18.77s | 96.60% |
| **5 (Deep Sig)**| [256, 128, 64] | Sigmoid | 17.79s | 96.79% |

---

### 1. Analisis Perbandingan Akurasi

**A. Pemenang: Skenario 3 (Deep ReLU)**
* **Hasil:** 97.91%
* **Analisis:** Menambahkan kedalaman (*depth*) dengan 3 hidden layer memberikan hasil terbaik. Neural Network yang lebih dalam ("Deep") mampu memecah fitur gambar menjadi hierarki yang lebih kompleks (misal: layer 1 mendeteksi garis, layer 2 mendeteksi lengkungan, layer 3 mendeteksi bentuk angka utuh).
* **Kesimpulan:** Untuk MNIST, struktur yang lebih dalam sedikit lebih unggul daripada struktur yang sekadar lebar (banyak neuron).

**B. Efek Jumlah Neuron (Skenario 1 vs 2)**
* **Hasil:** 97.67% -> 97.85%
* **Analisis:** Melipatgandakan jumlah neuron (dari 128 ke 256) memang meningkatkan akurasi, tetapi kenaikannya sangat tipis (hanya **+0.18%**).
* **Kesimpulan:** Ini adalah fenomena *Diminishing Returns*. Menambah kapasitas model secara berlebihan tidak selalu memberikan lonjakan performa yang sebanding, karena model baseline pun sudah cukup mampu menangani data MNIST yang sederhana.

**C. ReLU vs Sigmoid (Kekalahan Telak Sigmoid)**
* **Perbandingan:** Skenario 2 (ReLU) 97.85% vs Skenario 4 (Sigmoid) 96.60%.
* **Drop Akurasi:** Terjadi penurunan sekitar **1.25%** saat menggunakan Sigmoid.
* **Analisis Loss Awal:** Perhatikan *Loss* pada Epoch 1:
    * ReLU (Scen 2): Loss awal **0.52**
    * Sigmoid (Scen 5): Loss awal **1.49**
* **Penyebab:** Sigmoid mengalami masalah **Vanishing Gradient**. Gradien (turunan) pada fungsi Sigmoid sangat kecil di kedua ujung kurva. Ini menyebabkan *update* bobot berlangsung lambat. Model ReLU langsung belajar cepat sejak Epoch 1, sedangkan Sigmoid "berjuang" untuk menurunkan error.

---

### 2. Analisis Waktu Pelatihan (Efisiensi)

**A. Model Tercepat: Skenario 1**
* Hanya butuh **14.27 detik**. Karena jumlah parameternya paling sedikit, komputasi matriksnya paling ringan. Ini adalah model paling efisien.

**B. Anomali Waktu Skenario 2 vs 3**
* Secara teori, Skenario 3 (3 layer) harusnya sedikit lebih berat atau setara dengan Skenario 2. Namun, di hasil, Skenario 3 (**16.08s**) justru lebih cepat dari Skenario 2 (**21.40s**).
* **Penyebab:** Ini kemungkinan besar disebabkan oleh variabilitas *system load* (beban CPU/RAM komputer saat itu) atau optimasi cache. Namun secara umum, Skenario 2 memiliki layer pertama yang besar (input 784 ke 256) yang memakan memori besar.

**C. Sigmoid Lebih Lambat Konvergen**
* Meskipun waktu komputasi per detiknya mirip, Sigmoid membutuhkan lebih banyak Epoch untuk mencapai akurasi yang sama dengan ReLU. Melihat *Val Accuracy* pada Epoch 1:
    * ReLU (Scen 3): **96.42%** (Langsung pintar di epoch 1)
    * Sigmoid (Scen 5): **92.92%** (Masih belajar)

---

### Kesimpulan Akhir & Rekomendasi

1.  **Aktivasi Terbaik:** Gunakan **ReLU**. Sigmoid terbukti lebih lambat belajar dan menghasilkan akurasi akhir yang lebih rendah untuk hidden layer pada kasus ini.
2.  **Arsitektur Terbaik:** **Skenario 3 ([256, 128, 64])**. Kombinasi neuron yang cukup besar dengan kedalaman 3 layer memberikan keseimbangan terbaik untuk akurasi tertinggi.
3.  **Efisiensi:** Jika memiliki keterbatasan *resource* komputer, **Skenario 1** adalah pilihan terbaik karena akurasinya (97.6%) hampir menyamai model yang jauh lebih berat, namun dengan waktu pelatihan paling singkat.



Grafik imajiner di atas akan menunjukkan garis *Loss* ReLU yang turun tajam mendekati nol dalam 1-2 epoch, sementara garis *Loss* Sigmoid melandai perlahan.