In [33]:
import numpy as np
sample = np.array([[1,1,3],[1,1,2]])
print(sample.shape)
sample2 = np.array([[[[1,1],[1,1]],[[1,3],[2,1]]],[[[1,1],[1,1]],[[1,3],[3,1]]]])
print(sample2.shape)

(2, 3)
(2, 2, 2, 2)


Berikut adalah penjelasan konsep dalam **Convolutional Neural Networks (CNN)** dengan bahasa yang mudah dipahami:

---

### **1. Neuron**
- Neuron adalah unit komputasi kecil di dalam jaringan saraf. 
- Setiap neuron menerima input (misalnya, angka dari gambar), memprosesnya menggunakan operasi matematika, lalu menghasilkan output. 
- Dalam diagram, neuron sering digambarkan sebagai **lingkaran** kecil.

---

### **2. Input Layer**
- Lapisan pertama dalam CNN disebut **input layer**.
- Di sini, gambar yang sudah diproses sebelumnya (preprocessed) dimasukkan ke jaringan.
- Setiap piksel dalam gambar menjadi **nilai input** untuk jaringan.

---

### **3. Convolutional Layers (Lapisan Konvolusi)**
Lapisan ini adalah inti dari CNN dan bertugas mengenali pola dalam gambar.

#### **Bagaimana Konvolusi Bekerja:**
- **Filter (Kernel):** Sebuah kotak kecil (matriks) berisi angka-angka (berat/filter).
- **Proses Sliding:** Filter digeser (stride) di atas gambar, satu langkah dalam satu waktu.
- **Dot Product:** Di setiap posisi, gambar dan filter dihitung bersama menggunakan operasi **perkalian titik (dot product)**.
- Hasilnya adalah peta fitur (**feature map**) yang menunjukkan di mana pola tertentu (misalnya tepi, sudut) ditemukan di gambar.

#### **Terminologi:**
- **Kernel (Filter):** Matriks kecil yang dipakai untuk mendeteksi pola tertentu.
- **Stride:** Jarak geser filter di gambar (misalnya, geser 1 piksel per langkah).
- **Padding:** Menambahkan "tepi" berupa angka nol di sekitar gambar agar ukuran output tetap terkontrol.

#### **Fungsi:**
Lapisan ini membantu mengekstrak **fitur sederhana** seperti tepi dan tekstur pada gambar.

---

### **4. ReLU Activation**
- **ReLU (Rectified Linear Unit)** adalah fungsi yang membuat hasil konvolusi menjadi **non-linear**.
- **Cara Kerja:** Mengubah semua nilai negatif menjadi nol.
  - Contoh: Input `-3` menjadi `0`, input `4` tetap `4`.
- Non-linearitas penting agar jaringan bisa mengenali pola yang lebih kompleks.

---

### **5. Pooling Layers**
- Lapisan ini bertugas **mengecilkan ukuran data** tanpa kehilangan informasi penting.
- Misalnya, **Max Pooling** hanya mengambil nilai terbesar dalam kotak kecil dari peta fitur.
- **Fungsi:**
  - Mengurangi ukuran data untuk mempercepat komputasi.
  - Membantu mencegah model "overfitting" (terlalu cocok dengan data pelatihan).

---

### **6. Fully Connected Layers**
- Setelah fitur penting dari gambar diekstrak oleh lapisan konvolusi dan pooling, fitur ini diberikan ke lapisan fully connected.
- **Tugas:** Lapisan ini melakukan klasifikasi, misalnya:
  - Jika gambar adalah kucing, anjing, atau burung, lapisan ini menentukan kelasnya.

---

### **Ringkasan Sederhana CNN:**
1. **Input Layer:** Gambar masuk.
2. **Convolutional Layers:** Mendeteksi pola seperti tepi atau sudut.
3. **ReLU Activation:** Menambahkan non-linearitas.
4. **Pooling Layers:** Mengecilkan ukuran data.
5. **Fully Connected Layers:** Mengambil keputusan klasifikasi.

CNN bekerja seperti otak manusia, mengenali bagian kecil dulu (tepi dan tekstur), lalu menggabungkannya untuk memahami keseluruhan objek (misalnya wajah atau hewan). 

In [None]:
from tensorflow.keras.models import load_model

from PIL import Image

model = load_model('./mnist_model.h5')

def predict_digit(image_path):
    # Load and preprocess the image
    img = Image.open(image_path).convert('L').resize((28, 28))
    img_array = np.array(img).reshape(1, 28, 28, 1) / 255.0
    
    # Predict probabilities for each class
    prediction = model.predict(img_array)
    
    # Get the predicted digit and confidence score
    predicted_digit = np.argmax(prediction)
    confidence_score = np.max(prediction)  # Highest probability
    
    return predicted_digit, confidence_score




In [5]:
# Example usage
image_path = "3-sample.png"
digit, confidence = predict_digit(image_path)

print(f"Predicted Digit: {digit}")
print(f"Confidence Score: {confidence:.2f}")

[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 66ms/step
Predicted Digit: 3
Confidence Score: 0.74


In [6]:
image_path = "3-sample.png"
img = Image.open(image_path).convert('L').resize((28, 28))
print(img)

<PIL.Image.Image image mode=L size=28x28 at 0x14D33028590>


In [36]:
# img_array has type numpy.ndarray
img_array = np.array(img).reshape(1, 28, 28, 1) / 255.0
print(img_array.shape)
# [[[[1.        ]
#    [1.        ]
#    ......
#    [1.        ]
#    [1.        ]]]]

(1, 28, 28, 1)


Mari kita bahas setiap bagian dari pertanyaan Anda secara mendetail:

---

### **Apa arti array dengan shape `(1, 28, 28, 1)`?**
- **Shape `(1, 28, 28, 1)` memiliki arti:**
  1. **1**: Dimensi pertama adalah ukuran batch (jumlah gambar). Dalam hal ini, hanya ada satu gambar yang diproses dalam satu waktu.
  2. **28**: Dimensi kedua adalah tinggi gambar (28 piksel).
  3. **28**: Dimensi ketiga adalah lebar gambar (28 piksel).
  4. **1**: Dimensi keempat adalah jumlah channel (saluran warna). Nilai 1 berarti gambar dalam **grayscale** (hitam putih), sedangkan untuk gambar berwarna (RGB), jumlah channel biasanya 3.

---

### **Mengapa `img_array` perlu di-reshape menjadi `(1, 28, 28, 1)`?**
1. **Kompatibilitas dengan Model:**
   - Model deep learning seperti yang dibuat dengan framework seperti TensorFlow atau Keras **mengharapkan input dalam bentuk tensor dengan dimensi tertentu.**
   - Model sering didesain untuk menerima input batch, sehingga dimensi pertama adalah ukuran batch.
   - Input ke model Anda di sini berupa gambar 28x28 piksel dengan 1 channel, tetapi perlu **dibungkus dalam batch (meskipun hanya satu gambar)**, sehingga menjadi `(1, 28, 28, 1)`.

2. **Input Format yang Konsisten:**
   - Model tidak peduli apakah Anda memberikan satu gambar atau banyak gambar sekaligus; ia memproses data dalam bentuk batch.
   - Oleh karena itu, Anda perlu menambahkan dimensi batch (`1`) agar bentuknya konsisten dengan desain model.

3. **Saluran Warna:**
   - Untuk gambar **grayscale**, saluran warna eksplisit (`1`) membantu model membedakan input ini dari input gambar berwarna (RGB, yang memiliki 3 channel).

---

### **Mengapa gambar perlu dibagi 255?**
1. **Normalisasi Data:**
   - **Piksel gambar biasanya memiliki nilai antara 0 dan 255** (dalam 8-bit format). Membagi setiap piksel dengan 255.0 akan menormalisasi nilainya ke dalam rentang **[0, 1]**.
   - Normalisasi membantu model belajar lebih cepat dan stabil karena:
     - Mencegah nilai besar mendominasi dalam perhitungan (gradien menjadi lebih stabil).
     - Nilai dalam rentang kecil (seperti [0, 1]) cocok untuk aktivasi yang digunakan dalam model (misalnya, ReLU atau sigmoid).

2. **Mengurangi Skewness:**
   - Model lebih efektif saat data input memiliki distribusi nilai yang seragam, dan normalisasi membantu mencapai ini.

---

### **Mengapa Hal Ini Penting?**
Jika Anda tidak melakukan **reshape** atau **normalisasi**, kemungkinan besar model akan gagal menerima data atau memberikan prediksi yang buruk karena input tidak sesuai dengan format yang diharapkan model.

In [32]:
# Predict probabilities for each class
prediction = model.predict(img_array)
print(prediction.shape)
print(prediction)

# predicted digit diambil dari  index pada array ke berapa yang memiliki nilai tertinggi
# np.argmax(prediction)  membantu dalam mencari index tersebut
# confidence score merupakan seberapa besar probabilitas tebakan dari prediksi image
# confidence_score diambil dari nilai maximum prediction. e.g. np.max(prediction)

[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 31ms/step
(1, 10)
[[5.6447268e-17 2.9630874e-11 3.0100841e-02 7.4258590e-01 0.0000000e+00
  2.2731330e-01 3.3445674e-10 3.6655737e-11 3.2307848e-13 1.6409429e-17]]


1. **Output dari Neural Network sebagai Probabilitas:**
   - Biasanya, **output dari sebuah neural network dalam konteks klasifikasi** adalah probabilitas untuk setiap kelas.
   - Probabilitas ini seringkali didapatkan melalui fungsi aktivasi pada layer output, seperti **Softmax** untuk klasifikasi multi-kelas, atau **Sigmoid** untuk klasifikasi biner.

2. **Probabilitas Disebut Apa?**
   - Probabilitas ini sering disebut sebagai **confidence scores** atau **predicted probabilities**. 
   - Nilai-nilai tersebut mewakili keyakinan model terhadap masing-masing kelas.

3. **Peran Fungsi Aktivasi:**
   - Fungsi aktivasi seperti **Softmax** digunakan untuk:
     - Mengubah nilai mentah dari output layer (logit) menjadi distribusi probabilitas (rentang 0-1) yang menjumlahkan hingga 1.
     - Fungsi ini membuat output lebih interpretable, khususnya untuk klasifikasi.

### **Mengapa Dibutuhkan Beberapa Layer untuk Mencapai Aktivasi?**
1. **Kompleksitas Representasi Data:**
   - Data mentah (misalnya gambar) memiliki dimensi tinggi dan pola non-linear. Layer bertumpuk (hidden layers) membantu neural network belajar representasi yang semakin abstrak dan kompleks.
   - Layer awal mendeteksi fitur sederhana (tepi, warna, tekstur), sedangkan layer lebih dalam mendeteksi pola yang lebih kompleks (objek, bagian objek, dll.).

2. **Non-linearitas:**
   - Fungsi aktivasi pada hidden layer (misalnya, ReLU, tanh) menambahkan **non-linearitas** yang diperlukan untuk belajar pola kompleks.
   - Tanpa non-linearitas, model hanya akan mampu mempelajari fungsi linear, yang tidak cukup untuk banyak tugas seperti klasifikasi gambar.

3. **Mapping ke Output:**
   - Layer terakhir (output layer) bertugas mengubah representasi internal menjadi output yang relevan, seperti probabilitas untuk setiap kelas menggunakan fungsi aktivasi seperti Softmax.
