<a href="https://colab.research.google.com/github/Bagito999/Deep-Learning/blob/main/Chapter_14_Teori.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#  Chapter 14 - Deep Computer Vision Using Convolutional Neural Networks (CNNs)

##  Tujuan Bab

Bab ini memperkenalkan arsitektur CNN untuk tugas-tugas visi komputer, khususnya:
- Klasifikasi gambar
- Ekstraksi fitur spasial
- Pengurangan parameter dibanding MLP
- Deteksi dan segmentasi objek

---

##  Tantangan dalam Pengolahan Gambar

Masukan berupa gambar memiliki:
- **Dimensi tinggi**: contoh gambar 28×28 = 784 input neuron
- **Struktur spasial**: piksel berdekatan saling berkaitan
- **Redundansi lokal**: fitur sering berulang dalam gambar

MLP tidak efisien untuk eksploitasi struktur lokal → CNN dirancang khusus untuk hal ini.

---

##  Struktur CNN

### 🔸 Komponen Utama:
1. **Convolutional Layers**
2. **Pooling Layers**
3. **Fully Connected Layers (Dense)**

---

##  Convolution Operation

### 🔹 Definisi:

Konvolusi adalah operasi pada matriks input dengan kernel (filter), menghasilkan **feature map**.

\[
$S(i, j) = (I * K)(i, j) = \sum_m \sum_n I(i + m, j + n) \cdot K(m, n)$
\]

- \($ I $\): input image
- \($ K $\): kernel/filter
- \($ S $\): hasil konvolusi

---

##  Hyperparameter Konvolusi

1. **Filter size** (kernel size): contoh 3×3, 5×5
2. **Stride**: langkah geser filter
3. **Padding**:
   - 'valid': tanpa padding (output lebih kecil)
   - 'same': padding sehingga output sama ukuran
4. **Depth**: jumlah filter = kedalaman output

---

##  Feature Maps

- Tiap filter mendeteksi pola tertentu (edge, texture)
- Layer dalam mendeteksi pola makin kompleks (tepi → bentuk → objek)

---

##  Pooling Layer

Digunakan untuk:
- **Mengurangi dimensi spasial**
- **Meningkatkan invarian translasi**

### 🔹 Max Pooling:

\[
$P(i, j) = \max_{(m, n) \in \text{region}} A(i + m, j + n)$
\]

- Ambil nilai maksimum dari jendela

---

##  Arsitektur CNN Standar

1. Input: gambar (misal: 28×28×1)
2. Beberapa Conv + Pooling layers
3. Flatten layer
4. Dense layers
5. Output layer (misalnya softmax untuk klasifikasi)

---

##  Parameter CNN vs MLP

CNN memiliki jauh **lebih sedikit parameter** dibanding MLP karena:
- **Local connectivity**: neuron hanya terhubung dengan patch kecil
- **Parameter sharing**: filter sama digunakan di seluruh lokasi

---

##  Activation Maps & Filters

- Activation map: hasil output dari filter setelah aktivasi
- Visualisasi membantu memahami apa yang dipelajari model

---

##  Data Augmentation

Teknik untuk memperluas data pelatihan:
- Rotasi acak
- Zoom
- Translasi
- Flipping

Tujuan: meningkatkan generalisasi dan mencegah overfitting.

---

##  Arsitektur CNN Terkenal

### 🔹 LeNet-5 (1998)
- Pionir CNN untuk digit recognition

### 🔹 AlexNet (2012)
- ReLU, Dropout, GPU training
- Juara ImageNet 2012

### 🔹 VGGNet
- Layer konvolusi 3×3 bertumpuk
- Arsitektur sangat dalam (16–19 layer)

### 🔹 GoogLeNet (Inception)
- Inception module: kombinasi kernel (1×1, 3×3, 5×5)
- Parameter efisien

### 🔹 ResNet
- Residual connection: \($ y = F(x) + x $\)
- Memungkinkan training >100 layer

---

##  Transfer Learning

Gunakan CNN pretrained (misalnya di ImageNet), lalu:
- **Feature extraction**: gunakan CNN sebagai extractor
- **Fine-tuning**: latih ulang sebagian atau seluruh model

Efektif ketika:
- Dataset kecil
- Waktu terbatas
- Domain serupa

---

##  Evaluasi CNN

Gunakan metrik umum:
- Akurasi
- Precision, Recall, F1
- Confusion Matrix

Visualisasi:
- Filter
- Aktivasi layer
- Saliency maps (gradien input)

---

##  Regularisasi di CNN

1. **Dropout** (biasanya sebelum dense layer)
2. **Batch Normalization**
3. **Weight Decay** (L2 regularization)

---

##  Kesimpulan

- CNN efektif untuk tugas pengolahan citra karena exploitasi struktur spasial
- Konvolusi dan pooling mengurangi jumlah parameter drastis
- CNN modern (ResNet, Inception) sangat dalam dan efisien
- Transfer learning mempercepat dan menyederhanakan pelatihan model

---

##  Referensi

Géron, A. (2019). *Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow*. O'Reilly Media.
