<a href="https://colab.research.google.com/github/muhiqbalalamin/DeepLearning-UAS/blob/main/Chapter_14_Teori.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Deep Computer Vision Using Convolutional Neural Networks (CNNs)**

## Tujuan Bab
Bab ini memperkenalkan arsitektur Convolutional Neural Networks (CNN) untuk berbagai tugas penglihatan komputer, antara lain:

* Klasifikasi gambar

* Ekstraksi fitur spasial

* Pengurangan jumlah parameter dibandingkan MLP

* Deteksi dan segmentasi objek

## Tantangan dalam Pengolahan Gambar
Gambar sebagai input memiliki karakteristik khusus:

* Dimensi tinggi: misalnya gambar 28×28 menghasilkan 784 input neuron

* Struktur spasial: piksel yang berdekatan saling berkorelasi

* Redundansi lokal: fitur seperti tepi dan pola sering berulang

Model MLP tidak efisien untuk mengeksploitasi struktur ini, sehingga CNN dirancang khusus untuk mengatasinya.

## Struktur CNN
### Komponen Utama CNN:
1. Convolutional Layer

2. Pooling Layer

3. Fully Connected Layer (Dense)

## Operasi Konvolusi
### Definisi:
Konvolusi adalah operasi antara matriks input dan kernel (filter) yang menghasilkan feature map:

\[
$S(i, j) = (I * K)(i, j) = \sum_m \sum_n I(i + m, j + n) \cdot K(m, n)$
\]

- \($ I $\): input image
- \($ K $\): kernel/filter
- \($ S $\): hasil konvolusi




## Hyperparameter Konvolusi
1. Ukuran filter: biasanya 3×3 atau 5×5

2. Stride: langkah pergeseran filter

3. Padding:

* 'valid': tanpa padding (dimensi output lebih kecil)

* 'same': padding agar ukuran output tetap sama

4. Depth: jumlah filter menentukan kedalaman output

## Feature Map
* Setiap filter menangkap pola tertentu (misalnya tepi, tekstur)

* Layer yang lebih dalam mendeteksi pola lebih kompleks (dari tepi → bentuk → objek)

## Pooling Layer
Pooling digunakan untuk:

* Mengurangi dimensi spasial

* Meningkatkan ketahanan terhadap translasi

### Max Pooling:

\[
$P(i, j) = \max_{(m, n) \in \text{region}} A(i + m, j + n)$
\]

Mengambil nilai maksimum dalam area tertentu (window).

## Arsitektur CNN Standar
1. Input: citra (misal: 28×28×1)

2. Beberapa layer konvolusi dan pooling

3. Flatten layer

4. Dense layer

5. Output layer (misalnya softmax untuk klasifikasi)

## Parameter CNN vs MLP
CNN jauh lebih efisien dibandingkan MLP karena:

* Konektivitas lokal: neuron hanya terhubung pada sebagian kecil input

* Parameter sharing: satu filter digunakan berulang di seluruh input

## Activation Map & Filter
* Activation map adalah hasil output dari filter setelah fungsi aktivasi

* Visualisasi map dan filter membantu memahami pola yang dipelajari model

## Augmentasi Data
Teknik augmentasi digunakan untuk memperkaya data pelatihan, seperti:

* Rotasi acak

* Perbesaran (zoom)

* Translasi posisi

 *Flipping horizontal/vertikal

Tujuannya adalah meningkatkan generalisasi dan mengurangi overfitting.

## Arsitektur CNN Populer
### LeNet-5 (1998)
* Pionir CNN untuk pengenalan digit tulisan tangan

### AlexNet (2012)
* Menggunakan ReLU, Dropout, dan GPU untuk pelatihan

* Menang kompetisi ImageNet 2012

### VGGNet
* Konvolusi 3×3 bertumpuk

* Arsitektur sangat dalam (16–19 layer)

### GoogLeNet (Inception)
* Inception module: gabungan kernel 1×1, 3×3, 5×5

* Efisien dalam penggunaan parameter

### ResNet
* Residual connection: 𝑦=𝐹(𝑥)+𝑥

* Memungkinkan pelatihan jaringan sangat dalam (>100 layer)

## Transfer Learning
Menggunakan CNN pretrained (misalnya dari ImageNet), lalu:

* Feature extraction: CNN digunakan sebagai ekstraktor fitur

* Fine-tuning: sebagian atau seluruh layer dilatih ulang

Efektif jika:

* Dataset terbatas

* Waktu pelatihan terbatas

* Domain data serupa dengan dataset pretraining

## Evaluasi CNN
Gunakan metrik evaluasi umum:

* Akurasi

* Precision, Recall, F1-Score

* Confusion Matrix

Visualisasi tambahan:

* Filter

* Activation layer

* Saliency maps (menggunakan gradien input)

## Regularisasi pada CNN
1. Dropout (biasanya sebelum dense layer)

2. Batch Normalization

3. Weight Decay (L2 Regularization)

# **Kesimpulan**
* CNN sangat efektif untuk tugas pengolahan citra karena mampu memanfaatkan struktur spasial

* Operasi konvolusi dan pooling mengurangi jumlah parameter secara signifikan

* Arsitektur CNN modern seperti ResNet dan Inception sangat dalam dan efisien

* Transfer learning sangat berguna untuk mempercepat pelatihan model dan mengurangi kebutuhan data besar

# **Referensi**
Géron, A. (2019). Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow. O’Reilly Media.