# Bab 14: Deep Computer Vision Using Convolutional Neural Networks

Bab ini mengeksplorasi **Convolutional Neural Networks (CNN)**, arsitektur yang merevolusi bidang Computer Vision. CNN terinspirasi dari studi tentang korteks visual otak dan telah mencapai performa manusia (bahkan melampauinya) dalam tugas-tugas seperti klasifikasi gambar, deteksi objek, dan segmentasi gambar.

## Mengapa CNN?
Berbeda dengan *Dense Network* biasa, CNN mempertahankan struktur spasial data (seperti piksel tetangga dalam gambar). CNN menggunakan lapisan khusus yang mampu mendeteksi fitur sederhana (seperti garis) di lapisan bawah, dan menggabungkannya menjadi fitur kompleks (seperti wajah atau objek) di lapisan atas.

## Daftar Isi:
1. **Arsitektur Korteks Visual**: Inspirasi biologis.
2. **Convolutional Layers**: Filter, Feature Maps, Stride, dan Padding.
3. **Pooling Layers**: Max Pooling dan Average Pooling.
4. **Membangun CNN dengan Keras**: Implementasi praktis.
5. **Arsitektur CNN Klasik**: LeNet-5, AlexNet, VGG, GoogLeNet, dan ResNet.
6. **Transfer Learning**: Menggunakan model pre-trained.
7. **Deteksi Objek & Segmentasi**: Gambaran umum.

## 1. Bagaimana Convolutional Layer Bekerja?

Lapisan konvolusi adalah blok bangunan utama CNN. Lapisan ini tidak terhubung secara penuh ke seluruh piksel, melainkan hanya ke area kecil (disebut *receptive field*). 

### Konsep Kunci:
- **Filter (Kernel)**: Kumpulan bobot kecil yang bergeser di atas gambar untuk mendeteksi pola tertentu.
- **Feature Map**: Output dari filter yang menunjukkan di mana pola tersebut terdeteksi.
- **Stride**: Jarak pergeseran filter (misal: stride 1 berarti geser 1 piksel).
- **Padding**: Menambahkan baris/kolom nol di sekitar gambar agar ukurannya tidak mengecil drastis setelah konvolusi.

In [None]:
import tensorflow as tf
from tensorflow import keras
import numpy as np
import matplotlib.pyplot as plt

# Contoh mendefinisikan lapisan Konvolusi 2D
conv_layer = keras.layers.Conv2D(filters=32, kernel_size=3, strides=1, 
                                 padding="same", activation="relu")

print("Lapisan Konvolusi berhasil didefinisikan dengan 32 filter berukuran 3x3.")

## 2. Pooling Layers

Tujuan utama lapisan pooling adalah untuk **subsampling** (mengurangi resolusi) gambar guna mengurangi beban komputasi, jumlah parameter, dan risiko overfitting.

- **Max Pooling**: Mengambil nilai maksimum dari jendela tertentu (paling umum digunakan).
- **Average Pooling**: Mengambil nilai rata-rata.

In [None]:
# Contoh Max Pooling dengan jendela 2x2
max_pool = keras.layers.MaxPool2D(pool_size=2)

print("Lapisan Max Pooling akan mengurangi dimensi gambar menjadi setengahnya (lebar dan tinggi).")

## 3. Implementasi CNN Lengkap (Fashion MNIST)

Mari kita buat arsitektur CNN sederhana untuk mengklasifikasikan pakaian.

In [None]:
model = keras.models.Sequential([
    # Lapisan Konvolusi pertama dengan 64 filter 7x7
    keras.layers.Conv2D(64, 7, activation="relu", padding="same", input_shape=[28, 28, 1]),
    keras.layers.MaxPooling2D(2),
    
    # Lapisan Konvolusi kedua & ketiga
    keras.layers.Conv2D(128, 3, activation="relu", padding="same"),
    keras.layers.Conv2D(128, 3, activation="relu", padding="same"),
    keras.layers.MaxPooling2D(2),
    
    # Lapisan Konvolusi keempat & kelima
    keras.layers.Conv2D(256, 3, activation="relu", padding="same"),
    keras.layers.Conv2D(256, 3, activation="relu", padding="same"),
    keras.layers.MaxPooling2D(2),
    
    # Meratakan output untuk dimasukkan ke Dense Network
    keras.layers.Flatten(),
    keras.layers.Dense(128, activation="relu"),
    keras.layers.Dropout(0.5),
    keras.layers.Dense(64, activation="relu"),
    keras.layers.Dropout(0.5),
    keras.layers.Dense(10, activation="softmax")
])

model.summary()

## 4. Arsitektur CNN Populer

Selama bertahun-tahun, banyak variasi CNN yang memenangkan kompetisi ILSVRC (ImageNet):

1. **LeNet-5 (1998)**: Digunakan untuk pengenalan digit tulisan tangan (MNIST).
2. **AlexNet (2012)**: Mempopulerkan Deep Learning dengan ReLU dan Dropout.
3. **GoogLeNet (2014)**: Memperkenalkan *Inception Modules* untuk efisiensi parameter.
4. **ResNet (2015)**: Menggunakan *Skip Connections* (Residual Connections) untuk memungkinkan network yang sangat dalam (ratusan lapisan) tanpa masalah gradien hilang.
5. **Xception**: Menggunakan *Depthwise Separable Convolutions*.

## 5. Transfer Learning dengan Keras

Kita tidak perlu melatih model dari nol. Kita bisa menggunakan model yang sudah dilatih pada dataset raksasa seperti ImageNet.

In [None]:
# Memuat ResNet50 yang sudah dilatih (pretrained)
base_model = keras.applications.resnet50.ResNet50(weights="imagenet", include_top=False)

# Menambahkan lapisan kustom di atasnya
avg = keras.layers.GlobalAveragePooling2D()(base_model.output)
output = keras.layers.Dense(10, activation="softmax")(avg)

model_transfer = keras.models.Model(inputs=base_model.input, outputs=output)

# Membekukan lapisan dasar agar tidak berubah saat pelatihan awal
for layer in base_model.layers:
    layer.trainable = False

print("Model Transfer Learning siap dikompilasi.")

## 6. Deteksi Objek & Segmentasi

Selain klasifikasi (apa objeknya?), CNN juga digunakan untuk:
- **Deteksi Objek**: Menemukan di mana objek berada (Bounding Box). Contoh: YOLO, SSD, Faster R-CNN.
- **Segmentasi Semantik**: Mengklasifikasikan setiap piksel ke dalam kategori tertentu. Contoh: Mask R-CNN, U-Net.
- **Localization**: Menemukan satu objek utama dalam gambar.

## Rangkuman Praktis Bab 14

1. **Convolutional Layers** mengekstrak fitur spasial secara hierarkis.
2. **Pooling Layers** membantu imuariansi terhadap pergeseran kecil dan mengurangi beban komputasi.
3. **Data Augmentation** (seperti memutar atau membalik gambar) sangat penting untuk memperkaya dataset dan mengurangi overfitting.
4. **Transfer Learning** adalah strategi terbaik jika Anda memiliki dataset kecil namun ingin performa tingkat tinggi.
5. **ResNet** adalah pilihan standar industri saat ini karena stabilitasnya dalam network yang dalam.