# Chapter 14: Deep Computer Vision Using Convolutional Neural Networks

Pada bab ini, kita membahas secara mendalam penggunaan **Convolutional Neural Networks (CNN)** dalam bidang *Computer Vision*. CNN merupakan arsitektur jaringan saraf yang secara signifikan mengubah cara komputer memahami dan memproses data visual.

CNN terinspirasi dari cara kerja sistem visual manusia, khususnya struktur korteks visual pada otak. Dengan pendekatan ini, CNN mampu mencapai performa yang sangat tinggi, bahkan dalam beberapa kasus melampaui kemampuan manusia, pada berbagai tugas seperti klasifikasi gambar, deteksi objek, dan segmentasi citra.

Bab ini akan mengulas konsep dasar CNN, komponen utamanya, serta bagaimana CNN diimplementasikan menggunakan framework modern seperti TensorFlow dan Keras.


## Mengapa Convolutional Neural Networks?

Jaringan saraf fully-connected (Dense Network) kurang efisien ketika digunakan untuk data visual karena tidak mempertahankan hubungan spasial antar piksel.

CNN dirancang untuk mengatasi keterbatasan tersebut dengan cara:
- mempertahankan struktur spasial gambar,
- memanfaatkan korelasi lokal antar piksel,
- mengurangi jumlah parameter secara signifikan.

CNN menggunakan lapisan khusus yang mampu mendeteksi fitur sederhana seperti tepi dan sudut pada lapisan awal, kemudian menggabungkannya menjadi fitur yang lebih kompleks seperti tekstur, bentuk, dan objek pada lapisan yang lebih dalam.

Pendekatan hierarkis ini menjadikan CNN sangat efektif untuk berbagai aplikasi Computer Vision modern.


## Struktur Pembahasan Bab Ini

Bab ini disusun secara bertahap untuk membangun pemahaman yang kuat mengenai CNN, dengan topik-topik utama sebagai berikut:

1. Arsitektur korteks visual dan inspirasi biologis CNN  
2. Lapisan konvolusi dan mekanisme kerjanya  
3. Lapisan pooling untuk reduksi dimensi  
4. Implementasi CNN menggunakan Keras  
5. Arsitektur CNN klasik dan modern  
6. Transfer learning dan pemanfaatan model pretrained  
7. Gambaran umum deteksi objek dan segmentasi gambar  

Dengan memahami keseluruhan topik ini, pembaca diharapkan mampu membangun dan menerapkan CNN secara efektif.


## 1. Cara Kerja Convolutional Layer

Lapisan konvolusi merupakan komponen inti dari CNN. Tidak seperti Dense Layer yang terhubung ke seluruh input, lapisan konvolusi hanya memproses area lokal kecil dari gambar yang disebut *receptive field*.

Pendekatan ini memungkinkan CNN untuk:
- mendeteksi pola lokal,
- mempertahankan informasi spasial,
- mengurangi jumlah parameter secara signifikan.

Lapisan konvolusi bekerja dengan menggeser filter kecil di atas gambar input dan menghasilkan feature map sebagai output.


### Konsep-Konsep Penting pada Convolutional Layer

Beberapa konsep utama yang perlu dipahami dalam lapisan konvolusi antara lain:

- **Filter (Kernel)**  
  Matriks kecil berisi bobot yang digunakan untuk mengekstrak pola tertentu dari gambar.

- **Feature Map**  
  Hasil keluaran dari proses konvolusi yang menunjukkan lokasi dan kekuatan fitur yang terdeteksi.

- **Stride**  
  Jarak pergeseran filter setiap kali diaplikasikan ke gambar.

- **Padding**  
  Teknik penambahan piksel kosong (biasanya nol) di tepi gambar agar ukuran output tetap terjaga.

Pemilihan parameter ini sangat memengaruhi performa dan efisiensi model CNN.


In [None]:
import tensorflow as tf
from tensorflow import keras
import numpy as np
import matplotlib.pyplot as plt

# Contoh mendefinisikan lapisan Konvolusi 2D
conv_layer = keras.layers.Conv2D(filters=32, kernel_size=3, strides=1,
                                 padding="same", activation="relu")

print("Lapisan Konvolusi berhasil didefinisikan dengan 32 filter berukuran 3x3.")


## 2. Pooling Layers

Lapisan pooling digunakan untuk melakukan *downsampling* terhadap feature map hasil konvolusi.

Tujuan utama pooling adalah:
- mengurangi dimensi data,
- menurunkan beban komputasi,
- mengurangi risiko overfitting,
- meningkatkan ketahanan terhadap pergeseran kecil pada gambar.

Pooling tidak memiliki parameter yang dapat dilatih, sehingga berfungsi murni sebagai transformasi data.


Jenis pooling yang paling umum digunakan adalah:

- **Max Pooling**  
  Mengambil nilai maksimum dari setiap jendela kecil, sehingga fitur paling dominan tetap dipertahankan.

- **Average Pooling**  
  Mengambil nilai rata-rata dari jendela, menghasilkan representasi yang lebih halus.

Dalam praktik, Max Pooling lebih sering digunakan karena cenderung mempertahankan fitur penting dengan lebih baik.


In [None]:
# Contoh Max Pooling dengan jendela 2x2
max_pool = keras.layers.MaxPool2D(pool_size=2)

print("Lapisan Max Pooling akan mengurangi dimensi gambar menjadi setengahnya (lebar dan tinggi).")


## 3. Implementasi CNN Lengkap (Fashion MNIST)

Untuk memahami penerapan CNN secara praktis, kita akan membangun sebuah arsitektur CNN sederhana yang digunakan untuk mengklasifikasikan dataset Fashion MNIST.

Dataset ini berisi gambar pakaian berukuran 28Ã—28 piksel dalam skala abu-abu dan sering digunakan sebagai benchmark awal untuk Computer Vision.


In [None]:
model = keras.models.Sequential([
    # Lapisan Konvolusi pertama dengan 64 filter 7x7
    keras.layers.Conv2D(64, 7, activation="relu", padding="same", input_shape=[28, 28, 1]),
    keras.layers.MaxPooling2D(2),

    # Lapisan Konvolusi kedua & ketiga
    keras.layers.Conv2D(128, 3, activation="relu", padding="same"),
    keras.layers.Conv2D(128, 3, activation="relu", padding="same"),
    keras.layers.MaxPooling2D(2),

    # Lapisan Konvolusi keempat & kelima
    keras.layers.Conv2D(256, 3, activation="relu", padding="same"),
    keras.layers.Conv2D(256, 3, activation="relu", padding="same"),
    keras.layers.MaxPooling2D(2),

    # Meratakan output untuk dimasukkan ke Dense Network
    keras.layers.Flatten(),
    keras.layers.Dense(128, activation="relu"),
    keras.layers.Dropout(0.5),
    keras.layers.Dense(64, activation="relu"),
    keras.layers.Dropout(0.5),
    keras.layers.Dense(10, activation="softmax")
])

model.summary()


Arsitektur di atas menunjukkan bagaimana CNN menyusun lapisan konvolusi secara bertingkat untuk mengekstrak fitur yang semakin kompleks.

Lapisan Dropout digunakan untuk mengurangi overfitting dengan cara menonaktifkan neuron secara acak selama training.


## 4. Arsitektur CNN Populer

Berbagai arsitektur CNN telah dikembangkan dan memenangkan kompetisi ImageNet, antara lain:

- **LeNet-5**: Arsitektur awal untuk pengenalan digit
- **AlexNet**: Memicu kebangkitan Deep Learning modern
- **GoogLeNet**: Menggunakan Inception Module untuk efisiensi
- **ResNet**: Memperkenalkan residual connection untuk jaringan sangat dalam
- **Xception**: Mengoptimalkan depthwise separable convolution

Arsitektur-arsitektur ini menjadi fondasi bagi banyak model modern.


## 5. Transfer Learning dengan Keras

Transfer learning memungkinkan kita menggunakan model yang telah dilatih pada dataset besar seperti ImageNet, kemudian menyesuaikannya untuk tugas baru.

Pendekatan ini sangat efektif ketika:
- dataset target relatif kecil,
- sumber daya komputasi terbatas,
- ingin mendapatkan performa tinggi dengan waktu training lebih singkat.


In [None]:
# Memuat ResNet50 yang sudah dilatih (pretrained)
base_model = keras.applications.resnet50.ResNet50(weights="imagenet", include_top=False)

# Menambahkan lapisan kustom di atasnya
avg = keras.layers.GlobalAveragePooling2D()(base_model.output)
output = keras.layers.Dense(10, activation="softmax")(avg)

model_transfer = keras.models.Model(inputs=base_model.input, outputs=output)

# Membekukan lapisan dasar agar tidak berubah saat pelatihan awal
for layer in base_model.layers:
    layer.trainable = False

print("Model Transfer Learning siap dikompilasi.")


## 6. Deteksi Objek dan Segmentasi

Selain klasifikasi, CNN juga digunakan dalam tugas Computer Vision lanjutan seperti:

- **Deteksi Objek**: Menentukan lokasi dan kelas objek dalam gambar
- **Segmentasi Semantik**: Mengklasifikasikan setiap piksel
- **Image Localization**: Menemukan posisi objek utama

Model seperti YOLO, SSD, Mask R-CNN, dan U-Net banyak digunakan dalam aplikasi industri.


## Rangkuman Bab 14

Bab ini membahas konsep dan praktik CNN secara komprehensif. Poin-poin utama yang dapat disimpulkan adalah:

- CNN sangat efektif untuk data visual karena mempertahankan struktur spasial
- Lapisan konvolusi mengekstrak fitur secara hierarkis
- Pooling membantu efisiensi dan generalisasi
- Transfer learning mempercepat pengembangan model
- CNN menjadi fondasi utama Computer Vision modern

Pemahaman bab ini menjadi dasar penting untuk topik lanjutan seperti object detection dan segmentation.
