# Bab 14: Deep Computer Vision Using Convolutional Neural Networks (Visi Komputer Mendalam Menggunakan Jaringan Saraf Konvolusional)

### 1. Pendahuluan

Bab 14 beralih ke salah satu aplikasi *Deep Learning* yang paling sukses: **Computer Vision** (Visi Komputer). Selama dekade terakhir, *Deep Learning* telah merevolusi bidang ini, terutama berkat munculnya **Convolutional Neural Networks (CNNs)**. CNNs adalah arsitektur Jaringan Saraf Tiruan khusus yang dirancang untuk memproses data berstruktur *grid* seperti gambar.

Bab ini akan membahas:
* Arsitektur dasar CNN, termasuk lapisan konvolusional dan lapisan *pooling*.
* Cara membangun dan melatih CNN untuk tugas klasifikasi gambar menggunakan Keras.
* Arsitektur CNN yang populer dan berkinerja tinggi.
* Teknik *transfer learning* lanjutan untuk Computer Vision.

### 2. Arsitektur Convolutional Layer (Lapisan Konvolusional)

Lapisan konvolusional adalah blok bangunan inti dari CNN. Mereka menggunakan filter kecil (juga disebut *kernels*) yang "bergulir" di atas gambar input, melakukan operasi konvolusi.

* **Filter/Kernel:** Sebuah matriks kecil (misalnya, 3x3) yang berisi bobot. Setiap filter mendeteksi pola tertentu (misalnya, tepi horizontal, vertikal, tekstur).
* **Operasi Konvolusi:** Filter bergerak di atas gambar input (piksel demi piksel atau dengan *stride* tertentu), menghitung *dot product* antara filter dan bagian kecil dari gambar yang sedang ditumpanginya. Hasilnya membentuk peta fitur (*feature map*) atau peta aktivasi (*activation map*).
* **Deteksi Pola Spasial:** Lapisan konvolusional dapat belajar mendeteksi pola di lokasi mana pun dalam gambar, yang merupakan sifat translasi-invarian (atau *translation invariance*).
* **Tumpukan Lapisan:** CNN biasanya terdiri dari beberapa lapisan konvolusional yang ditumpuk. Lapisan awal mendeteksi fitur tingkat rendah (tepi, garis), dan lapisan yang lebih dalam menggabungkan fitur-fitur ini untuk mendeteksi pola yang lebih kompleks (bentuk, mata, wajah).
* **Valid Padding vs Same Padding:**
    * **"Valid" padding (no padding):** Filter hanya diterapkan di area di mana filter sepenuhnya tumpang tindih dengan input. Output akan lebih kecil dari input.
    * **"Same" padding:** Padding nol ditambahkan di sekitar input sehingga output memiliki dimensi spasial yang sama dengan input.
* **Strides:** Langkah yang diambil filter saat bergulir di atas input. *Stride* yang lebih besar akan menghasilkan *feature map* yang lebih kecil dan mengurangi dimensi spasial.

### 3. Lapisan Pooling (Pooling Layers)

Lapisan *pooling* bertujuan untuk mengurangi dimensi spasial (*width* dan *height*) dari *feature map* dan meringkas fitur-fitur yang paling menonjol, sementara tetap mempertahankan informasi penting.

* **Max Pooling:** Jenis *pooling* yang paling umum. Ia memilih nilai maksimum dari setiap jendela kecil (*patch*) di *feature map* input. Ini membantu mengurangi *noise* dan membuat model lebih toleran terhadap pergeseran kecil.
* **Average Pooling:** Menghitung nilai rata-rata dari setiap jendela.
* **Latihan Umum:** Lapisan *pooling* biasanya digunakan di antara lapisan konvolusional.

### 4. Arsitektur CNN (CNN Architectures)

Sebuah arsitektur CNN klasik terdiri dari tumpukan lapisan konvolusional dan lapisan *pooling*, diikuti oleh lapisan *fully connected* (lapisan `Dense`) di bagian akhir untuk klasifikasi atau regresi.

* **Input Layer:** Menerima gambar input.
* **Convolutional Layers (`Conv2D`):** Mengekstraksi fitur.
* **Pooling Layers (`MaxPooling2D`):** Mengurangi dimensi spasial.
* **Flatten Layer:** Mengkonversi *feature map* 2D/3D menjadi vektor 1D sebelum masuk ke lapisan *fully connected*.
* **Dense Layers:** Lapisan *fully connected* standar untuk melakukan klasifikasi/regresi akhir.

Contoh dasar CNN untuk klasifikasi gambar Fashion MNIST ditunjukkan menggunakan Keras.

### 5. Mengimplementasikan ResNet, InceptionNet, dan Xception (Implementing ResNet, InceptionNet, and Xception)

Bab ini kemudian memperkenalkan beberapa arsitektur CNN terkenal yang telah memenangkan berbagai kompetisi dan menjadi dasar banyak aplikasi *Computer Vision*. Arsitektur-arsitektur ini mengatasi masalah pelatihan DNN yang sangat dalam.

#### a. Residual Networks (ResNet)
* Memperkenalkan konsep **koneksi *skip* (skip connections)** atau **koneksi residual**. Ini memungkinkan gradien mengalir langsung melalui jaringan, melewati beberapa lapisan.
* Ini membantu mengatasi masalah *vanishing gradients* di jaringan yang sangat dalam.
* Blok fundamental ResNet adalah **Residual Block**.

#### b. Inception Networks
* Memperkenalkan modul "Inception" yang terdiri dari beberapa cabang konvolusi paralel dengan ukuran filter yang berbeda (misalnya, 1x1, 3x3, 5x5) dan *max pooling*.
* Ini memungkinkan jaringan mempelajari pola pada skala yang berbeda secara bersamaan.
* Penggunaan konvolusi 1x1 (*bottleneck layers*) digunakan untuk mengurangi dimensi (jumlah *feature map*) sebelum konvolusi yang lebih besar, menghemat komputasi.

#### c. Xception
* Varian dari Inception yang menggantikan konvolusi standar dengan **separable konvolusi dalam (depthwise separable convolutions)**.
* Ini memisahkan operasi konvolusi spasial (bergerak di atas lebar dan tinggi) dari operasi konvolusi kedalaman (berinteraksi dengan *channel*).
* Lebih efisien secara komputasi dan seringkali berkinerja lebih baik daripada Inception.

#### d. Keras Applications
Keras menyediakan koleksi model populer yang sudah dilatih (misalnya, VGG16, ResNet50, InceptionV3, Xception) melalui `tf.keras.applications`. Model-model ini dapat dimuat dengan bobot *pre-trained* dari ImageNet, dan sangat berguna untuk *transfer learning*.

### 6. Transfer Learning dengan Pre-trained Models (Transfer Learning with Pre-trained Models)

*Transfer Learning* sangat umum dalam *Computer Vision* karena melatih CNN yang dalam dari awal membutuhkan dataset yang sangat besar dan waktu komputasi yang sangat lama.

**Langkah-langkah umum:**
1.  **Memuat Model Pre-trained:** Muat model (misalnya, ResNet50) dari `tf.keras.applications` tanpa lapisan output (`include_top=False`) dan dengan bobot *pre-trained* ImageNet (`weights="imagenet"`).
2.  **Membekukan Lapisan Dasar:** Setel `base_model.trainable = False` untuk membekukan bobot model dasar.
3.  **Menambahkan Lapisan Output Baru:** Tambahkan `Flatten` layer, satu atau lebih `Dense` layer, dan `Dense` layer output baru yang sesuai untuk tugas Anda.
4.  **Melatih Model Baru:** Latih hanya lapisan output yang baru. Ini sangat cepat.
5.  **Fine-tuning (Opsional):** Setelah model baru belajar fitur tingkat tinggi, Anda dapat "mencairkan" beberapa lapisan teratas dari model dasar dan melatih kembali seluruh model (atau sebagian darinya) dengan *learning rate* yang sangat rendah untuk penyesuaian yang lebih baik.

### 7. Deteksi Objek dan Segmentasi Semantik (Object Detection and Semantic Segmentation)

Bab ini juga memberikan gambaran singkat tentang dua tugas *Computer Vision* penting lainnya:

* **Deteksi Objek (Object Detection):** Tugas mengidentifikasi lokasi (kotak pembatas) dan kelas objek dalam gambar. Model populer termasuk **R-CNN, Fast R-CNN, Faster R-CNN, YOLO (You Only Look Once),** dan **SSD (Single Shot Detector)**.
* **Segmentasi Semantik (Semantic Segmentation):** Tugas untuk mengklasifikasikan setiap piksel dalam gambar ke dalam kategori objek tertentu (misalnya, jalan, mobil, pejalan kaki). Model populer termasuk **Fully Convolutional Networks (FCNs)** dan **U-Net**.

Penjelasan singkat tentang bagaimana model-model ini bekerja (misalnya, *anchor boxes* di deteksi objek, *upsampling* di segmentasi semantik) diberikan.

### 8. Kesimpulan

Bab 14 adalah pengantar yang komprehensif untuk *Deep Computer Vision* menggunakan CNNs. Ini mencakup blok bangunan dasar CNN (konvolusi, *pooling*), bagaimana mereka beroperasi, dan bagaimana menyusunnya menjadi arsitektur yang kuat. Diskusi tentang arsitektur terkenal (ResNet, Inception, Xception) dan pentingnya *transfer learning* untuk tugas *Computer Vision* dunia nyata sangat berharga. Gambaran singkat tentang deteksi objek dan segmentasi semantik juga memperluas wawasan pembaca tentang kemampuan CNN.


## 1. Setup

In [48]:
import tensorflow as tf
from tensorflow import keras
import numpy as np
import matplotlib.pyplot as plt
import os

### Loading Fashion MNIST (as used in previous chapters)

In [49]:
fashion_mnist = keras.datasets.fashion_mnist
(X_train_full, y_train_full), (X_test, y_test) = fashion_mnist.load_data()
X_train_full = X_train_full / 255.0
X_test = X_test / 255.0
X_valid, X_train = X_train_full[:5000], X_train_full[5000:]
y_valid, y_train = y_train_full[:5000], y_train_full[5000:]

## 2. Building a CNN

In [50]:
model = keras.models.Sequential([
    keras.layers.Conv2D(filters=32, kernel_size=3, activation="relu", padding="same",
                        input_shape=[28, 28, 1]), # Input shape for grayscale image
    keras.layers.MaxPooling2D(pool_size=2),
    keras.layers.Conv2D(filters=64, kernel_size=3, activation="relu", padding="same"),
    keras.layers.MaxPooling2D(pool_size=2),
    keras.layers.Flatten(),
    keras.layers.Dense(units=128, activation="relu"),
    keras.layers.Dense(units=10, activation="softmax")
])

  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


In [51]:
model.summary()

In [52]:
# Compile and train the model (assuming X_train, y_train etc. are ready)
model.compile(loss="sparse_categorical_crossentropy",
              optimizer="adam",
              metrics=["accuracy"])

# Need to reshape X_train, X_valid, X_test for Conv2D input
X_train_cnn = X_train[..., np.newaxis]
X_valid_cnn = X_valid[..., np.newaxis]
X_test_cnn = X_test[..., np.newaxis]

history = model.fit(X_train_cnn, y_train, epochs=10,
                    validation_data=(X_valid_cnn, y_valid))

Epoch 1/10
[1m1719/1719[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m77s[0m 44ms/step - accuracy: 0.8042 - loss: 0.5513 - val_accuracy: 0.8908 - val_loss: 0.2975
Epoch 2/10
[1m1719/1719[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m75s[0m 43ms/step - accuracy: 0.8996 - loss: 0.2771 - val_accuracy: 0.9100 - val_loss: 0.2545
Epoch 3/10
[1m1719/1719[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m80s[0m 42ms/step - accuracy: 0.9187 - loss: 0.2214 - val_accuracy: 0.9196 - val_loss: 0.2282
Epoch 4/10
[1m1719/1719[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m83s[0m 43ms/step - accuracy: 0.9308 - loss: 0.1893 - val_accuracy: 0.9168 - val_loss: 0.2301
Epoch 5/10
[1m1719/1719[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m82s[0m 43ms/step - accuracy: 0.9416 - loss: 0.1586 - val_accuracy: 0.9174 - val_loss: 0.2244
Epoch 6/10
[1m1719/1719[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m74s[0m 43ms/step - accuracy: 0.9516 - loss: 0.1313 - val_accuracy: 0.9252 - val_loss: 0.2214
Epoc

## 3. Transfer Learning with Pre-trained Models

In [53]:
# Example: Using a pre-trained ResNet50 model from Keras Applications
# This will download the weights if not present.
# include_top=False means we don't include the ImageNet classification head.
# weights="imagenet" means use weights pre-trained on ImageNet.
# The input_shape should be 3D for color images (e.g., (224, 224, 3))

# Dummy input shape for demonstration, typically this is (224, 224, 3) or (299, 299, 3)
input_shape_for_pretrained = (32, 32, 3) # Example: Cifar10 size for demonstration

base_model = keras.applications.ResNet50(weights="imagenet",
                                        include_top=False,
                                        input_shape=input_shape_for_pretrained)

# Create a new model on top of the base model
model_transfer = keras.models.Sequential([
    base_model,
    keras.layers.Flatten(),
    keras.layers.Dense(100, activation="relu"),
    keras.layers.Dense(10, activation="softmax") # 10 classes for Fashion MNIST
])

Downloading data from https://storage.googleapis.com/tensorflow/keras-applications/resnet/resnet50_weights_tf_dim_ordering_tf_kernels_notop.h5
[1m94765736/94765736[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 0us/step


### Freezing the base model's layers

In [54]:
base_model.trainable = False # Freeze the base model

In [55]:
# Compile the model after freezing
model_transfer.compile(loss="sparse_categorical_crossentropy",
                       optimizer=keras.optimizers.SGD(learning_rate=0.01),
                       metrics=["accuracy"])

# Train only the new top layers
# Note: For Fashion MNIST, X_train_cnn is (60000, 28, 28, 1).
# A pre-trained model like ResNet50 expects 3-channel input (e.g., 32x32x3).
# You would need to resize and convert to 3 channels first.
# For example, using tf.image.resize and tf.image.grayscale_to_rgb.

# Dummy data for demonstration of fit (replace with your actual preprocessed data)
dummy_X_train = np.random.rand(100, *input_shape_for_pretrained)
dummy_y_train = np.random.randint(0, 10, 100)
dummy_X_valid = np.random.rand(20, *input_shape_for_pretrained)
dummy_y_valid = np.random.randint(0, 10, 20)

history_transfer = model_transfer.fit(dummy_X_train, dummy_y_train, epochs=10,
                                      validation_data=(dummy_X_valid, dummy_y_valid))

Epoch 1/10
[1m4/4[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m14s[0m 2s/step - accuracy: 0.1425 - loss: 3.7553 - val_accuracy: 0.2500 - val_loss: 2.5117
Epoch 2/10
[1m4/4[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m6s[0m 162ms/step - accuracy: 0.0777 - loss: 2.6902 - val_accuracy: 0.0500 - val_loss: 2.4201
Epoch 3/10
[1m4/4[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 172ms/step - accuracy: 0.1145 - loss: 2.3160 - val_accuracy: 0.0500 - val_loss: 2.4739
Epoch 4/10
[1m4/4[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 169ms/step - accuracy: 0.1093 - loss: 2.3446 - val_accuracy: 0.0500 - val_loss: 2.6384
Epoch 5/10
[1m4/4[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 163ms/step - accuracy: 0.1301 - loss: 2.3142 - val_accuracy: 0.0500 - val_loss: 2.3445
Epoch 6/10
[1m4/4[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 163ms/step - accuracy: 0.1312 - loss: 2.2871 - val_accuracy: 0.0500 - val_loss: 2.5877
Epoch 7/10
[1m4/4[0m [32m━━━━━━━━━━━━━━

### Unfreezing layers (fine-tuning)

In [56]:
base_model.trainable = True # Unfreeze the base model

# It's important to recompile the model after unfreezing layers,
# usually with a very low learning rate.
model_transfer.compile(loss="sparse_categorical_crossentropy",
                       optimizer=keras.optimizers.SGD(learning_rate=0.0001), # Very low learning rate
                       metrics=["accuracy"])

# Continue training for fine-tuning
history_fine_tune = model_transfer.fit(dummy_X_train, dummy_y_train, epochs=10,
                                       validation_data=(dummy_X_valid, dummy_y_valid))

Epoch 1/10
[1m4/4[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m31s[0m 3s/step - accuracy: 0.1456 - loss: 3.0988 - val_accuracy: 0.1500 - val_loss: 2.2605
Epoch 2/10
[1m4/4[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m8s[0m 2s/step - accuracy: 0.0959 - loss: 3.1811 - val_accuracy: 0.1500 - val_loss: 2.2731
Epoch 3/10
[1m4/4[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m9s[0m 2s/step - accuracy: 0.1817 - loss: 2.8847 - val_accuracy: 0.1500 - val_loss: 2.3718
Epoch 4/10
[1m4/4[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m10s[0m 2s/step - accuracy: 0.1383 - loss: 3.1630 - val_accuracy: 0.1500 - val_loss: 2.5731
Epoch 5/10
[1m4/4[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m8s[0m 2s/step - accuracy: 0.1169 - loss: 3.0612 - val_accuracy: 0.1500 - val_loss: 2.5363
Epoch 6/10
[1m4/4[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m10s[0m 2s/step - accuracy: 0.1199 - loss: 3.0954 - val_accuracy: 0.1500 - val_loss: 2.6513
Epoch 7/10
[1m4/4[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[3

## 4. Pre-trained models from Keras Applications

In [57]:
# Example of loading another pre-trained model
vgg16_model = keras.applications.VGG16(weights="imagenet", include_top=True)
vgg16_model.summary()

Downloading data from https://storage.googleapis.com/tensorflow/keras-applications/vgg16/vgg16_weights_tf_dim_ordering_tf_kernels.h5
[1m553467096/553467096[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m8s[0m 0us/step
