# Pengantar Kursus Lanjutan dalam Penglihatan Komputer dengan TensorFlow

Selamat datang di kursus ketiga dalam spesialisasi ini, yang berfokus pada penggunaan teknik lanjutan dan **TensorFlow**. Dalam kursus ini, Anda akan menguasai segala hal yang telah dipelajari pada dua kursus sebelumnya untuk memecahkan masalah yang menarik dalam **computer vision**. Meskipun banyak yang bisa dilakukan dengan **sequential models** dalam penglihatan komputer, ada juga banyak hal yang lebih rumit yang tidak bisa ditangani dengan model sekuensial standar.

## Model Sequentional vs Model Canggih

### Deteksi Objek
Model-model seperti **YOLO** atau **RetinaNet** mengharuskan kita untuk tidak hanya mengambil gambar dan mengatakan "Apakah ini kucing atau bukan?", tetapi juga menggambar **bounding box** di sekitar kucing atau objek lain dalam gambar tersebut. Ini membutuhkan output yang lebih kompleks dan serangkaian langkah yang lebih rumit daripada model sekuensial standar.

### Segmentasi Gambar
Model **image segmentation** seperti **U-Net** memungkinkan kita untuk tidak hanya mengenali objek seperti kucing, tetapi juga memberi label pada setiap piksel, apakah itu bagian dari objek atau tidak. Ini memungkinkan kita untuk menggambar batas yang sangat akurat, menggambar outline kucing di dalam gambar.

### Pemetaan Aktivasi Kelas
Salah satu contoh yang saya sukai adalah **class activation maps** (CAM). Dalam pekerjaan untuk mendiagnosis gambar **X-ray**, jika sebuah **neural network** menyarankan diagnosis bahwa pasien memiliki **cardiomegaly** (jantung membesar), seorang klinisi mungkin tidak hanya ingin mengetahui output neural network tersebut. Mereka mungkin ingin tahu bagian mana dari gambar X-ray yang dilihat oleh jaringan saraf untuk menghasilkan diagnosis tersebut.

Jika kita memiliki algoritma seperti **class activation maps** yang menyoroti area jantung dalam gambar X-ray, ini dapat memberikan rasa aman kepada klinisi bahwa jaringan saraf telah melihat jantung pasien dan memutuskan bahwa pasien tersebut mungkin menderita **cardiomegaly**.

## Apa yang Akan Anda Pelajari

Di kursus ini, Anda akan belajar tentang API yang memungkinkan Anda untuk melampaui model sekuensial standar untuk membangun model seperti **object detection**, **image segmentation**, atau menggunakan teknik seperti **class activation maps**. Saya senang sekali karena Lawrence akan menjadi instruktur lagi untuk kursus ini.

## Pendalaman dengan Lawrence

### **Lawrence**:
Saya sangat senang bisa berada di sini. **Computer vision** adalah bagian favorit saya dalam bekerja dengan **deep learning**, **machine learning**, dan **AI**. Kemungkinannya sangat inspiratif, seperti yang disebutkan sebelumnya, dalam mendiagnosis **X-ray** untuk **cardiomegaly**. Dalam kursus ini, saya ingin membahas lebih dalam mengenai bagaimana kita bisa mengambil apa yang telah kita pelajari sebelumnya tentang **convolutional neural networks** menggunakan **sequential API**, dan mengembangkan model yang lebih eksotis seperti **U-Net**.

Namun, untuk melangkah lebih jauh, kita perlu bekerja lebih rendah pada level API, seperti dengan **functional API**, yang memungkinkan kita membuat model seperti **U-Net** dengan data yang mengalir ke bawah dalam bentuk **U-shape** dan juga melibatkan aliran data melintasi cabang-cabang dari **U-shape** tersebut.

## Interpretabilitas Model

Salah satu bagian yang paling menarik bagi saya adalah bagaimana kita bisa melihat interpretabilitas dari model dengan menggunakan teknik seperti **class activation maps** dan **saliency maps**. Misalnya, dalam latihan sebelumnya tentang klasifikasi **kucing vs anjing**, kita menggunakan **image augmentation** untuk meningkatkan akurasi model. Dengan menggunakan **saliency** dan **class activation maps**, kita bisa melihat bahwa yang membedakan **kucing dan anjing** adalah **mata**. **Heatmaps** menyala di sekitar mata kucing, menunjukkan bahwa jaringan saraf mengenali kucing berdasarkan fitur tersebut.

## Penerapan Model Deteksi Objek

Selain itu, dalam kursus ini, kami akan membahas API untuk **object detection** yang memudahkan kita dalam menangani data model yang kompleks. Biasanya, model deteksi objek memberikan banyak informasi, seperti beberapa instance objek dalam gambar, probabilitas label untuk objek tersebut, dan **bounding boxes**. API ini mempermudah untuk menulis kode yang mengelola semua informasi tersebut, mengorganisirnya dalam **dictionaries**, dan mempermudah pembuatan plot.

## Contoh Penerapan: **Zombie Detector**

Di akhir kursus, kita akan memiliki latihan untuk membangun **zombie detector**, menggunakan API ini untuk mendeteksi dan menggambar **bounding boxes** di sekitar zombie yang berjalan di jalan. Siapa tahu, jika suatu saat ada **zombie apocalypse**, kita sudah siap!

## Kesimpulan

Kursus ini akan membahas berbagai teknik canggih dalam **computer vision**, seperti **object detection**, **image segmentation**, dan **class activation maps**, serta bagaimana menggunakan **TensorFlow APIs** untuk menangani model yang lebih kompleks. Bersiaplah untuk mempelajari cara membangun model-model yang lebih eksotis dan mengatasi tantangan dalam dunia nyata.

---

**Struktur Neural Network**  
Memahami bagaimana struktur output **neural networks** dapat sangat membantu dalam memutuskan apa yang harus dikeluarkan oleh model untuk mempermudah kita dalam melakukan tugas deteksi objek dan segmentasi gambar.

---

Saya sangat antusias untuk mulai bekerja dengan Anda semua dalam kursus ini, dan saya yakin materi ini akan sangat bermanfaat untuk memperdalam pemahaman Anda tentang **computer vision** dengan teknik lanjutan!

# Pengantar: Vision Komputer Lanjutan

Selamat datang di kursus ini mengenai **Computer Vision** lanjutan. Seperti yang disebutkan dalam nama kursus ini, kita akan melangkah lebih jauh dari banyak dasar-dasar yang ada. Jadi, jika Anda ingin mempelajari **computer vision** mulai dari dasar, saya sarankan Anda kembali ke spesialisasi **TensorFlow Developer Certificate** dari deep learning.ai di Coursera, di mana saya mengajarkan dasar-dasar **computer vision** menggunakan **convolutional neural networks**.

Pada minggu ini, kita akan melihat beberapa konsep yang akan Anda pelajari ketika masuk ke dalam skenario **computer vision** yang lebih lanjut. Dimulai dengan video ini, saya akan memberikan gambaran umum mengenai tipe-tipe model yang akan Anda pelajari untuk dibangun.

## Terminologi dalam **Image Classification**

Ada dua jenis **image classification** yang bisa Anda eksplorasi, yaitu:

1. **Multi-Class Classification**: 
   Di sini, gambar akan memiliki satu kelas yang terkait dengannya. Dan **classifier** yang Anda bangun akan memberi tahu Anda kelas apa itu. Misalnya, gambar ini adalah gambar dari seekor kucing, gambar ini adalah gambar dari seekor anjing, dll. Ini adalah jenis **classifier** yang biasanya Anda pelajari di kursus-kursus saya sebelumnya. Subtipe umum dari ini adalah **Binary Classifier**, di mana model membedakan antara dua kelas, seperti kucing atau anjing.

   - **Binary vs Multi-Class Classification**: Pada prinsipnya, **binary classifier** dan **multi-class classifier** hampir sama, hanya saja ada beberapa optimasi kode yang bisa dilakukan untuk **binary classification**.

2. **Multi-Label Classification**:
   Di sini, model Anda bisa memberi tahu Anda beberapa hal yang ada di dalam gambar. Misalnya, jika ada gambar seorang wanita yang mengenakan topi, bukan hanya mengklasifikasikan gambar sebagai wanita atau topi, **multi-label classifier** dapat mengidentifikasi label untuk wanita dan label untuk topi. Jika ada gambar tiga burung, bukannya hanya mengklasifikasikan gambar tersebut sebagai burung, **multi-label classifier** dapat menghasilkan tiga label burung, satu untuk setiap burung dalam gambar tersebut.

### Ringkasan

- **Class-Based Classification**: Menggunakan gambar dengan satu label untuk mendeskripsikannya (misalnya, gambar dari seekor kucing).
- **Multi-Label Classification**: Mengklasifikasikan gambar ke dalam lebih dari satu kelas. Sebagai contoh, **multi-label classifier** dapat mengidentifikasi bahwa ada kucing dan anjing dalam gambar yang sama.

**Binary Classification** biasanya memilih antara dua kelas, sedangkan **Multi-Class Classification** memilih di antara tiga atau lebih kelas. Perhatikan bahwa ini berbeda dari **Multi-Label Classification** yang kita bahas sebelumnya. 

**Multi-Class Classification** melatih jaringan Anda untuk mengenali lebih dari satu kelas, sementara **Multi-Label Classification** melakukan inferensi pada gambar untuk mendeteksi lebih dari satu objek dalam gambar.

### Grafik Klasifikasi

Jika kita memplot kelas terhadap dua fitur \( x1 \) dan \( x2 \), proses klasifikasi adalah mencari **decision boundary**. Dengan **Convolutional Neural Networks (CNN)**, kita menggunakan **convolutions** untuk mengekstraksi fitur-fitur ini, dan kemudian mengklasifikasikannya berdasarkan fitur yang ditemukan dalam gambar.

## Lokalisasi Objek dan Deteksi Objek

Selain mengklasifikasikan apa yang ada dalam gambar, kita mungkin juga ingin mengidentifikasi di mana objek utama berada dalam gambar tersebut. Anda mungkin pernah melihat gambar seperti ini, di mana bukan hanya diberi label bahwa kita melihat seekor kucing, tetapi juga terdapat **bounding box** yang menunjukkan lokasi kucing dalam gambar tersebut. 

**Object Localization** adalah proses untuk mengidentifikasi lokasi objek dalam gambar. Dengan kata lain, ini adalah **classification + object localization**. 

Jika kita menggabungkan **multi-label classification** dan **object localization**, kita mendapatkan **Object Detection**. Dalam hal ini, banyak objek dengan label yang berbeda dapat dideteksi dalam satu gambar, dan **bounding boxes** untuk masing-masing objek dapat dihasilkan.

### Contoh: Deteksi Objek

Dalam gambar berikut, kita dapat melihat adegan orang-orang di pantai yang sedang menerbangkan layang-layang. Model mendeteksi tujuh orang dan tujuh layang-layang, memberikan kita probabilitas untuk masing-masing dan **bounding box** di sekitar mereka.

### Algoritma Deteksi Objek

Algoritma populer untuk **Object Detection** adalah:
- **R-CNN** (Region-based Convolutional Neural Network)
- **Faster-RCNN**
- **YOLO** (You Only Look Once)
- **SSD** (Single Shot Detector)

Kita akan membahas evolusi **Object Detection** secara mendetail lebih lanjut dalam kursus ini, tetapi kita akan fokus pada **R-CNN** dan **Faster-RCNN**.

# **Image Segmentation in Computer Vision**

Image segmentation adalah konsep utama dalam computer vision yang lebih dari sekedar mendeteksi objek dengan bounding box persegi panjang. Segmentation fokus pada mengidentifikasi piksel-piksel yang membentuk objek dalam sebuah gambar. Alih-alih hanya mendeteksi posisi objek, segmentation memberikan pemahaman yang lebih detail dengan membagi gambar menjadi segmen-segmen, di mana setiap segmen sesuai dengan objek atau kelas tertentu.

Dalam penjelasan ini, kita memiliki **enam orang** di sekitar meja. Sementara deteksi objek tradisional mungkin menggunakan **tujuh bounding boxes**, segmentation memberi warna pada gambar untuk menyoroti setiap objek yang terdeteksi, memungkinkan kita dengan mudah mengidentifikasi objek individu.

---

## **Types of Image Segmentation**

Ada dua jenis utama image segmentation: **Semantic Segmentation** dan **Instance Segmentation**.

### 1. **Semantic Segmentation**:
   - **Definisi**: Semua objek dari tipe yang sama dianggap sebagai satu kategori.
   - **Contoh**: Dalam gambar, semua enam orang disorot sebagai satu objek, meskipun mereka adalah individu yang berbeda. Semua bagian dari gambar yang memiliki makna yang sama (dalam hal ini orang) dikelompokkan ke dalam satu segmen.
   - **Penjelasan**: Kata "semantic" merujuk pada makna dari bagian-bagian gambar yang memiliki arti serupa.
   - **Model yang populer**:
     - Fully Convolutional Neural Networks (FCN)
     - U-Net
     - DeepLab

### 2. **Instance Segmentation**:
   - **Definisi**: Objek yang sama dianggap sebagai segmen yang terpisah.
   - **Contoh**: Dalam gambar, setiap orang diperlakukan sebagai segmen terpisah meskipun mereka semua termasuk dalam kelas yang sama, yaitu orang.
   - **Penjelasan**: Setiap individu diidentifikasi sebagai instansi terpisah dari objek yang sama.
   - **Algoritma populer**:
     - Mask R-CNN

---

### **Perbedaan Semantic dan Instance Segmentation**
- **Semantic Segmentation**: Semua objek dengan kelas yang sama dianggap sebagai satu segmen. Misalnya, semua orang dalam gambar dianggap sebagai satu segmen.
- **Instance Segmentation**: Objek dari kelas yang sama diperlakukan sebagai objek terpisah. Dalam gambar, setiap orang dianggap sebagai segmen terpisah meskipun mereka semua adalah orang.

---

### **Penutup**
Sekarang Anda telah melihat dan mendefinisikan berbagai jenis **computer vision**, dari label tunggal yang mendefinisikan gambar, hingga **image segmentation**, Anda memiliki pemahaman dasar mengenai istilah-istilah yang digunakan. Selanjutnya, kita akan mulai membahas lebih dalam tentang cara membangun model-model ini, dimulai dengan **transfer learning** dan bagaimana ini dapat membuat proses pengembangan **computer vision** lebih mudah dan lebih cepat digunakan.