<a href="https://colab.research.google.com/github/yoboiwatsup/MachineLearning/blob/main/UAS/Basic_CV_Task.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### Pengantar Tugas Dasar dalam Visi Komputer

Unit ini bertujuan untuk memberikan pemahaman yang lebih baik tentang berbagai tugas dasar dalam visi komputer, termasuk:

1. **Klasifikasi Gambar**: Menentukan kategori atau label untuk gambar.
2. **Deteksi Objek**: Mengidentifikasi dan melokalisasi objek dalam gambar.
3. **Segmentasi Gambar**: Memisahkan gambar menjadi bagian-bagian yang bermakna, seperti mengidentifikasi setiap objek dalam gambar.

### Subkategori Tugas

- **Segmentasi Semantik**: Mengklasifikasikan setiap piksel dalam gambar ke dalam kategori tertentu tanpa membedakan antara objek individu.
- **Segmentasi Instansi**: Mengidentifikasi setiap instansi objek dengan masker unik, menggabungkan deteksi objek dan segmentasi.
- **Segmentasi Panoptik**: Menggabungkan elemen segmentasi semantik dan instansi, memberikan kelas dan instansi untuk setiap piksel.

### Dataset dan Evaluasi

Halaman ini juga menyoroti dataset populer yang digunakan untuk tugas-tugas ini dan cara evaluasi model, termasuk metrik seperti Intersection over Union (IoU), akurasi piksel, dan koefisien Dice.

### Model Populer

Unit ini membahas beberapa model yang umum digunakan untuk tugas-tugas tersebut, termasuk model berbasis Vision Transformer yang baru-baru ini mendapatkan perhatian.



### Object Detection

Deteksi objek adalah tugas penting dalam sistem visi komputer modern yang bertujuan untuk mengidentifikasi dan melokalisasi objek tertentu dalam gambar digital atau bingkai video. Hal ini memiliki aplikasi luas di berbagai sektor, termasuk:

- **Mobil Otonom**: Mengidentifikasi rintangan dan pejalan kaki di jalan.
- **Sistem Pengawasan**: Memantau area publik untuk keamanan.
- **Diagnosis Medis**: Mendeteksi penyakit dalam gambar medis.
- **Industri Manufaktur**: Memastikan konsistensi produk.
- **Augmented Reality**: Meningkatkan pengalaman pengguna dengan informasi tambahan.

### Konsep Dasar

Deteksi objek menggabungkan dua pendekatan utama:
- **Klasifikasi**: Menentukan jenis objek berdasarkan atribut unik.
- **Lokalisasi**: Menentukan lokasi objek dalam gambar.

Contoh sederhana adalah mengenali berbagai jenis buah dan menentukan lokasi mereka dalam satu gambar.

### Contoh Penggunaan

Halaman ini juga memberikan contoh kode untuk menggunakan model deteksi objek berbasis transformer, seperti DETR (DEtection TRansformer):

```python
from transformers import pipeline
from PIL import Image

pipe = pipeline("object-detection", model="facebook/detr-resnet-50")
image = Image.open("path/to/your/image.jpg").convert("RGB")
bounding_boxes = pipe(image)
```

### Evaluasi Model Deteksi Objek

Model deteksi objek dievaluasi menggunakan beberapa metrik, termasuk:

- **Intersection over Union (IoU)**: Mengukur tumpang tindih antara prediksi dan label referensi, dengan persentase yang berkisar dari 0% hingga 100%. Semakin tinggi persentase IoU, semakin baik akurasi model.
  
- **Mean Average Precision (mAP)**: Mengukur efisiensi deteksi objek dengan mempertimbangkan presisi dan recall, dihitung di berbagai ambang IoU.

### Kesimpulan dan Pekerjaan Masa Depan

Memahami deteksi objek adalah langkah awal untuk menguasai teknik visi komputer yang lebih maju. Beberapa area penelitian masa depan termasuk pengembangan model deteksi objek yang ringan dan eksplorasi deteksi objek dalam ruang 3D, yang relevan untuk aplikasi augmented reality.


### Image Segmentation

Segmentasi gambar adalah proses membagi gambar menjadi segmen-segmen yang bermakna, yang memungkinkan model untuk memahami dan mengidentifikasi objek dalam gambar dengan lebih baik. Ada beberapa jenis segmentasi yang umum digunakan:

1. **Segmentasi Semantik**: Setiap piksel dalam gambar diberi label berdasarkan kelas objek yang ada, tanpa membedakan antara instansi objek yang sama. Misalnya, semua piksel yang merupakan bagian dari kucing akan diberi label yang sama.

2. **Segmentasi Instansi**: Membedakan antara instansi yang berbeda dari objek yang sama. Misalnya, jika ada dua kucing dalam gambar, masing-masing akan memiliki masker unik.

3. **Segmentasi Panoptik**: Menggabungkan elemen dari segmentasi semantik dan instansi, memberikan kelas dan instansi untuk setiap piksel.

### Pendekatan Modern

Model-model modern seperti **Segment Anything Model (SAM)** yang diperkenalkan oleh Meta AI Research, menggunakan arsitektur Vision Transformer (ViT) untuk segmentasi. Model ini dapat melakukan segmentasi dengan memberikan prompt berupa deskripsi objek yang ingin disegmentasi.

### Contoh Kode

Berikut adalah contoh kode untuk menggunakan model segmentasi dengan Hugging Face Transformers:

```python
from transformers import pipeline
from PIL import Image

# Inisialisasi pipeline untuk generasi masker
pipe = pipeline("mask-generation", model="facebook/sam-vit-base", device=0)

# Membaca gambar
raw_image = Image.open("path/to/image").convert("RGB")

# Menghasilkan masker
masks = pipe(raw_image)
```

#### Penjelasan Kode:

1. **Import Library**:
   - `from transformers import pipeline`: Mengimpor fungsi `pipeline` dari library Transformers untuk memudahkan penggunaan model.
   - `from PIL import Image`: Mengimpor modul Image dari PIL (Python Imaging Library) untuk memanipulasi gambar.

2. **Inisialisasi Pipeline**:
   - `pipe = pipeline("mask-generation", model="facebook/sam-vit-base", device=0)`: Membuat pipeline untuk generasi masker menggunakan model SAM. Parameter `device=0` menunjukkan bahwa model akan dijalankan di GPU (jika tersedia).

3. **Membaca Gambar**:
   - `raw_image = Image.open("path/to/image").convert("RGB")`: Membaca gambar dari path yang ditentukan dan mengonversinya ke format RGB.

4. **Menghasilkan Masker**:
   - `masks = pipe(raw_image)`: Menggunakan pipeline untuk menghasilkan masker dari gambar yang telah dibaca. Hasilnya adalah daftar masker yang menunjukkan area yang terdeteksi dalam gambar.

### Evaluasi Model Segmentasi

Model segmentasi dievaluasi menggunakan beberapa metrik, termasuk:

- **Intersection over Union (IoU)**: Mengukur tumpang tindih antara masker yang diprediksi dan ground truth.
- **Akurasi Piksel**: Rasio antara jumlah piksel yang diklasifikasikan dengan benar terhadap total piksel.
- **Koefisien Dice**: Mengukur persentase tumpang tindih antara prediksi dan ground truth.