

# Unit 11: Zero-Shot Learning

### 1. Pendahuluan
#### Penjelasan:
#### Zero-Shot Learning (ZSL) adalah pendekatan dalam pembelajaran mesin yang memungkinkan model untuk mengenali kelas objek yang belum pernah ditemui sebelumnya dalam proses pelatihan. Teknik ini memanfaatkan informasi tambahan seperti deskripsi tekstual, atribut, atau fitur lainnya untuk menghubungkan antara kelas yang sudah terlihat dan yang belum terlihat. ZSL memanfaatkan kemampuan representasi umum, memungkinkan model untuk belajar dan menggeneralisasi dengan lebih luas. Dengan kata lain, model belajar memahami konsep dasar sehingga dapat mengenali hal-hal baru hanya berdasarkan deskripsi atau atribut yang dimiliki.

#### Keuntungan ZSL:
##### - Mengurangi kebutuhan akan anotasi data yang memakan biaya.
##### - Meningkatkan fleksibilitas model dalam menangani kategori baru.
##### - Berguna dalam situasi di mana data untuk kelas tertentu sulit atau bahkan tidak mungkin diperoleh.

#### Contoh aplikasi Zero-Shot Learning:
##### - **Visi Komputer**: Pengidentifikasian objek baru yang tidak ada dalam dataset pelatihan.
##### - **Pemrosesan Bahasa Alami**: Klasifikasi teks atau entitas tanpa pelatihan khusus pada kelas target.
##### - **Sistem Rekomendasi**: Kemampuan merekomendasikan produk atau layanan baru yang belum pernah dilihat sebelumnya.
##### - **Robotika**: Memahami instruksi baru tanpa perlu pelatihan tambahan.

In [None]:
print("[INFO] Introduction to Zero-Shot Learning")

[INFO] Introduction to Zero-Shot Learning


### 2. Zero-Shot Learning
#### Penjelasan:
#### Dalam Zero-Shot Learning, terdapat dua pendekatan utama yang sering diterapkan:
##### - **Metode Berbasis Embedding**: Dalam pendekatan ini, baik gambar maupun deskripsi kelas dipetakan ke dalam ruang vektor yang sama. Kesamaan antara vektor-vektor tersebut digunakan untuk memprediksi kelas. Model seperti CLIP mengadopsi metode ini.
##### - **Metode Berbasis Generatif**: Pendekatan ini menggunakan model generatif seperti GAN atau Diffusion Models untuk mensintesis fitur visual untuk kelas yang belum terlihat. Fitur yang dihasilkan kemudian digunakan untuk melatih model klasifikasi tambahan.

#### Implementasi Zero-Shot Learning menggunakan model CLIP:
#### CLIP (Contrastive Language–Image Pre-training) adalah model dari OpenAI yang menghubungkan teks dengan gambar. Model ini mempelajari representasi bersama untuk teks dan gambar, yang memungkinkan Zero-Shot Learning dilakukan dengan efektif.

In [None]:
from transformers import CLIPProcessor, CLIPModel
import torch

# Memuat model CLIP
model = CLIPModel.from_pretrained("openai/clip-vit-base-patch32")
processor = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32")

# Contoh gambar dan teks untuk prediksi Zero-Shot
image_path = "/content/kuching.jpg"  # Ganti dengan path ke gambar Anda
texts = ["Kucing", "Anjing", "Sepeda"]  # Label teks yang ingin diuji

# Memproses gambar dan teks
from PIL import Image
image = Image.open(image_path)
inputs = processor(text=texts, images=image, return_tensors="pt", padding=True)

# Melakukan prediksi
outputs = model(**inputs)
logits_per_image = outputs.logits_per_image  # Skor prediksi
probs = logits_per_image.softmax(dim=1)  # Probabilitas untuk setiap label teks

# Menampilkan hasil
for i, text in enumerate(texts):
    print(f"Label: {text}, Probabilitas: {probs[0][i].item():.4f}")

Label: Kucing, Probabilitas: 0.9675
Label: Anjing, Probabilitas: 0.0324
Label: Sepeda, Probabilitas: 0.0001
