# Pengenalan Binary Labels dalam Collaborative Filtering

Banyak aplikasi penting dari **recommender systems** atau **collaborative filtering algorithms** melibatkan **binary labels**, di mana, alih-alih pengguna memberikan penilaian bintang (misalnya 1 hingga 5), mereka hanya memberikan indikasi apakah mereka menyukai item tersebut atau tidak. Mari kita lihat bagaimana menggeneralisasi algoritma yang sudah dipelajari ke pengaturan ini.

Proses yang digunakan untuk menggeneralisasi algoritma ini sangat mirip dengan bagaimana kita beralih dari **linear regression** ke **logistic regression**—dari memprediksi angka ke memprediksi label biner. Berikut adalah contoh dataset collaborative filtering dengan **binary labels**.

### Contoh Collaborative Filtering dengan Binary Labels

- **Label 1** berarti pengguna menyukai atau terlibat dengan film tertentu.
- **Label 0** berarti pengguna tidak menyukai atau tidak terlibat dengan film tersebut.
- **Tanda tanya ( ? )** biasanya berarti pengguna belum melihat item tersebut dan tidak dapat memutuskan apakah mereka menyukainya atau tidak.

Contoh lain: di situs belanja online, **Label 1** berarti pengguna membeli item setelah ditampilkan, **Label 0** berarti tidak membeli, dan **Tanda tanya** berarti pengguna belum melihat item tersebut.

![image.png](attachment:image.png)

### Definisi Label dalam Berbagai Konteks

- **Label 1**: Pengguna menyukai atau terlibat dengan item (misalnya, klik, menonton selama 30 detik, menyukai, atau membeli item).
- **Label 0**: Pengguna tidak terlibat setelah melihat item.
- **Tanda tanya**: Item belum ditampilkan kepada pengguna.

Dengan **binary labels** ini, kita bisa memodifikasi algoritma collaborative filtering untuk memprediksi kemungkinan pengguna (misalnya Alice, Bob, Carol, dan Dave) menyukai item yang belum mereka beri penilaian, dan merekomendasikan item tersebut.

![image-2.png](attachment:image-2.png)

## Generalisasi Algoritma ke Binary Labels

Sebelumnya, kita memprediksi **label yij** sebagai:
$$ yij = wj \cdot xi + b $$
Ini mirip dengan model **linear regression**. Untuk **binary labels**, kita akan memprediksi probabilitas **yij = 1** dengan rumus:
$$ g(z) = \frac{1}{1 + e^{-z}} $$
Ini adalah **logistic function**, seperti pada **logistic regression**.

Untuk membangun algoritma ini, kita juga harus memodifikasi **cost function** dari **squared error cost function** ke **cost function** yang lebih cocok untuk **binary labels**, seperti yang digunakan dalam **logistic regression**.

![image-3.png](attachment:image-3.png)

## Modifikasi Cost Function untuk Binary Labels

Sebelumnya, **cost function** kita adalah:
$$ \text{Cost Function} = \sum \left( f(x) - yij \right)^2 $$

Untuk **binary labels**, prediksi kita berubah menjadi:
$$ f(x) = g(wj \cdot xi + b) $$
Dengan **g(z)** sebagai **logistic function**.

Cost function untuk satu contoh bisa dituliskan sebagai:
$$ -y \log(f) - (1 - y) \log(1 - f) $$
Ini disebut **binary cross-entropy cost function** yang digunakan pada **logistic regression** dan **binary classification problems** dalam **neural networks**.

![image-4.png](attachment:image-4.png)

### Final Cost Function untuk Collaborative Filtering

Sekarang, **cost function** ini akan diubah menjadi fungsi dari seluruh parameter **w** dan **b**, serta fitur individual dari film atau item **x**. Kita menjumlahkan semua pasangan **i,j** di mana **rij = 1**, lalu menggunakan **binary cross-entropy cost function** untuk collaborative filtering dengan **binary labels**.

## Penutup

Inilah cara kita mengubah algoritma **collaborative filtering** yang mirip **linear regression** menjadi lebih cocok untuk **binary labels**. Dengan generalisasi ini, kita dapat menangani lebih banyak aplikasi dengan algoritma ini. 

Meskipun kita telah melihat struktur utama dan **cost function** dari algoritma, masih ada beberapa tips implementasi yang bisa membuat algoritma bekerja lebih baik. Mari lanjutkan ke video berikutnya untuk melihat detail implementasi dan modifikasi kecil yang bisa mempercepat kinerja algoritma.
