# Content-Based Filtering Algorithm

Dalam video ini, kita akan mulai mengembangkan tipe kedua dari sistem rekomendasi yang disebut **content-based filtering algorithm**. Sebelum memulai, mari kita bandingkan dan bedakan pendekatan **collaborative filtering** yang telah kita lihat sejauh ini dengan pendekatan **content-based filtering**. Mari kita lihat.

## Collaborative Filtering vs Content-Based Filtering

### **Collaborative Filtering**
Dalam **collaborative filtering**, pendekatan umum adalah merekomendasikan item berdasarkan **rating pengguna lain** yang memberikan rating serupa dengan Anda. Misalnya, beberapa pengguna memberikan rating pada sejumlah item, dan algoritma menghitung cara untuk merekomendasikan item baru kepada Anda berdasarkan pola rating tersebut.

### **Content-Based Filtering**
Sebaliknya, dalam **content-based filtering**, pendekatannya berbeda. Algoritma akan merekomendasikan item berdasarkan **fitur pengguna** dan **fitur item**, untuk menemukan kecocokan yang baik. Artinya, kita memerlukan beberapa fitur dari setiap pengguna dan beberapa fitur dari setiap item untuk memutuskan kecocokan antara pengguna dan item tersebut.

![image.png](attachment:image.png)

## Bagaimana Content-Based Filtering Bekerja?

Pada **content-based filtering**, kita masih memiliki data di mana pengguna memberikan rating pada beberapa item. Misalnya, kita akan menggunakan notasi `r(i, j)` untuk menunjukkan apakah pengguna `j` telah memberikan rating pada item `i`. Selain itu, kita menggunakan `y(i, j)` untuk menunjukkan rating yang diberikan pengguna `j` pada item `i`, jika rating tersebut ada.

Namun, kunci dari **content-based filtering** adalah kita akan memanfaatkan **fitur dari pengguna** dan **fitur dari item** untuk menemukan kecocokan yang lebih baik daripada pendekatan collaborative filtering murni.

### **Contoh Fitur Pengguna**
Dalam kasus rekomendasi film, beberapa contoh fitur pengguna meliputi:
- **Usia pengguna**
- **Jenis kelamin pengguna** (bisa berupa fitur **one-hot** seperti dalam decision trees)
- **Negara asal pengguna** (dengan sekitar 200 negara di dunia, fitur ini juga bisa berbentuk one-hot)

Selain itu, kita juga bisa melihat **perilaku masa lalu pengguna**. Misalnya, dari **1000 film terpopuler**, kita bisa membuat 1000 fitur yang menunjukkan film mana saja yang pernah ditonton oleh pengguna tersebut. Bahkan, kita juga bisa menggunakan rating yang pernah diberikan pengguna untuk membangun fitur baru. Contohnya:
- **Rata-rata rating per genre**: Misalnya, rata-rata rating yang diberikan pengguna untuk film **romantis**, **aksi**, dll.

### **Contoh Fitur Item**
Kita juga bisa membangun fitur untuk setiap item (film), seperti:
- **Tahun rilis film**
- **Genre film** (jika diketahui)
- **Review kritikus** (bisa menjadi satu atau beberapa fitur)
- **Rata-rata rating film** yang telah diterima dari pengguna lain

![image-2.png](attachment:image-2.png)

Dengan fitur-fitur ini, kita bisa membangun **vektor fitur** untuk setiap pengguna dan setiap film.

## Membangun Vektor Fitur
Untuk setiap pengguna `j`, kita bisa membangun vektor fitur yang kita sebut **x_u^j**. Demikian juga, kita bisa membangun vektor fitur untuk setiap film `i`, yang kita sebut **x_m^i**. 

Tujuannya adalah mencari tahu apakah sebuah film cocok dengan seorang pengguna. Perhatikan bahwa ukuran vektor fitur pengguna dan film bisa sangat berbeda (misalnya, vektor pengguna bisa memiliki 1500 nilai, sedangkan vektor film hanya 50 nilai), tetapi itu tidak masalah. Dalam **content-based filtering**, kita akan mengembangkan algoritma yang mempelajari cara mencocokkan pengguna dan film.

![image-2.png](attachment:image-2.png)

## Prediksi Rating
Sebelumnya, kita memprediksi rating pengguna `j` pada film `i` sebagai **dot product** antara vektor pengguna `w_j` dan vektor film `x_i`, ditambah bias `b_j`. Untuk content-based filtering, kita menghilangkan bias `b_j` tanpa mengurangi performa. Kita akan mengganti notasi ini dengan **v_u** (vektor pengguna) dan **v_m** (vektor film).

### **Dot Product untuk Prediksi**
Jika kita berhasil memilih vektor yang tepat untuk **v_u** dan **v_m**, maka **dot product** antara dua vektor ini akan menjadi prediksi rating yang baik yang akan diberikan pengguna `j` pada film `i`. Contohnya, jika vektor pengguna menangkap preferensi pengguna terhadap genre seperti **romantis** atau **aksi**, dan vektor film mencerminkan genre tersebut, maka dot product ini akan memberikan perkiraan seberapa banyak pengguna akan menyukai film tersebut.

## Langkah Berikutnya
Tantangannya sekarang adalah, bagaimana kita menghitung vektor **v_u** dan **v_m** yang mewakili preferensi pengguna dan deskripsi item secara akurat? Kita akan melihat lebih jauh mengenai hal ini di video berikutnya.
