# Pendahuluan Studi Kasus Keempat: Sistem Rekomendasi

Nah, pada modul ini Anda akan melakukan studi kasus menggunakan [data restaurant and consumer dataset](https://archive.ics.uci.edu/dataset/232/restaurant+consumer+data) untuk membuat sistem rekomendasi. Anda akan belajar memahami data, menggabungkan beberapa file data, memilih fitur yang dibutuhkan, dan membuat sistem rekomendasi dengan teknik content-based dan collaborative filtering.

Modul ini akan membahas berbagai hal mengenai sistem rekomendasi mulai dari apa itu sistem rekomendasi, teknik-teknik rekomendasi seperti content based filtering dan collaborative filtering, hingga metrik evaluasi untuk sistem rekomendasi. Oleh karena itu, pada akhir modul ini diharapkan Anda dapat:

- Memahami apa itu sistem rekomendasi.
- Mengetahui mengapa sistem rekomendasi penting.
- Memahami taksonomi sistem rekomendasi.
- Memahami non-personalized recommender system.
- Memahami teknik content based filtering.
- Memahami teknik collaborative filtering.
- Memahami hybrid recommender system.
- Memahami similarity measure atau teknik untuk menghitung derajat kesamaan.
- Memahami data untuk sistem rekomendasi.
- Memahami metrik evaluasi untuk sistem rekomendasi.
- Membuat model machine learning untuk sistem rekomendasi dengan teknik content based filtering dan collaborative filtering.
- Memprediksi resto untuk direkomendasikan pada user.

![dos_02b651e6c9bf79acb737bf57370e7aea20210910160934.jpeg](attachment:092624d0-aa65-449d-8704-cec96309ce9f.jpeg)

![dos_4be90d78ef9249333ce7d817b1ab9f8220210912134645.png](attachment:8969056f-b890-42ed-81a3-621cd9f4a5e6.png)

# Content Based Filtering
Ide dari sistem rekomendasi berbasis konten (content-based filtering) adalah merekomendasikan item yang mirip dengan item yang disukai pengguna di masa lalu. Misal, jika Anda menyukai film Ada Apa dengan Cinta, sistem akan merekomendasikan film dengan aktor utama Nicholas Saputra atau Dian Sastrowardoyo. Sistem juga akan merekomendasikan film dengan genre drama lainnya. Contoh lain, saat berbelanja di e-commerce, sistem akan merekomendasikan item yang sama dengan yang telah Anda lihat. Kita akan membahas lebih jauh mengenai teknik ini pada modul selanjutnya.

Content-based filtering mempelajari profil minat pengguna baru berdasarkan data dari objek yang telah dinilai pengguna. Algoritma ini bekerja dengan menyarankan item serupa yang pernah disukai di masa lalu atau sedang dilihat di masa kini kepada pengguna. Semakin banyak informasi yang diberikan pengguna, semakin baik akurasi sistem rekomendasi.

![dos_46ce6a2a9d4d38560021dba74dcba60420210910164924.jpeg](attachment:dae5175e-00b5-404f-815a-20cc29a98ddb.jpeg)

Untuk membuat profil pengguna, dua informasi ini penting bagi sistem dengan pendekatan content-based filtering: 

- Model preferensi pengguna.
- Riwayat interaksi pengguna dengan sistem rekomendasi. 
Pada modul selanjutnya, kita akan menerapkan teknik ini untuk membuat sistem rekomendasi menggunakan restaurant and consumer dataset. Blanca Vargas-Govea et al. mempublikasikan data ini dalam makalahnya yang berjudul Effects of Relevant Contextual Features in the Performance of a Restaurant Recommender System.

# Collaborative Filtering
Collaborative filtering bergantung pada pendapat komunitas pengguna. Ia tidak memerlukan atribut untuk setiap itemnya seperti pada sistem berbasis konten. Collaborative filtering dibagi lagi menjadi dua kategori, yaitu: model based (metode berbasis model machine learning) dan memory based (metode berbasis memori). 

![dos_756ce41a29e4e7b511a355fee284110320210910165836.jpeg](attachment:e225cfa4-45ac-4c85-aa1f-901082a43f31.jpeg)

Kita akan membahas memory based terlebih dahulu.

John S. Breese at al dalam makalahnya yang berjudul Empirical Analysis of Predictive Algorithms for Collaborative Filtering [58] menyatakan, memory based method umumnya memprediksi preferensi pengguna (pengguna aktif) dari database dan sampel atau data populasi pengguna lain. Ide di balik metode ini adalah untuk menentukan ukuran kesamaan antara pengguna atau item serta menemukan yang paling mirip.

Metode berbasis memori ini dibagi lagi menjadi dua kategori, yaitu user based dan item based.

- User-Based
Seperti namanya, sistem ini berdasarkan kesamaan antar pengguna. Idenya adalah mencari pengguna dengan selera yang sama. Sebagai contoh, Galih dan Ratna memberikan rating tinggi untuk sejumlah film action. Jika Galih menyukai film The Avengers, Ratna juga kemungkinan besar akan menyukai film tersebut.

![dos_4234dba104aca84b9b1f2affdb625b8c20210912135018.png](attachment:a7061a92-7a5c-41d1-b069-e81bda669519.png)

- Item-Based
Item based filtering bekerja dengan cara menghitung kesamaan antara masing-masing item. Sebagai contoh, Galih dan Ratna menyukai film The Avengers dan Transformers. Kemudian, Milea juga ternyata suka film Avengers. Sehingga, sistem akan merekomendasikan film Transformers kepada Milea. Film Transformers direkomendasikan pada Milea (pengguna baru) karena dianggap mirip (similar) dengan film The Avengers.

![dos_d4563c06650db8a1204a804dc745ca4820210912135050.png](attachment:74b5e020-9701-4632-a3ad-ff4d120a3988.png)

Sementara itu, model based method melibatkan pembuatan model machine learning dalam proses analisis data dan rekomendasi. Metode ini mengekstrak informasi dari kumpulan data kemudian menggunakan model probabilitas untuk membuat rekomendasi. Ia dapat membuat rekomendasi tanpa harus selalu menggunakan dataset yang lengkap. Pendekatan ini unggul dari segi kecepatan dan skalabilitas.

Pada metode berbasis memori, kita membuat rekomendasi untuk pengguna yang ada pada model. Penambahan data pengguna baru akan mengubah model dengan metode ini. Sedangkan, pada metode berbasis model, kita bisa membuat rekomendasi pada pengguna yang datanya tidak ada pada model. Sehingga, pada metode berbasis model, penambahan pengguna baru tidak akan mengubah model.

Metode berbasis model secara umum dibagi lagi menjadi tiga pendekatan, yaitu:

- Cluster Based Algorithm
Bayangkan kita akan membuat sistem rekomendasi berdasarkan preferensi pengguna. Langkah awal tentu memikirkan bagaimana kita mengelompokkan pengguna sesuai kesamaan preferensi. Nah, cara inilah yang digunakan dalam pendekatan cluster based algorithm. Ia mengidentifikasi kelompok pengguna dan merekomendasikan setiap pengguna dalam grup ini item yang sama. Biasanya, pendekatan ini menggunakan algoritma K-means clustering.

- Matrix Factorization
Pada matrix factorization prediksi dilakukan dengan mengurangi dimensi matriks melalui pembentukan dekomposisi matriks. Dekomposisi matriks adalah cara untuk mereduksi matriks menjadi bagian-bagian penyusunnya. Kedua dekomposisi matriks ini kemudian saling dikalikan. Hasil perkalian matriks tersebut diolah dengan parameter faktor k yang menghasilkan matriks baru sebagai hasil learning dengan nilai yang mendekati nilai matriks aslinya.

![dos_1fa4a3b4296fd60193dfd9a8a038d32e20210910170255.jpeg](attachment:7c247aae-b988-4139-9758-4cc44042824f.jpeg)

- Deep learning atau Neural Network
Pendekatan deep learning tumbuh sangat pesat dalam satu dekade terakhir. Teknik ini diterapkan dalam berbagai aplikasi dan secara bertahap menggeser dominasi metode machine learning klasik. Sistem rekomendasi Youtube merupakan salah satu penerapan teknik deep learning.

Dalam makalah yang berjudul Deep Neural Networks for YouTube Recommendation [59], Paul Convington bersama rekan-rekan peneliti di Google mengungkapkan, algoritma sistem rekomendasi YouTube terdiri dari dua jaringan syaraf. Kedua jaringan syaraf ini bekerja untuk candidate generation (pembuatan kandidat) dan menentukan ranking (peringkat).

![dos_4f9f135fd2c7596f5cbe1f8540a2b9bc20210912135141.png](attachment:4a50dc46-d26e-4391-81f4-be04d1820002.png)

Jaringan untuk candidate generation mengambil data peristiwa dari histori aktivitas YouTube pengguna sebagai masukan. Kemudian, ia membuat grup video yang paling relevan dari database. Proses ini menghasilkan kandidat video yang relevan bagi pengguna. Jaringan ini bertujuan untuk menyediakan personalisasi dengan collaborative filtering.

Setelah memiliki sejumlah kecil kandidat video yang relevan bagi pengguna, goal selanjutnya adalah menganalisis kandidat video tersebut sebelum memutuskan video mana yang akan direkomendasikan. Di sinilah jaringan peringkat (ranking) itu berperan. Ia menggunakan data dan informasi mengenai perilaku pengguna untuk menentukan skor setiap video. Video diberi peringkat berdasarkan skornya. Terakhir, video dengan skor tertinggi direkomendasikan pada pengguna.

Inilah jawaban atas pertanyaan di awal modul, bagaimana Youtube bisa memberikan rekomendasi pada pengguna? Sekarang, Anda sudah mengetahuinya.

# Hybrid Recommender System

Semua teknik sistem rekomendasi memiliki kekuatan dan kelemahan. Collaborative Filtering membutuhkan banyak feedback dari pengguna agar sistem berfungsi dengan baik. Sementara itu, content based filtering membutuhkan deskripsi item/fitur yang baik. Nah, untuk mendapatkan keunggulan dari masing-masing strategi, sistem rekomendasi hibrida menggabungkan dua atau lebih strategi rekomendasi yang berbeda. 

![dos_c9b447641f31b13ddfc18e3692f5b3d020210912135255.png](attachment:43d8893e-ee52-452d-a7cc-c1fe9a100a8d.png)

Sebagai contoh, sistem rekomendasi hibrida menggabungkan collaborative filtering, content-based filtering, dan strategi lainnya. Sistem ini membantu meningkatkan kinerja rekomendasi secara keseluruhan karena keterbatasan satu teknik akan ditutupi oleh kelebihan teknik lainnya. Sistem hibrida juga dapat digunakan untuk mengatasi permasalahan umum seperti ketersediaan data. Saat ini, sebagian besar sistem rekomendasi menggunakan pendekatan hibrida. 

Sistem rekomendasi hibrida dibagi menjadi beberapa kategori, antara lain:

- Mixed
Teknik ini menggabungkan beberapa hasil rekomendasi dari berbagai strategi untuk memberikan rekomendasi akhir. Pada teknik ini, setiap strategi rekomendasi akan menghasilkan daftar item yang direkomendasikan. Nah, seluruh daftar item ini kemudian dikombinasikan untuk mendapatkan hasil rekomendasi akhir untuk pengguna.

- Weighted
Pada teknik ini, skor komponen rekomendasi dari beberapa strategi digabungkan secara numerik. Penggabungan ini menggunakan teknik weighted linear functions (fungsi linear berbobot) untuk menghitung peringkat item.

- Switching
Switching atau pengalihan adalah teknik rekomendasi yang dapat beralih antara satu strategi ke strategi lainnya, bergantung pada kondisi tertentu. Sebagai contoh pada strategi Content based - Collaborative Filtering, sistem dapat beralih ke content-based filtering jika metode collaborative tidak memberikan hasil yang cukup andal.

# Data untuk Sistem Rekomendasi
Sistem rekomendasi memroses sejumlah informasi dan secara aktif mengumpulkan berbagai jenis data untuk membangun rekomendasi. Data yang dikumpulkan umumnya mengenai item yang direkomendasikan serta pengguna yang akan menerima rekomendasi. Data ini sangat beragam, bergantung pada teknik rekomendasi yang digunakan.

Pada sistem rekomendasi sederhana, data yang diperlukan misalnya berupa penilaian (rating) pengguna. Sedangkan, sistem rekomendasi yang lebih kompleks membutuhkan data lain seperti deskripsi, hubungan sosial, dan aktivitas pengguna. Francesco Ricci et al dalam Recommender Systems Handbook [55] mengatakan, data untuk sistem rekomendasi terbagi dalam tiga jenis kategori, antara lain: item, pengguna, dan transaksi (hubungan antara pengguna dan item). Mari kita uraikan satu per satu.

![dos_ab921ee0b9caf0ce7405a0deaa9bc9bd20210910170931.jpeg](attachment:c4f64b49-117b-4bea-ad1c-73a86ff07da7.jpeg)

## Item (barang)

Item merupakan objek yang direkomendasikan. Objek ini bisa dibedakan dari kompleksitas dan nilai atau kegunaannya. Beberapa contoh item dengan kompleksitas dan nilai yang rendah (low) antara lain: berita, buku, dan film. Sedangkan items dengan kompleksitas dan nilai yang lebih tinggi dapat dicontohkan seperti, investasi finansial, polis asuransi, dan pekerjaan.

Jika bermanfaat bagi pengguna, suatu item bernilai positif. Sebaliknya, jika pengguna membuat keputusan yang salah saat memilihnya, item bernilai negatif. Saat seseorang memilih suatu item yang direkomendasikan, tentu ada biaya (cost) yang dikeluarkan, misalnya untuk membayar item tersebut. Jika item yang dipilih relevan bagi pengguna, manfaat yang diberikan akan menutupi biaya yang dikeluarkan. Sedangkan, jika item tidak relevan dan tidak memberikan manfaat, nilai dan rekomendasi item tersebut bagi pengguna adalah negatif.

Mari kita ambil contoh item dengan kompleksitas dan nilai yang tinggi, misalnya item instrumen investasi atau mobil. Biaya yang dikeluarkan untuk item tersebut merupakan elemen pertimbangan yang penting saat memutuskan apakah akan menerima rekomendasi yang diberikan oleh sistem atau tidak.

Sistem rekomendasi dapat menggunakan berbagai properti dan fitur items. Sebagai contoh dalam sistem rekomendasi film, beberapa fiturnya antara lain, genre, aktor, dan sutradara. Ketiga fitur ini dapat digunakan untuk menggambarkan sebuah film dan mempelajari bagaimana suatu item bergantung pada fitur-fiturnya. 

## Pengguna

Setiap pengguna tentu memiliki karakteristik dan tujuan yang sangat beragam. Untuk melakukan personalisasi rekomendasi, sistem membutuhkan berbagai informasi mengenai pengguna. Jenis informasi yang dibutuhkan bergantung pada teknik rekomendasi yang digunakan. 

Sebagai contoh, pada collaborative filtering, pengguna dimodelkan sebagai daftar sederhana yang berisi peringkat pengguna untuk item tertentu. Sementara itu, sistem rekomendasi berdasarkan demografi membutuhkan beberapa atribut seperti usia, jenis kelamin, profesi, dan pendidikan. 

Model membuat profil pengguna dengan cara mengkodekan preferensi dan kebutuhannya. Pengguna juga dapat dideskripsikan dengan data pola perilaku mereka, misalnya pola penelusuran situs atau pola pencarian item di aplikasi e-commerce. Nah, sistem rekomendasi menggunakan informasi ini untuk merekomendasikan item kepada pengguna yang serupa.

## Transaksi

Transaksi bisa disebut sebagai interaksi antara pengguna dengan sistem. Ia merupakan data-data yang berguna bagi algoritma pembuat rekomendasi. Contohnya, log yang menyimpan informasi penting selama terjadinya interaksi antara pengguna dengan sistem. Log transaksi dapat berisi item yang diklik, dipilih atau dibeli oleh pengguna serta kueri pengguna (data yang dimasukkan pengguna ke mesin pencari). 

Selain itu, transaksi juga dapat menyertakan feedback eksplisit yang diberikan user. Contohnya, rating yang diberikan pengguna terhadap item tertentu. Rating adalah bentuk data transaksi yang paling populer pada sistem rekomendasi. 

Berbicara mengenai rating, secara umum terdapat dua kategori rating, yaitu explicit rating dan implicit rating. Rating eksplisit diperoleh dari proses interview terhadap pengguna, sedangkan rating implisit berdasarkan catatan perilaku pengguna.

Berikut adalah contoh rating eksplisit dari pengguna:

- Numerical ratings, seperti rating bintang 1 - 5 pada aplikasi android.
- Ordinal rating, seperti “setuju”, “netral”, dan “tidak setuju”.
- Binary rating, seperti yang diadopsi oleh Netflix yang meminta Anda untuk  memberikan rating like atau dislike.

Kekurangan dari eksplisit rating adalah tidak semua orang bersedia untuk mengisi survei atau memberikan penilaian. Sehingga, data yang diperoleh dari rating eksplisit biasanya tidak sebanyak data pada rating implisit.

Apa itu rating implisit? 

Rating implisit diperoleh dari “data klik” atau “aliran data” dalam aplikasi atau situs. Pada rating implisit, sistem akan menyimpulkan pendapat pengguna berdasarkan perilaku atau tindakannya. Misal, jika pengguna memasukkan kata kunci "Python" di Google Play Book, sistem akan memberikan keluaran berupa daftar buku yang relevan.

![dos_0e31f00ea83819b829afefaed6328c1420210910170933.jpeg](attachment:45deb4d7-4a89-43c0-a813-5c937bb6bbc7.jpeg)

Kemudian, pengguna akan memilih buku tertentu dari daftar tersebut untuk memperoleh informasi lebih lanjut. Misalnya, pengguna memilih buku Introduction to Machine Learning with Python. Selanjutnya, pengguna akan klik READ MORE untuk mengetahui informasi lebih lanjut mengenai buku tersebut. Nah, sampai di tahap ini, sistem dapat menyimpulkan bahwa pengguna tertarik dengan buku tersebut. Inilah yang disebut dengan rating implisit. 

![dos_d6fefa694af7af97f0b2102787e1a2c720210910170931.jpeg](attachment:6fddbf4f-503e-403f-abc3-1261dce003c6.jpeg)

# Similarity Measure

Pada materi sebelumnya, Anda telah mempelajari sistem rekomendasi secara umum berdasarkan kesamaan atau similarity. Jika ingin merekomendasikan item yang mungkin disukai oleh pengguna, tentu kita perlu mencari informasi mengenai item yang memang disukai oleh pengguna. Dengan informasi ini, kita bisa menentukan item yang sama atau mirip (similar) untuk direkomendasikan kepada pengguna.

Pertanyaannya, bagaimana Anda mendefinisikan kesamaan (kemiripan) ini? Jawabannya mungkin bisa banyak. Tetapi, kesamaan paling umum yang bisa diukur dalam sistem rekomendasi antara lain, preferensi dan selera.Selain itu kesamaan juga dapat ditemukan melalui data dan informasi lain seperti demografi pengguna dan status sosial.

Dalam istilah sistem rekomendasi, tingkat kesamaan atau tingkat kemiripan disebut sebagai degree of similarity. Beberapa literatur lain menggunakan istilah similarity function. Apa itu similarity function?

Falk Kim dalam bukunya Practical Recommender System [60] mendefinisikan similarity sebagai berikut. 

“Given two items, i1 and i2, the similarity between them is given by the function sim(i1, i2)”. 

Fungsi ini akan memberikan nilai yang semakin meningkat seiring dengan peningkatan kesamaan antar item. Kita dapat mengatakan bahwa kesamaan antara item berada dalam rentang [0, 1]. Artinya, item yang sama akan memiliki tingkat kesamaan:

> sim(i1, i2) = 1

Sedangkan, item berbeda akan memiliki tingkat kesamaan:

> sim(i1, i2) = 0.

Pengukuran tingkat kesamaan erat kaitannya dengan perhitungan jarak antar item. Secara umum hubungan antara kesamaan dan jarak adalah sebagai berikut:

- Semakin besar jarak, kesamaan semakin kecil (menuju nol).
- Semakin kecil jarak, kesamaan semakin besar (menuju satu).
Anda dapat menghitung kesamaan dengan beberapa cara. Kita akan membahas tiga cara yang umum digunakan dalam menghitung tingkat kesamaan, antara lain: Jaccard distance, Cosine Similarity, dan Euclidean distance.

## Jaccard Distance

Teknik yang sering disebut Jaccard index atau Jaccard similarity coefficient ini dikenalkan oleh Paul Jaccard. Teknik ini menghitung seberapa dekat jarak antara dua set sampel. Dalam hal ini, set sampel bisa berupa sekumpulan restoran yang disukai pengunjung. Koefisien ini mengukur kesamaan dengan menghitung irisan antara sampel dibagi dengan gabungan sampel. 

Jaccard distance didefinisikan sebagai berikut:

![dos_8fd214d6d22209501e6315111f5c167820210910171724.jpeg](attachment:afbbbe37-219d-43a1-a562-fa83627fa5dc.jpeg)

Jika Anda ingat tentang diagram Venn, Jaccard distance juga bisa digambarkan sebagai berikut.

![dos_b8dab921ce35ff735c340b53a3234b5320210910171725.jpeg](attachment:867cead0-951b-48b5-b581-f339362ef1ff.jpeg)

Dalam kasus menghitung similarity antara dua item A dan B, hitunglah berapa banyak pengguna yang menyukai kedua item. Kemudian bagilah jumlah data tersebut dengan jumlah pengguna yang menyukai item A, B, serta menyukai keduanya (A dan B).

## Cosine Similarity

Cosine similarity mengukur kesamaan antara dua vektor dan menentukan apakah kedua vektor tersebut menunjuk ke arah yang sama. Ia menghitung sudut cosinus antara dua vektor. Semakin kecil sudut cosinus, semakin besar nilai cosine similarity. 

![dos_87157b70a8c08f2bb7b464f190fef8fa20210910171725.jpeg](attachment:bf59f675-f228-40e4-9b22-065ff3a278d3.jpeg)

Metrik ini sering digunakan untuk mengukur kesamaan dokumen dalam analisis teks. Sebagai contoh, dalam studi kasus ini, cosine similarity digunakan untuk mengukur kesamaan nama restoran dan nama masakan.

Cosine similarity dirumuskan sebagai berikut.

![dos_784efd3d2ba47d47153b050526150ba920210910171725.jpeg](attachment:731c787e-f743-44c7-8813-4758cb7cd682.jpeg)

Cosine similarity pada Python menghitung kesamaan sebagai dot product yang dinormalisasi dari masukan sampel X dan Y. Kita akan menggunakan sklearn cosine_similarity untuk mendapatkan nilai cosinus dua vektor dalam matriks.

## Euclidean Distance

Metode Euclidean distance dihitung berdasarkan jarak antara dua titik (item). Item serupa letaknya akan berdekatan satu sama lain jika diplot dalam ruang berdimensi-n. Sehingga, kita dapat menghitung jarak antar item. Berdasarkan jarak tersebut, kita dapat merekomendasikan item kepada pengguna.

Metode ini membentuk koordinat untuk menempatkan nilai preferensi antara item dan nilai pengukuran. Jika jarak antara dua item besar, dua item tersebut tidaklah sama. Sebaliknya, jika jaraknya kecil, artinya kedua item tersebut sama. Euclidean distance dirumuskan sebagai berikut.

![dos_2555115e4e04ddb382a10fca89adad5420210910171724.jpeg](attachment:aba221e3-2e29-420c-bf7a-622270b328cc.jpeg)

**Keterangan**

Rk,i merupakan rating item i yang diberikan oleh user k. 

Rk,j merupakan rating dari item lain (j) yang diberikan oleh user k. 

N adalah jumlah total rating pengguna untuk item i dan j.