# <center>Hands On Collaborative Filtering Recommender System<center>

Notebook ini berisi materi praktikum untuk membuat sistem rekomendasi dengan prinsip *collaborative filtering* menggunakan library surprise pada bahasa pemrograman python. Data yang digunakan ialah *anime dataset* yang terdiri dari dua buah file, yaitu:<br>

1. *anime_info*: berisi informasi mengenai list id anime beserta judulnya.
2. *anime_ratings*: berisi informasi mengenai preferensi sebanyak 4714 user terhadap 7390 anime.

# Data Science Process

<center><img src="https://raw.githubusercontent.com/KaysiKaysi/OpenFile/master/Data%20Science%20Process.png" alt="Drawing" width=800></center>

# A. Persiapan

Install library scikit-surprise

In [0]:
!pip install -q scikit-surprise

## A1. Import library

In [1]:
import pandas as pd
import seaborn as sns
import numpy as np

from surprise import KNNBasic, Dataset, accuracy, Reader
from surprise.model_selection import train_test_split

## A2. Load data

Load data informasi anime

In [24]:
anime_info_file = 'data/anime_info.csv'
anime_info = pd.read_csv(anime_info_file)
anime_info  

Unnamed: 0,anime_ids,name
0,1723,Kimi no Na wa.
1,82,Fullmetal Alchemist: Brotherhood
2,296,Gintama°
3,127,Steins;Gate
4,137,Gintama&#039;
...,...,...
7385,6975,Mini Skirt Gakuen
7386,7137,Offside Girl
7387,7071,Joshidai: Ecchi Soudanshitsu
7388,5467,Tsui no Sora


Load data rating anime

In [25]:
anime_ratings_file = 'data/anime_ratings.csv'
anime_ratings = pd.read_csv(anime_ratings_file)
anime_ratings  

Unnamed: 0,User_ID,Anime_ID,Feedback
0,1,1,8
1,1,3,5
2,1,5,9
3,1,6,9
4,1,7,8
...,...,...,...
419938,4999,49,9
419939,4999,670,9
419940,4999,62,9
419941,4999,770,9


Melihat jumlah unique user pada *anime_ratings*.

In [61]:
len(np.unique(anime_ratings['User_ID'].values))

4714

Melihat jumlah unique anime pada *anime_ratings*.

In [64]:
len(np.unique(anime_ratings['Anime_ID'].values))

7157

Ket: Tiap user memberikan rating dengan skala 1-10.

# B. Explorasi Data

## B1. Cek tipe data pada masing-masing kolom dataframe

Cek tipe data pada dataframe *anime_info*

In [6]:
for column in anime_info.columns:
    print(column, ': ', anime_info[column].dtype, '\n')

anime_ids :  int64 

name :  object 



Cek tipe data pada dataframe *anime_ratings*

In [9]:
for column in anime_ratings.columns:
    print(column, ': ', anime_ratings[column].dtype, '\n')

User_ID :  int64 

Anime_ID :  int64 

Feedback :  int64 



Tipe data sudah sesuai

## B2. Cek *missing value*

Cek missing value pada dataframe *anime_info*

In [10]:
print(anime_info.isnull().sum())

anime_ids    0
name         0
dtype: int64


Cek missing value pada dataframe *anime_ratings*

In [12]:
print(anime_ratings.isnull().sum())

User_ID     0
Anime_ID    0
Feedback    0
dtype: int64


Tidak terdapat *missing value*.

# C. Membuat Model prediksi rating anime.

Membuat model prediksi rating dengan menggunakan metrik kesamaan kosinus dan kesamaan user.

In [49]:
# setting similarity option, 'cosine' berarti metric kesamaan menggunakan cosine similarity
# 'user_based' True berarti algoritma rekomendasi bekerja berdasarkan kesamaan user
sim_options = {'name': 'cosine', 'user_based': False }

# instansiasi objek model rekomendasi KNNBasic
algo = KNNBasic(k = 40, sim_options=sim_options)

# D. Training model prediksi rating anime

Mentransformasi input dengan format dataframe pandas kedalam format Dataset yang merupakan standar input model pada library surprise.

In [50]:
#menyiapkan objek Reader
reader = Reader(rating_scale=(1, 10))

# transform format dataframe kedalam format Dataset
# kolom pada dataframe secara berurutan harus merepresentasikan user id, item id, dan rating
data = Dataset.load_from_df(anime_ratings, reader)

Kemudian, membagi data kedalam trainset dan testset dengan perbandingan 80:20.

In [51]:
trainset, testset = train_test_split(data, test_size=.2)

Latih model menggunakan trainset.

In [52]:
algo.fit(trainset)

Computing the cosine similarity matrix...
Done computing similarity matrix.


<surprise.prediction_algorithms.knns.KNNBasic at 0x7fea0f04a1d0>

# F. Evaluasi

Evaluasi model prediksi rating menggunakan testset.

In [53]:
# Memprediksi rating pada testset
predictions = algo.test(testset)

# Hitung Mean absolute error(MAE) dari prediksi terhadap rating testset sebenarnya
accuracy.mae(predictions)

MAE:  1.0260


1.0259663041133438

Menggunakan model untuk memprediksi rating anime Fullmetal Alchemist: Brotherhood oleh user 1.

In [54]:
algo.predict(1, 82)

Prediction(uid=1, iid=82, r_ui=None, est=8.429613351403646, details={'actual_k': 7, 'was_impossible': False})

# G. Membuat recommender system

Menyiapkan list semua id anime. 

In [55]:
# Menyimpan list id anime pada anime_info dalam variabel anime_list
anime_id_list = anime_info['anime_ids'].values

Membuat fungsi recommender system.

In [56]:
def top_recommendation(user_id, number_of_recommendations):

  # Membuat list anime yang telah ditonton/diberi rating user.
  user_anime_id_list = np.unique(anime_ratings[anime_ratings['User_ID']==user_id]['Anime_ID'].values)
    
  # Membuat variabel untuk tempat menyimpan hasil prediksi rating anime yang belum ditonton user
  anime_rating_predictions = []

  # Menghitung prediksi rating
  for anime_id in anime_id_list:
    if anime_id not in user_anime_id_list:
      anime_rating_predictions.append({'anime_id' : anime_id, 'rating' : algo.predict(user_id, anime_id).est})

  # Mencetak hasil rekomendasi 
  i = 1  
  print('rank\ttop recommendation\n')
  for anime_rating in sorted(anime_rating_predictions, key = lambda k: k['rating'],reverse=True)[:number_of_recommendations]:
    print('{}\t{}'.format(i, anime_info['name'].loc[anime_info['anime_ids']==anime_rating['anime_id']].iloc[0]), '\n')
    i+= 1 

Mencoba *recommender system*.

In [59]:
# melihat top 20 rekomendasi anime untuk user 1
top_recommendation(1, 20)

rank	top recommendation

1	Hotori: Tada Saiwai wo Koinegau 

2	Cosmo Warrior Zero 

3	Alexander Senki 

4	Gintama°: Aizome Kaori-hen 

5	Waga Seishun no Arcadia: Mugen Kidou SSX 

6	Legendz: Yomigaeru Ryuuou Densetsu 

7	Tiger Mask Nisei 

8	Oseam 

9	Chibi Maruko-chan Movie 

10	The Rose and Women of Versailles 

11	Mazinkaiser: Shitou! Ankoku Dai Shogun 

12	Madou King Granzort 

13	Sekai Meisaku Douwa: Hakuchou no Mizuumi 

14	Danball Senki W 

15	Gaiking: Legend of Daiku-Maryu 

16	Code Geass: Boukoku no Akito 3 - Kagayaku Mono Ten yori Otsu Picture Drama 

17	Gakuen Senki Muryou 

18	YAT Anshin! Uchuu Ryokou 

19	Hiatari Ryoukou! 

20	Hi no Tori: Uchuu-hen 



Selengkapnya dokumentasi library surprise dapat dilihat pada tautan berikut <br>
https://surprise.readthedocs.io/en/stable/

<br>
<center><font size="18"> Terima Kasih <font><center>
<br