# Content Based

Jenis filter ini hanya menggunakan seorang customer saja dalam melakukan analisis. Analisis yang dilakukan adalah melihat customer behavior untuk memberikan rekomendasi film yang belum pernah ditonton oleh customer tersebut dan tentunya yang paling sesuai dengan seleranya. Dengan kata lain, algoritma ini akan memilih item dengan konten yang mirip untuk direkomendasikan kepada customer.

<br>
Dalam kasus ini akan digunakan dataset yang berisi 10 judul film dari indonesia dan hollywood yang dilengkapi oleh feature genre, rating, dan duration. Dengan data set tersebut akan dicari hubungan/kesamaan paling erat diantara 10 film yang ada. Sehingga ketika seseorang sudah menonton suatu film, dapat diberikan rekomendasi untuk menonton film lainnya yang memiliki kesamaan.

## Import Libraries

In [1]:
# import libraries / packages
import pandas as pd
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity
import seaborn as sns
import matplotlib.pyplot as plt

## Load Data

In [2]:
# load dataset movies
df = pd.read_csv('../data/movies.csv')
df

Unnamed: 0,movie,country,genre,rating,duration
0,Cek Toko Sebelah,Indo,Comedy,8.0,104
1,Susah Sinyal,Indo,Comedy,7.2,110
2,Pengabdi Setan,Indo,Horror,6.7,107
3,Surga yang Tak Dirindukan,Indo,Drama,8.0,125
4,Ayat Ayat Cinta,Indo,Romance,7.1,130
5,Avenger,Non Indo,Action,8.6,181
6,IT Chapter Two,Non Indo,Horror,7.0,169
7,Frozen,Non Indo,Animation,7.5,102
8,Dora ang The Lost City of Gold,Non Indo,Adventure,6.1,102
9,The Conjuring,Non Indo,Horror,7.5,112


In [3]:
# mengubah feature movie menjadi index DataFrame
df_index = df.set_index('movie',1)
df_index

Unnamed: 0_level_0,country,genre,rating,duration
movie,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Cek Toko Sebelah,Indo,Comedy,8.0,104
Susah Sinyal,Indo,Comedy,7.2,110
Pengabdi Setan,Indo,Horror,6.7,107
Surga yang Tak Dirindukan,Indo,Drama,8.0,125
Ayat Ayat Cinta,Indo,Romance,7.1,130
Avenger,Non Indo,Action,8.6,181
IT Chapter Two,Non Indo,Horror,7.0,169
Frozen,Non Indo,Animation,7.5,102
Dora ang The Lost City of Gold,Non Indo,Adventure,6.1,102
The Conjuring,Non Indo,Horror,7.5,112


In [4]:
# mengubah data kategorik menjadi numerik dengan menggunakan fitur get_dummies
df_dum= pd.get_dummies(df_index)
df_dum

Unnamed: 0_level_0,rating,duration,country_Indo,country_Non Indo,genre_Action,genre_Adventure,genre_Animation,genre_Comedy,genre_Drama,genre_Horror,genre_Romance
movie,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Cek Toko Sebelah,8.0,104,1,0,0,0,0,1,0,0,0
Susah Sinyal,7.2,110,1,0,0,0,0,1,0,0,0
Pengabdi Setan,6.7,107,1,0,0,0,0,0,0,1,0
Surga yang Tak Dirindukan,8.0,125,1,0,0,0,0,0,1,0,0
Ayat Ayat Cinta,7.1,130,1,0,0,0,0,0,0,0,1
Avenger,8.6,181,0,1,1,0,0,0,0,0,0
IT Chapter Two,7.0,169,0,1,0,0,0,0,0,1,0
Frozen,7.5,102,0,1,0,0,1,0,0,0,0
Dora ang The Lost City of Gold,6.1,102,0,1,0,1,0,0,0,0,0
The Conjuring,7.5,112,0,1,0,0,0,0,0,1,0


In [5]:
# menampilkan DataFrame dari cosinus similarity
cos_sim = pd.DataFrame(cosine_similarity(df_dum), index = df_dum.index, columns = df_dum.index)
cos_sim

movie,Cek Toko Sebelah,Susah Sinyal,Pengabdi Setan,Surga yang Tak Dirindukan,Ayat Ayat Cinta,Avenger,IT Chapter Two,Frozen,Dora ang The Lost City of Gold,The Conjuring
movie,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
Cek Toko Sebelah,1.0,0.999935,0.999809,0.999838,0.999676,0.999449,0.999248,0.999807,0.999667,0.99978
Susah Sinyal,0.999935,1.0,0.999911,0.999925,0.99987,0.999727,0.999596,0.99979,0.999806,0.999837
Pengabdi Setan,0.999809,0.999911,1.0,0.999923,0.999894,0.999769,0.99971,0.999758,0.999813,0.999907
Surga yang Tak Dirindukan,0.999838,0.999925,0.999923,1.0,0.999895,0.999771,0.999648,0.999796,0.999832,0.999853
Ayat Ayat Cinta,0.999676,0.99987,0.999894,0.999895,1.0,0.999885,0.999819,0.999668,0.999832,0.999786
Avenger,0.999449,0.999727,0.999769,0.999771,0.999885,1.0,0.999949,0.999592,0.999853,0.999751
IT Chapter Two,0.999248,0.999596,0.99971,0.999648,0.999819,0.999949,1.0,0.999415,0.999759,0.999667
Frozen,0.999807,0.99979,0.999758,0.999796,0.999668,0.999592,0.999415,1.0,0.999811,0.999891
Dora ang The Lost City of Gold,0.999667,0.999806,0.999813,0.999832,0.999832,0.999853,0.999759,0.999811,1.0,0.999887
The Conjuring,0.99978,0.999837,0.999907,0.999853,0.999786,0.999751,0.999667,0.999891,0.999887,1.0


Dari dataframe cosinus similarity dapat dilihat bahwa hubungan antar dua film dari 10 film pada dataset sangat tinggi. Nilai dari cosine similarity berkisar pada angkat 0.9 sampai dengan 1. Dengan begitu sebenarnya daoat dikatan bahwa jika salah seorang customer menyukai salah satu film yang ada pada dataset, kita dapat memberikan rekomendasi seluruh film lainnya yang ada di dataset. Namun agar rekomendasi yang diberikan kepada customer dapat tepat sasaran maka perlu dilihat similarity mana yang paling tinggi dengan film tersebut.

## Recommendation Examples

In [6]:
movie_recommendation = pd.DataFrame(cos_sim.iloc[:,1].sort_values(ascending=False))[1:].head(3)
movie_recommendation

Unnamed: 0_level_0,Susah Sinyal
movie,Unnamed: 1_level_1
Cek Toko Sebelah,0.999935
Surga yang Tak Dirindukan,0.999925
Pengabdi Setan,0.999911


In [7]:
movie_recommendation = pd.DataFrame(cos_sim.iloc[:,3].sort_values(ascending=False))[1:].head(3)
movie_recommendation

Unnamed: 0_level_0,Surga yang Tak Dirindukan
movie,Unnamed: 1_level_1
Susah Sinyal,0.999925
Pengabdi Setan,0.999923
Ayat Ayat Cinta,0.999895


In [8]:
movie_recommendation = pd.DataFrame(cos_sim.iloc[:,9].sort_values(ascending=False))[1:].head(3)
movie_recommendation

Unnamed: 0_level_0,The Conjuring
movie,Unnamed: 1_level_1
Pengabdi Setan,0.999907
Frozen,0.999891
Dora ang The Lost City of Gold,0.999887


## Conclusion

Dari ketiga contoh di atas dapat dikatakab bahwa:
1. Jika seseorang customer menyukai atau pernah menonton Susah Sinyal maka kami dapat memberikan rekomendasi untuk menonton film Cek Toko Sebelah dengan nilai cosine similarity sebesar 0.99.
2. Jika seseorang customer menyukai atau pernah menonton Surga Yang Tak Dirindukan maka kami dapat memberikan rekomendasi untuk menonton Susah Sinyak dengan nilai cosine similarity sebesar 0.99.
3. Jika seseorang customer menyukai atau telah menonton The Conjuring maka kami dapat memebrikan rekomendasi untuk menonton film Pengabdi Setan dengan nilai cosine similarity sebesar 0.99.