# Movie Recommendation System Based On Content

Anggota Kelompok:
2201748340 - Kelvin Anderson
2201828455 - Muhammad Garin Anzahabi
2201780663 - David Christian
2201781793 - Alexander Djohan
2201733875 - Brainli

In [2]:
# Import library yang di perlukan untuk membangun model
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import linear_kernel

# Import dataset yang dibutuhkan, dataset yang digunakan berasal dari https://www.kaggle.com/rounakbanik/the-movies-dataset
# Dataset ini mengandung sebanyak 45.000 Movies
movie_data = pd.read_csv('C:/Semester 5/Project/IR/movies_metadata.csv', low_memory=False)

# Dikarenakan datasetnya ada 45.000 Movies, kita gunakan 20.000 movies pertama saja untuk efisiensi model
movie_data = movie_data.head(20000)

In [3]:
# Tahap Pre- processing

# Objek dari TfidfVectorizer menghapus semua stop words english seperti "the", "a" dan lain- lain
tfidf_vector = TfidfVectorizer(stop_words='english')

# Replace semua value yang kosong atau NULL dengan string kosong yaitu "" agar tidak terjadi error saat proses training
movie_data['overview'] = movie_data['overview'].fillna('')

In [4]:
# Membuat model 

# Vektorisasi matriks Tf- Idf dengan proses fitting dan transforming terhadap data
# Vektorisasi kolum "Overview" yang berisi deskripsi dari movie yang berguna untuk mencari movie dengan
# content yang mirip dengan input
tfidf_matrix = tfidf_vector.fit_transform(movie_data['overview'])

# Membangun model untuk menghitung similaritas dari movie yang di input nanti, dengan menggunakan similarity matriks untuk
# menghitung dot product dari matrix TF- IDF
sim_matrix = linear_kernel(tfidf_matrix, tfidf_matrix)

In [5]:
# Untuk menghindari judul sama yang duplikat atau berjumlah lebih dari 1, kita akan menggunakan function "drop_duplicates"
indices = pd.Series(movie_data.index, index=movie_data['title']).drop_duplicates()

In [6]:
# membuat function yang menampung model yang telah dibuat untuk return output yaitu 10 Movies dengan similarity terbesar
def movie_recommender(title, sim_scores=sim_matrix):
    print("Similar Movie Recommendation With", title)
    print("\n")
    print("Index                   Title")
    idx = indices[title]
    sim_scores = list(enumerate(sim_matrix[idx]))
    sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)
    sim_scores = sim_scores[1:11]
    movie_indices = [i[0] for i in sim_scores]
    return movie_data['title'].iloc[movie_indices]

In [7]:
# Menampilkan output dari movie recommendation berdasarkan input judul
# Di contoh ini kami akan menggunakan input judul yaitu "Star Wars"
print("Input movie:")
movie_input = input()
movie_recommender(movie_input)

Input movie:
Star Wars
Similar Movie Recommendation With Star Wars


Index                   Title


1154      The Empire Strikes Back
1167           Return of the Jedi
1267                 Mad Dog Time
5187          The Triumph of Love
309             The Swan Princess
461          Hot Shots! Part Deux
19400             Deathstalker II
3502                Shanghai Noon
13735    The Flame of New Orleans
1987              Sleeping Beauty
Name: title, dtype: object