# Sistem Rekomendasi Film

- Pastikan kamu sudah install library pandas dan scikit-learn
- Jangan lupa, read_csv berdasarkan path file

In [10]:
# import library
import pandas as pd 
from sklearn.feature_extraction.text import TfidfVectorizer 
from sklearn.metrics.pairwise import cosine_similarity 

- Library pandas digunakan untuk bekerja dengan DataFrame, yaitu struktur data seperti tabel yang sering digunakan dalam pengolahan data.
- TfidfVectorizer dari library sklearn adalah fitur sckit-learn untuk mengubah teks menjadi numerik TF-IDF (Term Frequency-Inverse Document Frequency).
- cosine_similarity dari library sklearn adalah fitur untuk menghitung kemiripan kosinus antara dua vektor.

In [11]:
# Load csv
movie_df = pd.read_csv("D:\\Data sets\\tmdb_5000_movies.csv", encoding='utf-8')

Kode untuk membaca csv dari data sets yang sudah di download dari kaggle lalu masukkan ke variable movie_df

In [12]:
# Gabungkan judul dan genre
movie_df['combined'] = movie_df['title'] + ' ' + movie_df['genres']

Kode ini membuat kolom baru di DataFrame yang menggabungkan judul film dengan genre dalam satu string. Dilakukan agar algoritma bisa melakukan perhitungan menggunakan kedua informasi tersebut secara bersamaan.

In [13]:
# Membuat matriks TF-IDF
tfidf_vectorizer = TfidfVectorizer()
tfidf_matrix = tfidf_vectorizer.fit_transform(movie_df['combined'])

Kolom yang sudah digabungkan diubah menjadi matriks TF-IDF. Sekarang isi kolom berisi vektor angka. Setiap angka merepresentasikan bobot dari sebuah kata(Kata yang lebih unik/lebih sedikit memiliki bobot lebih tinggi).

In [14]:
# Hitung kemiripan kosinus
cosine_sim = cosine_similarity(tfidf_matrix)

Setelah semua kata suah dibuat TF-IDF, hitung kemiripan kosinus sudut antara dua vektor. Nilai kemiripan berkisar dari -1 hingga 1, di mana nilai 1 berarti sangat mirip dan 0 berarti tidak mirip sama sekali.

In [15]:
def get_recommendations_by_keyword(keyword):
    # Vectorisasi kata kunci
    keyword_vector = tfidf_vectorizer.transform([keyword])

    # Hitung kemiripan antara kata kunci dengan semua film
    cosine_sim = cosine_similarity(keyword_vector, tfidf_matrix).flatten()

    # Urutkan indeks film berdasarkan skor kemiripan
    sim_scores = cosine_sim.argsort()[::-1]

    # Ambil indeks 10 film dengan skor tertinggi
    movie_indices = sim_scores[:10]

    # Ambil judul dan genre film
    movie_recommendations = movie_df[['title', 'genres']].iloc[movie_indices]

    return movie_recommendations

Fungsi menerima input berupa kata kunci

- Kata kunci pengguna diubah menjadi vektor menggunakan tfidf_vectorizer.
- Kemudian, kemiripan kosinus antara kata kunci tersebut dan setiap film dihitung.
- Film diurutkan berdasarkan skor kemiripannya.
- 10 film teratas dengan skor tertinggi dipilih.
- Akhirnya, judul dan genre dari film-film tersebut dikembalikan sebagai rekomendasi.

In [16]:
# Minta input dari pengguna
keyword = str(input("Cari film apa? : "))

Ini inputnya bertipe data string.

In [17]:
# Panggil fungsi rekomendasi
recommended_movies = get_recommendations_by_keyword(keyword)

Memanggil fungsi untuk mencari tahu rekomendasi.

In [18]:
# Tampilkan rekomendasi
print("Rekomendasi film berdasarkan kata kunci '{}':".format(keyword))
recommended_movies

Rekomendasi film berdasarkan kata kunci 'action':


Unnamed: 0,title,genres
3848,D.E.B.S.,"[{""id"": 28, ""name"": ""Action""}]"
2933,F.I.S.T.,"[{""id"": 18, ""name"": ""Drama""}, {""id"": 28, ""name..."
3352,Action Jackson,"[{""id"": 28, ""name"": ""Action""}, {""id"": 12, ""nam..."
574,S.W.A.T.,"[{""id"": 28, ""name"": ""Action""}, {""id"": 53, ""nam..."
403,Last Action Hero,"[{""id"": 12, ""name"": ""Adventure""}, {""id"": 14, ""..."
44,Furious 7,"[{""id"": 28, ""name"": ""Action""}]"
4042,U.F.O.,"[{""id"": 28, ""name"": ""Action""}, {""id"": 12, ""nam..."
1894,War,"[{""id"": 28, ""name"": ""Action""}, {""id"": 53, ""nam..."
729,A Civil Action,"[{""id"": 18, ""name"": ""Drama""}]"
1920,Warrior,"[{""id"": 28, ""name"": ""Action""}, {""id"": 18, ""nam..."
