<a href="https://colab.research.google.com/github/MuthiahAinun/Recommender-System/blob/main/Proyek_System_Recommendation_Tsamarah_Muthi'ah_A.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 📚Proyek Machine Learning- System Recommendation: [Movielens-dataset]
- **Nama:** [Tsamarah Muthi'ah Abdullah]
- **Email:** [a135xaf486@devacademy.id]
- **ID Dicoding:** [a135xaf48]

# Project Overview

Sistem rekomendasi telah menjadi bagian penting dalam industri film digital, terutama dengan semakin populernya platform layanan streaming seperti Netflix, Disney+, dan Amazon Prime Video. Dalam konteks dunia film, sistem rekomendasi berperan penting untuk membantu pengguna menemukan film atau serial yang sesuai dengan preferensi mereka, tanpa harus mencarinya secara manual di antara ribuan judul yang tersedia. Hal ini tidak hanya meningkatkan kenyamanan pengguna, tetapi juga memperpanjang waktu keterlibatan pengguna di platform dan mendorong loyalitas terhadap layanan tersebut.

Sistem rekomendasi diperlukan dalam bidang film karena tingginya volume konten yang terus bertambah setiap harinya. Tanpa sistem yang cerdas, pengguna bisa mengalami overload informasi, kesulitan menemukan film yang sesuai dengan selera mereka, atau bahkan berhenti menggunakan layanan karena merasa kebingungan dalam memilih. Dengan memberikan saran yang dipersonalisasi, sistem rekomendasi mampu meningkatkan pengalaman menonton, membuat pengguna merasa dipahami, dan mendorong eksplorasi konten yang lebih luas.

Menurut penelitian oleh Ricci et al. (2015), sistem rekomendasi dapat meningkatkan pendapatan hingga 20% pada platform digital. Sementara itu, Netflix melaporkan bahwa sekitar 80% dari total penayangan berasal dari saran yang diberikan oleh sistem rekomendasi mereka (Gomez-Uribe & Hunt, 2015). Hal ini menunjukkan betapa besar pengaruh algoritma rekomendasi terhadap perilaku pengguna dalam mengakses konten film.

Pada proyek ini, akan dikembangkan sistem rekomendasi khusus untuk konten film dengan menggunakan berbagai pendekatan algoritma, seperti Collaborative Filtering dan Content-Based Filtering. Selain itu, pendekatan Hybrid Filtering juga akan diterapkan untuk menggabungkan keunggulan dari kedua metode guna menghasilkan rekomendasi yang lebih beragam. Tujuan akhir dari proyek ini adalah menciptakan sistem yang dapat memberikan rekomendasi film yang relevan dan memuaskan berdasarkan minat serta riwayat tontonan pengguna.

**Referensi:**

- Ricci, F., Rokach, L., & Shapira, B. (2015). Recommender Systems Handbook. Springer.

- Gomez-Uribe, C. A., & Hunt, N. (2015). The Netflix Recommender System: Algorithms, Business Value, and Innovation. ACM Transactions on Management Information Systems.

# Business Understanding

### **Problem Statements**

1. Bagaimana menyediakan rekomendasi film yang relevan dan tepat sasaran, meskipun cakupan item yang direkomendasikan masih terbatas?

2. Bagaimana membangun sistem rekomendasi yang efisien untuk membantu pengguna menemukan film-film berkualitas tinggi yang sesuai dengan selera mereka?


### **Goals**

1. Menyediakan rekomendasi film dengan akurasi tinggi (high precision), agar pengalaman pengguna lebih menyenangkan dan terpercaya.

2. Fokus pada top picks yang benar-benar relevan, meskipun jumlah film yang terjangkau masih terbatas.


### **Solution Approach**

1. Menggunakan 2 algoritma utama, yaitu:

  **A. Collaborative Filtering**

  - Menggunakan SVD untuk memprediksi rating berdasarkan interaksi pengguna.

  - Efektif menghasilkan rekomendasi yang sangat sesuai untuk pengguna aktif.

  - Memiliki precision tinggi, cocok untuk menyajikan film yang "pasti disukai".

 **B. Content-Based Filtering**

  - Menggunakan kemiripan konten (judul & genre) untuk membuat rekomendasi berdasarkan film yang sudah disukai.

  - Menggunakan teknik TF-IDF (Term Frequency-Inverse Document Frequency) dan Cosine Similarity untuk mengukur kemiripan antar film.

  - Memberikan rekomendasi film serupa dengan film tertentu yang dipilih pengguna.

2. Menggabungkan kedua algoritma dengan metode Hybrid Filtering (CF + CBF)

  - Menggabungkan hasil rekomendasi dari Collaborative Filtering dan Content-Based Filtering.

  - Memastikan rekomendasi lebih bervariasi dan mempertimbangkan baik popularitas pengguna maupun kesamaan konten.

3. Evaluasi Performa

  - Menggunakan metrik seperti Precision, Recall, dan F1.

# **Import Library**

In [2]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.metrics import precision_score, recall_score, f1_score
from sklearn.feature_extraction.text import TfidfVectorizer
from scipy.sparse.linalg import svds
import os

# **Data Understanding**

Dataset yang digunakan pada proyek ini berasal dari MovieLens 100K (https://grouplens.org/datasets/movielens/100k/), yang berisi data rating film oleh pengguna. Dataset ini terdiri dari beberapa file utama, yaitu:

- u.data: berisi data rating pengguna terhadap film.

- u.item: berisi informasi mengenai judul film dan genre.

- u.user: berisi informasi pengguna.

- u.genre: berisi daftar genre.

Dataset ini berisi 100.000 rating dari 943 pengguna terhadap 1.682 film. Data ini mencakup informasi mengenai ID pengguna, ID film, rating, dan timestamp.

Kondisi dataset 'movies' memiliki beberapa nilai hilang, terutama pada kolom release_date (1 nilai hilang), video_release_date (1.682 nilai hilang), dan IMDb_URL (3 nilai hilang). Sementara itu, dataset 'ratings', 'genres', dan 'users' tidak memiliki nilai hilang.

**Berikut adalah uraian variabel-variabel atau fitur pada tiap dataset:**

**1. Dataset Ratings**
- userId: Merupakan ID unik dari pengguna yang memberikan rating terhadap film.

- movieId: Merupakan ID unik dari film yang diberi rating oleh pengguna.

- rating: Merupakan nilai penilaian yang diberikan oleh pengguna terhadap film, dengan rentang 1 hingga 5.

- timestamp: Merupakan waktu saat pengguna memberikan rating, disimpan dalam format Unix timestamp.

**2. Dataset Movies**
- movieId: Merupakan ID unik dari film.

- Title:  Merupakan Judul film.

- release_date:  Merupakan tanggal rilis film.

- video_release_date: Tanggal rilis video dari film tersebut (tidak ada data pada contoh).

- IMDb_URL: Merupakan kolom yang menyimpan tautan ke halaman film di situs IMDb.

- unknown: Variabel biner yang menunjukkan apakah genre film tidak diketahui (1 jika ya, 0 jika tidak).

- Action: Variabel biner yang menunjukkan apakah film bergenre aksi (1 jika ya, 0 jika tidak).

- Adventure: Variabel biner yang menunjukkan apakah film bergenre petualangan (1 jika ya, 0 jika tidak).

- Animation: Variabel biner yang menunjukkan apakah film bergenre animasi (1 jika ya, 0 jika tidak).

- Children: Variabel biner yang menunjukkan apakah film ditujukan untuk anak-anak (1 jika ya, 0 jika tidak).

- Comedy: Variabel biner yang menunjukkan apakah film bergenre komedi (1 jika ya, 0 jika tidak).

- Crime: Variabel biner yang menunjukkan apakah film bergenre kriminal (1 jika ya, 0 jika tidak).

- Documentary: Variabel biner yang menunjukkan apakah film bergenre dokumenter (1 jika ya, 0 jika tidak).

- Drama: Variabel biner yang menunjukkan apakah film bergenre drama (1 jika ya, 0 jika tidak).

- Fantasy: Variabel biner yang menunjukkan apakah film bergenre fantasi (1 jika ya, 0 jika tidak).

- Film-Noir: Variabel biner yang menunjukkan apakah film bergenre noir (1 jika ya, 0 jika tidak).

- Horror: Variabel biner yang menunjukkan apakah film bergenre horor (1 jika ya, 0 jika tidak).

- Musical: Variabel biner yang menunjukkan apakah film bergenre musikal (1 jika ya, 0 jika tidak).

- Mystery: Variabel biner yang menunjukkan apakah film bergenre misteri (1 jika ya, 0 jika tidak).

- Romance: Variabel biner yang menunjukkan apakah film bergenre romantis (1 jika ya, 0 jika tidak).

- Sci-Fi: Variabel biner yang menunjukkan apakah film bergenre fiksi ilmiah (1 jika ya, 0 jika tidak).

- Thriller: Variabel biner yang menunjukkan apakah film bergenre thriller (1 jika ya, 0 jika tidak).

- War: Variabel biner yang menunjukkan apakah film bergenre perang (1 jika ya, 0 jika tidak).

- Western: Variabel biner yang menunjukkan apakah film bergenre barat atau koboi (1 jika ya, 0 jika tidak).

**3. Dataset Users**
- userId: Merupakan ID unik dari pengguna dalam dataset.

- age: Merupakan usia pengguna dalam satuan tahun.

- gender: Menunjukkan jenis kelamin pengguna.

- occupation: Menunjukkan pekerjaan pengguna.

- zip_code: Menunjukkan kode pos pengguna sebagai representasi dari lokasi geografis mereka.



**4. Dataset Genres**
- genre: Merupakan genre film.
- genreId: Merupakan ID unik dari genre film.

In [None]:
# Fungsi untuk mengubah .u file to CSV
def convert_u_to_csv(file_path, delimiter, columns, csv_name, encoding='ISO-8859-1'):
    df = pd.read_csv(file_path, delimiter=delimiter, header=None, engine='python', encoding=encoding)
    df.columns = columns
    csv_path = csv_name
    df.to_csv(csv_path, index=False)
    print(f'File {file_path} successfully converted to {csv_path}')
    return csv_path

In [None]:
# Mengubah u.data file to CSV
ratings_path = convert_u_to_csv('u.data', '	', ['userId', 'movieId', 'rating', 'timestamp'], 'ratings.csv')

File u.data successfully converted to ratings.csv


In [None]:
# Mengubah u.item file to CSV
movies_path = convert_u_to_csv('u.item', '|', ['movieId', 'title', 'release_date', 'video_release_date', 'IMDb_URL', 'unknown', 'Action', 'Adventure', 'Animation', 'Children', 'Comedy', 'Crime', 'Documentary', 'Drama', 'Fantasy', 'Film-Noir', 'Horror', 'Musical', 'Mystery', 'Romance', 'Sci-Fi', 'Thriller', 'War', 'Western'], 'movies.csv')

File u.item successfully converted to movies.csv


In [None]:
# Mengubah u.user file to CSV
users_path = convert_u_to_csv('u.user', '|', ['userId', 'age', 'gender', 'occupation', 'zip_code'], 'users.csv')

File u.user successfully converted to users.csv


In [None]:
# Mengubah u.genre file to CSV
genre_path = convert_u_to_csv('u.genre', '|', ['genre', 'genreId'], 'genres.csv')

File u.genre successfully converted to genres.csv


In [3]:
# Memuat dataset
ratings = pd.read_csv("ratings.csv")
movies = pd.read_csv("movies.csv")
users = pd.read_csv("users.csv")
genres = pd.read_csv("genres.csv")

In [None]:
# Melihat informasi umum tentang dataset
print("\nInfo Dataset Ratings:")
print(ratings.info())


Info Dataset Ratings:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 4 columns):
 #   Column     Non-Null Count   Dtype
---  ------     --------------   -----
 0   userId     100000 non-null  int64
 1   movieId    100000 non-null  int64
 2   rating     100000 non-null  int64
 3   timestamp  100000 non-null  int64
dtypes: int64(4)
memory usage: 3.1 MB
None


**✨Dataset Ratings**
- Jumlah Data: 100.000 entri

- Jumlah Kolom: 4 kolom (userId, movieId, rating, timestamp)

- Tipe Data: Seluruh kolom bertipe int64

- Ukuran Memori: 3.1 MB

- **Insight:** Dataset ini merepresentasikan data rating film dari pengguna. Setiap entri berisi informasi tentang ID pengguna, ID film, rating yang diberikan, dan timestamp kapan rating diberikan. Data lengkap tanpa ada nilai kosong.

In [None]:
print("\nInfo Dataset Movies:")
print(movies.info())


Info Dataset Movies:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1682 entries, 0 to 1681
Data columns (total 24 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   movieId             1682 non-null   int64  
 1   title               1682 non-null   object 
 2   release_date        1681 non-null   object 
 3   video_release_date  0 non-null      float64
 4   IMDb_URL            1679 non-null   object 
 5   unknown             1682 non-null   int64  
 6   Action              1682 non-null   int64  
 7   Adventure           1682 non-null   int64  
 8   Animation           1682 non-null   int64  
 9   Children            1682 non-null   int64  
 10  Comedy              1682 non-null   int64  
 11  Crime               1682 non-null   int64  
 12  Documentary         1682 non-null   int64  
 13  Drama               1682 non-null   int64  
 14  Fantasy             1682 non-null   int64  
 15  Film-Noir           1682 non-null

**📹Dataset Movies**
- Jumlah Data: 1.682 entri

- Jumlah Kolom: 24 kolom

- Kolom Penting: movieId, title, release_date, IMDb_URL, dan 19 kolom genre

- Tipe Data:

  - int64 pada ID dan genre

  - object pada judul, tanggal rilis, dan URL

  - float64 pada video_release_date (seluruhnya kosong)

- Ukuran Memori: 315.5 KB

- **Insight:** Dataset ini menyimpan informasi detail tentang film, termasuk judul, tanggal rilis, URL IMDb, dan genre. Kolom video_release_date tidak memiliki data sama sekali, sehingga dapat diabaikan. Setiap film memiliki 19 kolom genre dengan nilai biner (0 atau 1) yang menunjukkan genre film tersebut.

In [None]:
print("\nInfo Dataset Users:")
print(users.info())


Info Dataset Users:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 943 entries, 0 to 942
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   userId      943 non-null    int64 
 1   age         943 non-null    int64 
 2   gender      943 non-null    object
 3   occupation  943 non-null    object
 4   zip_code    943 non-null    object
dtypes: int64(2), object(3)
memory usage: 37.0+ KB
None


**👥Dataset Users**
- Jumlah Data: 943 entri

- Jumlah Kolom: 5 kolom (userId, age, gender, occupation, zip_code)

- Tipe Data:

  - int64 pada ID dan usia

  - object pada gender, pekerjaan, dan kode pos

- Ukuran Memori: 37.0 KB

- **Insight:** Dataset ini berisi informasi demografi pengguna, termasuk usia, jenis kelamin, pekerjaan, dan kode pos. Data lengkap tanpa ada nilai kosong.

In [None]:
print("\nInfo Dataset Genres:")
print(genres.info())


Info Dataset Genres:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 19 entries, 0 to 18
Data columns (total 2 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   genre    19 non-null     object
 1   genreId  19 non-null     int64 
dtypes: int64(1), object(1)
memory usage: 436.0+ bytes
None


**🎞️Dataset Genres**
- Jumlah Data: 19 entri

- Jumlah Kolom: 2 kolom (genre, genreId)

- Tipe Data:

  - object pada nama genre

  - int64 pada ID genre

- Ukuran Memori: 436 bytes

- **Insight:** Dataset ini mendefinisikan genre film dengan ID unik untuk setiap genre.

In [None]:
# Statistik Deskriptif
print("\nStatistik Deskriptif Ratings:")
print(ratings.describe())


Statistik Deskriptif Ratings:
             userId        movieId         rating     timestamp
count  100000.00000  100000.000000  100000.000000  1.000000e+05
mean      462.48475     425.530130       3.529860  8.835289e+08
std       266.61442     330.798356       1.125674  5.343856e+06
min         1.00000       1.000000       1.000000  8.747247e+08
25%       254.00000     175.000000       3.000000  8.794487e+08
50%       447.00000     322.000000       4.000000  8.828269e+08
75%       682.00000     631.000000       4.000000  8.882600e+08
max       943.00000    1682.000000       5.000000  8.932866e+08


**Insight Statistik Deskriptif Ratings:**

1. Sebagian besar rating berada di kisaran 3 hingga 4, dengan nilai rata-rata 3.53.

2. Rating minimum adalah 1 dan maksimum adalah 5, menunjukkan adanya variasi pendapat pengguna terhadap film.

3. User ID tersebar secara merata dari 1 hingga 943, menunjukkan banyaknya pengguna yang memberikan rating.

4. Waktu pemberian rating berkisar dalam rentang waktu yang cukup luas.

In [None]:
print("\nStatistik Deskriptif Movies:")
print(movies.describe())


Statistik Deskriptif Movies:
           movieId  video_release_date      unknown       Action    Adventure  \
count  1682.000000                 0.0  1682.000000  1682.000000  1682.000000   
mean    841.500000                 NaN     0.001189     0.149227     0.080262   
std     485.695893                 NaN     0.034473     0.356418     0.271779   
min       1.000000                 NaN     0.000000     0.000000     0.000000   
25%     421.250000                 NaN     0.000000     0.000000     0.000000   
50%     841.500000                 NaN     0.000000     0.000000     0.000000   
75%    1261.750000                 NaN     0.000000     0.000000     0.000000   
max    1682.000000                 NaN     1.000000     1.000000     1.000000   

         Animation     Children       Comedy        Crime  Documentary  ...  \
count  1682.000000  1682.000000  1682.000000  1682.000000  1682.000000  ...   
mean      0.024970     0.072533     0.300238     0.064804     0.029727  ...   
std

**Insight Statistik Deskriptif Movies:**

1. Terdapat 1.682 film dengan berbagai genre.

2. Genre paling umum adalah Comedy (30%), diikuti Action (15%) dan Romance (14.7%).

3. Beberapa genre sangat jarang muncul, seperti Fantasy (1.3%), Film-Noir (1.4%), dan Western (1.6%).

In [None]:
print("\nStatistik Deskriptif Users:")
print(users.describe())


Statistik Deskriptif Users:
           userId         age
count  943.000000  943.000000
mean   472.000000   34.051962
std    272.364951   12.192740
min      1.000000    7.000000
25%    236.500000   25.000000
50%    472.000000   31.000000
75%    707.500000   43.000000
max    943.000000   73.000000


**Insight Statistik Deskriptif Users:**

1. Terdapat 943 pengguna dengan rentang usia dari 7 hingga 73 tahun.

2. Rata-rata usia pengguna adalah sekitar 34 tahun, menunjukkan dominasi pengguna dewasa muda.

3. Mayoritas pengguna berusia antara 25 hingga 43 tahun, yang merupakan segmen pengguna paling aktif.

In [None]:
print("\nStatistik Deskriptif Genres:")
print(genres.describe())


Statistik Deskriptif Genres:
         genreId
count  19.000000
mean    9.000000
std     5.627314
min     0.000000
25%     4.500000
50%     9.000000
75%    13.500000
max    18.000000


**Insight Statistik Deskriptif Genres:**

1. Terdapat 19 genre film dalam dataset.

2. Genre dengan ID maksimum adalah 18, sementara ID minimum adalah 0, menandakan adanya berbagai macam kategori film.

3. Genre rata-rata memiliki ID di sekitar angka 9, dengan variasi yang cukup besar.

# **Data Preparation**

**Pada tahap ini langkah yang dilakukan yaitu mengubah .u file menjadi csv file, pengecekan dan penanganan data hilang, transformasi data, penggabungan dataset ratings dan movies untuk mempermudah pembuatan matriks user-item yang mengandung informasi rating dan judul film pembagian data, serta Menggunakan TF-IDF Vectorizer untuk algoritma CBF untuk mengubah judul & Genre film menjadi representasi vektor numerik yang bermakna.**

Mengapa Tahap Data Preparation Diperlukan:
1. Mengatasi data yang hilang agar tidak mengganggu proses analisis dan model.
2. Melakukan transformasi agar data lebih terstruktur dan dapat digunakan oleh model.
3. Menghasilkan data yang lebih konsisten dan bebas dari error yang dapat mempengaruhi hasil prediksi.
4. Meningkatkan akurasi dan kinerja model dengan data yang bersih dan terstruktur.

In [4]:
# Mengecek nilai hilang pada setiap kolom
def check_missing_values(df):
    print("\nJumlah nilai hilang per kolom:")
    print(df.isnull().sum())

In [5]:
print("\nPengecekan Nilai Hilang pada Ratings:")
check_missing_values(ratings)


Pengecekan Nilai Hilang pada Ratings:

Jumlah nilai hilang per kolom:
userId       0
movieId      0
rating       0
timestamp    0
dtype: int64


In [6]:
print("\nPengecekan Nilai Hilang pada Movies:")
check_missing_values(movies)


Pengecekan Nilai Hilang pada Movies:

Jumlah nilai hilang per kolom:
movieId                  0
title                    0
release_date             1
video_release_date    1682
IMDb_URL                 3
unknown                  0
Action                   0
Adventure                0
Animation                0
Children                 0
Comedy                   0
Crime                    0
Documentary              0
Drama                    0
Fantasy                  0
Film-Noir                0
Horror                   0
Musical                  0
Mystery                  0
Romance                  0
Sci-Fi                   0
Thriller                 0
War                      0
Western                  0
dtype: int64


In [7]:
print("\nPengecekan Nilai Hilang pada Users:")
check_missing_values(users)


Pengecekan Nilai Hilang pada Users:

Jumlah nilai hilang per kolom:
userId        0
age           0
gender        0
occupation    0
zip_code      0
dtype: int64


In [8]:
print("\nPengecekan Nilai Hilang pada Genres:")
check_missing_values(genres)


Pengecekan Nilai Hilang pada Genres:

Jumlah nilai hilang per kolom:
genre      0
genreId    0
dtype: int64


In [9]:
# Informasi Statistik untuk Kolom dengan Nilai Hilang pada Movies
print('\nInformasi Statistik pada Kolom dengan Nilai Hilang pada Movies:')
print(movies[['release_date', 'video_release_date', 'IMDb_URL']].describe(include='all'))


Informasi Statistik pada Kolom dengan Nilai Hilang pada Movies:
       release_date  video_release_date  \
count          1681                 0.0   
unique          240                 NaN   
top     01-Jan-1995                 NaN   
freq            215                 NaN   
mean            NaN                 NaN   
std             NaN                 NaN   
min             NaN                 NaN   
25%             NaN                 NaN   
50%             NaN                 NaN   
75%             NaN                 NaN   
max             NaN                 NaN   

                                                 IMDb_URL  
count                                                1679  
unique                                               1660  
top     http://us.imdb.com/M/title-exact?That%20Darn%2...  
freq                                                    2  
mean                                                  NaN  
std                                                   NaN 

## Insight :
**Kolom release_date:**

- Terdapat 1 nilai hilang dari total 1682 data.

- Format tanggal yang digunakan adalah DD-MMM-YYYY.

- Tanggal yang paling sering muncul adalah 01-Jan-1995, sebanyak 215 kali.

**Kolom video_release_date:**

- Seluruh nilai pada kolom ini hilang (1682 nilai hilang), sehingga tidak memberikan informasi apapun.

- Kolom ini akan dihapus karena tidak berkontribusi terhadap analisis.

**Kolom IMDb_URL:**

1. Terdapat 3 nilai hilang.

2. URL yang paling sering muncul adalah "http://us.imdb.com/M/title-exact?That%20Darn%20Cat!%20(1997)", sebanyak 2 kali.

# A. Data Cleaning

### **Mengatasi permasalahan nilai hilang agar model tidak mengalami error atau bias.**

In [10]:
# Menghapus kolom dengan seluruh nilai hilang (video_release_date)
movies.drop(columns=['video_release_date'], inplace=True)

In [11]:
# Menghapus baris dengan nilai hilang pada release_date dan IMDb_URL
movies.dropna(subset=['release_date', 'IMDb_URL'], inplace=True)

# B. Transformasi Data

### **Melakukan transformasi data sehingga lebih mudah diolah pada tahap modeling.**

In [12]:
# Transformasi timestamp ke datetime
ratings['timestamp'] = pd.to_datetime(ratings['timestamp'], unit='s')

In [13]:
# Mengecek Kembali Nilai Hilang pada Dataset Movies
print("\nPengecekan Nilai Hilang pada Movies:")
check_missing_values(movies)


Pengecekan Nilai Hilang pada Movies:

Jumlah nilai hilang per kolom:
movieId         0
title           0
release_date    0
IMDb_URL        0
unknown         0
Action          0
Adventure       0
Animation       0
Children        0
Comedy          0
Crime           0
Documentary     0
Drama           0
Fantasy         0
Film-Noir       0
Horror          0
Musical         0
Mystery         0
Romance         0
Sci-Fi          0
Thriller        0
War             0
Western         0
dtype: int64


In [14]:
# Mengecek Kembali Informasi Statistik untuk Kolom dengan Nilai Hilang pada Movies
print('\nInformasi Statistik pada Kolom dengan Nilai Hilang pada Movies:')
print(movies[['release_date', 'IMDb_URL']].describe(include='all'))


Informasi Statistik pada Kolom dengan Nilai Hilang pada Movies:
       release_date                                           IMDb_URL
count          1679                                               1679
unique          238                                               1660
top     01-Jan-1995  http://us.imdb.com/M/title-exact?That%20Darn%2...
freq            215                                                  2


# C. Penggabungan Dataset

### **Dataset ratings dan movies digabungkan berdasarkan kolom movieId. Hal ini dilakukan untuk mempermudah pembuatan matriks user-item yang mengandung informasi rating dan judul film.**

In [15]:
# Penggabungan data ratings dan movies
data = pd.merge(ratings, movies, on='movieId')

# D. Data Splitting

### **Pada Tahap ini data dibagi menjadi 80/20 untuk data training dan data testing.**

In [16]:
# Data splitting
train_data, test_data = train_test_split(data, test_size=0.2, random_state=42)

# **Modeling**

1. Kelebihan: CF dapat memanfaatkan interaksi pengguna, sedangkan CBF dapat merekomendasikan item baru.

2. Kekurangan: CF membutuhkan data yang cukup banyak dan padat, sementara CBF bergantung pada informasi konten.

Berikut penjelasan cara kerja setiap algoritma yang digunakan dalam solusi rekomendasi beserta parameter yang digunakan:

### **1. Collaborative Filtering (CF) - Singular Value Decomposition (SVD)**

Collaborative Filtering digunakan untuk memprediksi rating pengguna terhadap film yang belum ditonton berdasarkan pola interaksi pengguna lainnya. Pendekatan ini menggunakan User-Item Matrix dan algoritma SVD (Singular Value Decomposition).

📌Cara Kerja:
- Membentuk User-Item Matrix, yaitu matriks yang merepresentasikan hubungan antara pengguna (user) dan film (item) berdasarkan rating yang diberikan. Jika pengguna belum memberikan rating, nilai diisi dengan 0. ```pivot()```digunakan untuk membuat matriks pengguna-item.

- Mengubah matriks ini menjadi format sparse matrix menggunakan ```csr_matrix()``` dari SciPy, karena sebagian besar nilai dalam matriks ini adalah nol (sparsity).

- Menggunakan SVD (svds()) untuk mendekomposisi matriks menjadi tiga komponen:

  1. U: Matriks fitur pengguna (dimensi: jumlah pengguna × k)

  2. σ (sigma): Matriks diagonal dengan singular values (dimensi: k × k)

  3. Vt: Matriks fitur film (dimensi: k × jumlah film)

- Melakukan perkalian kembali U × sigma × Vt untuk membentuk matriks prediksi rating.

- Hasilnya digunakan untuk merekomendasikan film dengan prediksi rating tertinggi bagi pengguna.

**🪢Parameter yang Digunakan:**
- k=50 → Menentukan jumlah fitur laten (latent factors) dalam dekomposisi SVD. Default tidak digunakan; angka 50 dipilih untuk keseimbangan antara akurasi dan efisiensi.

- fillna(0) → Mengisi nilai kosong dalam user-item matrix dengan 0 agar bisa diproses oleh SVD.

- csr_matrix(user_item_matrix) → Mengubah user-item matrix menjadi sparse matrix agar lebih efisien dalam penyimpanan dan komputasi.


### **2. Content-Based Filtering (CBF) - TF-IDF & Cosine Similarity**

Content-Based Filtering merekomendasikan film berdasarkan kesamaan atribut film, dalam hal ini menggunakan judul film sebagai fitur untuk menemukan kemiripan antar film dan Cosine Similarity.

📌Cara Kerja:
- Menggunakan TF-IDF (Term Frequency - Inverse Document Frequency) untuk mengubah **judul** dan **genre** film menjadi representasi vektor yang lebih bermakna.

- Menghitung cosine similarity antar film berdasarkan representasi TF-IDF untuk menemukan film yang mirip satu sama lain.

- Film yang memiliki nilai similarity tertinggi dengan film yang telah ditonton pengguna akan direkomendasikan.

> Cosine Similarity menghitung kesamaan antar film berdasarkan vektor TF-IDF.

**Nilai cosine similarity berada di rentang 0 hingga 1, dengan 1 berarti sangat mirip.**

**🪢Parameter yang Digunakan:**
- stop_words='english' → Menghilangkan kata-kata umum dalam bahasa Inggris yang tidak relevan untuk analisis.

- fillna('') → Mengisi nilai kosong dalam kolom judul film agar tidak menyebabkan error saat diproses oleh TF-IDF.

- cosine_similarity(tfidf_matrix) → Menghitung kesamaan antar film berdasarkan hasil vektorisasi TF-IDF.

**Kesimpulan**

1. Collaborative Filtering (CF) dengan SVD digunakan untuk memprediksi rating film berdasarkan preferensi pengguna lain yang memiliki kesamaan pola.

2. Content-Based Filtering (CBF) dengan TF-IDF dan Cosine Similarity digunakan untuk merekomendasikan film berdasarkan kesamaan atribut (judul film).

3. Parameter yang digunakan telah disesuaikan untuk efisiensi dan akurasi rekomendasi, seperti k=50 dalam SVD dan stop_words='english' dalam TF-IDF.

In [17]:
# Collaborative Filtering (User-Item Matrix)
from scipy.sparse import csr_matrix

user_item_matrix = data.pivot(index='userId', columns='movieId', values='rating').fillna(0)
user_item_matrix_sparse = csr_matrix(user_item_matrix)
U, sigma, Vt = svds(user_item_matrix_sparse, k=50)
sigma = np.diag(sigma)
pred_ratings = np.dot(np.dot(U, sigma), Vt)
pred_ratings_df = pd.DataFrame(pred_ratings, columns=user_item_matrix.columns)

In [49]:
# Content-Based Filtering (TF-IDF)
# Gabungkan judul dan genre jadi satu string fitur
def create_combined_features(df):
    genres = df.iloc[:, 5:24]  # ambil kolom genre
    df['genre_str'] = genres.apply(lambda x: ' '.join([col for col in genres.columns if x[col] == 1]), axis=1)
    df['combined'] = df['title'] + ' ' + df['genre_str']
    return df

# Terapkan ke dataset
movies = create_combined_features(movies)

# Hitung TF-IDF dari gabungan judul dan genre
tfidf = TfidfVectorizer(stop_words='english')
tfidf_matrix = tfidf.fit_transform(movies['combined'].fillna(''))

# Hitung cosine similarity
content_sim = cosine_similarity(tfidf_matrix)

## Top-N Rekomendasi

**✅ Rekomendasi CF untuk User ID = 1 (Top-10):**
- Toy Story (1995)
- Usual Suspects, The (1995)
- Star Wars (1977)
- Blade Runner (1982)
- Fargo (1996)
- 2001: A Space Odyssey (1968)
- Aliens (1986)
- Alien (1979)
- Chasing Amy (1997)
- Full Monty, The (1997)

**✅ Rekomendasi CBF untuk Movie ID 1 (Top-10):**
- Pyromaniac's Love Story, A (1995)
- Balto (1995)
- Goofy Movie, A (1995)
- NeverEnding Story III, The (1994)
- Pocahontas (1995)
- FairyTale: A True Story (1997)
- Philadelphia Story, The (1940)
- Story of Xinghua, The (1993)
- Gumby: The Movie (1995)
- Aladdin (1992)

**✅ Rekomendasi Hybrid untuk User 1 (Top-10):**
- Star Wars (1977)
- Fargo (1996)
- Empire Strikes Back, The (1980)
- Aliens (1986)
- Alien (1979)
- Terminator, The (1984)
- Star Trek: First Contact (1996)
- Sneakers (1992)
- Men in Black (1997)
- Contact (1997)

## **✅Fungsi Rekomendasi CF**

In [40]:
# Fungsi rekomendasi CF
def recommend_cf(user_id, top_n=10):
    user_ratings = pred_ratings_df.loc[user_id - 1].sort_values(ascending=False)
    recommended_movie_ids = user_ratings.head(top_n).index
    return recommended_movie_ids.tolist()

**recommend_cf:**

- Fungsi ini menerima ```user_id``` dan jumlah rekomendasi yang diinginkan ```(top_n)```.

- Menggunakan ```pred_ratings_df``` (yang berisi prediksi rating untuk setiap user dan film), dan mengurutkan berdasarkan rating tertinggi.

- Mengembalikan daftar judul film yang memiliki rating tertinggi untuk user tersebut.

## **✅Fungsi Rekomendasi CBF**

In [50]:
# Content-based Filtering (CBF)
def recommend_cbf(movie_id, num_recommendations=10):
    # Memastikan movie_id ada dalam dataset movies
    if movie_id not in movies['movieId'].values:
        print(f'Movie ID {movie_id} tidak ditemukan.')
        return []

    # Mendapatkan index film berdasarkan movie_id
    idx = movies[movies['movieId'] == movie_id].index[0]

    # Mengambil skor kesamaan untuk film tersebut
    sim_scores = list(enumerate(content_sim[idx]))

    # Mengurutkan skor kesamaan berdasarkan nilai tertinggi
    sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)

    # Mengambil indeks film yang paling mirip
    movie_indices = [i[0] for i in sim_scores[1:num_recommendations + 1]]

    # Mengembalikan judul film yang direkomendasikan
    return movies['title'].iloc[movie_indices].tolist()

**recommend_cbf:**

- Fungsi ini menerima ```movie_id``` dan jumlah rekomendasi yang diinginkan.

- Memeriksa apakah ```movie_id``` ada dalam dataset movies. Jika ada, dihitung skor kesamaan menggunakan ```content_sim``` untuk film tersebut.

- Rekomendasi didasarkan pada kesamaan konten (berdasarkan **judul** dan **genre** film yang serupa).

- Mengembalikan daftar judul dan genre film yang paling mirip.

## **✅Fungsi Rekomendasi Hybrid (CF-CBF)**

In [53]:
# Hybrid Recommendation Function
def recommend_hybrid(user_id, alpha=0.5, top_n=10):
    # Ambil prediksi rating dari CF
    cf_scores = pred_ratings_df.loc[user_id - 1]  # index mulai dari 0

    # Ambil preferensi user terhadap item dari user-item matrix
    user_interactions = user_item_matrix.loc[user_id]
    cbf_scores = user_interactions @ content_sim  # dot product user vector dan content similarity matrix

    # Normalisasi skor (min-max scaling)
    cf_norm = (cf_scores - cf_scores.min()) / (cf_scores.max() - cf_scores.min())
    cbf_norm = (cbf_scores - cbf_scores.min()) / (cbf_scores.max() - cbf_scores.min())

    # Gabungkan CF dan CBF
    hybrid_scores = alpha * cf_norm + (1 - alpha) * cbf_norm

    # Ambil top-N movieId
    recommended_ids = hybrid_scores.sort_values(ascending=False).head(top_n).index
    return recommended_ids.tolist()

**Model hybrid dalam proyek ini menggabungkan prediksi dari Collaborative Filtering (CF) dan Content-Based Filtering (CBF) secara linier, untuk menghasilkan rekomendasi yang lebih seimbang antara preferensi pengguna dan kemiripan konten film.**

**📌 Konsep Penggabungan:**

**1. CF Prediction ```(pred_ratings_df)```:**

  Prediksi rating yang dihasilkan oleh model Singular Value Decomposition (SVD) berdasarkan pola interaksi pengguna terhadap film.

**2. CBF Prediction ```(user_item_matrix @ content_sim)```:**

Skor preferensi berdasarkan kemiripan konten antar film, dihitung melalui dot product antara user_item_matrix dan matriks kemiripan konten (content_sim).

_Hybrid Score: Gabungan linier dari CF dan CBF dengan formula:_

`hybrid_score = alpha * cf_score + (1 - alpha) * cbf_score`

**Nilai alpha = 0.5** digunakan untuk memberi bobot seimbang antara CF dan CBF.


**📈 Keunggulan Model Hybrid:**

✅ Mengombinasikan kekuatan dua pendekatan:

- CF memanfaatkan interaksi pengguna-berbasis rating.

- CBF mempertimbangkan fitur konten dari film (misalnya judul, genre).

🔄 Mengurangi masalah cold-start:

- Cold-start item: Film baru tanpa rating tetap bisa direkomendasikan melalui kemiripan konten (CBF).

- Cold-start user: Jika user memiliki beberapa interaksi, CF tetap bisa berkontribusi dalam prediksi.

🎯 Rekomendasi lebih personal dan relevan, karena mempertimbangkan baik preferensi eksplisit pengguna maupun kemiripan film yang pernah disukai.

# **Evaluasi**

### **✅Evaluasi dan Hasil CF**

In [41]:
# Evaluasi CF dan tampilkan hasil
def evaluate_cf_verbose(user_id, k=3):
    true_items = ratings[(ratings['userId'] == user_id) & (ratings['rating'] >= 4)]['movieId'].tolist()
    recommended_items = recommend_cf(user_id, top_n=k)

    hits = len(set(true_items) & set(recommended_items))
    precision = hits / k
    recall = hits / len(true_items) if true_items else 0
    f1 = (2 * precision * recall) / (precision + recall) if (precision + recall) else 0

    recommended_titles = movies[movies['movieId'].isin(recommended_items)]['title'].tolist()
    true_titles = movies[movies['movieId'].isin(true_items)]['title'].tolist()

    print(f"📊 Precision@{k}: {precision:.2f}")
    print(f"📈 Recall@{k}: {recall:.2f}")
    print(f"🎯 F1 Score@{k}: {f1:.2f}\n")

    print(f"✅ Rekomendasi untuk User {user_id} (Top-{k}):")
    for title in recommended_titles:
        print(f"- {title}")

    print(f"\n🎬 Film yang Disukai User (Rating >= 4):")
    for title in true_titles:
        print(f"- {title}")

# Contoh penggunaan:
evaluate_cf_verbose(user_id=1, k=10)

📊 Precision@10: 1.00
📈 Recall@10: 0.06
🎯 F1 Score@10: 0.12

✅ Rekomendasi untuk User 1 (Top-10):
- Toy Story (1995)
- Usual Suspects, The (1995)
- Star Wars (1977)
- Blade Runner (1982)
- Fargo (1996)
- 2001: A Space Odyssey (1968)
- Aliens (1986)
- Alien (1979)
- Chasing Amy (1997)
- Full Monty, The (1997)

🎬 Film yang Disukai User (Rating >= 4):
- Toy Story (1995)
- Four Rooms (1995)
- Shanghai Triad (Yao a yao yao dao waipo qiao) (1995)
- Twelve Monkeys (1995)
- Dead Man Walking (1995)
- Usual Suspects, The (1995)
- Mighty Aphrodite (1995)
- Postino, Il (1994)
- Mr. Holland's Opus (1995)
- French Twist (Gazon maudit) (1995)
- White Balloon, The (1995)
- Antonia's Line (1995)
- Angels and Insects (1995)
- Braveheart (1995)
- Taxi Driver (1976)
- Birdcage, The (1996)
- Apollo 13 (1995)
- Crumb (1994)
- Desperado (1995)
- Strange Days (1995)
- Clerks (1994)
- Disclosure (1994)
- Dolores Claiborne (1994)
- Eat Drink Man Woman (1994)
- Exotica (1994)
- Ed Wood (1994)
- Hoop Dreams (1994)

## Interpretasi:
**Precision@10: 1.00**

Precision yang mendekati 1 berarti hampir semua rekomendasi yang diberikan relevan (maksudnya, dari 10 film yang direkomendasikan, hampir semuanya adalah film yang disukai oleh pengguna).

**Recall@10: 0.06**

Recall yang rendah menunjukkan bahwa meskipun rekomendasi sangat tepat (high precision), hanya sebagian kecil dari total film relevan yang disukai oleh pengguna yang ditemukan di rekomendasi. Ini mungkin disebabkan oleh jumlah film relevan yang lebih sedikit dibandingkan jumlah rekomendasi yang diberikan.

**F1 Score@10: 0.12**

F1 Score yang rendah menunjukkan adanya trade-off antara Precision dan Recall, dengan Precision yang baik tetapi Recall yang rendah. Ini bisa jadi karena jumlah film relevan terbatas yang tersedia untuk pengguna, yang membuat recall rendah.

### **✅Evaluasi dan Hasil CBF**

In [51]:
# Menampilkan rekomendasi CBF untuk Movie ID 1
recommendations_cbf_movie1 = recommend_cbf(movie_id=1, num_recommendations=10)
print("\n✅ Rekomendasi CBF untuk Movie ID 1 (Top-10):")
for movie in recommendations_cbf_movie1:
    print(f"- {movie}")


✅ Rekomendasi CBF untuk Movie ID 1 (Top-10):
- Pyromaniac's Love Story, A (1995)
- Balto (1995)
- Goofy Movie, A (1995)
- NeverEnding Story III, The (1994)
- Pocahontas (1995)
- FairyTale: A True Story (1997)
- Philadelphia Story, The (1940)
- Story of Xinghua, The (1993)
- Gumby: The Movie (1995)
- Aladdin (1992)


In [52]:
# --- Evaluasi CBF ---

# Ambil daftar film yang mirip berdasarkan CBF (judul film direkomendasikan)
recommended_titles = set(recommendations_cbf_movie1)

# Ambil daftar user yang memberi rating >= 4 untuk Movie ID 1
users_who_liked_movie1 = ratings[(ratings['movieId'] == 1) & (ratings['rating'] >= 4)]['userId'].unique()

# Ambil semua movieId yang disukai (rating >= 4) oleh user-user tersebut, selain movie_id 1
relevant_movies = ratings[(ratings['userId'].isin(users_who_liked_movie1)) &
                          (ratings['rating'] >= 4) &
                          (ratings['movieId'] != 1)]

# Ambil judul film relevan tersebut
relevant_titles = set(movies[movies['movieId'].isin(relevant_movies['movieId'])]['title'])

# Hitung metrik evaluasi
true_positives = len(recommended_titles & relevant_titles)
precision = true_positives / len(recommended_titles) if recommended_titles else 0
recall = true_positives / len(relevant_titles) if relevant_titles else 0
f1_score = (2 * precision * recall) / (precision + recall) if (precision + recall) > 0 else 0

# Tampilkan hasil evaluasi
print("\n📊 Evaluasi CBF untuk Movie ID 1:")
print(f"Precision@10: {precision:.2f}")
print(f"Recall@10: {recall:.2f}")
print(f"F1 Score@10: {f1_score:.2f}")


📊 Evaluasi CBF untuk Movie ID 1:
Precision@10: 0.70
Recall@10: 0.01
F1 Score@10: 0.01


## Interpretasi:
**Precision@10 = 0.70** → Dari 10 film yang direkomendasikan, hanya 7 yang dianggap relevan (disukai oleh user yang juga menyukai Movie ID 1).

**Recall@10 = 0.01** → Dari semua film yang disukai oleh user yang juga menyukai Movie ID 1, hanya 1% yang berhasil ditemukan dalam rekomendasi.

**F1 Score = 0.01** → Meskipun precision tinggi (0.70), recall yang sangat rendah (0.01) membuat F1 score ikut rendah. Ini berarti bahwa meskipun sebagian besar film yang direkomendasikan memang relevan, sistem hanya mampu menjangkau sebagian sangat kecil dari semua film relevan yang seharusnya direkomendasikan. Dengan kata lain, kualitas rekomendasi cukup akurat, tapi masih belum menyeluruh.

### **✅Evaluasi dan Hasil Hybrid (CF-CBF)**

In [54]:
# Evaluasi Hybrid dan tampilkan hasil
def evaluate_hybrid_verbose(user_id, alpha=0.5, k=10):
    true_items = ratings[(ratings['userId'] == user_id) & (ratings['rating'] >= 4)]['movieId'].tolist()
    recommended_items = recommend_hybrid(user_id, alpha=alpha, top_n=k)

    hits = len(set(true_items) & set(recommended_items))
    precision = hits / k
    recall = hits / len(true_items) if true_items else 0
    f1 = (2 * precision * recall) / (precision + recall) if (precision + recall) else 0

    recommended_titles = movies[movies['movieId'].isin(recommended_items)]['title'].tolist()
    true_titles = movies[movies['movieId'].isin(true_items)]['title'].tolist()

    print(f"📊 Precision@{k}: {precision:.2f}")
    print(f"📈 Recall@{k}: {recall:.2f}")
    print(f"🎯 F1 Score@{k}: {f1:.2f}\n")

    print(f"✅ Rekomendasi Hybrid untuk User {user_id} (Top-{k}):")
    for title in recommended_titles:
        print(f"- {title}")

    print(f"\n🎬 Film yang Disukai User (Rating >= 4):")
    for title in true_titles:
        print(f"- {title}")

In [55]:
evaluate_hybrid_verbose(user_id=1, alpha=0.5, k=10)

📊 Precision@10: 1.00
📈 Recall@10: 0.06
🎯 F1 Score@10: 0.12

✅ Rekomendasi Hybrid untuk User 1 (Top-10):
- Star Wars (1977)
- Fargo (1996)
- Empire Strikes Back, The (1980)
- Aliens (1986)
- Alien (1979)
- Terminator, The (1984)
- Star Trek: First Contact (1996)
- Sneakers (1992)
- Men in Black (1997)
- Contact (1997)

🎬 Film yang Disukai User (Rating >= 4):
- Toy Story (1995)
- Four Rooms (1995)
- Shanghai Triad (Yao a yao yao dao waipo qiao) (1995)
- Twelve Monkeys (1995)
- Dead Man Walking (1995)
- Usual Suspects, The (1995)
- Mighty Aphrodite (1995)
- Postino, Il (1994)
- Mr. Holland's Opus (1995)
- French Twist (Gazon maudit) (1995)
- White Balloon, The (1995)
- Antonia's Line (1995)
- Angels and Insects (1995)
- Braveheart (1995)
- Taxi Driver (1976)
- Birdcage, The (1996)
- Apollo 13 (1995)
- Crumb (1994)
- Desperado (1995)
- Strange Days (1995)
- Clerks (1994)
- Disclosure (1994)
- Dolores Claiborne (1994)
- Eat Drink Man Woman (1994)
- Exotica (1994)
- Ed Wood (1994)
- Hoop Dre

## Interpretasi:
**📊 Precision@10: 1.00**

Artinya 10 dari 10 film yang direkomendasikan ternyata disukai user (rating ≥ 4). Ini menunjukkan akurasi rekomendasi sangat tinggi dalam hal kesesuaian.

**📈 Recall@10: 0.06**

Dari semua film yang disukai oleh user, hanya sekitar 6% yang berhasil ditangkap oleh Top-10 rekomendasi. Ini menunjukkan bahwa cakupan rekomendasi masih terbatas terhadap keseluruhan preferensi user.

**🎯 F1 Score@10: 0.12**

Kombinasi dari precision dan recall. Meskipun precision sangat tinggi, recall yang rendah menurunkan F1 Score, artinya model masih bisa ditingkatkan dalam menjangkau lebih banyak film relevan bagi user.

# **Kesimpulan :**

Hasil evaluasi menunjukkan bahwa model **Collaborative Filtering**, **Content-Based Filtering**, dan **Hybrid Filtering** memiliki precision yang tinggi, walau recall masih rendah. Artinya, sistem mampu memberikan rekomendasi yang sangat akurat (film yang direkomendasikan memang disukai pengguna), walau belum mampu menjangkau semua film relevan yang mungkin disukai oleh pengguna.

- Precision tinggi (1.00) → rekomendasi tepat sasaran, meningkatkan kepercayaan dan kenyamanan pengguna.

- Recall rendah (0.06) → sistem belum mampu menjangkau seluruh preferensi pengguna, tetapi tetap menjaga kualitas rekomendasi.

- F1 Score rendah (0.12) → menjadi sinyal bahwa cakupan sistem masih bisa dikembangkan lebih luas untuk memperbaiki keseimbangan akurasi dan jangkauan.

## **💡 Analisis Dampak terhadap Business Understanding**

1. **Rekomendasi berkualitas tinggi**, meskipun belum mencakup semua kemungkinan preferensi.

  - Ini cocok dengan hasil precision tinggi → sistem sudah efektif untuk menyajikan film yang pasti disukai.

2. **Efisiensi dan kepercayaan pengguna** dalam eksplorasi konten.

  - Dengan rekomendasi yang tepat sasaran, pengguna lebih percaya dan nyaman mengikuti saran sistem, mendorong engagement harian.

In [59]:
import pandas as pd
from tabulate import tabulate

# Data ringkasan dampak
data = {
    "Goals": [
        "Menyediakan rekomendasi film dengan akurasi tinggi",
        "Fokus pada top picks yang benar-benar relevan"
    ],
    "Evaluasi Model": [
        "Precision tinggi (1.00)",
        "Rekomendasi relevan & tepat sasaran"
    ],
    "Dampak terhadap Business Understanding": [
        "✅ Meningkatkan kepuasan & retensi pengguna",
        "✅ Memperkuat kualitas rekomendasi"
    ]
}

# Membuat DataFrame
df = pd.DataFrame(data)

# Menampilkan tabel dalam format grid
print(tabulate(df, headers="keys", tablefmt="grid", showindex=False))

+----------------------------------------------------+-------------------------------------+---------------------------------------------+
| Goals                                              | Evaluasi Model                      | Dampak terhadap Business Understanding      |
| Menyediakan rekomendasi film dengan akurasi tinggi | Precision tinggi (1.00)             | ✅ Meningkatkan kepuasan & retensi pengguna |
+----------------------------------------------------+-------------------------------------+---------------------------------------------+
| Fokus pada top picks yang benar-benar relevan      | Rekomendasi relevan & tepat sasaran | ✅ Memperkuat kualitas rekomendasi          |
+----------------------------------------------------+-------------------------------------+---------------------------------------------+
