<a href="https://colab.research.google.com/github/MuthiahAinun/Recommender-System/blob/main/Proyek_System_Recommendation_Tsamarah_Muthi'ah_A.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 📚Proyek Machine Learning- System Recommendation: [Movielens-dataset]
- **Nama:** [Tsamarah Muthi'ah Abdullah]
- **Email:** [a135xaf486@devacademy.id]
- **ID Dicoding:** [a135xaf48]

# Project Overview

Sistem rekomendasi adalah salah satu aplikasi machine learning yang banyak digunakan dalam berbagai sektor, seperti e-commerce, layanan streaming, dan media sosial. Sistem ini dirancang untuk memberikan rekomendasi produk, layanan, atau konten kepada pengguna berdasarkan preferensi atau perilaku mereka. Pentingnya sistem rekomendasi terletak pada kemampuannya untuk meningkatkan pengalaman pengguna, memperkuat keterlibatan, serta mendorong peningkatan penjualan atau penggunaan layanan.

Menurut penelitian oleh Ricci et al. (2015), sistem rekomendasi dapat meningkatkan pendapatan hingga 20% pada platform e-commerce. Selain itu, layanan streaming seperti Netflix melaporkan bahwa sekitar 80% dari penayangan didorong oleh algoritma rekomendasi (Gomez-Uribe & Hunt, 2015). Oleh karena itu, implementasi sistem rekomendasi merupakan aspek penting dalam dunia digital saat ini.

Pada proyek ini, akan dikembangkan sistem rekomendasi menggunakan berbagai algoritma untuk membandingkan performa dan efektivitasnya. Fokus utama proyek ini adalah menyelesaikan permasalahan rekomendasi konten pada platform layanan media dengan menggunakan algoritma Collaborative Filtering dan Content-Based Filtering. Selain itu, dilakukan pendekatan Hybrid Filtering untuk menggabungkan kekuatan dari kedua metode tersebut guna menghasilkan rekomendasi yang lebih bervariasi dan mempertimbangkan baik popularitas maupun kesamaan konten.

**Referensi:**

- Ricci, F., Rokach, L., & Shapira, B. (2015). Recommender Systems Handbook. Springer.

- Gomez-Uribe, C. A., & Hunt, N. (2015). The Netflix Recommender System: Algorithms, Business Value, and Innovation. ACM Transactions on Management Information Systems.

# Business Understanding

### **Problem Statements**

1. Bagaimana meningkatkan keterlibatan pengguna dengan menyediakan rekomendasi film yang lebih personal dan sesuai dengan preferensi mereka?

2. Bagaimana menciptakan sistem rekomendasi yang mampu meningkatkan loyalitas pelanggan dengan mempertimbangkan popularitas dan relevansi konten?

3. Bagaimana mengembangkan strategi rekomendasi yang dapat mengoptimalkan pengalaman pengguna sekaligus meningkatkan potensi pendapatan bisnis melalui langganan atau iklan?

### **Goals**

1. Meningkatkan retensi pelanggan dengan menyediakan rekomendasi yang lebih akurat dan relevan untuk meningkatkan kepuasan pengguna.

3. Mengembangkan sistem rekomendasi yang tidak hanya mempertimbangkan kesukaan pengguna tetapi juga memperhitungkan tren pasar dan popularitas konten untuk mendorong pertumbuhan bisnis.

2. Mengevaluasi efektivitas strategi rekomendasi dalam meningkatkan keterlibatan pengguna dan konversi pelanggan, dengan tujuan mendukung pertumbuhan bisnis dan monetisasi platform secara optimal.

### **Solution Approach**

1. Menggunakan 2 algoritma utama, yaitu:

  **A. Collaborative Filtering**

  - Menggunakan pendekatan berbasis pengguna dan item untuk mengidentifikasi kesamaan antara pengguna atau film.

  - Menggunakan teknik Singular Value Decomposition (SVD) untuk memprediksi rating film yang belum ditonton oleh pengguna.

  - Menghasilkan rekomendasi film dengan memilih film dengan peringkat tertinggi dalam hasil prediksi.

 **B. Content-Based Filtering**

  - Menggunakan fitur konten film (judul, genre) untuk menghasilkan rekomendasi.

  - Menggunakan teknik TF-IDF (Term Frequency-Inverse Document Frequency) dan Cosine Similarity untuk mengukur kemiripan antar film.

  - Memberikan rekomendasi film serupa dengan film tertentu yang dipilih pengguna.

2. Menggabungkan kedua algoritma dengan metode Hybrid Filtering (CF + CBF)

  - Menggabungkan hasil rekomendasi dari Collaborative Filtering dan Content-Based Filtering.

  - Memastikan rekomendasi lebih bervariasi dan mempertimbangkan baik popularitas pengguna maupun kesamaan konten.

3. Evaluasi Performa

  - Menggunakan metrik seperti MSE, RMSE, dan MAE.

# **Import Library**

In [None]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.metrics import precision_score, recall_score, f1_score
from sklearn.feature_extraction.text import TfidfVectorizer
from scipy.sparse.linalg import svds
import os

# **Data Understanding**

Dataset yang digunakan pada proyek ini berasal dari MovieLens 100K (https://grouplens.org/datasets/movielens/100k/), yang berisi data rating film oleh pengguna. Dataset ini terdiri dari beberapa file utama, yaitu:

- u.data: berisi data rating pengguna terhadap film.

- u.item: berisi informasi mengenai judul film dan genre.

- u.user: berisi informasi pengguna.

- u.genre: berisi daftar genre.

Dataset ini berisi 100.000 rating dari 943 pengguna terhadap 1.682 film. Data ini mencakup informasi mengenai ID pengguna, ID film, rating, dan timestamp.

Kondisi dataset 'movies' memiliki beberapa nilai hilang, terutama pada kolom release_date (1 nilai hilang), video_release_date (1.682 nilai hilang), dan IMDb_URL (3 nilai hilang). Sementara itu, dataset 'ratings', 'genres', dan 'users' tidak memiliki nilai hilang.

**Berikut adalah uraian variabel-variabel atau fitur pada tiap dataset:**

**1. Dataset Ratings**
- userId: Merupakan ID unik dari pengguna yang memberikan rating terhadap film.

- movieId: Merupakan ID unik dari film yang diberi rating oleh pengguna.

- rating: Merupakan nilai penilaian yang diberikan oleh pengguna terhadap film, dengan rentang 1 hingga 5.

- timestamp: Merupakan waktu saat pengguna memberikan rating, disimpan dalam format Unix timestamp.

**2. Dataset Movies**
- movieId: Merupakan ID unik dari film.

- video_release_date: Tanggal rilis video dari film tersebut (tidak ada data pada contoh).

- unknown: Variabel biner yang menunjukkan apakah genre film tidak diketahui (1 jika ya, 0 jika tidak).

- Action: Variabel biner yang menunjukkan apakah film bergenre aksi (1 jika ya, 0 jika tidak).

- Adventure: Variabel biner yang menunjukkan apakah film bergenre petualangan (1 jika ya, 0 jika tidak).

- Animation: Variabel biner yang menunjukkan apakah film bergenre animasi (1 jika ya, 0 jika tidak).

- Children: Variabel biner yang menunjukkan apakah film ditujukan untuk anak-anak (1 jika ya, 0 jika tidak).

- Comedy: Variabel biner yang menunjukkan apakah film bergenre komedi (1 jika ya, 0 jika tidak).

- Crime: Variabel biner yang menunjukkan apakah film bergenre kriminal (1 jika ya, 0 jika tidak).

- Documentary: Variabel biner yang menunjukkan apakah film bergenre dokumenter (1 jika ya, 0 jika tidak).

- Drama: Variabel biner yang menunjukkan apakah film bergenre drama (1 jika ya, 0 jika tidak).

- Fantasy: Variabel biner yang menunjukkan apakah film bergenre fantasi (1 jika ya, 0 jika tidak).

- Film-Noir: Variabel biner yang menunjukkan apakah film bergenre noir (1 jika ya, 0 jika tidak).

- Horror: Variabel biner yang menunjukkan apakah film bergenre horor (1 jika ya, 0 jika tidak).

- Musical: Variabel biner yang menunjukkan apakah film bergenre musikal (1 jika ya, 0 jika tidak).

- Mystery: Variabel biner yang menunjukkan apakah film bergenre misteri (1 jika ya, 0 jika tidak).

- Romance: Variabel biner yang menunjukkan apakah film bergenre romantis (1 jika ya, 0 jika tidak).

- Sci-Fi: Variabel biner yang menunjukkan apakah film bergenre fiksi ilmiah (1 jika ya, 0 jika tidak).

- Thriller: Variabel biner yang menunjukkan apakah film bergenre thriller (1 jika ya, 0 jika tidak).

- War: Variabel biner yang menunjukkan apakah film bergenre perang (1 jika ya, 0 jika tidak).

- Western: Variabel biner yang menunjukkan apakah film bergenre barat atau koboi (1 jika ya, 0 jika tidak).

**3. Dataset Users**
- userId: Merupakan ID unik dari pengguna dalam dataset.

- age: Merupakan usia pengguna dalam satuan tahun.



**4. Dataset Genres**
- genreId: Merupakan ID unik dari genre film.

In [None]:
# Fungsi untuk mengubah .u file to CSV
def convert_u_to_csv(file_path, delimiter, columns, csv_name, encoding='ISO-8859-1'):
    df = pd.read_csv(file_path, delimiter=delimiter, header=None, engine='python', encoding=encoding)
    df.columns = columns
    csv_path = csv_name
    df.to_csv(csv_path, index=False)
    print(f'File {file_path} successfully converted to {csv_path}')
    return csv_path

In [None]:
# Mengubah u.data file to CSV
ratings_path = convert_u_to_csv('u.data', '	', ['userId', 'movieId', 'rating', 'timestamp'], 'ratings.csv')

File u.data successfully converted to ratings.csv


In [None]:
# Mengubah u.item file to CSV
movies_path = convert_u_to_csv('u.item', '|', ['movieId', 'title', 'release_date', 'video_release_date', 'IMDb_URL', 'unknown', 'Action', 'Adventure', 'Animation', 'Children', 'Comedy', 'Crime', 'Documentary', 'Drama', 'Fantasy', 'Film-Noir', 'Horror', 'Musical', 'Mystery', 'Romance', 'Sci-Fi', 'Thriller', 'War', 'Western'], 'movies.csv')

File u.item successfully converted to movies.csv


In [None]:
# Mengubah u.user file to CSV
users_path = convert_u_to_csv('u.user', '|', ['userId', 'age', 'gender', 'occupation', 'zip_code'], 'users.csv')

File u.user successfully converted to users.csv


In [None]:
# Mengubah u.genre file to CSV
genre_path = convert_u_to_csv('u.genre', '|', ['genre', 'genreId'], 'genres.csv')

File u.genre successfully converted to genres.csv


In [None]:
# Memuat dataset
ratings = pd.read_csv("ratings.csv")
movies = pd.read_csv("movies.csv")
users = pd.read_csv("users.csv")
genres = pd.read_csv("genres.csv")

In [None]:
# Melihat informasi umum tentang dataset
print("\nInfo Dataset Ratings:")
print(ratings.info())


Info Dataset Ratings:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 4 columns):
 #   Column     Non-Null Count   Dtype
---  ------     --------------   -----
 0   userId     100000 non-null  int64
 1   movieId    100000 non-null  int64
 2   rating     100000 non-null  int64
 3   timestamp  100000 non-null  int64
dtypes: int64(4)
memory usage: 3.1 MB
None


**✨Dataset Ratings**
- Jumlah Data: 100.000 entri

- Jumlah Kolom: 4 kolom (userId, movieId, rating, timestamp)

- Tipe Data: Seluruh kolom bertipe int64

- Ukuran Memori: 3.1 MB

- **Insight:** Dataset ini merepresentasikan data rating film dari pengguna. Setiap entri berisi informasi tentang ID pengguna, ID film, rating yang diberikan, dan timestamp kapan rating diberikan. Data lengkap tanpa ada nilai kosong.

In [None]:
print("\nInfo Dataset Movies:")
print(movies.info())


Info Dataset Movies:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1682 entries, 0 to 1681
Data columns (total 24 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   movieId             1682 non-null   int64  
 1   title               1682 non-null   object 
 2   release_date        1681 non-null   object 
 3   video_release_date  0 non-null      float64
 4   IMDb_URL            1679 non-null   object 
 5   unknown             1682 non-null   int64  
 6   Action              1682 non-null   int64  
 7   Adventure           1682 non-null   int64  
 8   Animation           1682 non-null   int64  
 9   Children            1682 non-null   int64  
 10  Comedy              1682 non-null   int64  
 11  Crime               1682 non-null   int64  
 12  Documentary         1682 non-null   int64  
 13  Drama               1682 non-null   int64  
 14  Fantasy             1682 non-null   int64  
 15  Film-Noir           1682 non-null

**📹Dataset Movies**
- Jumlah Data: 1.682 entri

- Jumlah Kolom: 24 kolom

- Kolom Penting: movieId, title, release_date, IMDb_URL, dan 19 kolom genre

- Tipe Data:

  - int64 pada ID dan genre

  - object pada judul, tanggal rilis, dan URL

  - float64 pada video_release_date (seluruhnya kosong)

- Ukuran Memori: 315.5 KB

- **Insight:** Dataset ini menyimpan informasi detail tentang film, termasuk judul, tanggal rilis, URL IMDb, dan genre. Kolom video_release_date tidak memiliki data sama sekali, sehingga dapat diabaikan. Setiap film memiliki 19 kolom genre dengan nilai biner (0 atau 1) yang menunjukkan genre film tersebut.

In [None]:
print("\nInfo Dataset Users:")
print(users.info())


Info Dataset Users:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 943 entries, 0 to 942
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   userId      943 non-null    int64 
 1   age         943 non-null    int64 
 2   gender      943 non-null    object
 3   occupation  943 non-null    object
 4   zip_code    943 non-null    object
dtypes: int64(2), object(3)
memory usage: 37.0+ KB
None


**👥Dataset Users**
- Jumlah Data: 943 entri

- Jumlah Kolom: 5 kolom (userId, age, gender, occupation, zip_code)

- Tipe Data:

  - int64 pada ID dan usia

  - object pada gender, pekerjaan, dan kode pos

- Ukuran Memori: 37.0 KB

- **Insight:** Dataset ini berisi informasi demografi pengguna, termasuk usia, jenis kelamin, pekerjaan, dan kode pos. Data lengkap tanpa ada nilai kosong.

In [None]:
print("\nInfo Dataset Genres:")
print(genres.info())


Info Dataset Genres:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 19 entries, 0 to 18
Data columns (total 2 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   genre    19 non-null     object
 1   genreId  19 non-null     int64 
dtypes: int64(1), object(1)
memory usage: 436.0+ bytes
None


**🎞️Dataset Genres**
- Jumlah Data: 19 entri

- Jumlah Kolom: 2 kolom (genre, genreId)

- Tipe Data:

  - object pada nama genre

  - int64 pada ID genre

- Ukuran Memori: 436 bytes

- **Insight:** Dataset ini mendefinisikan genre film dengan ID unik untuk setiap genre.

In [None]:
# Statistik Deskriptif
print("\nStatistik Deskriptif Ratings:")
print(ratings.describe())


Statistik Deskriptif Ratings:
             userId        movieId         rating     timestamp
count  100000.00000  100000.000000  100000.000000  1.000000e+05
mean      462.48475     425.530130       3.529860  8.835289e+08
std       266.61442     330.798356       1.125674  5.343856e+06
min         1.00000       1.000000       1.000000  8.747247e+08
25%       254.00000     175.000000       3.000000  8.794487e+08
50%       447.00000     322.000000       4.000000  8.828269e+08
75%       682.00000     631.000000       4.000000  8.882600e+08
max       943.00000    1682.000000       5.000000  8.932866e+08


**Insight Statistik Deskriptif Ratings:**

1. Sebagian besar rating berada di kisaran 3 hingga 4, dengan nilai rata-rata 3.53.

2. Rating minimum adalah 1 dan maksimum adalah 5, menunjukkan adanya variasi pendapat pengguna terhadap film.

3. User ID tersebar secara merata dari 1 hingga 943, menunjukkan banyaknya pengguna yang memberikan rating.

4. Waktu pemberian rating berkisar dalam rentang waktu yang cukup luas.

In [None]:
print("\nStatistik Deskriptif Movies:")
print(movies.describe())


Statistik Deskriptif Movies:
           movieId  video_release_date      unknown       Action    Adventure  \
count  1682.000000                 0.0  1682.000000  1682.000000  1682.000000   
mean    841.500000                 NaN     0.001189     0.149227     0.080262   
std     485.695893                 NaN     0.034473     0.356418     0.271779   
min       1.000000                 NaN     0.000000     0.000000     0.000000   
25%     421.250000                 NaN     0.000000     0.000000     0.000000   
50%     841.500000                 NaN     0.000000     0.000000     0.000000   
75%    1261.750000                 NaN     0.000000     0.000000     0.000000   
max    1682.000000                 NaN     1.000000     1.000000     1.000000   

         Animation     Children       Comedy        Crime  Documentary  ...  \
count  1682.000000  1682.000000  1682.000000  1682.000000  1682.000000  ...   
mean      0.024970     0.072533     0.300238     0.064804     0.029727  ...   
std

**Insight Statistik Deskriptif Movies:**

1. Terdapat 1.682 film dengan berbagai genre.

2. Genre paling umum adalah Comedy (30%), diikuti Action (15%) dan Romance (14.7%).

3. Beberapa genre sangat jarang muncul, seperti Fantasy (1.3%), Film-Noir (1.4%), dan Western (1.6%).

In [None]:
print("\nStatistik Deskriptif Users:")
print(users.describe())


Statistik Deskriptif Users:
           userId         age
count  943.000000  943.000000
mean   472.000000   34.051962
std    272.364951   12.192740
min      1.000000    7.000000
25%    236.500000   25.000000
50%    472.000000   31.000000
75%    707.500000   43.000000
max    943.000000   73.000000


**Insight Statistik Deskriptif Users:**

1. Terdapat 943 pengguna dengan rentang usia dari 7 hingga 73 tahun.

2. Rata-rata usia pengguna adalah sekitar 34 tahun, menunjukkan dominasi pengguna dewasa muda.

3. Mayoritas pengguna berusia antara 25 hingga 43 tahun, yang merupakan segmen pengguna paling aktif.

In [None]:
print("\nStatistik Deskriptif Genres:")
print(genres.describe())


Statistik Deskriptif Genres:
         genreId
count  19.000000
mean    9.000000
std     5.627314
min     0.000000
25%     4.500000
50%     9.000000
75%    13.500000
max    18.000000


**Insight Statistik Deskriptif Genres:**

1. Terdapat 19 genre film dalam dataset.

2. Genre dengan ID maksimum adalah 18, sementara ID minimum adalah 0, menandakan adanya berbagai macam kategori film.

3. Genre rata-rata memiliki ID di sekitar angka 9, dengan variasi yang cukup besar.

# **Data Preparation**

Pada tahap ini, dilakukan pengecekan dan penanganan data hilang, serta transformasi data.
Mengapa Tahap Data Preparation Diperlukan:
1. Mengatasi data yang hilang agar tidak mengganggu proses analisis dan model.
2. Melakukan transformasi agar data lebih terstruktur dan dapat digunakan oleh model.
3. Menghasilkan data yang lebih konsisten dan bebas dari error yang dapat mempengaruhi hasil prediksi.
4. Meningkatkan akurasi dan kinerja model dengan data yang bersih dan terstruktur.

In [None]:
# Mengecek nilai hilang pada setiap kolom
def check_missing_values(df):
    print("\nJumlah nilai hilang per kolom:")
    print(df.isnull().sum())

In [None]:
print("\nPengecekan Nilai Hilang pada Ratings:")
check_missing_values(ratings)


Pengecekan Nilai Hilang pada Ratings:

Jumlah nilai hilang per kolom:
userId       0
movieId      0
rating       0
timestamp    0
dtype: int64


In [None]:
print("\nPengecekan Nilai Hilang pada Movies:")
check_missing_values(movies)


Pengecekan Nilai Hilang pada Movies:

Jumlah nilai hilang per kolom:
movieId                  0
title                    0
release_date             1
video_release_date    1682
IMDb_URL                 3
unknown                  0
Action                   0
Adventure                0
Animation                0
Children                 0
Comedy                   0
Crime                    0
Documentary              0
Drama                    0
Fantasy                  0
Film-Noir                0
Horror                   0
Musical                  0
Mystery                  0
Romance                  0
Sci-Fi                   0
Thriller                 0
War                      0
Western                  0
dtype: int64


In [None]:
print("\nPengecekan Nilai Hilang pada Users:")
check_missing_values(users)


Pengecekan Nilai Hilang pada Users:

Jumlah nilai hilang per kolom:
userId        0
age           0
gender        0
occupation    0
zip_code      0
dtype: int64


In [None]:
print("\nPengecekan Nilai Hilang pada Genres:")
check_missing_values(genres)


Pengecekan Nilai Hilang pada Genres:

Jumlah nilai hilang per kolom:
genre      0
genreId    0
dtype: int64


In [None]:
# Informasi Statistik untuk Kolom dengan Nilai Hilang pada Movies
print('\nInformasi Statistik pada Kolom dengan Nilai Hilang pada Movies:')
print(movies[['release_date', 'video_release_date', 'IMDb_URL']].describe(include='all'))


Informasi Statistik pada Kolom dengan Nilai Hilang pada Movies:
       release_date  video_release_date  \
count          1681                 0.0   
unique          240                 NaN   
top     01-Jan-1995                 NaN   
freq            215                 NaN   
mean            NaN                 NaN   
std             NaN                 NaN   
min             NaN                 NaN   
25%             NaN                 NaN   
50%             NaN                 NaN   
75%             NaN                 NaN   
max             NaN                 NaN   

                                                 IMDb_URL  
count                                                1679  
unique                                               1660  
top     http://us.imdb.com/M/title-exact?That%20Darn%2...  
freq                                                    2  
mean                                                  NaN  
std                                                   NaN 

## Insight :
**Kolom release_date:**

- Terdapat 1 nilai hilang dari total 1682 data.

- Format tanggal yang digunakan adalah DD-MMM-YYYY.

- Tanggal yang paling sering muncul adalah 01-Jan-1995, sebanyak 215 kali.

**Kolom video_release_date:**

- Seluruh nilai pada kolom ini hilang (1682 nilai hilang), sehingga tidak memberikan informasi apapun.

- Kolom ini akan dihapus karena tidak berkontribusi terhadap analisis.

**Kolom IMDb_URL:**

1. Terdapat 3 nilai hilang.

2. URL yang paling sering muncul adalah "http://us.imdb.com/M/title-exact?That%20Darn%20Cat!%20(1997)", sebanyak 2 kali.

# A. Data Cleaning

### **Mengatasi permasalahan nilai hilang agar model tidak mengalami error atau bias.**

In [None]:
# Menghapus kolom dengan seluruh nilai hilang (video_release_date)
movies.drop(columns=['video_release_date'], inplace=True)

In [None]:
# Menghapus baris dengan nilai hilang pada release_date dan IMDb_URL
movies.dropna(subset=['release_date', 'IMDb_URL'], inplace=True)

# B. Transformasi Data

### **Melakukan transformasi data sehingga lebih mudah diolah pada tahap modeling.**

In [None]:
# Transformasi timestamp ke datetime
ratings['timestamp'] = pd.to_datetime(ratings['timestamp'], unit='s')

In [None]:
# Mengecek Kembali Nilai Hilang pada Dataset Movies
print("\nPengecekan Nilai Hilang pada Movies:")
check_missing_values(movies)


Pengecekan Nilai Hilang pada Movies:

Jumlah nilai hilang per kolom:
movieId         0
title           0
release_date    0
IMDb_URL        0
unknown         0
Action          0
Adventure       0
Animation       0
Children        0
Comedy          0
Crime           0
Documentary     0
Drama           0
Fantasy         0
Film-Noir       0
Horror          0
Musical         0
Mystery         0
Romance         0
Sci-Fi          0
Thriller        0
War             0
Western         0
dtype: int64


In [None]:
# Mengecek Kembali Informasi Statistik untuk Kolom dengan Nilai Hilang pada Movies
print('\nInformasi Statistik pada Kolom dengan Nilai Hilang pada Movies:')
print(movies[['release_date', 'IMDb_URL']].describe(include='all'))


Informasi Statistik pada Kolom dengan Nilai Hilang pada Movies:
       release_date                                           IMDb_URL
count          1679                                               1679
unique          238                                               1660
top     01-Jan-1995  http://us.imdb.com/M/title-exact?That%20Darn%2...
freq            215                                                  2


# C. Penggabungan Dataset

### **Dataset ratings dan movies digabungkan berdasarkan kolom movieId. Hal ini dilakukan untuk mempermudah pembuatan matriks user-item yang mengandung informasi rating dan judul film.**

In [None]:
# Penggabungan data ratings dan movies
data = pd.merge(ratings, movies, on='movieId')

# D. Data Splitting

### **Pada Tahap ini data dibagi menjadi 80/20 untuk data training dan data testing.**

In [None]:
# Data splitting
train_data, test_data = train_test_split(data, test_size=0.2, random_state=42)

# **Modeling**

1. Kelebihan: CF dapat memanfaatkan interaksi pengguna, sedangkan CBF dapat merekomendasikan item baru.

2. Kekurangan: CF membutuhkan data yang cukup banyak dan padat, sementara CBF bergantung pada informasi konten.

Berikut penjelasan cara kerja setiap algoritma yang digunakan dalam solusi rekomendasi beserta parameter yang digunakan:

### **1. Collaborative Filtering (CF) - Singular Value Decomposition (SVD)**

Collaborative Filtering menggunakan pendekatan berbasis pengguna dan item untuk mengidentifikasi pola preferensi pengguna berdasarkan interaksi sebelumnya. Dalam implementasi ini, digunakan Singular Value Decomposition (SVD) untuk memprediksi rating film yang belum ditonton pengguna.

📌Cara Kerja:
- Membentuk User-Item Matrix, yaitu matriks yang merepresentasikan hubungan antara pengguna (user) dan film (item) berdasarkan rating yang diberikan. Jika pengguna belum memberikan rating, nilai diisi dengan 0.

- Mengubah matriks ini menjadi format sparse matrix menggunakan csr_matrix() dari SciPy, karena sebagian besar nilai dalam matriks ini adalah nol (sparsity).

- Menggunakan SVD (svds()) untuk mendekomposisi matriks menjadi tiga komponen:

  1. U: Matriks fitur pengguna (dimensi: jumlah pengguna × k)

  2. σ (sigma): Matriks diagonal dengan singular values (dimensi: k × k)

  3. Vt: Matriks fitur film (dimensi: k × jumlah film)

- Melakukan perkalian kembali U × sigma × Vt untuk membentuk matriks prediksi rating.

- Hasilnya digunakan untuk merekomendasikan film dengan prediksi rating tertinggi bagi pengguna.

**🪢Parameter yang Digunakan:**
- k=50 → Menentukan jumlah fitur laten (latent factors) dalam dekomposisi SVD. Default tidak digunakan; angka 50 dipilih untuk keseimbangan antara akurasi dan efisiensi.

- fillna(0) → Mengisi nilai kosong dalam user-item matrix dengan 0 agar bisa diproses oleh SVD.

- csr_matrix(user_item_matrix) → Mengubah user-item matrix menjadi sparse matrix agar lebih efisien dalam penyimpanan dan komputasi.


### **2. Content-Based Filtering (CBF) - TF-IDF & Cosine Similarity**

Content-Based Filtering merekomendasikan film berdasarkan kesamaan atribut film, dalam hal ini menggunakan judul film sebagai fitur untuk menemukan kemiripan antar film.

📌Cara Kerja:
- Menggunakan TF-IDF (Term Frequency - Inverse Document Frequency) untuk mengubah judul film menjadi representasi vektor yang lebih bermakna.

- Menghitung cosine similarity antar film berdasarkan representasi TF-IDF untuk menemukan film yang mirip satu sama lain.

- Film yang memiliki nilai similarity tertinggi dengan film yang telah ditonton pengguna akan direkomendasikan.

**🪢Parameter yang Digunakan:**
- stop_words='english' → Menghilangkan kata-kata umum dalam bahasa Inggris yang tidak relevan untuk analisis.

- fillna('') → Mengisi nilai kosong dalam kolom judul film agar tidak menyebabkan error saat diproses oleh TF-IDF.

- cosine_similarity(tfidf_matrix) → Menghitung kesamaan antar film berdasarkan hasil vektorisasi TF-IDF.

**Kesimpulan**

1. Collaborative Filtering (CF) dengan SVD digunakan untuk memprediksi rating film berdasarkan preferensi pengguna lain yang memiliki kesamaan pola.

2. Content-Based Filtering (CBF) dengan TF-IDF dan Cosine Similarity digunakan untuk merekomendasikan film berdasarkan kesamaan atribut (judul film).

3. Parameter yang digunakan telah disesuaikan untuk efisiensi dan akurasi rekomendasi, seperti k=50 dalam SVD dan stop_words='english' dalam TF-IDF.

In [None]:
# Collaborative Filtering (User-Item Matrix)
from scipy.sparse import csr_matrix

user_item_matrix = data.pivot(index='userId', columns='movieId', values='rating').fillna(0)
user_item_matrix_sparse = csr_matrix(user_item_matrix)
U, sigma, Vt = svds(user_item_matrix_sparse, k=50)
sigma = np.diag(sigma)
pred_ratings = np.dot(np.dot(U, sigma), Vt)
pred_ratings_df = pd.DataFrame(pred_ratings, columns=user_item_matrix.columns)

In [None]:
# Content-Based Filtering (TF-IDF)
# Menghitung TF-IDF langsung dari judul film pada dataset movies
tfidf = TfidfVectorizer(stop_words='english')
tfidf_matrix = tfidf.fit_transform(movies['title'].fillna(''))

# Menghitung similaritas menggunakan cosine similarity
content_sim = cosine_similarity(tfidf_matrix)

# **Evaluasi**

In [None]:
# Fungsi evaluasi model
from sklearn.metrics import mean_squared_error, mean_absolute_error

# Fungsi evaluasi metrik: MSE, RMSE, dan MAE
def evaluate_model(y_true, y_pred):
    mse = mean_squared_error(y_true, y_pred)
    rmse = np.sqrt(mse)
    mae = mean_absolute_error(y_true, y_pred)
    print(f'MSE: {mse:.4f}')
    print(f'RMSE: {rmse:.4f}')
    print(f'MAE: {mae:.4f}')

In [None]:
actual_ratings = user_item_matrix.values.flatten()
predicted_ratings = pred_ratings.flatten()
evaluate_model(actual_ratings, predicted_ratings)

MSE: 0.3370
RMSE: 0.5805
MAE: 0.2707


In [None]:
# Evaluasi Collaborative Filtering (SVD)
def evaluate_cf():
    actual_ratings = user_item_matrix.values.flatten()
    predicted_ratings = pred_ratings.flatten()
    evaluate_model(actual_ratings, predicted_ratings)

In [None]:
# Evaluasi Content-Based Filtering (CBF)
def evaluate_cbf():
    # Menyesuaikan ukuran content_sim dengan user_item_matrix
    valid_movie_ids = user_item_matrix.columns
    content_sim_filtered = content_sim[:len(valid_movie_ids), :len(valid_movie_ids)]

    # Menghitung prediksi CBF
    cbf_pred = np.dot(user_item_matrix.values, content_sim_filtered)
    actual_ratings = user_item_matrix.values.flatten()
    predicted_ratings = cbf_pred.flatten()
    evaluate_model(actual_ratings, predicted_ratings)

In [None]:
# Evaluasi Hybrid (gabungan CF dan CBF)
def evaluate_hybrid(alpha=0.5):
    # Menyesuaikan ukuran content_sim dengan user_item_matrix
    valid_movie_ids = user_item_matrix.columns
    content_sim_filtered = content_sim[:len(valid_movie_ids), :len(valid_movie_ids)]

    # Menghitung prediksi CBF
    cbf_pred = np.dot(user_item_matrix.values, content_sim_filtered)

    # Menggabungkan prediksi CF (SVD) dan CBF
    hybrid_pred = alpha * pred_ratings + (1 - alpha) * cbf_pred
    actual_ratings = user_item_matrix.values.flatten()
    predicted_ratings = hybrid_pred.flatten()
    evaluate_model(actual_ratings, predicted_ratings)

In [None]:
print("\nEvaluasi Collaborative Filtering (CF):")
evaluate_cf()


Evaluasi Collaborative Filtering (CF):
MSE: 0.3370
RMSE: 0.5805
MAE: 0.2707


In [None]:
print("\nEvaluasi Content-Based Filtering (CBF):")
evaluate_cbf()


Evaluasi Content-Based Filtering (CBF):
MSE: 32.1889
RMSE: 5.6735
MAE: 3.4283


In [None]:
print("\nEvaluasi Hybrid:")
evaluate_hybrid(alpha=0.5)


Evaluasi Hybrid:
MSE: 8.1317
RMSE: 2.8516
MAE: 1.7434


# **Evaluasi**

Evaluasi Performa
Untuk menilai keefektifan model rekomendasi yang dikembangkan, dilakukan evaluasi menggunakan metrik seperti Mean Squared Error (MSE), Root Mean Squared Error (RMSE), dan Mean Absolute Error (MAE). Hasil evaluasi menunjukkan bahwa:

1. **Model Collaborative Filtering (CF)** memberikan hasil prediksi dengan tingkat kesalahan yang paling rendah dibandingkan metode lainnya, dengan nilai MSE (0.3370), RMSE (0.5805), dan MAE (0.2707). Hal ini menunjukkan bahwa CF mampu menghasilkan rekomendasi dengan akurasi yang sangat baik, sehingga dapat meningkatkan pengalaman pengguna dan memperkuat loyalitas pelanggan.

2. Sebaliknya, **Content-Based Filtering (CBF)** menunjukkan performa yang kurang optimal dengan nilai kesalahan yang cukup tinggi (MSE: 32.1889, RMSE: 5.6735, MAE: 3.4283). Model ini kurang efektif dalam memberikan rekomendasi yang akurat, yang dapat mengurangi kepuasan pengguna serta berpotensi menurunkan retensi pelanggan.

3. Sementara itu, **Hybrid Filtering** yang menggabungkan CF dan CBF menghasilkan performa yang berada di tengah-tengah, dengan nilai MSE (8.1317), RMSE (2.8516), dan MAE (1.7434). Meskipun hasilnya tidak sebaik CF secara murni, pendekatan ini tetap memberikan rekomendasi yang lebih bervariasi dengan mempertimbangkan popularitas pengguna (CF) dan kesamaan konten (CBF). Dengan demikian, Hybrid Filtering dapat meningkatkan eksplorasi konten pengguna sekaligus menjaga akurasi rekomendasi.

**Dari hasil tersebut, dapat disimpulkan bahwa Collaborative Filtering (CF) merupakan pilihan terbaik dalam hal akurasi rekomendasi pada kasus ini.**

# **📌Kesimpulan Akhir dan Dampak Terhadap Business Understanding :**

Dari hasil evaluasi, dapat disimpulkan bahwa pendekatan Collaborative Filtering (CF) adalah solusi paling efektif dalam meningkatkan keterlibatan pengguna dan loyalitas pelanggan karena menghasilkan rekomendasi dengan akurasi tertinggi. Namun, pendekatan Hybrid Filtering tetap memiliki nilai strategis bagi bisnis karena memberikan variasi rekomendasi yang lebih luas, yang dapat membantu dalam strategi pemasaran berbasis rekomendasi serta meningkatkan waktu tontonan pengguna.

Secara keseluruhan, solusi yang diterapkan berhasil menjawab problem statements dan mencapai goals yang telah ditetapkan, terutama dalam hal meningkatkan retensi pelanggan dan mengoptimalkan monetisasi platform melalui pengalaman pengguna yang lebih personal dan relevan.

# Example of Usage

**1. Metode Tunggal ( CF dan CBF)**

In [None]:
# Fungsi rekomendasi dengan Collaborative Filtering (CF)
def recommend_cf(user_id, num_recommendations=10):
    user_ratings = pred_ratings_df.loc[user_id - 1].sort_values(ascending=False)
    recommended_movie_ids = user_ratings.head(num_recommendations).index
    return movies[movies['movieId'].isin(recommended_movie_ids)]['title']


In [None]:
# Content-based Filtering (CBF)
def recommend_cbf(movie_id, num_recommendations=10):
    if movie_id not in movies['movieId'].values:
        print(f'Movie ID {movie_id} tidak ditemukan.')
        return []
    idx = movies[movies['movieId'] == movie_id].index[0]
    sim_scores = list(enumerate(content_sim[idx]))
    sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)
    movie_indices = [i[0] for i in sim_scores[1:num_recommendations+1]]
    return movies['title'].iloc[movie_indices].tolist()

In [None]:
# Example of usage
user_id = 1
print("Recommendations for User (CF):")
print(recommend_cf(user_id))

Recommendations for User (CF):
0                  Toy Story (1995)
11       Usual Suspects, The (1995)
49                 Star Wars (1977)
88              Blade Runner (1982)
99                     Fargo (1996)
134    2001: A Space Odyssey (1968)
175                   Aliens (1986)
182                    Alien (1979)
267              Chasing Amy (1997)
268          Full Monty, The (1997)
Name: title, dtype: object


**Hasil :**
1. Rekomendasi film untuk pengguna dengan ID 1 didasarkan pada kemiripan rating dengan pengguna lain.

2. Beberapa film yang direkomendasikan antara lain:

- Toy Story (1995): Film animasi keluarga dengan cerita persahabatan mainan.

- Star Wars (1977): Film fiksi ilmiah klasik tentang perjuangan melawan Kekaisaran.

- Blade Runner (1982): Film fiksi ilmiah bertema dystopia dan robot manusia.

- Fargo (1996): Drama kriminal dengan cerita penuh misteri.

- 2001: A Space Odyssey (1968): Film fiksi ilmiah epik karya Stanley Kubrick.

- Aliens (1986) dan Alien (1979): Film horor fiksi ilmiah dengan tema invasi alien.

- Chasing Amy (1997) dan Full Monty, The (1997): Film drama dan komedi romantis.

**Insight:**
Pengguna ini cenderung menyukai film dengan tema fiksi ilmiah, petualangan, dan drama kriminal, serta beberapa film dengan elemen komedi dan animasi.

**Kelebihan:**

1. Mampu memberikan rekomendasi berdasarkan interaksi pengguna lain, sehingga menghasilkan rekomendasi film populer yang disukai banyak orang.

2. Cocok digunakan ketika data interaksi pengguna cukup banyak.

**Kekurangan:**

1. Mengalami masalah Cold Start, terutama jika pengguna baru belum memiliki interaksi.

2. Tidak mempertimbangkan konten film, sehingga bisa kurang relevan jika pengguna menyukai genre atau tipe film tertentu.

In [None]:
movie_id = 1
print("Recommendations for Movie (CBF):")
print(recommend_cbf(movie_id))

Recommendations for Movie (CBF):
["Pyromaniac's Love Story, A (1995)", 'Story of Xinghua, The (1993)', 'Philadelphia Story, The (1940)', 'NeverEnding Story III, The (1994)', 'FairyTale: A True Story (1997)', 'Now and Then (1995)', 'Show, The (1995)', 'To Have, or Not (1995)', 'Entertaining Angels: The Dorothy Day Story (1996)', 'Police Story 4: Project S (Chao ji ji hua) (1993)']


**Hasil :**

1. Rekomendasi didasarkan pada kesamaan fitur film, seperti genre dan deskripsi.

2. Beberapa film yang direkomendasikan antara lain:

- Pyromaniac's Love Story, A (1995): Drama romantis dengan kisah cinta yang tidak biasa.

- Philadelphia Story, The (1940): Drama komedi romantis klasik.

- NeverEnding Story III, The (1994): Film petualangan fantasi keluarga.

- FairyTale: A True Story (1997): Film drama keluarga dengan unsur fantasi.

- Police Story 4: Project S (1993): Film aksi petualangan dengan elemen seni bela diri.

**Insight:**
Film yang direkomendasikan memiliki genre drama romantis, fantasi keluarga, dan petualangan aksi.

**Kelebihan:**

1. Mampu memberikan rekomendasi berdasarkan kesamaan fitur film (genre, sutradara, dll).

2. Tidak terpengaruh oleh popularitas, sehingga dapat merekomendasikan film dengan karakteristik yang serupa dengan preferensi pengguna.

**Kekurangan:**

1. Rekomendasi bisa kurang bervariasi karena terlalu fokus pada kesamaan.

2. Tidak mampu menangkap pola kompleks dari perilaku pengguna seperti CF.

**2. Metode Hybrid Filtering**

**Hybrid filtering menggabungkan Collaborative Filtering (CF) dan Content-Based Filtering (CBF) untuk memberikan rekomendasi yang lebih variatif dengan memanfaatkan keunggulan dari kedua pendekatan.**

In [None]:
# Rekomendasi Hybrid (CF + CBF)
def recommend_hybrid(user_id, movie_id, num_recommendations=10, alpha=0.5):
    # Mengambil rekomendasi dari CF dan CBF
    cf_recommendations = recommend_cf(user_id, num_recommendations)
    cbf_recommendations = recommend_cbf(movie_id, num_recommendations)

    # Buat dictionary untuk menyimpan skor rekomendasi
    recommendation_scores = {}

    # Menggabungkan skor CF dengan bobot alpha
    for movie in cf_recommendations:
        recommendation_scores[movie] = recommendation_scores.get(movie, 0) + alpha

    # Menggabungkan skor CBF dengan bobot (1 - alpha)
    for movie in cbf_recommendations:
        recommendation_scores[movie] = recommendation_scores.get(movie, 0) + (1 - alpha)

    # Mengurutkan hasil berdasarkan skor (nilai tertinggi ke terendah)
    sorted_recommendations = sorted(recommendation_scores, key=recommendation_scores.get, reverse=True)

    # Mengembalikan rekomendasi teratas sesuai jumlah yang diminta
    return sorted_recommendations[:num_recommendations]

user_id = 1
movie_id = 1
print('\nRekomendasi Hybrid (CF + CBF):')
print(recommend_hybrid(user_id, movie_id))


Rekomendasi Hybrid (CF + CBF):
['Toy Story (1995)', 'Usual Suspects, The (1995)', 'Star Wars (1977)', 'Blade Runner (1982)', 'Fargo (1996)', '2001: A Space Odyssey (1968)', 'Aliens (1986)', 'Alien (1979)', 'Chasing Amy (1997)', 'Full Monty, The (1997)']


Berdasarkan hasil rekomendasi hybrid yang menggabungkan Collaborative Filtering (CF) dan Content-Based Filtering (CBF), sistem berhasil menghasilkan daftar film yang mencerminkan keseimbangan antara preferensi pengguna dan kesamaan konten. Film-film seperti "Toy Story (1995)", "Usual Suspects, The (1995)", "Star Wars (1977)", dan "Blade Runner (1982)" merupakan film-film populer yang disukai oleh pengguna serupa, sementara film-film seperti "Fargo (1996)" dan "Chasing Amy (1997)" juga dipilih berdasarkan kesamaan genre atau tema. Kombinasi kedua pendekatan ini memungkinkan sistem memberikan rekomendasi yang lebih beragam dan relevan, sehingga dapat meningkatkan kepuasan pengguna dengan menawarkan pilihan film dari berbagai sudut pandang.