## Xây dựng hệ thống gợi ý theo hướng tiếp cận Content-based

### 1. Import thư viện

In [6]:
import pandas as pd
import numpy as np
import time
from pymongo.mongo_client import MongoClient
from pymongo.server_api import ServerApi
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import linear_kernel
from rapidfuzz import process
import re
import ipywidgets as widgets
from IPython.display import display
import warnings
warnings.filterwarnings('ignore')

### 2. Kết nối & lấy dữ liệu từ MongoDB Atlas

#### 2.1 Kết nối tới MongoDB Atlas

In [7]:
password = 'dsa123456'
uri = f"mongodb+srv://DSA_Project:{password}@cluster0.gdtn4g6.mongodb.net/?retryWrites=true&w=majority&appName=Cluster0"

# Create a new client and connect to the server
client = MongoClient(uri, server_api=ServerApi('1'))

# Send a ping to confirm a successful connection
try:
    client.admin.command('ping')
    print("Pinged your deployment. You successfully connected to MongoDB!")
except Exception as e:
    print(e)

Pinged your deployment. You successfully connected to MongoDB!


### 2.2 Lấy thông tin phim

In [8]:
db = client['T2_PreprocessedData']

collection = db['Movies_Infor']
cursor = collection.find()
data_list = list(cursor)

movies_df = pd.DataFrame(data_list, index = None)
movies_df = movies_df.drop('_id', axis=1, errors='ignore')
movies_df.head(2)

Unnamed: 0,movie_id,title,introduction,runtimeSeconds,genre,releaseDate,releaseLocation,actors,directors,totalRatings,ratingStar,totalAwards,totalNominations
0,tt0012349,The Kid,"The Tramp cares for an abandoned child, but ev...",4080,"['Comedy', 'Drama', 'Family']",1921-02-06,United States,"['Charles Chaplin', 'Edna Purviance', 'Jackie ...",['Charles Chaplin'],134289.0,8.2,2,0
1,tt0015864,The Gold Rush,A prospector goes to the Klondike during the 1...,5700,"['Adventure', 'Comedy', 'Drama', 'Romance', 'W...",1925-08-16,United States,"['Charles Chaplin', 'Mack Swain', 'Tom Murray']",['Charles Chaplin'],118269.0,8.1,5,3


### 3. Xây dựng hệ thống gợi ý 

Ý tưởng: Xây dựng hệ thống gợi ý theo hướng tiếp cận Content-based để tính toán độ tương tự giữa các phim dựa trên thể loại phim. Khi user nhập tên phim, hệ thống sẽ gợi ý những bộ phim có thể loại giống với bộ phim mà user đã nhập.

Mô tả cách thực hiện: 
- Trích xuất thông tin `genre` của các bộ phim, sau đó xây dựng feature vector cho mỗi bộ phim dựa trên `genre` bằng cách sử dụng phương pháp TF-IDF.
- Tính ma trận `Cosine Similarity` cho các bộ phim, khi đó $cosine\_similarity(i, j)$ là độ tương đồng về thể loại của bộ phim $i$ và $j$
- Khi user nhập tên bộ phim i, hệ thống sẽ tìm ra top n bộ phim có cùng thể loại với i (top $n$ kết quả có $cosine\_similarity$ cao nhất) và đề cử chúng cho user.

In [9]:
tf = TfidfVectorizer(analyzer = 'word', ngram_range = (1, 2), min_df = 0, stop_words = 'english')
tfidf_genre = tf.fit_transform(movies_df['genre'])
cosine_sim = linear_kernel(tfidf_genre, tfidf_genre)

In [10]:
def genre_recommendations(id_query, movie_title):
    print(f"Top 10 movies similar to {movie_title}")
    indices = pd.Series(movies_df.index, index = movies_df['movie_id'])
    idx = indices[id_query]        
    sim_scores = list(enumerate(cosine_sim[idx]))
    sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)
    sim_scores = list(filter(lambda x: x[0] != idx, sim_scores))   # bỏ phim đang tìm khỏi danh sách đề xuất
    sim_scores = sim_scores[:10]
    movie_indices = [i[0] for i in sim_scores]
    return movies_df.iloc[movie_indices][['movie_id', 'title', 'genre']]

In [11]:
# Thử chạy kết quả
from random import randint
i = randint(0, movies_df.shape[0])
movie_id = movies_df.iloc[i]['movie_id']
movie_title = movies_df.iloc[i]['title']

result = genre_recommendations(movie_id, movie_title)
result

Top 10 movies similar to The Girl on the Train


Unnamed: 0,movie_id,title,genre
121,tt0051201,Witness for the Prosecution,"['Crime', 'Drama', 'Mystery', 'Thriller']"
157,tt0057565,High and Low,"['Crime', 'Drama', 'Mystery', 'Thriller']"
269,tt0090756,Blue Velvet,"['Crime', 'Drama', 'Mystery', 'Thriller']"
283,tt0094082,Suspect,"['Crime', 'Drama', 'Mystery', 'Thriller']"
336,tt0114369,Se7en,"['Crime', 'Drama', 'Mystery', 'Thriller']"
338,tt0114814,The Usual Suspects,"['Crime', 'Drama', 'Mystery', 'Thriller']"
346,tt0118771,Breakdown,"['Crime', 'Drama', 'Mystery', 'Thriller']"
352,tt0119488,L.A. Confidential,"['Crime', 'Drama', 'Mystery', 'Thriller']"
390,tt0217895,Les yeux cernés,"['Crime', 'Drama', 'Mystery', 'Thriller']"
392,tt0237572,The Pledge,"['Crime', 'Drama', 'Mystery', 'Thriller']"


### 4. Xây dựng hệ thống gợi ý có tương tác
Xây dựng hệ thống gợi ý sử dụng một số tương tác:
- Khi user đang nhập tên phim, hệ thống sẽ đưa ra những tiên đoán dựa trên query mà user đang nhập.
- Hệ thống sẽ xem kết quả xuất hiện đầu tiên trong danh sách tiên đoán query là input của hệ thống gợi ý và sẽ đề xuất top các phim có thể loại tương tự như A cho user.

In [12]:
pd.set_option('display.max_colwidth', None)

In [13]:
def clean_title(title):
    return re.sub("[^a-zA-Z0-9 ]", "", title).lower()

# Cho phép user nhập tên phim hoặc id + phim tùy ý
movies_df['clean_title'] = (movies_df['title'] + ' ' + movies_df['movie_id']).apply(clean_title)

In [14]:
all_titles = movies_df['clean_title'].tolist()

def search_title(title, stage = 2):
    if stage == 1:
        print(f"Finding movie names that match the query '{title}'")
        print('Do you mean...', end='')
    title = clean_title(title)
    closest_match = process.extract(title, all_titles)[:5]
    res = [i[0] for i in closest_match]
    list_title = pd.Series(movies_df.index, index = movies_df['clean_title'])
    idx = list(dict.fromkeys(list_title[res]))
    return movies_df.iloc[idx][['movie_id', 'title', 'genre']]

In [15]:
movie_input = widgets.Text(
    value = '',
    description = 'Enter movie',
    disable = True
)

rcm_list = widgets.Output()
movie_list = widgets.Output()

def on_type(data):
    with movie_list:
        movie_list.clear_output()
        title = data['new']
        if len(title) > 4:
            display(search_title(title, 1))

    with rcm_list:
        rcm_list.clear_output()
        title = data['new']
        if len(title) > 4:
            result = search_title(title)
            movie_id = result.iloc[0]['movie_id']
            movie_title = result.iloc[0]['title']
            display(genre_recommendations(movie_id, movie_title))

movie_input.observe(on_type, names = 'value')

display(movie_input, movie_list, rcm_list)

Text(value='', description='Enter movie')

Output()

Output()