<h2 align='center'> MÔN HỌC: <br> HỌC MÁY (MACHINE LEARNING) </h2>

---

### CHƯƠNG 5: HỆ THỐNG GỢI Ý (RECOMMENDER SYSTEMS)
---
**NỘI DUNG BÀI HỌC:**
1. Giới thiệu chung
2. Phân loại hệ thống đề xuất
3. Các phương pháp tính toán độ tương đồng
4. Sơ đồ tổng quan và Thách thức
5. Ví dụ minh họa
---
dangvannam@Department of Computer Science@2020

---
### XÂY DỰNG HỆ THỐNG GỢI Ý MOVIES
Dự án này sẽ xây dựng một hệ thống đề xuất dựa trên tập dữ liệu Movies.

<img src='Pic/pic1.png' width='500px'>

Dựa vào dữ liệu của trên 12 182 bộ films, xây dựng hệ thống đề xuất đưa ra danh sách 15 bộ film liên quan. Có hai loại Recommender system được xây dựng trong project này:


*   Simple Recommender
*   Content-Based Recommender

Các file dữ liệu sử dụng bao gồm:

**Data_Movies.csv:** File này chứa thông tin tổng hợp của ~ 12 000 bộ film, mỗi bộ film có 24 thuộc tính khác nhau, một số thuộc tính chính bao gồm:

1. adult: Bộ film dành cho người lớn hay không. Dữ liệu boolean (True - Flase)
2. original_language: Ngôn ngữ ban đầu; dữ liệu categorical
3. genres: Thể loại film
4. original_title: Tiêu đề của film, dữ liệu text
5. overview: Tóm tắt nội dung của film; Dữ liệu text
6. release_date: Ngày phát hành films
7. vote_average: Điểm đánh giá trung bình cho bộ phim [0: dở tệ - 10: Xuất sắc]
8. vote_count: Số lượt xem đánh giá bộ phim

## I) Đọc tập dữ liệu Movie
---

In [None]:
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

#Đọc tập dữ liệu thông tin của các film
data_movies = pd.read_csv('data/Data_Movies.csv')

#Hiển thị thông tin tập dữ liệu
data_movies.info()

In [None]:
#Hiển thị dữ liệu 5 dòng đầu tiên
data_movies.head()

**Lọc dữ liệu thô ban đầu chỉ lấy các cột quan trọng sử dụng để xây dựng hệ thống gợi ý:**
* adult: Bộ film dành cho người lớn hay không. Dữ liệu boolean (True - Flase)
* original_language: Ngôn ngữ ban đầu; dữ liệu categorical
* original_title: Tiêu đề của film, dữ liệu text
* overview: Tóm tắt nội dung của film; Dữ liệu text
* release_date: Ngày phát hành film
* vote_average: Tỷ lệ vote trung bình [0-10]
* vote_count: Số lượt vote

In [None]:
data = data_movies.loc[:,['adult',
                          'original_title',
                          'overview',
                          'release_date',
                          'vote_average',
                          'vote_count']].copy()
data.info()

In [None]:
data.head()

In [None]:
data.tail()

In [None]:
#Tìm kiếm film theo tên:
data[data.original_title=='Titanic']

In [None]:
#Đặc trưng thống kê các thuôc tính số
data.describe()

In [None]:
#Đặc trưng thống kê dữ liệu Object
data.describe(include=['O'])

In [None]:
data[data.overview=='No overview found.']

# **2) Tiền xử lý dữ liệu tập Movies**
---

## **2.1) Chuẩn hóa dữ liệu:**
---
* Kiểm tra dữ liệu null của các thuộc tính
* Loại bỏ các bộ film có thuộc tín null
* Sắp xếp lại các bộ film theo ngày phát hành

In [None]:
#Thống kê số liệu missing trong Data frame
#Theo từng cột
print('Số lượng missing data trong file dữ liệu:')
print(data.isnull().sum())

In [None]:
#Liệt kê các bộ phim có thuộc tính tóm tắt là rỗng:
data[data['overview'].isnull()==True]

In [None]:
#Xóa tất cả các bộ film có chứa thuộc tính null
data.dropna(axis=0,how='any',inplace=True)
data.info()

In [None]:
#Sắp xếp lại dữ liệu theo ngày phát hành
data.sort_values('release_date',axis=0,inplace=True)
data.head()

In [None]:
data.tail()

## **2.2) Loại bỏ các bộ film trùng tên trong tập dữ liệu**
---
Thực hiện xóa các bộ film trùng tên trong tập dữ liệu chỉ giữ lại bộ film có số lượng vote cao nhất

In [None]:
#Thống kê các bộ film trùng tên trong tập dữ liệu
data['original_title'].value_counts()

In [None]:
data.loc[data['original_title']=='Hamlet']

In [None]:
#Sắp xếp film theo thuộc tính vote_count và xóa các film trùng tên, 
#giữ lại film có lượt vote lớn hơn
data.sort_values('vote_count',ascending=True,inplace=True)
data.drop_duplicates(['original_title'],keep='last',inplace=True)
data.info()

In [None]:
#check lại dữ liệu sau khi xử lý:
data.loc[data['original_title']=='Hamlet']

In [None]:
#Thống kê các bộ film trùng tên trong tập dữ liệu sau xử lý
data['original_title'].value_counts()

## **2.3) Xử lý các bộ film không có tóm tắt film**
---

In [None]:
#Thống kê các dữ liệu trùng nhau
data['overview'].value_counts()

In [None]:
#lọc các bộ film có phần tóm tắt là: No overview found, hoặc No Overview, hoặc chuỗi rỗng, hoặc No movie overview available. 
data.loc[(data['overview']=='No overview found.')].sort_values('overview')

In [None]:
#Có tất cả 8 bộ film không có dữ liệu tóm tắt film:
#Xóa các bộ film này
data = data.loc[(data['overview']!='No overview found.')]
data.info()

In [None]:
#Check lại dữ liệu sau khi xử lý phần tóm tắt
data['overview'].value_counts()

In [None]:
#Có 3 bộ phim tên khác nhau nhưng có cùng tóm tắt phim:
data.loc[(data['overview']=='A few funny little novels about different aspects of life.')]

## **2.4) Lưu dữ liệu sau khi đã xử lý ra file**
---

In [None]:
#Lưu dữ liệu ra file Data_Movies_ok.csv
data.sort_values(['release_date'],inplace=True)
data.reset_index(drop=True,inplace=True)
data.to_csv('data/Data_Movies_ok.csv',index=None)

# **3) Xây dựng các hệ thống Recommender Systems**
---
Recommender systems có thể phân thành 3 loại như sau:

* **Hệ thống đề xuất dựa trên nội dung (Content-based recommenders):** Hệ thống này sẽ gợi ý các bộ phim tương tự với bộ fim mà người dùng xem. Hệ thống này sử dụng metadata của các bộ film như: Thể loại film, đạo diễn, mô tả film, diễn viên...Ý tưởng chính đằng sau hệ thống đề xuất dựa vào nội dung đó là nếu một người đã thích/xem một bộ film nào đó, thì họ cũng sẽ thích/xem một bộ phim tương tự với bộ phim đã xem. 


* **Hệ thống lọc cộng tác (Collaborative filtering engines):** Hệ thống này cố gắng dự đoán thông qua đánh giá hoặc ưa thích mà một người dùng đã đưa ra đối với một bộ film dựa trên đánh giá và ưa thích của những người sử dụng khác. Lọc cộng tác không yêu cầu metadata giống như lọc theo nội dung. (Tìm một người xem có các thuộc tính tương đồng với người dùng này và đề xuất các bộ film theo người xem trước đây)

* **Hệ thống lai (Hybrid Engine):** Kết hợp các ý tưởng của Content-based recommender và Collaborative filtering để xây dựng một hệ thống đề xuất.

<img src='pic/pic4.jpg' width='400px'>

## **3.1) Simple Recommenders (Giải quyết trường hợp Cold-Start Problem)**
---
Lọc ra  10 bộ film (các bộ film nổi bật) theo các tiêu chí khác nhau

<img src='pic/pic5.jpg' width='400px'>

+ TOP 10 Bộ phim được nhiều người xem nhất:
+ TOP 10 Bộ phim có điểm đánh giá cao nhất (Thỏa mã điều kiện từ 1000 người xem trở lên)



In [None]:
# Đọc dữ liệu đã chuẩn hóa:
import pandas as pd
import numpy as np
data = pd.read_csv('Data/Data_Movies_ok.csv')
data

### A.TOP 10 BỘ PHIM CÓ SỐ LƯỢT XEM CAO NHẤT
---

In [None]:
#Sắp xếp lại dữ liệu theo vote_count giảm dần:
movies_View=data.copy().sort_values('vote_count',ascending=False)

#Lấy 10 film có số lượt xem cao nhất:
list10_vote_count = movies_View[['original_title','vote_count','vote_average']].head(10).copy()
list10_vote_count.reset_index(drop = True, inplace=True)
print('TOP 10 BỘ FILM CÓ SỐ LƯỢNG XEM CAO NHẤT')
list10_vote_count

### B.TOP 10 BỘ PHIM CÓ ĐIỂM ĐÁNH GIÁ CAO NHẤT VÀ SỐ LƯỢT XEM TỪ 1000 TRỞ LÊN
---

In [None]:
#Sinh viên thực hiện:


## **3.2) Content-Based Recommender:**
---
Với hệ thống đề xuất dựa trên nội dung, nhiệm vụ của chúng ta là phải tìm được một bộ film có nội dung tương đồng cao nhất với một bộ film xác định. 

Chúng ta sẽ phải tính toán số điểm tương đồng theo từng cặp cho tất cả các bộ film và đưa ra bộ film đề xuất có điểm tương đồng cao nhất.

<img src='pic/pic2.png' width='200px'>


### A) Dựa vào tóm tắt film (Overview)
---
Dữ liệu film có thuộc tính "overview" đây là thuộc tính tóm tắt nội dung của bộ film. Chúng ta sẽ dựa vào thông tin tóm tắt film để tìm bộ film có nội dung tương tự với bộ film đưa vào.


In [None]:
#Dữ liệu các bộ film ban đầu
data.info()

In [None]:
data.head()

### 1. Chuyển đổi dữ liệu
---
Thuộc tính tóm tắt phim 'overview' có kiểu dữ liệu dạng chuỗi, cần phải biến đổi về dữ liệu dạng số.

**Phương pháp 1: Túi đựng từ (Bag of Word):**

Bag of Words (BOW) là một phương pháp để trích xuất các đặc điểm từ các dữ liệu văn bản. Tạo ra một tập hợp bao gồm các cặp giá trị key và value, giá trị key là từ duy nhất có trong tập dữ liệu, giá trị value là số lần xuất hiện của từ đó trong câu, và BOW hầu như không quan tâm đến thứ tự xuất hiện của các từ đó.

**Phương pháp 2 TF-IDF:**

TF-IDF xác định trọng số của một từ trong văn bản thu được qua thống kê thể hiện mức độ quan trọng của từ này trong một văn bản, mà bản thân văn bản đang xét nằm trong một tập hợp các văn bản. Giá trị TF-IDF cao thể hiện độ quan trọng cao và nó phụ thuộc vào số lần từ xuất hiện trong văn bản nhưng bù lại bởi tần suất của từ đó trong tập dữ liệu.



In [None]:
import numpy as np
#Dữ liệu Text ban đầu:
st = ['công cha mẹ',
      'nghĩa mẹ cha',
      'ơn thầy ơn cô',
      'cha mẹ thầy cô']

#Phương pháp 1:  Túi đựng từ (Bag of Word):
from sklearn.feature_extraction.text import CountVectorizer
#Định nghĩa phương thức
bow = CountVectorizer()
bow_st = bow.fit_transform(st)
print('Danh sách toàn bộ các từ:',bow.get_feature_names_out())
print(bow_st.toarray())


In [None]:
#Phương pháp 2: TF-IDF:
from sklearn.feature_extraction.text import TfidfVectorizer
#Định nghĩa một vector TF-IDF:
tfidf = TfidfVectorizer()
#Tính toán cho danh sách st:
tfidf_st = tfidf.fit_transform(st)
print('Danh sách toàn bộ các từ:',tfidf.get_feature_names_out())
print(np.round(tfidf_st.toarray(),3))

In [None]:
#Sử dụng phương pháp TF-IDF cho bài toán
#Xây dựng ma trận TF-IDF cho thuộc tính tóm tắt phim (Overview)
tfidf_matrix = tfidf.fit_transform(data['overview'])

# ma trận corpus của TFIDF
tfidf_matrix.shape

In [None]:
#So sánh kết quả chuyển đổi từ Chuỗi --> Số:

print('1. Tóm tắt phim của bộ phim có chỉ số 2503:')
print(data.loc[2503,'overview'])

print('2. Dữ liệu sau khi đã chuyển đổi thành dạng số:')
tfidf_matrix[2503,:].toarray()

In [None]:
print(tfidf_matrix[2503,:])

In [None]:
#Hiển thị dữ liệu ma trân thưa
tfidf_matrix[0:10,130:140].toarray()

### 2. Tính toán độ tương đồng của các bộ phim
---
Có tất cả 34 131 từ khác nhau được sử dụng để tóm tắt nội dung của 11 756 bộ film --> tạo ra một ma trận 11 756 hàng (mỗi hàng tương ứng với một bộ phim) và 34 131 cột (mỗi cột tương ứng với 1 từ trong toàn bộ các từ có trong tóm tắt phim)

Dựa vào dữ liệu số hóa của các tóm tắt phim, chúng ta sẽ thực hiện việc tính toán độ tương đồng giữa các bộ phim với nhau. Có thể sử dụng các độ đo như:
* Euclidean distance. 
* Cosine distance.

Câu hỏi đặt ra là độ đo tương đồng nào là tốt nhất? ko có độ đo nào là tốt nhất nó phụ thuộc vào từng loại dữ liệu và bài toán cụ thể. 

Chúng ta sẽ sử dụng độ đo Cosine để tính độ tương đồng:
<img src='pic/pic_cosine.png' width=300px>

In [None]:
from sklearn.metrics.pairwise import linear_kernel

#Tính độ tương tự cosine giữa các bộ film với nhau dựa vào 
#tóm tắt film ở dạng số
cosine_sim = linear_kernel(tfidf_matrix,tfidf_matrix)
print('Kích thước ma trận tương đồng:', cosine_sim.shape)
print(cosine_sim)

In [None]:
#Giá trị nhỏ nhất:
cosine_sim.min()

In [None]:
#Giá trị nhỏ nhất:
round(cosine_sim.max(),2)

**GHI CHÚ:**

Có 11 756 bộ phim sẽ tính tương đồng giữa chúng với nhau theo độ đo cosine; Độ tương đồng theo cosine có giá trị từ [0-1] thể hiện mức tương đồng từ thấp đến cao.

<img src='pic/cosine_sim.png' width='400px'>

Giá trị càng gần 1 độ tương đồng càng cao (nghĩa là tóm tắt phim --> nội dung phim càng giống nhau), trường hợp bằng 1 có nghĩa là 2 bộ phim có tóm tắt phim giống hệt nhau.

In [None]:
#Trực quan hóa độ tương đồng của 100 bộ phim đầu tiên với nhau:
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns
plt.figure(figsize=(20,10))

ax = sns.heatmap(cosine_sim[0:100,0:100],
                 cmap='bwr' )
plt.grid(ls='--')
plt.show()

### 3.Tích hợp hệ thống đề xuất
---

In [None]:
#Tạo một biến Series Lấy danh sách tên các bộ film 
#và index tương ứng
indices = pd.Series(data.index,index=data['original_title'])
indices

**Xây dựng hàm: get_recommend_movies**

đầu vào là tên của một bộ film sau đó dựa vào ma trận cosine_sim để xác định 8 bộ film có độ tương đồng cao theo thứ tự giảm dần.

* input: title, cosine_sim
* output: list 8 film similarity


In [None]:
def get_recommend_movies(title,cosine_sim=cosine_sim):
    #Lấy index của bộ film theo tiêu đề đưa vào
    idx=indices[title]
    
    #Lấy điểm tương đồng theo cặp của tất cả các movies theo tiêu đề bộ film đưa vào
    sim_scores = list(enumerate(cosine_sim[idx]))
    
    #Sắp xếp các bộ film dựa theo điểm tương đồng giảm dần
    sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)
    
    #Lấy điểm của 8 bộ film có độ tương đồng cao nhất
    #Và bao gồm cả bộ phim đưa vào 
    sim_scores_8 = sim_scores[0:9]
    
    #Lấy index tương ứng với bộ film này:
    movies_index = [i[0] for i in sim_scores_8]
    
    #Xóa index của bộ phim đầu vào khỏi danh sách kết quả:
    movies_index.remove(idx)
    
    #trả ra tiêu đề và tóm tắt của 8 bộ film ứng với index
    return data[['original_title','overview','release_date']].iloc[movies_index]

### 4. Sử dụng hệ thống gợi ý:
---
Khi người dùng xem một bộ phim bất kỳ hệ thống sẽ dựa vào tóm tắt của bộ phim người dùng xem để tìm trong CSDL những bộ phim có tóm tắt phim tương tự (nội dung phim giống nhau) nhất để đưa ra gợi ý cho người xem

In [None]:
#Thử với bộ phim có Tóm tắt phim giống nhau:
#Có 3 bộ phim tên khác nhau nhưng có cùng tóm tắt phim:
data.loc[(data['overview']=='A few funny little novels about different aspects of life.')]

In [None]:
#Khi đưa vào hệ thống đề xuất để gợi ý, nếu đầu vào là 1 trong 3 bộ phim
#này thì đầu ra phải chứa 2 bộ phim còn lại vì có cùng tóm tắt phim
#nên độ tương đồng sẽ cao nhất (=1)
#Check:
get_recommend_movies('Le nuove comiche')

In [None]:
#Thử đề xuất với tên bộ film bất kỳ
#1. Bộ film: Batman Forever
get_recommend_movies('Batman Forever')

In [None]:
#Thử đề xuất với tên bộ film bất kỳ
#2. Bộ film: Star Wars
get_recommend_movies('Star Wars')

In [None]:
#Thử đề xuất với tên bộ film bất kỳ
#3. Bộ film: Titanic
get_recommend_movies('Titanic')

## THỰC HÀNH:
----
1. Sinh viên đọc file dữ liệu Data_VN_2021.xlsx, lưu trữ thông tin của 63 tỉnh, thành phố của Việt Nam
2. Sử dụng phương pháp trích chọn đặc trưng TF-IDF để vector hóa dữ liệu tên các tỉnh/thành phố
3. Sử dụng độ đo cosine để tính toán độ tương đồng giữa các tên từ vector TF-IDF, trực quan hóa kết quả 
4. Xây dựng hàm trả về tên 5 tỉnh/thành phố gần nhất với tên một tỉnh/thành phố đưa vào?