# **XÂY DỰNG HỆ THỐNG GỢI Ý SẢN PHẨM**
# ***Recommendation Systems***

## **1. Giới thiệu**

Nhằm phục vụ cho việc kinh doanh của các doanh nghiệp trở nên tốt hơn hay tối đa chi phí và thời gian đầu tư, hệ thống gợi ý (Recommendation System) ra đời nhằm dự đoán sở thích của người dùng và tìm kiếm các đối tượng tiềm năng phù hợp với sở thích đó để gợi ý cho người dùng. Hệ thống Recommendation được xem như là một robot với công việc "se duyên" sản phẩm của công ty với người dùng. Nó có khả năng tự tìm kiếm và gợi ý những sản phẩm của công ty mà có thể người dùng rất thích nhưng chưa từng biết đến. 

Ví dụ một hệ thống Recommendation rất quen thuộc mà chúng ta trải nghiệm mỗi ngày, chẳng hạn khi chúng ta tìm kiếm trên youtube để xem một chương trình ca nhạc và sau đó, liên tục những chương trình ca nhạc tập tiếp theo được youtube tự động gợi ý, ít khi youtube gợi ý một bộ phim hay một bản nhạc có đề tài chẳng liên quan. Hệ thống Recommendation của Youtube rất "thông minh" và "tinh tế" khi tự động tìm kiếm và gợi ý điều chúng ta có thể thích dù chưa hề nghĩ đến hay tương tác với chúng. Hiện tại, bản Youtube "xịn xò" hơn khi ghi dòng chữ *Recommended for you* dưới những bản được xuất hiện sau đó.

Các thành phần cơ bản của hệ thống Recommendation bao gồm: users là các người dùng tương tác với công ty, items là các sản phẩm của công ty, và ratings là các phản hồi, đánh giá của người dùng với sản phẩm. 

Bài toán recommendation system có 2 dạng chính:

- Content-based systems: gợi ý items theo các items mà users sử dụng trong quá khứ, dựa vào đặc tính của items đã được phân từng nhóm, dựa vào đó xây dựng mô hình dự đoán tối ưu.

- Collaborative filtering: gợi ý items dựa trên sự tương quan giữa các users và/hoặc items. Phần này có 2 dạng: Neighborhood-based Collaborative Filtering và Matrix Factorization Collaborative Filtering. Neighborhood-based Collaborative Filtering dựa vào sự tương quan của users hay items để đưa ra gợi ý bằng công thức. Matrix Factorization Collaborative Filtering cho rằng tồn tại nhân tố ẩn tương quan giữa users và items, từ đó xây dựng mô hình dự đoán tối ưu.

## **2. Hệ thống Content-based Filtering**

Hệ thống **Content-based Filtering** sử dụng các tính năng của các items để đề xuất các items khác tương tự như những gì users thích, dựa trên các hành động trước đó của họ hoặc phản hồi của họ. Trong bài viết [Content-based Recommendation Systems](https://machinelearningcoban.com/2017/05/17/contentbasedrecommendersys/) của trang Machine Learning Cơ Bản đã đề cập chi tiết về phần này. Trước tiên cần xây dựng ma trận của các đặc trưng của items dựa vào hành vi tương tác của users với items trong quá khứ rồi dùng chúng đưa ra dự đoán. Ví dụ, user A đã đọc rất nhiều các quyển sách như "Đắc Nhân Tâm", "Cà phê cùng Tony" hệ thống sẽ gợi ý nhiều quyển sách cùng thể loại kĩ năng sống cho user A, ví dụ như "Sức mạnh tiềm thức". Nhưng user B lại khác, anh ấy hay xem nhiều sách lịch sử như "Vua Gia Long", "Đại Việt Sử Ký Toàn Thư", hệ thống lúc này sẽ tinh ý gợi ý quyển sách "Các triều đại Việt Nam" cho user B.

**2.1.   Vector đặc trưng của item**

Các đặc trưng items của các quyển sách trên cần xây dựng ở đây là nhóm sách kĩ năng, nhóm sách lịch sử. Trong toán học 2 đặc trưng này được xây dựng bởi vector 2 chiều: chiều 1 là nhóm sách kĩ năng, chiều thứ 2 là nhóm sách lịch sử. Tương tự như thế, hệ thống sẽ xây dựng được vecto $\mathbf{x}_m$ cho items thứ m có số chiều dựa trên các đặc trưng yêu thích của $N$ users.
Một số phương pháp thường được sử dụng để xây dựng vector đặc trưng của items là:

Phương pháp đề suất là sử dụng TF-IDF (Term frequency-Inverse Document Frequency)

Việc tiếp theo, hệ thống đưa ra dự đoán yêu thích của user thứ n đến item thứ m . Chẳng hạn như hệ thống đã dự đoán được user B có khả năng sẽ thích quyển sách "Các triều đại Việt Nam" nên đã đưa ra đề xuất.

**2.2.   Mô hình dự đoán "yêu thích" của các users** 

Xây dựng mô hình cho mỗi users có thể được coi như bài toán Regression hoặc Classsification với dữ liệu đầu vào là đặc trưng các items và các đánh giá user đó đã sử dụng. Việc xây dựng mô hình dự đoán cho mỗi user không phụ thuộc vào các users khác mà phụ thuộc vào các đặc trưng của mỗi items. Ứng với mỗi user thứ $n$, cần tìm một mô hình dự đoán "yêu thích" cho user đó là tốt nhất. Ở đây, chúng ta áp dụng mô hình *hồi quy tuyến tính*. 

$\mathbf{Y}\approx
\left[ \begin{matrix}
{x}_{11} & {x}_{21} & \dots & {x}_{L1}\\
{x}_{12} & {x}_{22} & \dots & {x}_{L2}\\
\dots & \dots & \ddots & \dots \\
{x}_{1M} & {x}_{2M} & \dots & {x}_{LM}\\
\end{matrix} \right]
\left[ \begin{matrix}
{w}_{11} & {w}_{12} & \dots & {w}_{1N}\\
{w}_{21} & {w}_{22} & \dots & {w}_{2N}\\
\dots & \dots & \ddots & \dots \\
{w}_{L1} & {w}_{L2} & \dots & {w}_{LN}\\
\end{matrix} \right]=
\left[ \begin{matrix}
\mathbf{x}^T_1\mathbf{w}_1 & \mathbf{x}^T_1\mathbf{w}_2 & \dots & \mathbf{x}^T_1 \mathbf{w}_N\\
\mathbf{x}^T_2\mathbf{w}_1 & \mathbf{x}^T_2\mathbf{w}_2 & \dots & \mathbf{x}^T_2 \mathbf{w}_N\\
\dots & \dots & \ddots & \dots \\
\mathbf{x}^T_M\mathbf{w}_1 & \mathbf{x}^T_M\mathbf{w}_2 & \dots & \mathbf{x}^T_M \mathbf{w}_N\\
\end{matrix} \right]=
\left[ \begin{matrix}
\mathbf{x}^T_1 \\
\mathbf{x}^T_2 \\
\dots \\
\mathbf{x}^T_M \\
\end{matrix} \right]
\left[ \begin{matrix}
\mathbf{w}_1 & \mathbf{w}_2 & \dots & \mathbf{w}_N
\end{matrix} \right]=
\left[ \begin{matrix}
\mathbf{x}_1 & \mathbf{x}_2 & \dots & \mathbf{x}_M
\end{matrix} \right]^T\left[ \begin{matrix}
\mathbf{w}_1 & \mathbf{w}_2 & \dots & \mathbf{w}_N
\end{matrix} \right]=
\mathbf{X}^{T}\mathbf{W}$

Với:
* $N$ là số lượng users
* $M$ là số lượng items
* $L$ là số lượng đặc trưng items
* $\mathbf{Y}$ là ma trận user-item thể hiện sự quan tâm của từng user đối với từng item, còn gọi là ma trận Utility. Ma trận $Y$ có nhiều ô bị khuyết dữ liệu vì không phải user nào cũng chịu khó đánh giá và phản hồi ý kiến cho item. 
*  $\mathbf{X} \in \mathbb{R}^{L \times M}$  là ma trận của toàn bộ các đặc trưng items bao gồm các vecto đặc trưng của items với mỗi cột tương ứng là 1 vecto đặc trưng item.
* $\mathbf{W} \in \mathbb{R}^{L \times N}$ là ma trận của toàn bộ các mô hình của users với mỗi cột tương ứng với một user.
* $\mathbf{R} \in \mathbb{R}^{M \times N}$ là ma trận thể hiện việc một user đã đánh giá một item hay chưa. $r_{mn}=1$ nếu user thứ n đã đánh giá sản phẩm thứ m, $r_{mn}=0$ nếu user thứ n chưa đánh giá sản phẩm thứ m

**Mô hình hồi quy tuyến tính**

Các giá trị bị khuyết $\mathbf{y}_{mn}$ tại hàng m cột n của $\mathbf{Y}$ dự đoán được sự quan tâm của user thứ n đối với sản phẩm m được mô tả dưới mô hình hồi quy tuyến tính như sau:

$y_{mn}=\mathbf{x}_m^{T}\mathbf{w}_n+b_{n}$, $m=\overline{1..M}, n=\overline{1..N}$

Trong đó, giá trị $y_{mn}$  là mức độ quan tâm của user thứ n với item thứ m, $\mathbf{x}_m$ là vecto đặc trưng của item thứ m, $b_{n}$ là bias. Quá trình học mô hình, sẽ tìm ra hệ số $\mathbf{w}_m$ và $b_{n}$

Xét một user thứ $n$ bất kỳ, hàm mất mát regularized có thành phần regularization được xây dựng như hồi quy Ridge Regression.

$\mathbb{L}(\mathbf{w}_n) = \frac{1}{2} \sum_{m~:~ r_{mn} = 1}(\mathbf{x}_m^{T}\mathbf{w}_n +b_{n}- y_{mn})^2 + \frac{\lambda}{2}||\mathbf{w}_n||_2^2$

Mục tiêu của học máy là tối thiểu hàm mất mát nhưng vẫn đảm bảo chất lượng dự đoán của mô hình. Việc tối thiểu hàm mất mát regularized trên, nói một cách tương đối, là việc tối thiểu cả hàm mất mát của Linear Regression và số hạng regularization. Với số hạng đầu tiên ở vế phải chính là hàm mất mát của Linear Regression, là phần sai lệch giữa kết quả của mô hình dự đoán và thực tế, trong đó $r_{mn} = 1$ nếu item thứ m đã được đánh giá bởi user thứ n. Số hạng thứ hai có ${\lambda}$ là hệ số dương và phần regularization, giúp các mô hình phức tạp giảm overfiting. Số hạng có công dụng làm di chuyển nghiệm của bài toán tối ưu hàm mất mát theo hướng làm cho mô hình ít phức tạp hơn mặc dù giá trị của hàm mất mát có tăng lên một ít, hay nói cách khác là làm giảm bậc của đa thức mà không phải thay đổi số lượng feature. Sở dĩ regularization được chọn là $||\mathbf{w}_n||_2^2$ là vì đạo hàm của nó là $\mathbf{w}$, liên tục tại mọi điểm, việc tối thiểu regularization $||\mathbf{w}_n||_2^2$ đồng nghĩa với việc khiến cho các giá trị của nó tiến gần về 0.

Trung bình lỗi trong số các items mà user thứ n đã rated được tính như sau:

$\mathbb{L}(\mathbf{w}_n) = \frac{1}{2s_n} \sum_{m~:~ r_{mn} = 1}(\mathbf{x_m}^{T}\mathbf{w_n} + b_{n} - y_{mn})^2 + \frac{\lambda}{2}||\mathbf{w}_n||_2^2 $

Với $s_n=\sum_{m=1}^M r_{mn}$ là số lượng các items mà user thứ n đã đánh giá

Vì biểu thức hàm mất mát chỉ phụ thuộc vào các items đã được đánh giá, nên rút gọn bằng cách, $\hat{\mathbf{y}}$ là vecto bao gồm các thành phần đã đánh giá của cột thứ n của ma trân $\mathbf{Y}$ tương tự $\hat{\mathbf{X}}$ là vecto được trích từ các cột tương ứng với các items đã được rated bởi user thứ $n$ của $\mathbf{X}$. Hàm mất mát regularized được viết lại như sau:

$\mathbb{L}(\mathbf{w}_n) = \frac{1}{2s_n} ||\hat{\mathbf{X}}^T_n\mathbf{w}_n + b_n\mathbf{e_n}- \hat{\mathbf{y}}||^2 + \frac{\lambda}{2}||\mathbf{w}_n||_2^2$

Với  $\mathbf{e_n}$ là vector cột chứa $s_n$ phần tử 1. Giá trị $\mathbf{w}_n$ có thể được tìm qua Stochastic Gradient Descent (SGD), hoặc Mini-batch GD để $\mathbb{L}_n$ đạt giá trị nhỏ nhất.

**Stochastic gradient descent (SGD)**

Đạo hàm của $\mathbb{L}_n$ :

$\nabla_{\mathbf{w}_{n}}\mathbb{L}=\frac{\partial \mathbb{L}(\mathbf{w}_n)}{\partial \mathbf{w}_n} = \frac{1}{s_n}\hat{\mathbf{X}}_n(\hat{\mathbf{X}}^T_n\mathbf{w}_n+b_n\mathbf{e_n}-\hat{\mathbf{y}}_n) + \lambda\mathbf{w}_n$

Sơ lược một chút về giải thuật SGD để tìm nghiệm cho phương trình đạo hàm trên. Phương thức hoạt động SGD tương tự như Gradient Descent (GD) nhưng khác ở chỗ, để khắc phục nhược điểm dữ liệu khá lớn và tốn nhiều thời gian để học của GD, mỗi vòng lặp của SGD, ta tính đạo hàm của hàm mất mát chỉ dựa trên một điểm dữ liệu $\mathbf{x}_i$ thay vì $\mathbf{X}$  rồi cập nhật $\mathbf{w}_n$ dựa trên đạo hàm này. Ở bài toán trên, ta cần tìm $\mathbf{w}_{n_*}$ sao cho $\mathbb{L}$ đạt giá trị nhỏ nhất tại đó. Giả sử ta có đạo hàm số tại $\mathbf{w}_{n_t}$ là $f'(\mathbf{w}_{n_t})$: $f'(\mathbf{w}_{n_t})>0$ khi $\mathbf{w}_{n_t}$ nằm bên phải $\mathbf{w}_{n_*}$ và ngược lại, để điểm 
$\mathbf{w}_{n_{t+1}}$ gần với $\mathbf{w}_{n_*}$ cần di chuyển về phía bên trái, tức về phía âm. Nói cách khác, ta cần di chuyển ngược dấu với đạo hàm, từ đó có thể đưa ra nhận xét rằng nếu ta cố gắng đi ngược hướng đạo hàm thì nhanh chóng đến được điểm cực tiểu của hàm số. Giải thuật GD sẽ cập nhật tham số $\mathbf{w}_{n_t}$ đi ngược hướng với gradient $\nabla_{\mathbf{w}_n}\mathbb{L}(\mathbf{w}_{n_t})$ ở điểm $\mathbf{w}_{n_t}$, nghĩa là $\mathbf{w}_{n_t}$ sẽ được xê dịch 1 đoạn $-\eta\nabla_{\mathbf{w}_{n}}\mathbb{L}(\mathbf{w}_{n_t})$ với $\eta>0$ là tốc độ học. 

$\mathbf{w}_{n_t}=\mathbf{w}_{n_t}-\eta\nabla_{\mathbf{w}_{n}}\mathbb{L}(\mathbf{w}_{n_t})$

Tiếp tục quy trình như thế sau mỗi lần cập nhật cho tới khi nó hội tụ về điểm nhỏ nhất $\mathbf{w}_{n_*}$.

## **3. Hệ thống Neighborhood-based Collaborative Filtering**

Hệ thống **Neighborhood-based Collaborative Filtering (NBCF)** khác với **Content-based Filtering**. Hệ thống **Content-based Filtering** cần phải xây dựng hệ thống mô tả cho mỗi item,  bản mô tả này có thể được xây dựng bởi nhà cung cấp hoặc được thu thập bằng cách yêu cầu users đánh giá cho items, mà thực tế, ít users nào chịu khó bỏ thời gian và công sức đánh giá cho các items, sự yêu cầu này nhiều khi còn gây phiền toái cho các users. 

Để khắc phục điều này, hệ thống **NBCF** được xây dựng dựa trên *sự tương đồng gần nhất* của các users để dự đoán sự yêu thích items của users. Trường hợp này gọi là ***User-user collaborative filtering***. Hệ thống dựa vào hành vi tương tác items của các users, các hành vi này thường được phân nhóm thành một vài nhóm đơn giản, nếu biết hành vi mua hàng của một vài users trong nhóm, hệ thống sẽ suy luận ra hành vi của những users còn lại. Ví dụ, user A và B đều đã đọc quyển "Nhà giả kim" và đều đánh giá là 5 sao, nhưng user A vừa mới xem và đánh giá 5 sao cho quyển sách "Rừng Na Uy", điều này có khả năng user B cũng thích quyển sách này, hệ thống nhanh chóng gợi ý quyển này cho user B. 

Một hướng tiếp cận khác được cho là làm việc hiệu quả hơn là ***Item-item collaborative filtering***. Thay vì xác định sự tương đồng của các users, hệ thống sẽ xác định sự tương đồng của các items và đưa gợi ý những items gần giống với những items mà user có mức độ quan tâm cao. Ví dụ, user A đã đánh giá quyển "Hiệu ứng chim mồi - Tập 1" là 5 sao, mà quyển "Hiệu ứng chim mồi - Tập 1" khá "tương đồng" và liên quan với quyển "Hiệu ứng chim mồi - Tập 2", có thể user A sẽ thích, hệ thống sẽ tinh ý gợi ý quyển này cho user A. Có thể xem chi tiết tại mã nguồn tham khảo [Neighborhood-Based Collaborative Filtering](https://machinelearningcoban.com/2017/05/24/collaborativefiltering/).

### **3.1. User-user collaborative filtering**

**3.1.1. Hàm tương đồng của các users**
![alt text](https://viblo.asia/uploads/952f2e90-dc82-4879-ba3e-ebc03af6bb87.png)

Điều này xuất phát từ ma trận Utility $\mathbf{Y}$ để quyết định sự tương quan của các users

Trong hệ thống recommendation, mỗi user sẽ có mức độ quan tâm tới từng item khác nhau được thể hiện dưới mặt toán học là ma trận Utility. Các ô của ma trân Utility được gán một giá trị tương ứng với mỗi cặp user-item nếu giá trị này đã biết, nghĩa là user đó đã đánh giá item đó, và được gán $?$ nếu giá trị này chưa biết, nghĩa là user đó chưa đánh giá về item đó, mục tiêu là đi dự đoán giá trị gần với giá trị thật của chúng.
Hàng cuối cùng trong hình a) là giá trị trung bình cộng của các đánh giá cho mỗi user. Chuẩn hóa ma trận Utility trong hình (b) bằng cách trừ các giá trị đánh giá cho trung bình cộng của mỗi user, dấu ? tạm thay thế là 0. 

Cosine Similarity là một thước đo độ tương tự để tính độ giống nhau hay còn gọi là độ tương đồng giữa users trong mô hình không gian các users. Cột của ma trận chuẩn hóa Utility là vecto đánh giá của N users tới M items có dạng $\mathbf{y_i}=(y_{1i}, y_{2i},..., y_{Mi})^T$, $\mathbf{y_j}=(y_{1j}, y_{2j},..., y_{Mj})^T$ với $i,j=\overline{1..N}$. Độ tương đồng được tính theo công thức:

$\text{cosin}(\mathbf{y_i}, \mathbf{y_j})=\frac{\mathbf{y}_i^T\mathbf{y}_j}{||\mathbf{y}_i||_2||\mathbf{y}_j||_2}= \frac{\sum_{k = 1}^My_{ki}*y_{kj}}{\sqrt{\sum_{k= 1}^My_{ki}^2}\sqrt{\sum_{l= 1}^My_{kj}^2}}$

Hàm số $cosin$ đo góc của 2 vecto users đánh giá, giá trị hàm số trong đoạn $[-1, 1]$. Hàm số cos của một góc bằng 1 nghĩa là góc giữa hai vector bằng $0^0$, thể hiện hai vector users hoàn toàn tương đồng nhau. Hàm số cos của một góc bằng -1 nghĩa là góc giữa hai vector bằng $180^0$, thể hiện hai vector này hoàn toàn trái ngược nhau.

**3.1.2. Dự đoán "yêu thích" của các users**

Bài toán đặt ra là dự đoán các giá trị thật sự của $?$ trong ma trận Utility $\mathbf{Y}$, nghĩa là dự đoán các giá trị đánh giá của các user thứ n chưa đánh giá item thứ m. Quy trình là xác định các users khác đã đánh giá item thứ m đó, chọn ra 1 số users trong đó có sự tương đồng cao của các user thứ n, trích xuất giá trị đánh giá của các users đó trên item m và thực hiện công thức: 

$\hat{y}_{mn}= \frac{\sum_{\mathbf{y_j} \in \mathcal{N}(u_n, i_m)} \bar{y}_{mj} \text{cosin}(\mathbf{y_n}, \mathbf{y_j})}{\sum_{\mathbf{y_j} \in \mathcal{N}(u_n, i_m)} |\text{cosin}(\mathbf{y_n}, \mathbf{y_j})|}$

Trong đó:

* $\mathbf{y_j}$: là vecto đánh giá của user thứ j.

* $\mathcal{N}(u_n, i_m)$: là tập hợp users đã đánh giá item m và có độ tương đồng với users n đó cao nhất.

* $\text{cosin}(\mathbf{y_n}, \mathbf{y_j})$: là độ tương đồng cosin giữa đánh giá của user thứ n và đánh giá của user thứ j.

* $\bar{y}_{mj}$: là giá trị đánh giá của các users trong $\mathcal{N}(\mathbf{u_n}, \mathbf{i_m})$ với item thứ m.

Hình c là kết quả của quá trình dự đoán theo công thức này.

### **3.2. Item-Item collaborative filtering**

Thay vì tính toán độ tương đồng của các user, hệ thống sẽ tính sự tương đồng của các user. Cách tiếp cận thứ hai này được gọi là **Item-item Collaborative Filtering**. Cách dự đoán này cũng tương tự như **User-User Collaborative Filtering**.

Thay vì tính toán trung bình cộng các đánh giá của users theo cột thì thay vào đó là trung bình cộng các đánh giá cho các items theo hàng của ma trận Utility.

Sau đó chuẩn hóa ma trận này bằng cách trừ các đánh giá đã biết của item cho trung bình cộng bình cộng vừa tính được tương ứng của item đó, đồng thời thay các đánh giá chưa biết bằng 0. Thu được ma trận Normalized Utility Matrix.

Tiếp theo, tính ma trận tương đồng cho các items. Cuối cùng đưa ra dự đoán như **User-User Collaborative Filtering**.

## **4. Hệ thống Matrix Factorization Collaborative Filtering**

Hệ thống **Matrix Factorization Collaborative Filtering** cho rằng tồn tại các tính chất ẩn mô tả sự liên quan giữa các items và users. Mỗi item m sẽ mang tính chất ẩn ở một mức độ nào đó tương ứng với các hệ số trong vector $\mathbf{x_m}$ của nó, hệ số càng cao tương ứng với việc mang tính chất đó càng cao. Mỗi user n cũng sẽ có xu hướng thích những tính chất ẩn nào đó và được mô tả bởi các hệ số trong vector $\mathbf{w_n}$ của nó, hệ số cao tương ứng với việc user thích các items có tính chất ẩn đó. Mã nguồn tham khảo chính tại bài viết [Matrix Factorization Collaborative Filtering](https://machinelearningcoban.com/2017/05/31/matrixfactorization/). 

Hệ thống **Content-based Recommendation** đi tìm là ma trận $\mathbf{W}$ dựa trên ma trận đặc trưng của items $\mathbf{X}$ để đưa ra dự đoán yêu thích của user n đối với sản phẩm m. Hệ thống **Matrix Factorization Collaborative Filtering** không xây dựng và dùng toàn bộ thông tin của ma trận $\mathbf{X}$, mà sẽ đi tìm đồng thời $\mathbf{X}$ và $\mathbf{W}$, điều này có thể được hiểu như $\mathbf{X}$ sẽ được phân thành hai ma trận có kích thước nhỏ hơn là $\mathbf{W}$ và $\mathbf{H}$, sao cho ta có thể xây dựng lại $\mathbf{X}$ từ hai ma trận nhỏ hơn này càng chính xác càng tốt, nghĩa là $\mathbf{X}\sim \mathbf{W}\mathbf{H^T}$. Với $\mathbf{X} \in \mathbb{R}^{K \times M}$ là một ma trận mà mỗi cột $\mathbf{x}_m$ là một véc tơ bao gồm K nhân tố tiềm ẩn mô tả cho item thứ m, $\mathbf{W} \in \mathbb{R}^{K \times N}$ là một ma trận mà mỗi cột $\mathbf{x}_m$ là một véc tơ bao gồm $K$ nhân tố tiềm ẩn mô tả cho item thứ m. Bài toán đặt ra là cố gắng xấp xỉ Utility $\mathbf{Y} \in \mathbb{R}^{M \times N}$ bằng tích hai ma trận $\mathbf{X} \in \mathbb{R}^{K \times M}$ và $\mathbf{W} \in \mathbb{R}^{K \times N}$ với $K$ là nhân tố mang tính ẩn.

$\mathbf{Y}\approx
\left[ \begin{matrix}
{x}_{11} & {x}_{21} & \dots & {x}_{K1}\\
{x}_{12} & {x}_{22} & \dots & {x}_{K2}\\
\dots & \dots & \ddots & \dots \\
{x}_{1M} & {x}_{2M} & \dots & {x}_{KM}\\
\end{matrix} \right]
\left[ \begin{matrix}
{w}_{11} & {w}_{12} & \dots & {w}_{1N}\\
{w}_{21} & {w}_{22} & \dots & {w}_{2N}\\
\dots & \dots & \ddots & \dots \\
{w}_{K1} & {w}_{K2} & \dots & {w}_{KN}\\
\end{matrix} \right]=
\left[ \begin{matrix}
\mathbf{x}^T_1\mathbf{w}_1 & \mathbf{x}^T_1\mathbf{w}_2 & \dots & \mathbf{x}^T_1 \mathbf{w}_N\\
\mathbf{x}^T_2\mathbf{w}_1 & \mathbf{x}^T_2\mathbf{w}_2 & \dots & \mathbf{x}^T_2 \mathbf{w}_N\\
\dots & \dots & \ddots & \dots \\
\mathbf{x}^T_M\mathbf{w}_1 & \mathbf{x}^T_M\mathbf{w}_2 & \dots & \mathbf{x}^T_M \mathbf{w}_N\\
\end{matrix} \right]=
\left[ \begin{matrix}
\mathbf{x}^T_1 \\
\mathbf{x}^T_2 \\
\dots \\
\mathbf{x}^T_M \\
\end{matrix} \right]
\left[ \begin{matrix}
\mathbf{w}_1 & \mathbf{w}_2 & \dots & \mathbf{w}_N
\end{matrix} \right]=
\left[ \begin{matrix}
\mathbf{x}_1 & \mathbf{x}_2 & \dots & \mathbf{x}_M
\end{matrix} \right]^T\left[ \begin{matrix}
\mathbf{w}_1 & \mathbf{w}_2 & \dots & \mathbf{w}_N
\end{matrix} \right]=
\mathbf{X}^{T}\mathbf{W}$

Với $\mathbf{x}_m$ là của cột ma trận $\mathbf{X}$ và $\mathbf{w}_n$ là của cột ma trận $\mathbf{W}$. Hàm mất mát được xây dựng tương tự **Content-based Recommendation** cho mỗi user n và item m (xét trường hợp đơn giản là không có thành phần bias).

$\mathbb{L}(\mathbf{x}_m,\mathbf{w}_n) = \frac{1}{2s_n} \sum_{m~:~ r_{mn} = 1}(\mathbf{x_m}^{T}\mathbf{w_n} - y_{mn})^2 + \frac{\lambda}{2}(||\mathbf{x}_m||_2+||\mathbf{w}_n||_2)^2 $

Bài toán tối ưu hàm $\mathbb{L}(\mathbf{x}_m,\mathbf{w}_n)$ cũng dùng SGD để tìm cặp nghiệm $(\mathbf{x}_m,\mathbf{w}_n)$. Cố định $\mathbf{x}_n$, ta có hàm mất mát theo $\mathbf{w}_n$.

$\mathbb{L}(\mathbf{w}_n) = \frac{1}{2s_n} \sum_{m~:~ r_{mn} = 1}(\mathbf{x}_m^{T}\mathbf{w}_n - y_{mn})^2 + \frac{\lambda}{2}(||\mathbf{x}_m||_2+||\mathbf{w}_n||_2)^2 $

Biểu thức trên có thể đơn giản nó bằng cách đặt $\hat{\mathbf{X}}_n$ là ma trận được tạo bởi các hàng ứng với các items đã được đánh giá bởi user n, và $\hat{\mathbf{y}}_{n}$ là các đánh giá tương ứng. Khi đó:

$\mathbb{L}(\mathbf{w}_n) = \frac{1}{2s_n} ||\hat{\mathbf{X}}_n^{T}\mathbf{w}_n - \hat{\mathbf{y}}_{n}||^2 + \frac{\lambda}{2}(||\hat{\mathbf{x}}_n||_2+||\mathbf{w}_n||_2)^2 $

Đạo hàm của hàm mất mát như sau:

$\nabla_{\mathbf{w}_{n}}\mathbb{L}(\mathbf{w}_{n})=\frac{\partial \mathbb{L}(\mathbf{w}_n)}{\partial \mathbf{w}_n} = \frac{1}{s_n}\hat{\mathbf{X}}_n(\hat{\mathbf{X}}^T_{n}\mathbf{w}_n-\hat{\mathbf{y}}_n) + \lambda\mathbf{w}_n$

Áp dụng phương pháp SGD cho mỗi lần cập nhật $\mathbf{w}_n$

$\mathbf{w}_n = \mathbf{w}_n - \eta \nabla_{\mathbf{w}_{n}}\mathbb{L}(\mathbf{w}_{n}) = \mathbf{w}_n - \eta [\frac{1}{s_n}\hat{\mathbf{X}}_n(\hat{\mathbf{X}}^T_n\mathbf{w}_n-\hat{\mathbf{y}}_{n}) + \lambda\mathbf{w}_n]$

Tương tự với phần cố định $\mathbf{x}_n$, cập nhật của $\mathbf{w}_n$ là 

$\mathbf{x}_m = \mathbf{x}_m - \eta \nabla_{\mathbf{x}_m}\mathbb{L}(\mathbf{x}_{m}) = \mathbf{x}_m - \eta [\frac{1}{s_m}(\mathbf{x}_{m}\hat{\mathbf{W}}_m-\hat{\mathbf{y}}_m)\hat{\mathbf{W}}_m^T + \lambda\mathbf{x}_m]$

Với $\hat{\mathbf{W}}_m$ là ma trận được tạo bởi các cột ứng với các users đã đánh giá item m, và $\hat{\mathbf{y}}_{m}$ là các đánh giá tương ứng.


## **5. Dữ liệu BX-CSV-Dump**

Dữ liệu được sử dụng cho bài toán bên dưới là dữ liệu [BX-CSV-Dump](http://www2.informatik.uni-freiburg.de/~cziegler/BX/) cho biết các đánh giá mà người dùng đã đánh giá các quyển sách mà họ từng sử dụng, đánh giá được thể hiện trên thang điểm từ 1-10 (giá trị cao hơn biểu thị sự đánh giá cao hơn), phần không đánh giá được hiểu là 0. Cột **User-ID** thể hiện ID của người dùng, cột **ISBN** thể hiện ID của sách, cột **Book-Rating** thể hiện phần đánh giá. Dữ liệu **BX-CSV-Dump** khá lớn nên phần phân tích bên dưới chỉ giới hạn 50000 dòng đầu tiên. Trong 50000 quan sát đó, tách dữ liệu thành 2 phần, phần dữ liệu được đánh giá (giá trị **Book-Rating** khác 0) sẽ làm dữ liệu train và test và phần chưa đánh giá (giá trị **Book-Rating** bằng 0) sẽ được dự đoán các đánh giá user với item  đến mức nào. Hệ thống dùng là **Matrix Factorization Collaborative Filtering**.


In [None]:
import pandas as pd 
from google.colab import drive
drive.mount('/content/gdrive')
path = "gdrive/My Drive/Recommendation/BX-CSV-Dump/"
rate_base = pd.read_csv(path+'BX-Book-Ratings.csv', sep=';', encoding='latin-1')
rate_base = rate_base[:50000]
rate_base

Drive already mounted at /content/gdrive; to attempt to forcibly remount, call drive.mount("/content/gdrive", force_remount=True).


Unnamed: 0,User-ID,ISBN,Book-Rating
0,276725,034545104X,0
1,276726,0155061224,5
2,276727,0446520802,0
3,276729,052165615X,3
4,276729,0521795028,6
...,...,...,...
49995,11676,0445405457,7
49996,11676,0445408502,0
49997,11676,0445409134,0
49998,11676,0445409169,0


Quan sát cho thấy các ID chưa được mã hóa theo thứ tự nên thực hiện mã hóa các giá trị ID

In [None]:
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
rate_base['User-ID'] = le.fit_transform(rate_base['User-ID'])
rate_base['ISBN'] = le.fit_transform(rate_base['ISBN'])

Vì biểu thức hàm mất mát chỉ phụ thuộc vào các items đã được đánh giá, nên ta chỉ trích xuất phần dữ liệu đã được đánh giá để đem phân tích. 

In [None]:
rated_base = rate_base[rate_base['Book-Rating']!=0]
nonrate_base = rate_base[rate_base['Book-Rating']==0]
print('Dữ liệu đã đánh giá: ', rated_base.shape)
print('Dữ liệu chưa được đánh giá: ', nonrate_base.shape)

Dữ liệu đã đánh giá:  (20962, 3)
Dữ liệu chưa được đánh giá:  (29038, 3)


Phần dữ liệu đã đánh giá được chia train và test 

In [None]:
from sklearn.model_selection import train_test_split
rated_base_arr = rated_base.values
rate_train, rate_test = train_test_split(rated_base_arr, test_size=0.33, random_state=42)
rate = rate_train.copy()
print ('Dữ liệu train: ', rate_train.shape)
print ('Dữ liệu test: ', rate_test.shape)

Dữ liệu train:  (14044, 3)
Dữ liệu test:  (6918, 3)


In [None]:
import numpy as np
n_ratings = rate_train.shape[0]
n_users = int(np.max(rate_train[:, 0])) + 1
n_items = int(np.max(rate_train[:, 1])) + 1 
print('Số lượng users: ',n_users)
print('Số lượng items: ',n_items)  

Số lượng users:  5064
Số lượng items:  36282


Chọn các giá trị mặc định cho ẩn K, phần regularization $\lambda = 0.1$, bước nhảy gradient của SGD $\eta = 1$ và số lần cập nhật gradient epoch = 100

In [None]:
import numpy as np
K = 10
lamda = .1
learning_rate = 1
epoch= 100

Chuẩn hóa rating bằng cách trừ các giá trị đánh giá cho trung bình cộng của mỗi user

In [None]:
mu = np.zeros((n_users,))
for n in range(n_users):
    ids = np.where(rate_train[:, 0]  == n)[0]
    item_ids = rate_train[ids, 1] 
    ratings = rate_train[ids, 2]
    # take mean
    m = np.mean(ratings) 
    if np.isnan(m):
        m = 0 
    mu[n] = m
    rate_train[ids, 2] = ratings - mu[n]    

  out=out, **kwargs)
  ret = ret.dtype.type(ret / rcount)


Khởi tạo ma trận $\mathbf{X} \in \mathbb{R}^{K \times M}$ và $\mathbf{W}\in \mathbb{R}^{K \times N}$ với M là số items và N là số users. Kí hiệu X bên dưới thực chất là $\mathbf{X}^T$

In [None]:
X = np.random.randn(n_items, K)
W = np.random.randn(K, n_users)

Xác định các items được đánh giá bởi 1 user, và users đã đánh giá 1 item và các ratings tương ứng:

In [None]:
def get_items_rated_by_user(user_id):
    ids = np.where(rate_train[:,0] == user_id)[0]
    item_ids = rate_train[ids, 1]
    ratings = rate_train[ids, 2]
    return (item_ids, ratings)
        
        
def get_users_who_rate_item(item_id):
    ids = np.where(rate_train[:,1] == item_id)[0] 
    user_ids = rate_train[ids, 0]
    ratings = rate_train[ids, 2]
    return (user_ids, ratings)

Tiến hành cập nhật ma trận $\mathbf{X}^T$ và $\mathbf{W}$

In [None]:
def updateX(X):
    for m in range(n_items):
        user_ids, ratings = get_users_who_rate_item(m)
        Wm = W[:, user_ids]
        # gradient
        grad_xm = (X[m, :].dot(Wm) - ratings).dot(Wm.T)/n_ratings + lamda*X[m, :]
        X[m, :] -= learning_rate*grad_xm.reshape((K,))
    
def updateW(W):
    for n in range(n_users):
        item_ids, ratings = get_items_rated_by_user(n)
        Xn = X[item_ids, :]
        # gradient
        grad_wn = Xn.T.dot(Xn.dot(W[:, n]) - ratings)/n_ratings + lamda*W[:, n]
        W[:, n] -= learning_rate*grad_wn.reshape((K,))

Dự đoán các giá trị đánh giá bởi user và itemn $y_{mn}=\mathbf{x}_m^{T}\mathbf{w}_n+b_{n}$, $m=\overline{1..M}, n=\overline{1..N}$

In [None]:
def pred(user, item):
    user = int(user)
    item = int(item)
    bias = mu[user]
    pred = X[item, :].dot(W[:, user]) + bias
    return pred  

Định nghĩa hàm mất mát

In [None]:
def loss(rating, X, W):
        L = 0 
        for i in range(rating.shape[0]):
            # user, item, rating
            n, m, rate = int(rating[i, 0]), int(rating[i, 1]), rating[i, 2]
            L += 0.5*(rate - X[m, :].dot(W[:, n]))**2
        
        L /= rating.shape[0]
        L += 0.5*lamda*(np.linalg.norm(X, 'fro') + np.linalg.norm(W, 'fro'))
        return L 

Đánh giá mô hình bằng RMSE

In [None]:
def evaluate_RMSE(rate):
    n = rate.shape[0]
    SE = 0 # squared error
    for i in range(n):
        predict = pred(rate[i, 0], rate[i, 1])        
        SE += (predict - rate[i, 2])**2 
        RMSE = np.sqrt(SE/n)
    return RMSE

Fit dữ liệu, tìm $\mathbf{X}$ và $\mathbf{W}$ tối ưu hàm mất mát

In [None]:
for it in range(epoch):
    updateX(X)
    updateW(W)
    rmse_train = evaluate_RMSE(rate)
    print ('epoch =', it + 1, ', loss =', loss(rate_train, X, W), ', RMSE train =', rmse_train)

epoch = 1 , loss = 41.005052206978846 , RMSE train = 2.8905447155804103
epoch = 2 , loss = 36.13353166783798 , RMSE train = 2.46010048069914
epoch = 3 , loss = 32.06896155075741 , RMSE train = 2.1490307442029626
epoch = 4 , loss = 28.602701020965668 , RMSE train = 1.9264605502708625
epoch = 5 , loss = 25.60147069469833 , RMSE train = 1.7695696275973518
epoch = 6 , loss = 22.974787572116384 , RMSE train = 1.6607549466152944
epoch = 7 , loss = 20.658126267749513 , RMSE train = 1.5864102898400092
epoch = 8 , loss = 18.603513564524928 , RMSE train = 1.5362501172134835
epoch = 9 , loss = 16.773971407678044 , RMSE train = 1.502736315000597
epoch = 10 , loss = 15.140093949090966 , RMSE train = 1.480507387580178
epoch = 11 , loss = 13.677869231253617 , RMSE train = 1.4658429018551036
epoch = 12 , loss = 12.367254187220677 , RMSE train = 1.4562085970497398
epoch = 13 , loss = 11.191218483692847 , RMSE train = 1.4499007300565072
epoch = 14 , loss = 10.135086680315682 , RMSE train = 1.44578411633

Ta nhận thấy rằng giá trị loss giảm dần về 0 và RMSE train cũng giảm dần khi số vòng lặp tăng lên. Với $\mathbf{X}^T$ và $\mathbf{W}$ đã được cập nhật kết quả cuối cùng

In [None]:
X,W

(array([[ 7.91090888e-06, -4.99338609e-05, -1.07704160e-06, ...,
          1.51214859e-05,  3.73341333e-05, -2.59563172e-05],
        [ 1.07793178e-05, -1.02062450e-05,  1.82141524e-05, ...,
         -1.59148901e-05, -8.09717231e-06,  1.98768177e-05],
        [-9.98031586e-06,  1.43135397e-05,  3.10102047e-05, ...,
         -2.98386735e-05,  1.06454519e-05, -1.67857229e-05],
        ...,
        [-2.25050387e-05,  2.92543004e-06, -4.34073873e-05, ...,
          2.76816628e-05,  1.43320408e-05,  2.75149720e-05],
        [-1.06757136e-05, -2.93149933e-06, -5.43480235e-05, ...,
          3.38478080e-05,  6.55606563e-05,  1.09708328e-05],
        [-7.04678221e-05,  3.70912913e-05, -3.31392236e-05, ...,
         -2.52122363e-06, -1.54209857e-05, -2.33123712e-05]]),
 array([[-2.38325883e-05,  5.14508536e-05,  1.04793587e-05, ...,
          1.94116972e-05, -1.46107224e-05, -3.93945584e-05],
        [-5.68539346e-05,  1.67593373e-05,  3.26653122e-05, ...,
         -2.33056298e-05, -2.17611592e

Tiếp theo, đánh giá mô hình bằng dữ liệu test: đưa ra giá trị dự đoán cho dữ liệu test, qua đó cho biết RMSE của test

In [None]:
def pred_for_user(data):
    predicted_ratings = np.zeros((data.shape[0],))
    item_ids = np.zeros((data.shape[0],))
    for i in range(data.shape[0]):
        user_id = data[i,0]
        ids = np.where(data[:, 0] == user_id)[0]
        for i in ids:
            predicted_ratings[ids] = round(X[data[i, 1],:].dot(W[:, user_id]) + mu[user_id],2)
    return predicted_ratings

In [None]:
RMSE = evaluate_RMSE(rate_test)
test_table = pd.DataFrame()
test_table['User-ID']=le.inverse_transform(rate_test[:,0])
test_table['ISBN']=le.inverse_transform(rate_test[:,1])
test_table['Book-Rating']=rate_test[:,2]
test_table['Predict-Rating'] = pred_for_user(rate_test)
print('RMSE test:', RMSE)
test_table

RMSE test: 3.1991364901247517


Unnamed: 0,User-ID,ISBN,Book-Rating,Predict-Rating
0,009964990X,0812967240,7,7.24
1,0140089233,0689829507,10,8.45
2,014005829X,0099422794,6,6.86
3,000638384X,0679879242,8,7.92
4,0064440214,0553584782,10,8.28
...,...,...,...,...
6913,0140149902,0345380371,9,7.33
6914,0060923245,0771086598,8,0.00
6915,0006165338,9728440383,8,7.93
6916,0006542808,038549825X,8,7.71


Dự đoán phần không được người dùng đánh giá

In [None]:
nonrate_base_arr = nonrate_base.values
predict_nonrate = pred_for_user(nonrate_base_arr)
RMSE_nonrate = evaluate_RMSE(nonrate_base_arr)

In [None]:
nonrate_table = pd.DataFrame()
nonrate_table['User-ID']=le.inverse_transform(nonrate_base_arr[:,0])
nonrate_table['ISBN']=le.inverse_transform(nonrate_base_arr[:,1])
nonrate_table['Predict-Rating'] = predict_nonrate
print('Phần không được người dùng đánh giá', len(nonrate_table))
print('Phần được dự đoán: ', len(nonrate_table[nonrate_table['Predict-Rating']!=0]))
nonrate_table[nonrate_table['Predict-Rating']!=0]

Phần không được người dùng đánh giá 29038
Phần được dự đoán:  26424


Unnamed: 0,User-ID,ISBN,Predict-Rating
9,0241140773,0451192001,7.75
10,0241140773,0609801279,7.75
11,0241140773,1570231028,7.75
12,0241141095,3442437407,6.00
13,0241141788,033390804X,8.00
...,...,...,...
29033,0233981071,0445203609,7.41
29034,0233981071,0445203668,7.41
29035,0233981071,0445408502,7.41
29036,0233981071,0445409134,7.41


TÀI LIỆU THAM KHẢO

https://www.sciencedirect.com/science/article/pii/S1877050915007462

https://medium.com/sfu-cspmp/recommendation-systems-collaborative-filtering-using-matrix-factorization-simplified-2118f4ef2cd3

https://machinelearningcoban.com/2017/05/31/matrixfactorization/

https://machinelearningcoban.com/2017/05/24/collaborativefiltering/

https://machinelearningcoban.com/2017/05/17/contentbasedrecommendersys/