### Summary for Presentation Slides

Here’s a condensed version of the report for inclusion in slides:

---

#### **Title Slide**
- **Project Title:** Session-Based Recommender System for Retail Products  
- **Course:** Web Mining - Fall 2024  
- **Instructor:** Ph.D. Nguyen Kiem Hieu  
- **Group Members:**  
  - Đoàn Ngọc Cường - 20210141  
  - Võ Đình Đạt - 20214890  
  - Lê Trung Kiên - 20214907  
  - Phạm Quang Trung - 20214935  
  - Đoàn Thế Vinh - 20210940  

---

#### **Slide 1: Problem Overview**
- **Background:** E-commerce platforms generate vast data on user interactions (clicks, carts, orders).  
- **Challenge:** Predicting user actions in anonymous sessions using only session-based data.  
- **Relevance:** Improves personalization and sales strategies for retailers.  

---

#### **Slide 2: Dataset Overview**
- **Source:** OTTO e-commerce dataset (12M sessions, 220M events).  
- **Event Types:**
  - Clicks (89.8% of interactions).  
  - Add-to-cart (7.8%).  
  - Orders (2.4%).  
- **Challenges:**
  - High sparsity (only 0.0005% possible interactions observed).  
  - Large scale: ~1.8M unique products.

---

#### **Slide 3: Methodology Overview**
- **Approach:** Three methods explored.  
  1. **Method 1:**  
     - Candidate generation (heuristics, Word2Vec, co-visitation).  
     - Ranking with LightGBM.  
  2. **Method 2:**  
     - Collaborative filtering (Item CF, User CF).  
     - Ranking with LightGBM and CatBoost.  
  3. **Method 3:**  
     - Graph Neural Network (GNN) for link prediction on heterogeneous graphs.  

---

#### **Slide 4: Feature Engineering**
- **Session Features:** Interaction counts, time-based metrics.  
- **Item Features:** Co-occurrence stats, Word2Vec similarity.  
- **Contextual Features:** Popularity rank within session clusters.  

---

#### **Slide 5: Evaluation Metrics**
- **Metric:** Recall@20 (weighted by click, cart, and order importance).  
- **Score Calculation:**  
  - \( \text{Score} = 0.10 * R_\text{clicks} + 0.30 * R_\text{carts} + 0.60 * R_\text{orders} \)  

---

#### **Slide 6: Results**
- **Performance Comparison:**  
  - Best Recall@20 for clicks, carts, and orders achieved with GNN approach.  
  - Classical methods also showed competitive results with optimized feature engineering.  

---

#### **Slide 7: Discussion & Challenges**
- **Challenges:**  
  - Handling data sparsity and scalability.  
  - Balancing diverse interaction types in predictions.  
- **Learnings:**  
  - Importance of advanced embedding techniques (Word2Vec, GNN).  
  - Trade-offs between heuristic methods and deep learning.  

---

#### **Slide 8: Conclusion & Future Work**
- **Conclusion:** SBRS effectively predicts session-based actions, enhancing personalization in e-commerce.  
- **Future Work:**  
  - Incorporate Transformer-based embeddings.  
  - Address cold-start problem with auxiliary data.  
  - Perform hyperparameter tuning for ranking models.  

---

This structure provides a clear, engaging, and concise representation of the project.

Dưới đây là bảng tóm tắt chi tiết từng phương pháp trong báo cáo:

| **Phương pháp**            | **Chi tiết**                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                | **Ưu điểm**                                                                                                                                                                                                                                                                                                    | **Hạn chế**                                                                                                                                                                                                                                             |
|-----------------------------|-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| **Phương pháp 1**          | **Pipeline:** Retrieve (Candidate Generation) → Re-rank → Top 20<br>- **Candidate Generation:**<br>  + Sử dụng ma trận đồng thăm (co-visitation matrix) để tìm các sản phẩm thường được tương tác cùng nhau.<br>  + Tích hợp Word2Vec để thêm các sản phẩm tương tự theo không gian embedding.<br>  + Tận dụng các mục phổ biến trong cụm session (KMeans clustering).<br>- **Re-rank:** Dùng mô hình LightGBM (LambdaRank) để xếp hạng các sản phẩm dựa trên 100 đặc trưng từ lịch sử tương tác và thông tin ngữ cảnh.                                                                                              | - Đơn giản và dễ triển khai.<br>- Kết hợp nhiều nguồn thông tin để tạo tập ứng viên đa dạng.<br>- LightGBM cho phép tối ưu hóa hiệu suất thông qua tính năng xếp hạng.                                                                                                     | - Phụ thuộc nhiều vào các ma trận đồng thăm và embedding thủ công.<br>- Không linh hoạt nếu có dữ liệu mới hoặc thay đổi mạnh mẽ trong hành vi người dùng.                                                                                             |
| **Phương pháp 2**          | **Pipeline:** Tương tự Phương pháp 1<br>- **Candidate Generation:**<br>  + Tận dụng thêm Word2Vec, ma trận đồng thăm (co-visitation matrix), và ma trận phân tích nhân tố (Matrix Factorization).<br>  + Tích hợp các mô hình cộng tác lọc (Collaborative Filtering) dựa trên mục (Item CF) và session (User CF).<br>- **Feature Engineering:**<br>  + Tạo ~200 đặc trưng, bao gồm các thống kê thời gian, mức độ phổ biến và tương tự Word2Vec.<br>- **Re-rank:** Dùng CatBoost Ranker (YetiRank) và LightGBM để tối ưu xếp hạng.                                                                                          | - Tăng độ chính xác nhờ thêm các nguồn dữ liệu như MF và CF.<br>- CatBoost Ranker có khả năng xử lý các vấn đề xếp hạng phức tạp.<br>- Tích hợp nhiều đặc trưng chi tiết.                                                                                              | - Cần thời gian và tài nguyên tính toán cao hơn do sử dụng nhiều kỹ thuật bổ sung.<br>- Dễ bị ảnh hưởng bởi dữ liệu không cân bằng (ví dụ, các sản phẩm ít phổ biến).                                                                                  |
| **Phương pháp 3 (GNN)**     | **Cách tiếp cận:**<br>- Biểu diễn bài toán dưới dạng dự đoán liên kết (link prediction) trên đồ thị không đồng nhất (heterogeneous graph).<br>- **Cấu trúc đồ thị:**<br>  + Node: Gồm 2 loại node (session và sản phẩm).<br>  + Edge: Các quan hệ tương tác giữa node (click, cart, order).<br>- **Quy trình:**<br>  + Preprocess: Biến dữ liệu thành node và edge.<br>  + Node Encoder: Biểu diễn node bằng embedding.<br>  + Edge Encoder: Biểu diễn thông tin quan hệ bằng embedding.<br>  + Training: Tối ưu hóa loss bằng Weighted Mean Squared Error (WMSE).                                                                                  | - Hiện đại, phù hợp với dữ liệu phức tạp.<br>- Khả năng biểu diễn tốt các quan hệ không đồng nhất giữa session và sản phẩm.<br>- Mô hình hóa toàn diện hành vi người dùng trong session.<br>- Đa mục tiêu (multi-objective).                                                    | - Yêu cầu tài nguyên tính toán rất lớn.<br>- Cần xử lý đồ thị phức tạp, dễ gặp vấn đề về bộ nhớ trên tập dữ liệu lớn.<br>- Đòi hỏi chuyên môn cao để thiết kế và tối ưu hóa mô hình.                                                                      |

### **Tóm tắt:**
1. **Phương pháp 1:** Truyền thống, tập trung vào các kỹ thuật thủ công (ma trận đồng thăm, Word2Vec).  
2. **Phương pháp 2:** Nâng cao, thêm các kỹ thuật cộng tác lọc và CatBoost để cải thiện hiệu suất.  
3. **Phương pháp 3:** Hiện đại, tận dụng GNN để khai thác toàn bộ dữ liệu trong cấu trúc đồ thị phức tạp.  

Bạn có thể sử dụng bảng này làm slide tóm tắt nội dung từng phương pháp chi tiết.