# 1. **So sánh giữa `setup.py`, `pyproject.toml` và `requirements.txt`**

| **Phương pháp**        | **Mô tả**                                                                 | **Khi nào nên sử dụng**                             |
|------------------------|--------------------------------------------------------------------------|-----------------------------------------------------|
| `setup.py`             | Cách truyền thống để đóng gói và phân phối gói Python                    | Khi bạn cần đóng gói dự án thành một package Python |
| `pyproject.toml`       | Cách hiện đại và dễ quản lý hơn                                          | Khi bạn sử dụng Python >=3.8                         |
| `requirements.txt`     | Chỉ dùng để quản lý các thư viện phụ thuộc                               | Khi bạn chỉ cần quản lý dependencies cho dự án       |

---



Để **đóng gói một dự án Python** (tương tự như `package.json` trong Node.js), bạn có thể sử dụng **`setup.py`** hoặc **`pyproject.toml`** để quản lý các gói và phụ thuộc. Dưới đây là hướng dẫn từng bước để bạn tạo file cấu hình tương tự như `package.json` và đóng gói dự án của mình.

---

## **Phương pháp 1: Sử dụng `setup.py` (cách truyền thống)**

1. **Tạo file `setup.py`** trong thư mục dự án của bạn:

```python
from setuptools import setup, find_packages

setup(
    name='hybrid_recommender_system',
    version='1.0.0',
    description='Hybrid Recommendation System using Python',
    author='Your Name',
    author_email='your.email@example.com',
    packages=find_packages(),
    include_package_data=True,
    install_requires=[
        'streamlit==1.25.0',
        'pandas==2.1.1',
        'scikit-learn==1.3.1',
        'scikit-surprise==1.1.1',
        'numpy==1.23.5',
        'matplotlib==3.8.0'
    ],
    python_requires='>=3.7,<3.11',
)
```

2. **Cấu trúc thư mục** của bạn nên trông như thế này:

```
project-root/
│
├── hybrid_recommender_system/
│   ├── __init__.py
│   └── your_code.py
│
├── requirements.txt
├── setup.py
└── README.md
```

3. **Đóng gói và cài đặt dự án**:

Mở terminal và chạy các lệnh sau:

```bash
# Tạo package
python setup.py sdist bdist_wheel

# Cài đặt package
pip install .
```

---

## **Phương pháp 2: Sử dụng `pyproject.toml` (cách hiện đại)**

Kể từ Python 3.8, bạn có thể sử dụng `pyproject.toml` để thay thế `setup.py`.

1. **Tạo file `pyproject.toml`**:

```toml
[build-system]
requires = ["setuptools", "wheel"]
build-backend = "setuptools.build_meta"

[project]
name = "hybrid-recommender-system"
version = "1.0.0"
description = "Hybrid Recommendation System using Python"
authors = [
    {name = "Your Name", email = "your.email@example.com"}
]
requires-python = ">=3.7,<3.11"

[project.dependencies]
streamlit = "1.25.0"
pandas = "2.1.1"
scikit-learn = "1.3.1"
scikit-surprise = "1.1.1"
numpy = "1.23.5"
matplotlib = "3.8.0"
```

2. **Đóng gói và cài đặt dự án**:

```bash
# Đóng gói dự án
pip install build
python -m build

# Cài đặt package
pip install dist/*.whl
```

---

## **Phương pháp 3: Tạo `requirements.txt` (nếu chỉ muốn quản lý phụ thuộc)**

Nếu bạn chỉ cần **quản lý các thư viện phụ thuộc**, bạn có thể sử dụng file `requirements.txt`:

```
streamlit==1.25.0
pandas==2.1.1
scikit-learn==1.3.1
scikit-surprise==1.1.1
numpy==1.23.5
matplotlib==3.8.0
```

Cài đặt các gói từ `requirements.txt`:

```bash
pip install -r requirements.txt
```

---

## **So sánh giữa `setup.py`, `pyproject.toml` và `requirements.txt`**

| **Phương pháp**        | **Mô tả**                                                                 | **Khi nào nên sử dụng**                             |
|------------------------|--------------------------------------------------------------------------|-----------------------------------------------------|
| `setup.py`             | Cách truyền thống để đóng gói và phân phối gói Python                    | Khi bạn cần đóng gói dự án thành một package Python |
| `pyproject.toml`       | Cách hiện đại và dễ quản lý hơn                                          | Khi bạn sử dụng Python >=3.8                         |
| `requirements.txt`     | Chỉ dùng để quản lý các thư viện phụ thuộc                               | Khi bạn chỉ cần quản lý dependencies cho dự án       |

---

Hy vọng các phương pháp trên sẽ giúp bạn **đóng gói và quản lý** dự án Python một cách hiệu quả hơn, giống như `package.json` trong Node.js! 🚀

# 2. 


### **Giải thích đơn giản về hệ thống Hybrid Recommender System**

---

### **1. Input, Output và Vấn đề mà bài toán giải quyết**

#### **Input của bài toán**
- **Dữ liệu về sản phẩm**: Bao gồm các thông tin như:
  - `User ID`: Người dùng nào đang tương tác.
  - `Product ID`: Mã sản phẩm.
  - `Product Name`: Tên của sản phẩm.
  - `Category`: Loại sản phẩm (quần áo, sách, nhạc, v.v.).
  - `Price`: Giá của sản phẩm.
  - `Rating`: Đánh giá của người dùng cho sản phẩm.
  - Các thuộc tính khác như `Brand`, `Color`, `Size`.

- **Dữ liệu về hành vi người dùng**: Những gì người dùng đã làm trước đây:
  - Đánh giá (ratings) sản phẩm.
  - Sản phẩm đã xem hoặc mua.

#### **Output của bài toán**
- **Danh sách các sản phẩm được gợi ý** cho từng người dùng dựa trên sở thích và hành vi của họ.
- Mục tiêu là **giúp người dùng tìm thấy những sản phẩm họ có thể thích** nhanh hơn, từ đó **tăng tỷ lệ mua hàng**.

#### **Vấn đề bài toán giải quyết**
- Giúp **gợi ý các sản phẩm cá nhân hóa** cho người dùng dựa trên lịch sử mua hàng và sở thích của họ.
- Kết hợp các kỹ thuật khác nhau để gợi ý sản phẩm tốt hơn, đặc biệt là khi **không đủ thông tin** về người dùng mới (**cold start problem**).

---

### **2. Cách kết hợp 2 phương pháp (Hybrid Recommendation System)**

Hệ thống Hybrid sử dụng **sự kết hợp của hai phương pháp**: **Content-Based Filtering** và **Collaborative Filtering**. Dưới đây là cách chúng kết hợp với nhau để tạo ra các gợi ý tốt hơn:

#### **Phương pháp 1: Content-Based Filtering**
- **Dựa trên nội dung sản phẩm** (như thể loại, tên, mô tả).
- **Cách hoạt động**:
  - Nếu người dùng đã thích một sản phẩm cụ thể (ví dụ: áo phông màu đen), hệ thống sẽ gợi ý **những sản phẩm tương tự** (các sản phẩm khác cũng là áo phông hoặc cùng màu).
- **Ưu điểm**:
  - Phù hợp khi có ít thông tin về hành vi người dùng khác.
  - Gợi ý dựa trên **sở thích cá nhân**.
- **Nhược điểm**:
  - Khó gợi ý các mục mà người dùng chưa từng tương tác.

#### **Phương pháp 2: Collaborative Filtering**
- **Dựa trên hành vi người dùng** (như xếp hạng, lượt nhấp chuột).
- **Cách hoạt động**:
  - Nếu người dùng A và người dùng B có hành vi tương tự (ví dụ: cả hai đều mua cùng loại giày), thì nếu người dùng A mua một sản phẩm khác, hệ thống sẽ gợi ý sản phẩm đó cho người dùng B.
- **Ưu điểm**:
  - Có thể tìm ra các sản phẩm mới mà người dùng có thể thích.
- **Nhược điểm**:
  - Cần **nhiều dữ liệu từ người dùng khác** để hoạt động tốt.
  - Gặp vấn đề khi **người dùng mới** chưa có lịch sử.

---

### **Kết hợp 2 phương pháp thành Hybrid Model**

#### **Cách hệ thống Hybrid kết hợp 2 phương pháp:**
- **Bước 1**: Sử dụng **Collaborative Filtering** để gợi ý dựa trên hành vi của người dùng (như sử dụng mô hình `SVD`).
- **Bước 2**: Sử dụng **Content-Based Filtering** để gợi ý các sản phẩm tương tự dựa trên thuộc tính sản phẩm (như `TfidfVectorizer` để tìm ra sản phẩm tương tự).
- **Bước 3**: **Kết hợp kết quả từ cả hai phương pháp** để đưa ra danh sách sản phẩm gợi ý cuối cùng:
  - **Weighted Hybrid**: Tính điểm cho mỗi sản phẩm từ cả hai phương pháp và kết hợp điểm số.
  - **Feature Augmentation**: Dùng kết quả của một phương pháp làm đầu vào cho phương pháp còn lại.
  
#### **Ví dụ minh họa**
Giả sử:
- Bạn đã **xem một số áo phông đen** và **mua giày thể thao**.
- Hệ thống sẽ:
  - Dùng **Content-Based Filtering** để tìm các **áo phông** tương tự.
  - Dùng **Collaborative Filtering** để tìm ra những người dùng khác có hành vi mua sắm tương tự và gợi ý những sản phẩm mà họ đã mua.
- Kết quả cuối cùng là **sự kết hợp của cả hai**: Áo phông tương tự và những sản phẩm khác như giày thể thao mà người dùng tương tự đã mua.

---

### **Tóm tắt lợi ích của Hybrid Model**
- Tận dụng **ưu điểm của cả hai phương pháp** để đưa ra gợi ý tốt hơn.
- **Giải quyết được vấn đề cold start** khi có ít dữ liệu về người dùng mới.
- Cải thiện **trải nghiệm người dùng** bằng cách cá nhân hóa các gợi ý.

Hy vọng phần giải thích trên giúp bạn hiểu rõ hơn về cách hoạt động của hệ thống **Hybrid Recommender System**! 🚀

Dựa trên nội dung từ **file notebook** mà bạn đã tải lên, đây là cách mà hệ thống **Hybrid Recommendation System** được triển khai:

### **1. Input, Output và Mục tiêu của Notebook**
#### **Input**
- Dữ liệu về sản phẩm thời trang từ file `fashion_products.csv`, bao gồm các cột:
  - `User ID`, `Product ID`, `Product Name`, `Brand`, `Category`, `Price`, `Rating`, `Color`, `Size`.
- Dữ liệu về **hành vi người dùng**:
  - Đánh giá (`Rating`) của người dùng cho các sản phẩm.

#### **Output**
- Hệ thống gợi ý **danh sách các sản phẩm** cho người dùng dựa trên sự kết hợp của hai phương pháp:
  - **Content-Based Filtering**: Gợi ý dựa trên nội dung sản phẩm.
  - **Collaborative Filtering**: Gợi ý dựa trên hành vi người dùng.

#### **Mục tiêu**
- Xây dựng một hệ thống gợi ý **hybrid** giúp cải thiện độ chính xác và tăng cường khả năng cá nhân hóa dựa trên cả nội dung sản phẩm và hành vi của người dùng.

---

### **2. Cách hai phương pháp được kết hợp trong notebook này**

Notebook đã triển khai hai phương pháp và sau đó kết hợp chúng như sau:

#### **Phương pháp 1: Content-Based Filtering**
- **Sử dụng TF-IDF (Term Frequency-Inverse Document Frequency)** để chuyển đổi nội dung của các sản phẩm thành các đặc trưng số.
- Tính toán **độ tương tự (cosine similarity)** giữa các sản phẩm dựa trên các đặc trưng này.
- Hàm được sử dụng:
  ```python
  from sklearn.feature_extraction.text import TfidfVectorizer
  from sklearn.metrics.pairwise import linear_kernel

  # Tạo ma trận TF-IDF cho nội dung sản phẩm
  tfidf_vectorizer = TfidfVectorizer()
  content_matrix = tfidf_vectorizer.fit_transform(content_df['Content'])
  content_similarity = linear_kernel(content_matrix, content_matrix)

  # Hàm lấy gợi ý dựa trên nội dung
  def get_content_based_recommendations(product_id, top_n):
      index = content_df[content_df['Product ID'] == product_id].index[0]
      similarity_scores = content_similarity[index]
      similar_indices = similarity_scores.argsort()[::-1][1:top_n + 1]
      recommendations = content_df.loc[similar_indices, 'Product ID'].values
      return recommendations
  ```
- **Ví dụ sử dụng**:
  ```python
  get_content_based_recommendations(5, 10)
  ```

#### **Phương pháp 2: Collaborative Filtering**
- **Sử dụng mô hình SVD (Singular Value Decomposition)** từ thư viện `surprise` để thực hiện collaborative filtering.
- Mô hình được huấn luyện trên dữ liệu đánh giá (`Rating`) của người dùng cho các sản phẩm.
- Hàm được sử dụng:
  ```python
  from surprise import SVD, Dataset, Reader

  reader = Reader(rating_scale=(1, 5))
  data = Dataset.load_from_df(data[['User ID', 'Product ID', 'Rating']], reader)

  algo = SVD()
  trainset = data.build_full_trainset()
  algo.fit(trainset)

  def get_collaborative_filtering_recommendations(user_id, top_n):
      testset = trainset.build_anti_testset()
      testset = filter(lambda x: x[0] == user_id, testset)
      predictions = algo.test(testset)
      predictions.sort(key=lambda x: x.est, reverse=True)
      recommendations = [prediction.iid for prediction in predictions[:top_n]]
      return recommendations
  ```
- **Ví dụ sử dụng**:
  ```python
  get_collaborative_filtering_recommendations(79, 10)
  ```

---

### **3. Kết hợp hai phương pháp thành Hybrid Model**

Notebook này hiện tại **chưa kết hợp trực tiếp** kết quả từ hai phương pháp (Content-Based và Collaborative Filtering) thành một mô hình hybrid hoàn chỉnh. Tuy nhiên, dưới đây là gợi ý về cách bạn có thể **kết hợp hai phương pháp**:

#### **Cách tiếp cận để kết hợp hai phương pháp**
1. **Tính điểm từ cả hai phương pháp**:
   - Sử dụng mô hình collaborative filtering để đưa ra danh sách sản phẩm gợi ý dựa trên người dùng.
   - Sử dụng content-based filtering để lọc các sản phẩm có nội dung tương tự với sản phẩm mà người dùng đã tương tác.
2. **Kết hợp điểm số** từ hai phương pháp:
   - Có thể sử dụng **Weighted Hybrid**, trong đó mỗi phương pháp được gán một trọng số (ví dụ: 0.6 cho collaborative filtering và 0.4 cho content-based).
3. **Triển khai hàm Hybrid**:
   ```python
   def get_hybrid_recommendations(user_id, product_id, top_n=10):
       # Gợi ý từ Collaborative Filtering
       cf_recommendations = get_collaborative_filtering_recommendations(user_id, top_n)
       
       # Gợi ý từ Content-Based Filtering
       content_recommendations = get_content_based_recommendations(product_id, top_n)
       
       # Kết hợp kết quả từ cả hai phương pháp
       hybrid_recommendations = list(set(cf_recommendations + list(content_recommendations)))
       return hybrid_recommendations[:top_n]
   ```

#### **Ví dụ sử dụng Hybrid Model**
```python
get_hybrid_recommendations(user_id=79, product_id=5, top_n=10)
```

---

### **Tóm tắt**
- **Notebook hiện tại** đã triển khai riêng rẽ hai phương pháp: content-based và collaborative filtering.
- Để hoàn thiện mô hình **Hybrid**, bạn cần **kết hợp kết quả từ cả hai phương pháp** để tận dụng ưu điểm của cả hai.
- Hệ thống gợi ý hybrid có thể giúp tăng độ chính xác và mang lại trải nghiệm tốt hơn cho người dùng.

Hy vọng phần giải thích này giúp bạn hiểu rõ hơn về cách hệ thống trong notebook hoạt động và cách bạn có thể cải thiện nó! 🚀

# 3. Giải thích siêu đơn giản cho hs cấp 2 

### **Giải thích siêu đơn giản về hai phương pháp gợi ý cho học sinh cấp 2**

---
### **1. Content-Based Filtering (Lọc dựa trên nội dung sản phẩm)**

#### **Giải thích đơn giản**
- Giả sử bạn vừa xem xong một bộ phim **hành động** có **diễn viên yêu thích** của bạn.
- Phương pháp này sẽ tìm các bộ phim **tương tự** dựa trên nội dung của bộ phim mà bạn vừa xem (như thể loại, diễn viên, đạo diễn, v.v.) và gợi ý cho bạn **các bộ phim khác có nội dung tương tự**.

#### **Ví dụ**
- Nếu bạn vừa mua một chiếc áo phông **màu đen**, hệ thống sẽ gợi ý cho bạn **những chiếc áo phông** khác có **màu sắc và kiểu dáng tương tự**.
- Hệ thống chỉ cần biết **bạn thích gì** dựa trên những gì bạn đã tương tác trước đó và tìm những món đồ **giống như vậy**.

---

### **2. Collaborative Filtering (Lọc dựa trên hành vi người dùng)**

#### **Giải thích đơn giản**
- Hãy tưởng tượng bạn và một nhóm bạn của mình đều thích đọc sách. Nếu bạn và **bạn A** đều đã đọc các cuốn sách giống nhau, nhưng bạn A đã đọc thêm một cuốn sách mà bạn chưa đọc, thì phương pháp này sẽ gợi ý cuốn sách đó cho bạn.
- **Ý tưởng chính**: Nếu **người dùng A và người dùng B** có sở thích **giống nhau** (dựa trên những thứ họ đã mua, xem hoặc thích), thì gợi ý những gì **A thích** cho **B** và ngược lại.

#### **Ví dụ**
- Bạn thích các phim **Marvel** và đã xem tất cả các phim **Avengers**.
- Một người khác cũng thích các phim **Marvel** và đã xem phim **Doctor Strange**, nhưng bạn chưa xem phim đó.
- Hệ thống sẽ gợi ý **Doctor Strange** cho bạn vì **những người có sở thích giống bạn đã xem phim đó**.




---

### **Tóm tắt ngắn gọn**
1. **Collaborative Filtering**:
   - Gợi ý dựa trên **những người có sở thích giống bạn**.
   - Nếu bạn và người khác đều thích cùng một thứ, hệ thống sẽ gợi ý những thứ mà người kia đã xem hoặc mua mà bạn chưa biết đến.

2. **Content-Based Filtering**:
   - Gợi ý dựa trên **nội dung** của những gì bạn đã xem hoặc mua.
   - Tìm các sản phẩm **tương tự** với những gì bạn đã thích trước đó.

---

**Cả hai phương pháp** giúp bạn **tìm thấy những thứ bạn có thể thích** mà không cần phải tìm kiếm quá nhiều! 🚀

### **Tóm tắt về các phương pháp gợi ý**

| **Phương pháp**                       | **Content-Based Filtering**                         | **Collaborative Filtering**                       | **Hybrid (kết hợp cả hai)**                              |
|--------------------------------------|----------------------------------------------------|--------------------------------------------------|-----------------------------------------------------------|
| **Cách hoạt động**                   | Dựa trên **nội dung** của các sản phẩm (thể loại, diễn viên, mô tả). | Dựa trên **hành vi của người dùng** (lịch sử xem, mua hàng). | Kết hợp **nội dung sản phẩm** và **hành vi người dùng**. |
| **Ý tưởng chính**                    | Gợi ý sản phẩm **giống với những gì bạn đã thích**. | Gợi ý dựa trên **những người có sở thích giống bạn**. | Tìm ra **những sản phẩm phù hợp nhất** dựa trên cả hai phương pháp. |
| **Ví dụ dễ hiểu**                    | Bạn thích áo phông đen → Gợi ý các áo phông tương tự. | Bạn và bạn A đều thích Marvel → Gợi ý phim Marvel bạn chưa xem. | Bạn vừa xem phim Marvel, và người dùng tương tự thích Doctor Strange → Gợi ý Doctor Strange. |
| **Ưu điểm**                          | Tập trung vào **sở thích cá nhân** của từng người dùng. | Tìm ra các mục **mới mà bạn có thể thích** dựa trên cộng đồng. | **Tăng độ chính xác** và giải quyết vấn đề **cold start**. |
| **Nhược điểm**                       | Khó gợi ý sản phẩm mới mà bạn chưa từng tương tác. | Cần nhiều **dữ liệu từ người dùng** khác để hoạt động tốt. | Phức tạp hơn trong **triển khai và tối ưu**. |

---

### **Tóm tắt về Hybrid**
- **Hybrid** kết hợp **content-based** và **collaborative filtering** để tận dụng ưu điểm của cả hai, giúp hệ thống gợi ý trở nên **hiệu quả và chính xác hơn**. 🚀

# 4. Cold start

### **Cold Start là gì?**

**Cold Start** là một vấn đề phổ biến trong các **hệ thống gợi ý** (recommender systems), đặc biệt là các hệ thống sử dụng **Collaborative Filtering**.

---

### **1. Định nghĩa đơn giản**
- Cold Start xảy ra khi **hệ thống không có đủ thông tin** về người dùng hoặc sản phẩm để đưa ra gợi ý **chính xác**.
- Có thể hiểu đơn giản là khi hệ thống gặp **khó khăn trong việc gợi ý** vì **dữ liệu ban đầu quá ít hoặc không có**.

---

### **2. Các loại Cold Start**

| **Loại Cold Start**          | **Giải thích** |
|------------------------------|----------------|
| **User Cold Start**         | Xảy ra khi có **người dùng mới** vừa đăng ký, chưa có lịch sử mua sắm hoặc tương tác. |
| **Item Cold Start**         | Xảy ra khi có **sản phẩm mới** vừa được thêm vào, nhưng chưa có ai mua hoặc đánh giá nó. |
| **System Cold Start**       | Xảy ra khi **hệ thống hoàn toàn mới** và chưa có dữ liệu người dùng hoặc sản phẩm nào. |

---

### **3. Ví dụ minh họa**

- **User Cold Start**: Một người dùng mới đăng ký trên Netflix, nhưng hệ thống **chưa biết** họ thích thể loại phim nào, nên khó đưa ra gợi ý chính xác.
- **Item Cold Start**: Một **bộ phim mới** vừa ra mắt, nhưng chưa có ai đánh giá hoặc xem nó, vì vậy hệ thống khó đề xuất phim này cho người khác.
- **System Cold Start**: Một website thương mại điện tử mới được ra mắt, chưa có **dữ liệu người dùng** hoặc **danh sách sản phẩm**, nên hệ thống không thể gợi ý sản phẩm nào.

---

### **4. Cách giải quyết vấn đề Cold Start**

| **Phương pháp**              | **Mô tả** |
|------------------------------|------------|
| **Content-Based Filtering**  | Sử dụng thông tin về **nội dung sản phẩm** (mô tả, thể loại, từ khóa) để gợi ý. |
| **Sử dụng thông tin nhân khẩu học** | Dùng thông tin như **độ tuổi, giới tính, vị trí** để gợi ý cho người dùng mới. |
| **Gợi ý phổ biến nhất (Most Popular)** | Đề xuất những sản phẩm **phổ biến nhất** mà người dùng khác đang mua. |
| **Khuyến mãi và giới thiệu sản phẩm ngẫu nhiên** | Khuyến khích người dùng **tương tác** để thu thập dữ liệu ban đầu. |

---

### **Tóm tắt**
Cold Start là **vấn đề thiếu dữ liệu ban đầu** khiến hệ thống gợi ý gặp khó khăn trong việc đưa ra đề xuất chính xác. Bằng cách kết hợp các phương pháp như **content-based filtering** và **sử dụng dữ liệu nhân khẩu học**, hệ thống có thể giảm thiểu tác động của vấn đề này. 🚀