In [1]:
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
import pandas as pd
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.neighbors import KNeighborsRegressor

In [2]:
#train data
train_data = pd.read_csv("../data/processed/train_data.csv")
train_data.info()
train_data.describe()
train_data.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1016 entries, 0 to 1015
Data columns (total 5 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   product_name   1016 non-null   object 
 1   rating         1016 non-null   float64
 2   comment_count  1016 non-null   float64
 3   price          1016 non-null   float64
 4   sold           1016 non-null   float64
dtypes: float64(4), object(1)
memory usage: 39.8+ KB


Unnamed: 0,product_name,rating,comment_count,price,sold
0,"Laptop giá rẻ phục vụ online, giải trí",4.7,0.01029,0.090962,0.002309
1,Bàn Chải Điện Làm Trắng Răng Halio Sonic White...,4.9,0.047412,0.041828,0.0266
2,"Sạc nhanh 120W, Củ sạc + Cáp sạc nhanh USB to ...",4.9,0.020123,0.003156,0.007514
3,"Robot hút bụi cao cấp Sweepin,Máy Hút Bụi Tự Đ...",4.9,0.003659,0.013108,0.000586
4,Củ sạc Sạc nhanh 33W OPPO / Củ cáp sạc nhanh O...,4.9,0.003201,0.001872,0.001163


In [3]:
#test data 
test_data = pd.read_csv("../data/processed/test_data.csv")
test_data.info()
test_data.describe()
test_data.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 436 entries, 0 to 435
Data columns (total 5 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   product_name   436 non-null    object 
 1   rating         436 non-null    float64
 2   comment_count  436 non-null    float64
 3   price          436 non-null    float64
 4   sold           436 non-null    float64
dtypes: float64(4), object(1)
memory usage: 17.2+ KB


Unnamed: 0,product_name,rating,comment_count,price,sold
0,[QT KHÔNG BÁN] Máy đo huyết áp Glucerna,5.0,0.000457,0.053506,0.000107
1,XiaoZhubangchu Máy Lọc Không Khí Máy Khử Trùng...,0.0,0.0,0.018191,0.007656
2,"Máy chơi game cầm tay Ps5, Bluetooth v5.1, Pin...",0.0,0.0,0.021348,0.001163
3,"【Miễn phí vận chuyển】Đèn học để bàn, Đèn bàn h...",4.8,0.002439,0.002553,0.001199
4,HUB 4 cổng Tốc độ cao USB 3.0 Mở rộng bộ chia ...,4.9,0.048479,0.000582,0.013278


In [4]:
# Chọn các biến độc lập và mục tiêu
X_train = train_data[[ 'comment_count', 'sold']]  # Biến độc lập
y_train = train_data['rating']  # Biến mục tiêu (giá)

X_test = test_data[[ 'comment_count', 'sold']]  # Biến độc lập
y_test = test_data['rating']  # Biến mục tiêu (giá)

# Kết quả lưu trữ cho từng mô hình
results_summary = []

# 1. Gradient Boosting Regressor
print("\nGradient Boosting Regressor:")
gb_model = GradientBoostingRegressor(n_estimators=100, learning_rate=0.1, random_state=42)
gb_model.fit(X_train, y_train)

gb_pred = gb_model.predict(X_test)

# Đánh giá mô hình
gb_mae = mean_absolute_error(y_test, gb_pred)
gb_mse = mean_squared_error(y_test, gb_pred)
gb_r2 = r2_score(y_test, gb_pred)
results_summary.append({"Model": "Gradient Boosting", "MAE": gb_mae, "MSE": gb_mse, "R2": gb_r2})

print(f"Mean Absolute Error (MAE): {gb_mae}")
print(f"Mean Squared Error (MSE): {gb_mse}")
print(f"R-squared (R2): {gb_r2}")

# 2. Decision Tree Regressor
print("\nDecision Tree Regressor:")
dt_model = DecisionTreeRegressor(random_state=42)
dt_model.fit(X_train, y_train)

dt_pred = dt_model.predict(X_test)

# Đánh giá mô hình
dt_mae = mean_absolute_error(y_test, dt_pred)
dt_mse = mean_squared_error(y_test, dt_pred)
dt_r2 = r2_score(y_test, dt_pred)
results_summary.append({"Model": "Decision Tree", "MAE": dt_mae, "MSE": dt_mse, "R2": dt_r2})

print(f"Mean Absolute Error (MAE): {dt_mae}")
print(f"Mean Squared Error (MSE): {dt_mse}")
print(f"R-squared (R2): {dt_r2}")

# 3. Random Forest Regressor
print("\nRandom Forest Regressor:")
rf_model = RandomForestRegressor(n_estimators=100, random_state=42)
rf_model.fit(X_train, y_train)

rf_pred = rf_model.predict(X_test)

# Đánh giá mô hình
rf_mae = mean_absolute_error(y_test, rf_pred)
rf_mse = mean_squared_error(y_test, rf_pred)
rf_r2 = r2_score(y_test, rf_pred)
results_summary.append({"Model": "Random Forest", "MAE": rf_mae, "MSE": rf_mse, "R2": rf_r2})

print(f"Mean Absolute Error (MAE): {rf_mae}")
print(f"Mean Squared Error (MSE): {rf_mse}")
print(f"R-squared (R2): {rf_r2}")

# 4. K-Nearest Neighbors Regressor
print("\nK-Nearest Neighbors Regressor:")
knn_model = KNeighborsRegressor(n_neighbors=5)
knn_model.fit(X_train, y_train)

knn_pred = knn_model.predict(X_test)

# Đánh giá mô hình
knn_mae = mean_absolute_error(y_test, knn_pred)
knn_mse = mean_squared_error(y_test, knn_pred)
knn_r2 = r2_score(y_test, knn_pred)
results_summary.append({"Model": "K-Nearest Neighbors", "MAE": knn_mae, "MSE": knn_mse, "R2": knn_r2})

print(f"Mean Absolute Error (MAE): {knn_mae}")
print(f"Mean Squared Error (MSE): {knn_mse}")
print(f"R-squared (R2): {knn_r2}")

# Tổng hợp kết quả
results_df = pd.DataFrame(results_summary)
print("\nSo sánh hiệu năng các mô hình:")
print(results_df)



Gradient Boosting Regressor:
Mean Absolute Error (MAE): 0.09662878641455111
Mean Squared Error (MSE): 0.09336372111213338
R-squared (R2): 0.9838506667460614

Decision Tree Regressor:
Mean Absolute Error (MAE): 0.1119266055045872
Mean Squared Error (MSE): 0.14318807339449544
R-squared (R2): 0.9752324362429828

Random Forest Regressor:
Mean Absolute Error (MAE): 0.10352628877238983
Mean Squared Error (MSE): 0.10893836117939838
R-squared (R2): 0.9811566861531679

K-Nearest Neighbors Regressor:
Mean Absolute Error (MAE): 0.1462844036697248
Mean Squared Error (MSE): 0.307202752293578
R-squared (R2): 0.9468624475950604

So sánh hiệu năng các mô hình:
                 Model       MAE       MSE        R2
0    Gradient Boosting  0.096629  0.093364  0.983851
1        Decision Tree  0.111927  0.143188  0.975232
2        Random Forest  0.103526  0.108938  0.981157
3  K-Nearest Neighbors  0.146284  0.307203  0.946862


# Câu hỏi
Số lượng bán và số lượt bình luận ảnh hưởng thế nào tới đánh giá của sản phẩm?

## Lợi ích khi trả lời câu hỏi
Bằng cách xác định mô hình hồi quy tốt nhất, chúng ta có thể:
1. Dự đoán chính xác xếp hạng của người dùng dựa trên mức độ tương tác (số lượng bình luận) và các chỉ số mua hàng (số lượng đã bán).
2. Nâng cao việc ra quyết định kinh doanh bằng cách tập trung vào các yếu tố ảnh hưởng mạnh đến xếp hạng.
3. Tối ưu hóa phân bổ tài nguyên bằng cách tận dụng mô hình dự đoán hiệu quả nhất.

## Làm sao để trả lời câu hỏi bằng dữ liệu
1. **Chuẩn bị dữ liệu:**
   - Chia dữ liệu thành tập huấn luyện và tập kiểm tra.
   - Sử dụng 'comment_count' và 'sold' làm biến độc lập (X) và 'rating' làm biến phụ thuộc (y).

2. **Huấn luyện mô hình:**
   - Huấn luyện các mô hình sau:
     - Gradient Boosting Regressor
     - Decision Tree Regressor
     - Random Forest Regressor
     - K-Nearest Neighbors Regressor

3. **Các chỉ số đánh giá:**
   - Đánh giá từng mô hình bằng cách sử dụng:
     - Mean Absolute Error (MAE): Đo lường độ lớn trung bình của lỗi.
     - Mean Squared Error (MSE): Phạt lỗi lớn hơn.
     - R-squared (R2): Giải thích tỷ lệ phương sai được mô hình nắm bắt.

4. **So sánh hiệu suất:**
   - Tổng hợp kết quả thành bảng:

```
                 Model       MAE       MSE        R2
0    Gradient Boosting  0.096629  0.093364  0.983851
1        Decision Tree  0.111927  0.143188  0.975232
2        Random Forest  0.103526  0.108938  0.981157
3  K-Nearest Neighbors  0.146284  0.307203  0.946862
```

5. **Kết luận:**
   - Gradient Boosting là mô hình có hiệu suất tốt nhất với MAE thấp nhất (0.096629), MSE thấp nhất (0.093364) và R2 cao nhất (0.983851).
   - Điều này chỉ ra rằng Gradient Boosting rất hiệu quả trong việc nắm bắt mối quan hệ giữa các đặc trưng ('comment_count' và 'sold') và biến mục tiêu ('rating').