In [1]:
from sklearn.linear_model import LinearRegression, Ridge
from sklearn.cross_decomposition import PLSRegression
from sklearn.ensemble import RandomForestRegressor
from xgboost import XGBRegressor
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
import pandas as pd

In [2]:
#train data
train_data = pd.read_csv("../data/processed/train_data.csv")
train_data.info()
train_data.describe()
train_data.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1016 entries, 0 to 1015
Data columns (total 5 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   product_name   1016 non-null   object 
 1   rating         1016 non-null   float64
 2   comment_count  1016 non-null   float64
 3   price          1016 non-null   float64
 4   sold           1016 non-null   float64
dtypes: float64(4), object(1)
memory usage: 39.8+ KB


Unnamed: 0,product_name,rating,comment_count,price,sold
0,"Laptop giá rẻ phục vụ online, giải trí",4.7,0.01029,0.090962,0.002309
1,Bàn Chải Điện Làm Trắng Răng Halio Sonic White...,4.9,0.047412,0.041828,0.0266
2,"Sạc nhanh 120W, Củ sạc + Cáp sạc nhanh USB to ...",4.9,0.020123,0.003156,0.007514
3,"Robot hút bụi cao cấp Sweepin,Máy Hút Bụi Tự Đ...",4.9,0.003659,0.013108,0.000586
4,Củ sạc Sạc nhanh 33W OPPO / Củ cáp sạc nhanh O...,4.9,0.003201,0.001872,0.001163


In [3]:
#test data 
test_data = pd.read_csv("../data/processed/test_data.csv")
test_data.info()
test_data.describe()
test_data.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 436 entries, 0 to 435
Data columns (total 5 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   product_name   436 non-null    object 
 1   rating         436 non-null    float64
 2   comment_count  436 non-null    float64
 3   price          436 non-null    float64
 4   sold           436 non-null    float64
dtypes: float64(4), object(1)
memory usage: 17.2+ KB


Unnamed: 0,product_name,rating,comment_count,price,sold
0,[QT KHÔNG BÁN] Máy đo huyết áp Glucerna,5.0,0.000457,0.053506,0.000107
1,XiaoZhubangchu Máy Lọc Không Khí Máy Khử Trùng...,0.0,0.0,0.018191,0.007656
2,"Máy chơi game cầm tay Ps5, Bluetooth v5.1, Pin...",0.0,0.0,0.021348,0.001163
3,"【Miễn phí vận chuyển】Đèn học để bàn, Đèn bàn h...",4.8,0.002439,0.002553,0.001199
4,HUB 4 cổng Tốc độ cao USB 3.0 Mở rộng bộ chia ...,4.9,0.048479,0.000582,0.013278


In [7]:
# Chọn các biến độc lập và mục tiêu
X_train = train_data[['rating', 'comment_count']]
y_train = train_data['sold']

X_test = test_data[['rating', 'comment_count']]
y_test = test_data['sold']

# Huấn luyện mô hình Linear Regression
print("\nLinear Regression:")
lr_model = LinearRegression()
lr_model.fit(X_train, y_train)

# Dự đoán với Linear Regression
lr_pred = lr_model.predict(X_test)

# Đánh giá mô hình Linear Regression
lr_mae = mean_absolute_error(y_test, lr_pred)
lr_mse = mean_squared_error(y_test, lr_pred)
lr_r2 = r2_score(y_test, lr_pred)

print("\nĐánh giá mô hình Linear Regression:")
print(f"Mean Absolute Error (MAE): {lr_mae}")
print(f"Mean Squared Error (MSE): {lr_mse}")
print(f"R-squared (R2): {lr_r2}")

# Huấn luyện mô hình Ridge Regression
print("\nRidge Regression:")
ridge_model = Ridge(alpha=1.0)  # alpha là tham số điều chỉnh độ mạnh của regularization
ridge_model.fit(X_train, y_train)

# Dự đoán với Ridge Regression
ridge_pred = ridge_model.predict(X_test)

# Đánh giá mô hình Ridge Regression
ridge_mae = mean_absolute_error(y_test, ridge_pred)
ridge_mse = mean_squared_error(y_test, ridge_pred)
ridge_r2 = r2_score(y_test, ridge_pred)

print("\nĐánh giá mô hình Ridge Regression:")
print(f"Mean Absolute Error (MAE): {ridge_mae}")
print(f"Mean Squared Error (MSE): {ridge_mse}")
print(f"R-squared (R2): {ridge_r2}")

# Huấn luyện mô hình XGBoost
print("\nXGBoost Regressor:")
xgb_model = XGBRegressor(random_state=42, objective='reg:squarederror')
xgb_model.fit(X_train, y_train)

# Dự đoán với XGBoost
xgb_pred = xgb_model.predict(X_test)

# Đánh giá mô hình XGBoost
xgb_mae = mean_absolute_error(y_test, xgb_pred)
xgb_mse = mean_squared_error(y_test, xgb_pred)
xgb_r2 = r2_score(y_test, xgb_pred)

print("\nĐánh giá mô hình XGBoost:")
print(f"Mean Absolute Error (MAE): {xgb_mae}")
print(f"Mean Squared Error (MSE): {xgb_mse}")
print(f"R-squared (R2): {xgb_r2}")

# Huấn luyện mô hình Partial Least Squares (PLS)
print("\nPartial Least Squares (PLS):")
pls_model = PLSRegression(n_components=2)
pls_model.fit(X_train, y_train)

# Dự đoán với PLS
pls_pred = pls_model.predict(X_test)

# Đánh giá mô hình PLS
pls_mae = mean_absolute_error(y_test, pls_pred)
pls_mse = mean_squared_error(y_test, pls_pred)
pls_r2 = r2_score(y_test, pls_pred)

print("\nĐánh giá mô hình PLS:")
print(f"Mean Absolute Error (MAE): {pls_mae}")
print(f"Mean Squared Error (MSE): {pls_mse}")
print(f"R-squared (R2): {pls_r2}")

# Tổng hợp kết quả so sánh
results = pd.DataFrame({
    'Model': ['Linear Regression', 'Ridge Regression', 'XGBoost', 'PLS'],
    'MAE': [lr_mae, ridge_mae, xgb_mae, pls_mae],
    'MSE': [lr_mse, ridge_mse, xgb_mse, pls_mse],
    'R2': [lr_r2, ridge_r2, xgb_r2, pls_r2]
})

print("\nSo sánh hiệu năng các mô hình:")
print(results)




Linear Regression:

Đánh giá mô hình Linear Regression:
Mean Absolute Error (MAE): 0.010843603230493222
Mean Squared Error (MSE): 0.00039348383811552975
R-squared (R2): 0.5031894221672109

Ridge Regression:

Đánh giá mô hình Ridge Regression:
Mean Absolute Error (MAE): 0.011392184937873076
Mean Squared Error (MSE): 0.00039616055075379695
R-squared (R2): 0.49980981918560274

XGBoost Regressor:

Đánh giá mô hình XGBoost:
Mean Absolute Error (MAE): 0.01066317479566777
Mean Squared Error (MSE): 0.00041424184325733585
R-squared (R2): 0.4769804765125516

Partial Least Squares (PLS):

Đánh giá mô hình PLS:
Mean Absolute Error (MAE): 0.01084360323049322
Mean Squared Error (MSE): 0.00039348383811552986
R-squared (R2): 0.5031894221672107

So sánh hiệu năng các mô hình:
               Model       MAE       MSE        R2
0  Linear Regression  0.010844  0.000393  0.503189
1   Ridge Regression  0.011392  0.000396  0.499810
2            XGBoost  0.010663  0.000414  0.476980
3                PLS  0.0

# Dự đoán nhu cầu mua hàng của người tiêu dùng

## Câu hỏi
Làm thế nào để dự đoán chính xác nhu cầu mua hàng của người tiêu dùng dựa trên dữ liệu về xếp hạng sản phẩm (rating) và số lượng bình luận (comment_count)?

## Lợi ích khi trả lời câu hỏi
1. **Hiểu rõ nhu cầu của người tiêu dùng**:
   - Dự đoán nhu cầu mua hàng giúp nhà bán lẻ hoặc doanh nghiệp tối ưu hóa lượng hàng tồn kho và chiến lược kinh doanh.
2. **Tối ưu hóa doanh thu**:
   - Bằng cách đáp ứng đúng sản phẩm mà người tiêu dùng có nhu cầu, doanh nghiệp có thể tăng khả năng bán hàng.
3. **Cá nhân hóa trải nghiệm khách hàng**:
   - Phân tích các yếu tố ảnh hưởng đến nhu cầu mua hàng có thể giúp doanh nghiệp đề xuất các sản phẩm phù hợp hơn cho từng nhóm khách hàng.

## Làm sao để trả lời câu hỏi bằng dữ liệu
1. **Thu thập dữ liệu**:
   - Dữ liệu cần thiết bao gồm:
     - `rating`: Xếp hạng của sản phẩm.
     - `comment_count`: Số lượng bình luận.
     - `sold`: Số lượng sản phẩm đã bán (biến mục tiêu).

2. **Tiền xử lý dữ liệu**:
   - Loại bỏ dữ liệu bị thiếu hoặc bất thường.
   - Chuẩn hóa các giá trị nếu cần thiết (ví dụ: xếp hạng có thể được chuẩn hóa từ 0 đến 1).

3. **Xây dựng và đánh giá mô hình dự đoán**:
   - Sử dụng các thuật toán hồi quy (Linear Regression, Ridge Regression, XGBoost, Partial Least Squares).
   - Đánh giá mô hình dựa trên các chỉ số hiệu năng:
     - **Mean Absolute Error (MAE)**: Đánh giá độ chênh lệch trung bình.
     - **Mean Squared Error (MSE)**: Đánh giá mức độ ảnh hưởng của các sai số lớn.
     - **R-squared (R²)**: Đánh giá mức độ giải thích phương sai dữ liệu.

4. **So sánh hiệu năng mô hình**:
   - **Linear Regression** và **PLS** có R² cao nhất (0.503), MSE thấp nhất (0.000393), phù hợp để dự đoán nhu cầu mua hàng.
   - **XGBoost** có MAE nhỏ nhất (0.010663), nhưng khả năng giải thích phương sai thấp hơn.

5. **Triển khai mô hình**:
   - Chọn mô hình tốt nhất (Linear Regression hoặc PLS) để triển khai dự đoán nhu cầu mua hàng.
   - Xây dựng hệ thống tự động cập nhật dữ liệu và dự đoán theo thời gian thực.

## Tổng hợp hiệu năng mô hình:
| Model               | MAE       | MSE       | R²        |
|---------------------|-----------|-----------|-----------|
| Linear Regression   | 0.010844  | 0.000393  | 0.503189  |
| Ridge Regression    | 0.011392  | 0.000396  | 0.499810  |
| XGBoost             | 0.010663  | 0.000414  | 0.476980  |
| Partial Least Squares (PLS) | 0.010844  | 0.000393  | 0.503189  |

**Lựa chọn mô hình**: Linear Regression hoặc PLS là mô hình phù hợp nhất để dự đoán nhu cầu mua hàng của người tiêu dùng.
