In [2]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression
from sklearn.metrics import accuracy_score, f1_score, precision_score, recall_score, mean_squared_error
from xgboost import XGBRegressor
from sklearn.neural_network import MLPRegressor

# Đọc dữ liệu từ tệp CSV
data = pd.read_csv('../../../data/BCP.csv')
output_file = '../../../data/BCP_predictions.csv'

# Loại bỏ cột 'Time' vì không sử dụng trong tính toán
data = data.drop(columns=['Time'])

# Xử lý các giá trị NaN
data.dropna(inplace=True)

# Chọn cột '440FI539' làm mục tiêu và các cột còn lại là đặc trưng
target_column = '440FI539'
features = [col for col in data.columns if col != target_column]

X = data[features]
y = data[target_column]

# Chia dữ liệu thành tập huấn luyện và tập kiểm tra
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Chuẩn hóa dữ liệu
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)


### 1. Hồi quy đơn biến (Univariate Regression)

In [3]:
# Huấn luyện mô hình hồi quy đơn biến
univariate_model = LinearRegression()
univariate_model.fit(X_train[:, 0].reshape(-1, 1), y_train)

# Dự đoán với mô hình hồi quy đơn biến
y_pred_univariate = univariate_model.predict(X_test[:, 0].reshape(-1, 1))

# Đánh giá mô hình hồi quy đơn biến
mse_univariate = mean_squared_error(y_test, y_pred_univariate)
print("Univariate Regression")
print(f"MSE: {mse_univariate}")


Univariate Regression
MSE: 0.00019320148767008001


### 2. Hồi quy đa biến (Multivariate Regression)

In [4]:
# Huấn luyện mô hình hồi quy đa biến
multivariate_model = LinearRegression()
multivariate_model.fit(X_train, y_train)

# Dự đoán với mô hình hồi quy đa biến
y_pred_multivariate = multivariate_model.predict(X_test)

# Đánh giá mô hình hồi quy đa biến
mse_multivariate = mean_squared_error(y_test, y_pred_multivariate)
print("Multivariate Regression")
print(f"MSE: {mse_multivariate}")


Multivariate Regression
MSE: 0.00017634528136417995


### 3. XGBoost

In [5]:
# Huấn luyện mô hình XGBoost
xgboost_model = XGBRegressor()
xgboost_model.fit(X_train, y_train)

# Dự đoán với mô hình XGBoost
y_pred_xgboost = xgboost_model.predict(X_test)

# Đánh giá mô hình XGBoost
mse_xgboost = mean_squared_error(y_test, y_pred_xgboost)
print("XGBoost")
print(f"MSE: {mse_xgboost}")


XGBoost
MSE: 8.13638742312531e-05


### 4. MLP (Multi-Layer Perceptron)

In [6]:
# Huấn luyện mô hình MLP
mlp_model = MLPRegressor(hidden_layer_sizes=(10,), max_iter=1000, random_state=42)
mlp_model.fit(X_train, y_train)

# Dự đoán với mô hình MLP
y_pred_mlp = mlp_model.predict(X_test)

# Đánh giá mô hình MLP
mse_mlp = mean_squared_error(y_test, y_pred_mlp)
print("MLP")
print(f"MSE: {mse_mlp}")


MLP
MSE: 0.08383364447821133


### 5. Mô hình kết hợp (Hybrid Model)

In [7]:
# Kết hợp kết quả dự đoán từ các mô hình hồi quy đa biến, XGBoost và MLP
y_pred_combined = (y_pred_multivariate  + y_pred_mlp) / 3

# Đánh giá mô hình kết hợp
mse_combined = mean_squared_error(y_test, y_pred_combined)
print("Hybrid Model")
print(f"MSE: {mse_combined}")


Hybrid Model
MSE: 1.6551879466205253


### Tổng kết

In [8]:
print("\nSummary of Results")
print("Univariate Regression")
print(f"MSE: {mse_univariate}")

print("\nMultivariate Regression")
print(f"MSE: {mse_multivariate}")

print("\nXGBoost")
print(f"MSE: {mse_xgboost}")

print("\nMLP")
print(f"MSE: {mse_mlp}")

print("\nHybrid Model")
print(f"MSE: {mse_combined}")



Summary of Results
Univariate Regression
MSE: 0.00019320148767008001

Multivariate Regression
MSE: 0.00017634528136417995

XGBoost
MSE: 8.13638742312531e-05

MLP
MSE: 0.08383364447821133

Hybrid Model
MSE: 1.6551879466205253
