In [1]:
import pandas as pd

# Read data
data = []
with open('vidu4_lin_reg.txt', 'r') as f:
    lines = f.readlines()
    for line in lines[1:]:  
        values = line.strip().split() 
        data.append([float(value) for value in values])  

df = pd.DataFrame(data, columns=['ID', 'TUOI', 'BIM', 'HA', 'GLUCOSE', 'CHOLESTEROL', 'BEDAYNTM'])

X = df[['TUOI', 'CHOLESTEROL', 'GLUCOSE', 'HA', 'BIM']]
y = df['BEDAYNTM']

In [2]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# Standardize data
X = StandardScaler().fit_transform(X)
# Train&Test Split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)



# MLP Regression

In [8]:
from sklearn.neural_network import MLPRegressor
from sklearn.metrics import mean_squared_error, r2_score
import time

# MLP Regression model
start_time_mlp = time.time()
mlp = MLPRegressor(solver='adam', hidden_layer_sizes=(30,),
                        activation= 'relu', max_iter=3000, random_state=2)
mlp.fit(X_train, y_train)
end_time_mlp = time.time()

time_training = end_time_mlp - start_time_mlp
print("Time training of MLP Regression model: ", time_training)

# Prediction on train&test
y_pred = mlp.predict(X_train)
y_pred_test = mlp.predict(X_test)

# Mean Squared Error
mse = mean_squared_error(y_train, y_pred)
print("\nMean Squared Error on Train data of ANN Regression:", mse)
# R2-Squared
r2 = r2_score(y_train, y_pred)
print("R2-Score on Train data of ANN Regression:", r2)

# Mean Squared Error
mse = mean_squared_error(y_test, y_pred_test)
print("\nMean Squared Error on Test data of ANN Regression:", mse)
# R2-Squared
r2 = r2_score(y_test, y_pred_test)
print("R2-Score on Test data of ANN Regression:", r2)


Time training of MLP Regression model:  0.058966875076293945

Mean Squared Error on Train data of ANN Regression: 0.07390861276324043
R2-Score on Train data of ANN Regression: 0.47607712641950173

Mean Squared Error on Test data of ANN Regression: 0.20677439701076072
R2-Score on Test data of ANN Regression: 0.11052820213142311


In [9]:
# Measure Predict Time on train data
predict_times_mlp = []
for i in range(100):  
    start_time_predict_mlp = time.time()
    y_pred = mlp.predict(X_train)
    end_time_predict_mlp = time.time()
    predict_times_mlp.append(end_time_predict_mlp - start_time_predict_mlp)

# Average Time
avg_time_predict_mlp = sum(predict_times_mlp) / len(predict_times_mlp)
print("Average time of MLP prediction on train data: ", avg_time_predict_mlp)

Average time of MLP prediction:  0.000340120792388916


In [10]:
# Measure Predict Time
predict_times_mlp = []
for i in range(100):  
    start_time_predict_mlp = time.time()
    y_pred_test = mlp.predict(X_test)
    end_time_predict_mlp = time.time()
    predict_times_mlp.append(end_time_predict_mlp - start_time_predict_mlp)

# Average Time
avg_time_predict_mlp = sum(predict_times_mlp) / len(predict_times_mlp)
print("Average time of MLP prediction on train data: ", avg_time_predict_mlp)

Average time of MLP prediction on train data:  0.0001518416404724121


# Linear Regression

In [12]:
from sklearn.linear_model import LinearRegression

# Linear Regression model
lr = LinearRegression()
lr.fit(X_train, y_train)

# Prediction
y_pred = lr.predict(X_test)

# Mean Squared Error
mse = mean_squared_error(y_test, y_pred)
print("Mean Squared Error of Linear Regression:", mse)
# R-Square
r2 = r2_score(y_test, y_pred)
print("R2-Score of Linear Regression:", r2)

Mean Squared Error of Linear Regression: 0.17851473088966158
R2-Score of Linear Regression: 0.23209149234182402


Mean Squared Error (MSE):

- Linear Regression: MSE của Linear Regression là 0.1785, nghĩa là sai số trung bình bình phương giữa dự đoán và giá trị thực khá thấp.
- ANN Regression: MSE của ANN Regression là 0.2068, cao hơn một chút so với Linear Regression, cho thấy dự đoán của ANN có sai số lớn hơn.
Kết quả cho thấy mô hình Linear Regression có độ chính xác dự đoán cao hơn so với ANN Regression trên dữ liệu này. Mức độ chênh lệch không quá lớn, nhưng Linear Regression vẫn vượt trội hơn.

R2 Score:

- Linear Regression: R2 là 0.2321, nghĩa là Linear Regression có thể giải thích khoảng 23.21% phương sai của biến mục tiêu dựa trên các biến độc lập. Đây không phải là một R2 cao, nhưng nó vẫn cao hơn so với ANN Regression.
- ANN Regression: R2 là 0.1105, thấp hơn nhiều so với Linear Regression. Điều này nghĩa là mô hình ANN chỉ giải thích được khoảng 11.05% phương sai, thể hiện ANN không bắt được mối quan hệ trong dữ liệu tốt bằng Linear Regression.