In [177]:
from sklearn import linear_model
from sklearn.metrics import r2_score, mean_squared_error
from sklearn.preprocessing import MinMaxScaler

import pandas as pd
import math
import numpy as np
import matplotlib.pyplot as plt

In [178]:
diabetes = pd.read_csv('./data.txt', sep='\t')
print("Số chiều của bộ dữ liệu: ", diabetes.shape)
diabetes

Số chiều của bộ dữ liệu:  (442, 11)


Unnamed: 0,AGE,SEX,BMI,BP,S1,S2,S3,S4,S5,S6,Y
0,59,2,32.1,101.00,157,93.2,38.0,4.00,4.8598,87,151
1,48,1,21.6,87.00,183,103.2,70.0,3.00,3.8918,69,75
2,72,2,30.5,93.00,156,93.6,41.0,4.00,4.6728,85,141
3,24,1,25.3,84.00,198,131.4,40.0,5.00,4.8903,89,206
4,50,1,23.0,101.00,192,125.4,52.0,4.00,4.2905,80,135
...,...,...,...,...,...,...,...,...,...,...,...
437,60,2,28.2,112.00,185,113.8,42.0,4.00,4.9836,93,178
438,47,2,24.9,75.00,225,166.0,42.0,5.00,4.4427,102,104
439,60,2,24.9,99.67,162,106.6,43.0,3.77,4.1271,95,132
440,36,1,30.0,95.00,201,125.2,42.0,4.79,5.1299,85,220


In [179]:
mms = MinMaxScaler()
def scale_columns(df, cols):
    for col in cols:
        df[col] = pd.DataFrame(mms.fit_transform(pd.DataFrame(df[col])), columns=[col])
    return df
diabetes_scaled = scale_columns(diabetes, diabetes.columns[:-1])

In [180]:
diabetes_arr = diabetes_scaled.to_numpy()

In [181]:
diabetes_train = {
    'data': diabetes_arr[:400, :-1],
    'target': diabetes_arr[:400, -1]
}

diabetes_test = {
    'data': diabetes_arr[400:, :-1],
    'target': diabetes_arr[400:, -1]
}

In [182]:
# Chèn giá trị 1 vào đầu của mỗi mẫu dữ liệu quan sát, giá trị này tương ứng với trọng số w0 
one_train_arr = np.ones((diabetes_train['data'].shape[0], 1))
A_train = np.concatenate((one_train_arr, diabetes_train['data']), axis=1) 

#Tính toán w theo công thức đã cho
Q = np.dot(A_train.T, A_train)
J = np.dot(A_train.T, diabetes_train['target'])
w = np.dot(np.linalg.pinv(Q), J)

print("[w0, w1,..., wn] = ", w)

[w0, w1,..., wn] =  [   1.89845203    1.09602218  -22.72575768  136.05975295   73.31637773
 -211.10687859  139.94765717   23.67057925   48.55148826  183.46255187
   24.24508984]


In [183]:
one_test_arr = np.ones((diabetes_test['data'].shape[0], 1))
A_test = np.concatenate((one_test_arr, diabetes_test['data']), axis=1) 

diabetes_test_target_predicted = np.dot(A_test, w)

print("Kết quả dự đoán chỉ số của 7 bệnh nhân đầu tiên trong 42 bệnh nhân của tập test: \n", diabetes_test_target_predicted[:7])
print("Kết quả thực tế chỉ số của 7 bệnh nhân đầu tiên trong 42 bệnh nhân của tập test: \n", diabetes_test['target'][:7])

Kết quả dự đoán chỉ số của 7 bệnh nhân đầu tiên trong 42 bệnh nhân của tập test: 
 [185.39410409  90.34025895 152.32680043 250.8659631  198.45798721
 281.11608385  50.83212934]
Kết quả thực tế chỉ số của 7 bệnh nhân đầu tiên trong 42 bệnh nhân của tập test: 
 [175.  93. 168. 275. 293. 281.  72.]


In [184]:
rmse = math.sqrt(mean_squared_error(diabetes_test['target'], diabetes_test_target_predicted))
print(f'RMSE = {rmse}')

RMSE = 40.84983849502129


In [185]:
regr = linear_model.LinearRegression()
regr.fit(diabetes_train['data'], diabetes_train['target'])
print("[w1, w2,..., wn] = ", regr.coef_)
print("w0 = ", regr.intercept_)

[w1, w2,..., wn] =  [   1.09602218  -22.72575768  136.05975295   73.31637773 -211.10687859
  139.94765717   23.67057925   48.55148826  183.46255187   24.24508984]
w0 =  1.8984520285978874


In [186]:
diabetes_test_target_predicted = regr.predict(diabetes_test['data'])

print("Kết quả dự đoán chỉ số của 7 bệnh nhân đầu tiên trong 42 bệnh nhân của tập test: \n", diabetes_test_target_predicted[:7])
print("Kết quả thực tế chỉ số của 7 bệnh nhân đầu tiên trong 42 bệnh nhân của tập test: \n", diabetes_test['target'][:7])

Kết quả dự đoán chỉ số của 7 bệnh nhân đầu tiên trong 42 bệnh nhân của tập test: 
 [185.39410409  90.34025895 152.32680043 250.8659631  198.45798721
 281.11608385  50.83212934]
Kết quả thực tế chỉ số của 7 bệnh nhân đầu tiên trong 42 bệnh nhân của tập test: 
 [175.  93. 168. 275. 293. 281.  72.]


In [187]:
rmse = math.sqrt(mean_squared_error(diabetes_test['target'], diabetes_test_target_predicted))
print(f'RMSE = {rmse}')

RMSE = 40.84983849501814
