In [1]:
# --- ĐOẠN 1: KHAI BÁO THƯ VIỆN & ĐỌC DỮ LIỆU ---
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, accuracy_score, confusion_matrix

In [2]:
# Đọc file CSV (Thay tên file nếu bạn đổi tên)
file_path = 'C:/Users/acer/OneDrive - Trường ĐH CNTT - University of Information Technology/NCKH/Machine Learning_Python/Data/diabetes.csv'
data = pd.read_csv(file_path)

In [3]:
# Xem 5 dòng đầu tiên để kiểm tra
print("Dữ liệu đã đọc thành công:")
print(data.head())

Dữ liệu đã đọc thành công:
   Pregnancies  Glucose  BloodPressure  SkinThickness  Insulin   BMI  \
0            6      148             72             35        0  33.6   
1            1       85             66             29        0  26.6   
2            8      183             64              0        0  23.3   
3            1       89             66             23       94  28.1   
4            0      137             40             35      168  43.1   

   DiabetesPedigreeFunction  Age  Outcome  
0                     0.627   50        1  
1                     0.351   31        0  
2                     0.672   32        1  
3                     0.167   21        0  
4                     2.288   33        1  


In [4]:
# --- ĐOẠN 2: CHIA DỮ LIỆU TRAIN/TEST ---

# Chọn các cột đặc trưng (Input X)
feature_cols = ['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness', 
                'Insulin', 'BMI', 'DiabetesPedigreeFunction', 'Age']
X = data[feature_cols]

# Chọn cột mục tiêu (Output y)
y = data['Outcome']

# Chia dữ liệu: 80% để Train, 20% để Test
# random_state=42 giúp giữ cố định cách chia để kết quả không bị đổi mỗi lần chạy
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(f"Số lượng mẫu Train: {len(X_train)}")
print(f"Số lượng mẫu Test: {len(X_test)}")

Số lượng mẫu Train: 614
Số lượng mẫu Test: 154


In [5]:
# --- ĐOẠN 3: HUẤN LUYỆN MÔ HÌNH LINEAR REGRESSION ---

# Khởi tạo mô hình
model = LinearRegression()

# Bắt đầu học từ dữ liệu Train
model.fit(X_train, y_train)

print("Đã huấn luyện xong!")

Đã huấn luyện xong!


In [6]:
# --- ĐOẠN 4: XEM HỆ SỐ BETA (TRỌNG SỐ) ---

print("Hệ số chặn (Bias/Intercept - Beta 0):", model.intercept_)
print("\nCác hệ số trọng số (Weights):")
for col_name, coef in zip(feature_cols, model.coef_):
    print(f"Beta_{col_name}: {coef:.5f}")

Hệ số chặn (Bias/Intercept - Beta 0): -0.9487546338208519

Các hệ số trọng số (Weights):
Beta_Pregnancies: 0.01047
Beta_Glucose: 0.00563
Beta_BloodPressure: -0.00228
Beta_SkinThickness: 0.00053
Beta_Insulin: -0.00028
Beta_BMI: 0.01504
Beta_DiabetesPedigreeFunction: 0.11126
Beta_Age: 0.00646


In [7]:
# --- ĐOẠN 5: DỰ ĐOÁN & ÁP DỤNG NGƯỠNG (THRESHOLD) ---

# 1. Dự đoán ra số thực (Continuous value)
y_pred_raw = model.predict(X_test)

# 2. Chuyển đổi: Nếu > 0.5 thì là 1 (Bệnh), ngược lại là 0 (Khỏe)
y_pred_class = [1 if val > 0.5 else 0 for val in y_pred_raw]

# In thử 10 kết quả đầu tiên để xem
print("Giá trị dự đoán thô (10 dòng đầu):", y_pred_raw[:10])
print("Giá trị sau khi cắt ngưỡng 0.5:  ", y_pred_class[:10])
print("Giá trị thực tế (Đáp án đúng):   ", y_test[:10].values)

Giá trị dự đoán thô (10 dòng đầu): [ 0.33550028  0.23809869  0.1510522   0.2401365   0.48142376  0.45257375
 -0.17450469  0.60662287  0.52417796  0.70476953]
Giá trị sau khi cắt ngưỡng 0.5:   [0, 0, 0, 0, 0, 0, 0, 1, 1, 1]
Giá trị thực tế (Đáp án đúng):    [0 0 0 0 0 0 0 0 0 0]


In [8]:
# --- ĐOẠN 6: ĐÁNH GIÁ HIỆU QUẢ ---

# Tính Mean Squared Error (MSE) - Sai số bình phương trung bình
mse = mean_squared_error(y_test, y_pred_raw)

# Tính Accuracy (Độ chính xác) - Tỷ lệ đoán đúng
acc = accuracy_score(y_test, y_pred_class)

print(f"MSE (Càng nhỏ càng tốt): {mse:.4f}")
print(f"Độ chính xác (Accuracy): {acc * 100:.2f}%")

# Ma trận nhầm lẫn (Confusion Matrix)
# [TN, FP]
# [FN, TP]
cm = confusion_matrix(y_test, y_pred_class)
print("\nMa trận nhầm lẫn:\n", cm)

MSE (Càng nhỏ càng tốt): 0.1710
Độ chính xác (Accuracy): 75.97%

Ma trận nhầm lẫn:
 [[80 19]
 [18 37]]
