# 2.2.3. Bài tập thực hành 1: Xây dựng mô hình SVM trên dữ liệu bệnh tiểu đường

Dữ liệu: `diabetes_prediction_dataset.csv` từ Kaggle (partial data được cung cấp).

**Mục tiêu:** Xây dựng mô hình SVM để dự đoán bệnh tiểu đường (target: 0 - không, 1 - có).

Các bước:
1. Tải và chuẩn bị dữ liệu.
2. Tạo mô hình SVM.
3. Đánh giá độ chính xác.
4. Tìm kernel tối ưu.

In [5]:
# Import thư viện cần thiết
import pandas as pd
import numpy as np
import io
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn import svm

# Load partial CSV data (thay thế bằng full file nếu có)
df = pd.read_csv('diabetes_prediction_dataset.csv')

# Xử lý dữ liệu: Encode categorical vars và drop NaN
df = df.dropna()
le_gender = LabelEncoder()
df['gender'] = le_gender.fit_transform(df['gender'])
le_smoking = LabelEncoder()
df['smoking_history'] = le_smoking.fit_transform(df['smoking_history'].astype(str))

# Tách features và target
X = df.drop('diabetes', axis=1)
y = df['diabetes']

# Split 80:20 stratified
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=101, stratify=y)

print(f'Shape: {df.shape}')
print(df['diabetes'].value_counts(normalize=True))

Shape: (100000, 9)
diabetes
0    0.915
1    0.085
Name: proportion, dtype: float64


## 1. Tải dữ liệu, nạp dữ liệu, xem thông tin các feature và chuẩn bị dữ liệu

In [6]:
# Hiển thị info
df.info()
df.describe()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 9 columns):
 #   Column               Non-Null Count   Dtype  
---  ------               --------------   -----  
 0   gender               100000 non-null  int64  
 1   age                  100000 non-null  float64
 2   hypertension         100000 non-null  int64  
 3   heart_disease        100000 non-null  int64  
 4   smoking_history      100000 non-null  int64  
 5   bmi                  100000 non-null  float64
 6   HbA1c_level          100000 non-null  float64
 7   blood_glucose_level  100000 non-null  int64  
 8   diabetes             100000 non-null  int64  
dtypes: float64(3), int64(6)
memory usage: 6.9 MB


Unnamed: 0,gender,age,hypertension,heart_disease,smoking_history,bmi,HbA1c_level,blood_glucose_level,diabetes
count,100000.0,100000.0,100000.0,100000.0,100000.0,100000.0,100000.0,100000.0,100000.0
mean,0.41466,41.885856,0.07485,0.03942,2.17965,27.320767,5.527507,138.05806,0.085
std,0.493031,22.51684,0.26315,0.194593,1.889659,6.636783,1.070672,40.708136,0.278883
min,0.0,0.08,0.0,0.0,0.0,10.01,3.5,80.0,0.0
25%,0.0,24.0,0.0,0.0,0.0,23.63,4.8,100.0,0.0
50%,0.0,43.0,0.0,0.0,3.0,27.32,5.8,140.0,0.0
75%,1.0,60.0,0.0,0.0,4.0,29.58,6.2,159.0,0.0
max,2.0,80.0,1.0,1.0,5.0,95.69,9.0,300.0,1.0


## 2. Tạo mô hình SVM với dữ liệu đã chuẩn bị

In [7]:
# SVM với kernel mặc định (rbf)
clf = svm.SVC(random_state=101)
clf.fit(X_train, y_train)
print('Mô hình đã huấn luyện thành công!')

Mô hình đã huấn luyện thành công!


## 3. Đánh giá độ chính xác của mô hình

In [8]:
train_acc = clf.score(X_train, y_train)
test_acc = clf.score(X_test, y_test)
print(f'Training accuracy: {train_acc:.4f}')
print(f'Test accuracy: {test_acc:.4f}')

Training accuracy: 0.9479
Test accuracy: 0.9483


## 4. Tìm tham số kernel tối ưu cho mô hình SVM

In [None]:
kernels = ['linear', 'poly', 'rbf', 'sigmoid']
best_val_acc = -1
best_kernel = None
best_clf = None

for kernel in kernels:
    clf_k = svm.SVC(kernel=kernel, random_state=101, probability=True)
    clf_k.fit(X_train, y_train)
    acc = clf_k.score(X_test, y_test)
    print(f'{kernel} kernel Test accuracy: {acc:.4f}')
    if acc > best_val_acc:
        best_val_acc = acc
        best_kernel = kernel
        best_clf = clf_k

print(f'Best kernel: {best_kernel} with accuracy: {best_val_acc:.4f}')