# Khám phá dữ liệu trên tập dữ liệu về bệnh tiểu đường

## 1. Chuẩn bị dữ liệu

In [23]:
import pandas as pd 
diabetes_data = pd.read_csv("diabetes.csv")
diabetes_data = diabetes_data[['Pregnancies','Glucose','BloodPressure','SkinThickness','Insulin','BMI','DiabetesPedigreeFunction','Age','Outcome']]


In [24]:
from IPython.display import display
display(diabetes_data.head(10).style.background_gradient(cmap='Greens'))


Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1
5,5,116,74,0,0,25.6,0.201,30,0
6,3,78,50,32,88,31.0,0.248,26,1
7,10,115,0,0,0,35.3,0.134,29,0
8,2,197,70,45,543,30.5,0.158,53,1
9,8,125,96,0,0,0.0,0.232,54,1


### 2. Kiểm tra dữ liệu và định dạng 

### 2.1. Kiểm tra dữ liệu trùng lặp

In [25]:
duplicate_count = diabetes_data.duplicated().sum()
print(f"Số dòng bị trùng lặp: {duplicate_count}")

# Hiển thị các dòng bị trùng lặp
duplicated_rows = diabetes_data[diabetes_data.duplicated(keep=False)]
print("Các dòng bị trùng lặp:")
display(duplicated_rows)


Số dòng bị trùng lặp: 0
Các dòng bị trùng lặp:


Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome


### 2.2. Kiểm tra dữ liệu bị thiếu 

In [26]:
missing_info = diabetes_data.isnull().sum()
missing_info
missing_percentage = (missing_info / len(diabetes_data)) * 100
missing_percentage


Pregnancies                 0.0
Glucose                     0.0
BloodPressure               0.0
SkinThickness               0.0
Insulin                     0.0
BMI                         0.0
DiabetesPedigreeFunction    0.0
Age                         0.0
Outcome                     0.0
dtype: float64

### 2.3. Kiểm tra định dạng dữ liệu

In [27]:
diabetes_data_info = diabetes_data.dtypes
diabetes_data_info


Pregnancies                   int64
Glucose                       int64
BloodPressure                 int64
SkinThickness                 int64
Insulin                       int64
BMI                         float64
DiabetesPedigreeFunction    float64
Age                           int64
Outcome                       int64
dtype: object

Tới đây, ta nhận thấy định dạng dữ liệu của tập dữ liệu không đồng nhất, nên ta sẽ đưa tất cả về cùng 1 định dạng là float64

In [28]:
diabetes_data = diabetes_data.astype('float64')


Kiểm tra lại, ta được tập dữ liệu đồng nhất định dạng như sau:

In [29]:
diabetes_data_info = diabetes_data.dtypes
diabetes_data_info


Pregnancies                 float64
Glucose                     float64
BloodPressure               float64
SkinThickness               float64
Insulin                     float64
BMI                         float64
DiabetesPedigreeFunction    float64
Age                         float64
Outcome                     float64
dtype: object

## 3. Thông tin đặc tả và thống kê mô tả

### 3.1. Thông tin đặc tả

Bộ dữ liệu này có 768 dòng, 9 cột

In [30]:
num_rows, num_cols = diabetes_data.shape
print(f"Số dòng của bộ dữ liệu: {num_rows}")
print(f"Số cột của bộ dữ liệu: {num_cols}")


Số dòng của bộ dữ liệu: 768
Số cột của bộ dữ liệu: 9


Thông tin mô tả của các cột
- **Pregnancies**: Số lần mang thai mà bệnh nhân đã từng trải qua. Đây là một yếu tố nguy cơ liên quan đến bệnh tiểu đường, đặc biệt là tiểu đường thai kỳ.
- **Glucose**: Nồng độ glucose (đường) trong máu lúc đói, đo bằng đơn vị mg/dL. Giá trị này phản ánh khả năng chuyển hóa đường của cơ thể.
- **BloodPressure**: Huyết áp tâm trương (mm Hg) đo được tại thời điểm khám. Huyết áp cao có thể liên quan đến nguy cơ mắc bệnh tiểu đường.
- **SkinThickness**: Độ dày nếp gấp da dưới cánh tay (mm), phản ánh lượng mỡ dưới da. Chỉ số này giúp đánh giá tình trạng béo phì.
- **Insulin**: Nồng độ insulin trong máu lúc đói (mu U/ml). Insulin là hormone điều hòa lượng đường huyết, giá trị này giúp đánh giá chức năng tuyến tụy.
- **BMI**: Chỉ số khối cơ thể (Body Mass Index), tính bằng kg/m². BMI cao là yếu tố nguy cơ của bệnh tiểu đường.
- **DiabetesPedigreeFunction**: Chỉ số phả hệ tiểu đường, phản ánh khả năng di truyền bệnh tiểu đường dựa trên lịch sử gia đình.
- **Age**: Tuổi của bệnh nhân (năm). Tuổi cao thường đi kèm với nguy cơ mắc bệnh tiểu đường tăng lên.
- **Outcome**: Kết quả chẩn đoán bệnh tiểu đường (1: mắc bệnh, 0: không mắc bệnh). Đây là biến mục tiêu của bài toán.


### 3.2. Thống kê mô tả

Thống kê các số liệu đặc trưng để mô tả chung bộ dữ liệu:

In [31]:
import numpy as np
from scipy import stats

# Tính toán các thống kê mô tả cho từng cột số liệu
desc_stats = {}

for col in diabetes_data.columns:
    if diabetes_data[col].dtype in [np.float64, np.int64]:
        data = diabetes_data[col].values

        mean = np.mean(data)
        median = np.median(data)
        mode = stats.mode(data, keepdims=True)[0][0]
        var = np.var(data, ddof=1)
        std = np.std(data, ddof=1)
        data_range = np.ptp(data)
        percentile_25 = np.percentile(data, 25)
        percentile_50 = np.percentile(data, 50)
        percentile_75 = np.percentile(data, 75)
        iqr = stats.iqr(data)
        
        desc_stats[col] = {
            'mean': mean,
            'median': median,
            'mode': mode,
            'variance': var,
            'std_dev': std,
            'range': data_range,
            'percentile_25': percentile_25,
            'percentile_50': percentile_50,
            'percentile_75': percentile_75,
            'iqr': iqr
        }

desc_stats_df = pd.DataFrame(desc_stats).T
desc_stats_df


Unnamed: 0,mean,median,mode,variance,std_dev,range,percentile_25,percentile_50,percentile_75,iqr
Pregnancies,3.845052,3.0,1.0,11.354056,3.369578,17.0,1.0,3.0,6.0,5.0
Glucose,120.894531,117.0,99.0,1022.248314,31.972618,199.0,99.0,117.0,140.25,41.25
BloodPressure,69.105469,72.0,70.0,374.647271,19.355807,122.0,62.0,72.0,80.0,18.0
SkinThickness,20.536458,23.0,0.0,254.473245,15.952218,99.0,0.0,23.0,32.0,32.0
Insulin,79.799479,30.5,0.0,13281.180078,115.244002,846.0,0.0,30.5,127.25,127.25
BMI,31.992578,32.0,32.0,62.159984,7.88416,67.1,27.3,32.0,36.6,9.3
DiabetesPedigreeFunction,0.471876,0.3725,0.254,0.109779,0.331329,2.342,0.24375,0.3725,0.62625,0.3825
Age,33.240885,29.0,22.0,138.303046,11.760232,60.0,24.0,29.0,41.0,17.0
Outcome,0.348958,0.0,0.0,0.227483,0.476951,1.0,0.0,0.0,1.0,1.0


## 4. Kiểm tra dữ liệu bất hợp lý

Chúng ta sẽ kiểm tra các bộ dữ liệu trên tập dữ liệu để tìm ra bộ dữ liệu không hợp lý (BMI = 0, Glucose = 0,...)

In [32]:
# Kiểm tra các dòng có giá trị bất hợp lý (BMI = 0, Glucose = 0, BloodPressure = 0, SkinThickness = 0, Insulin = 0)
unreasonable_rows = diabetes_data[
    (diabetes_data['BMI'] == 0) |
    (diabetes_data['Glucose'] == 0) |
    (diabetes_data['BloodPressure'] == 0) |
    (diabetes_data['SkinThickness'] == 0) |
    (diabetes_data['Insulin'] == 0)
]

print(f"Số dòng có giá trị bất hợp lý: {len(unreasonable_rows)}")
display(unreasonable_rows)


Số dòng có giá trị bất hợp lý: 376


Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6.0,148.0,72.0,35.0,0.0,33.6,0.627,50.0,1.0
1,1.0,85.0,66.0,29.0,0.0,26.6,0.351,31.0,0.0
2,8.0,183.0,64.0,0.0,0.0,23.3,0.672,32.0,1.0
5,5.0,116.0,74.0,0.0,0.0,25.6,0.201,30.0,0.0
7,10.0,115.0,0.0,0.0,0.0,35.3,0.134,29.0,0.0
...,...,...,...,...,...,...,...,...,...
761,9.0,170.0,74.0,31.0,0.0,44.0,0.403,43.0,1.0
762,9.0,89.0,62.0,0.0,0.0,22.5,0.142,33.0,0.0
764,2.0,122.0,70.0,27.0,0.0,36.8,0.340,27.0,0.0
766,1.0,126.0,60.0,0.0,0.0,30.1,0.349,47.0,1.0


Tiếp theo chúng ta sẽ xử lý các dòng dữ liệu bất hợp lý này

In [33]:
# Thay thế giá trị 0 ở các cột y tế bằng NaN
cols_to_replace = ['Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI']
diabetes_data[cols_to_replace] = diabetes_data[cols_to_replace].replace(0, np.nan)

# Xử lý: điền bằng trung vị (median) của từng cột
for col in cols_to_replace:
    median_value = diabetes_data[col].median()
    diabetes_data[col] = diabetes_data[col].fillna(median_value)


Sau đó, ta sẽ kiểm tra lại một lần nữa các dòng dữ liệu đã xử lý này

In [None]:
# Kiểm tra lại các dòng dữ liệu bất hợp lý sau khi đã xử lý (không còn giá trị 0 ở các cột y tế)
unreasonable_rows_after = diabetes_data[
    (diabetes_data['BMI'] == 0) |
    (diabetes_data['Glucose'] == 0) |
    (diabetes_data['BloodPressure'] == 0) |
    (diabetes_data['SkinThickness'] == 0) |
    (diabetes_data['Insulin'] == 0)
]

print(f"Số dòng có giá trị bất hợp lý sau xử lý: {len(unreasonable_rows_after)}")
display(unreasonable_rows_after)
