# PIMA INDIANS DIABETES - Thống kê mô tả

## Import thư viện

In [8]:
import numpy as np
import pandas as pd
from scipy import stats

## Đọc dữ liệu

In [9]:
diabetes_data = pd.read_csv("./data/diabetes.csv")
diabetes_data.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


## Kiểm tra thông tin dữ liệu

In [10]:
diabetes_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 768 entries, 0 to 767
Data columns (total 9 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Pregnancies               768 non-null    int64  
 1   Glucose                   768 non-null    int64  
 2   BloodPressure             768 non-null    int64  
 3   SkinThickness             768 non-null    int64  
 4   Insulin                   768 non-null    int64  
 5   BMI                       768 non-null    float64
 6   DiabetesPedigreeFunction  768 non-null    float64
 7   Age                       768 non-null    int64  
 8   Outcome                   768 non-null    int64  
dtypes: float64(2), int64(7)
memory usage: 54.1 KB


Chọn Glucose vì nó:

- Là chỉ số lâm sàng quan trọng nhất trong chẩn đoán tiểu đường.

- Có tương quan mạnh với Outcome.

- Có phân bố rộng và nhiều biến động, dễ minh họa các chỉ số thống kê mô tả.

## Tính mean, median, mode, variance, standard deviation, range, percentile, quartile, interquartile range (IQR) (Glucose)

In [11]:
# Mean
data_mean = np.mean(diabetes_data["Glucose"])
print("Mean:", data_mean)

# Median
data_median = np.median(diabetes_data["Glucose"])
print("Median:", data_median)

# Mode
data_mode = stats.mode(diabetes_data["Glucose"], keepdims=True)
print("Mode:", data_mode)

# Variance
data_variance = np.var(diabetes_data["Glucose"])
print("Variance:", data_variance)

# Standard Deviation
data_sd = np.std(diabetes_data["Glucose"])
print("Std:", data_sd)

# Max
data_max = np.max(diabetes_data["Glucose"])
print("Max:", data_max)

# Min
data_min = np.min(diabetes_data["Glucose"])
print("Min:", data_min)

# Range
data_range = data_max - data_min
print("Range:", data_range)

# Percentile 
data_percentile = np.percentile(diabetes_data["Glucose"], 60)
print("60th percentile:", data_percentile)

# Quartile
data_quartile = np.quantile(diabetes_data["Glucose"], 0.75)
print("Quartile:", data_quartile)

# IQR
data_IQR = stats.iqr(diabetes_data["Glucose"])
print("IQR:", data_IQR)

Mean: 120.89453125
Median: 117.0
Mode: ModeResult(mode=array([99]), count=array([17]))
Variance: 1020.9172617594401
Std: 31.95179590820272
Max: 199
Min: 0
Range: 199
60th percentile: 125.0
Quartile: 140.25
IQR: 41.25


- Mean (trung bình): mức đường huyết trung bình khi test của các bệnh nhân.

- Median (trung vị): 50% bệnh nhân có mức Glucose thấp hơn giá trị này, 50% cao hơn.

- Mode (mốt): mức Glucose xuất hiện nhiều nhất trong dataset.

- Variance (phương sai): mức độ chênh lệch đường huyết giữa các bệnh nhân.

- Standard Deviation (độ lệch chuẩn): trung bình mỗi bệnh nhân lệch bao nhiêu so với đường huyết trung bình.

- Min/Max (giá trị nhỏ nhất/lớn nhất): bệnh nhân có Glucose thấp nhất và cao nhất.

- Range (khoảng): chênh lệch giữa Glucose cao nhất và thấp nhất.

- Percentile (60%): 60% bệnh nhân có Glucose thấp hơn hoặc bằng giá trị này.

- Quartiles (Q1, Q2, Q3): phân chia Glucose của bệnh nhân thành 4 nhóm (thấp, trung bình thấp, trung bình cao, cao).

- IQR (Q3 – Q1): độ trải rộng của 50% bệnh nhân nằm giữa → giúp phát hiện người có Glucose bất thường (outliers).

## Xử lý dữ liệu

## Loại bỏ dữ liệu trùng lặp

In [12]:
diabetes_data_duplicate = diabetes_data.drop_duplicates()
diabetes_data.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


## Thay thế dữ liệu và thay đổi định dạng của dữ liệu

In [13]:
# Thay đổi cột Outcome -> phân loại Diabetes, No Diabetes
diabetes_data['Outcome_replaced'] = diabetes_data['Outcome'].replace(
    [0,1],
    ['No Diabetes','Diabetes']
)

# Đổi kiểu dữ liệu: Glucose từ float sang int
diabetes_data['Glucose_changed'] = diabetes_data['Glucose'].astype(int)

## Xử lý dữ liệu thiếu

In [14]:
# Kiểm tra missing
print(diabetes_data.isnull().sum())
# Điền thiếu bằng median
diabetes_data['Insulin'] = diabetes_data['Insulin'].fillna(diabetes_data['Insulin'].median())
# Drop missing nếu cần
diabetes_data_withoutna = diabetes_data.dropna(how='any')
diabetes_data

Pregnancies                 0
Glucose                     0
BloodPressure               0
SkinThickness               0
Insulin                     0
BMI                         0
DiabetesPedigreeFunction    0
Age                         0
Outcome                     0
Outcome_replaced            0
Glucose_changed             0
dtype: int64


Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome,Outcome_replaced,Glucose_changed
0,6,148,72,35,0,33.6,0.627,50,1,Diabetes,148
1,1,85,66,29,0,26.6,0.351,31,0,No Diabetes,85
2,8,183,64,0,0,23.3,0.672,32,1,Diabetes,183
3,1,89,66,23,94,28.1,0.167,21,0,No Diabetes,89
4,0,137,40,35,168,43.1,2.288,33,1,Diabetes,137
...,...,...,...,...,...,...,...,...,...,...,...
763,10,101,76,48,180,32.9,0.171,63,0,No Diabetes,101
764,2,122,70,27,0,36.8,0.340,27,0,No Diabetes,122
765,5,121,72,23,112,26.2,0.245,30,0,No Diabetes,121
766,1,126,60,0,0,30.1,0.349,47,1,Diabetes,126
