# 1.1.4. Bài tập thực hành 2
#### Thực hiện thống kê mô tả trên tập dữ liệu về bệnh tiểu đường.

### Ý nghĩa các chỉ số thống kê cho Glucose:

**Mean (trung bình cộng)**: cho biết mức đường huyết trung bình của tất cả bệnh nhân trong tập dữ liệu. Ở đây ≈ 121.66, tức là nhìn chung đường huyết của bệnh nhân thường quanh mức 120 mg/dL.

**Median (trung vị)**: giá trị đường huyết nằm ở giữa khi sắp xếp toàn bộ dữ liệu. Ở đây là 117.0, nghĩa là 50% bệnh nhân có đường huyết ≤ 117 và 50% còn lại ≥ 117.

**Mode (mốt)**: giá trị đường huyết phổ biến nhất. Ở đây là 99, xuất hiện 17 lần → nhiều bệnh nhân có chỉ số Glucose bằng 99.

**Variance (phương sai) và Standard Deviation (độ lệch chuẩn)**: đo lường mức độ phân tán. Variance ≈ 925, Standard Deviation ≈ 30.4 → đường huyết bệnh nhân dao động khá nhiều quanh giá trị trung bình (±30 mg/dL).

**Min – Max**: đường huyết thấp nhất là 44, cao nhất là 199 → cho thấy có bệnh nhân rất thấp, có bệnh nhân rất cao.

**Range (khoảng biến thiên)**: hiệu số giữa Max – Min = 155 → phản ánh độ rộng của tập dữ liệu.

**Percentile 60%**: bằng 125 → 60% số bệnh nhân có Glucose ≤ 125.

**Quartiles (Q1, Q3)**:

- Q1 = 99.75 (25% số bệnh nhân có đường huyết ≤ 100),

- Q3 = 140.25 (75% bệnh nhân có đường huyết ≤ 140).

**Interquartile Range (IQR)**: bằng 40.5, là khoảng giữa Q3 – Q1, thể hiện mức độ phân tán của nhóm bệnh nhân nằm giữa 50% trung vị. Nếu có giá trị nằm ngoài [Q1 – 1.5×IQR, Q3 + 1.5×IQR] thì có thể coi là ngoại lệ (outlier).

In [1]:
import numpy as np
import pandas as pd
from scipy import stats

# 1. Import dữ liệu
df = pd.read_csv("diabetes.csv")

In [2]:
# 2. Loại bỏ dữ liệu trùng lặp
df = df.drop_duplicates()

In [3]:
# 3. Thay thế dữ liệu và thay đổi định dạng
cols_with_zero_invalid = ['Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI']
df[cols_with_zero_invalid] = df[cols_with_zero_invalid].replace(0, np.nan)

df['Outcome'] = df['Outcome'].astype(int)

In [4]:
# 4. Xử lý dữ liệu thiếu (điền bằng median)
for col in cols_with_zero_invalid:
    df[col] = df[col].fillna(df[col].median())

In [5]:
print(df.head(5))     
print(df.dtypes)         
print(df.shape) 

   Pregnancies  Glucose  BloodPressure  SkinThickness  Insulin   BMI  \
0            6    148.0           72.0           35.0    125.0  33.6   
1            1     85.0           66.0           29.0    125.0  26.6   
2            8    183.0           64.0           29.0    125.0  23.3   
3            1     89.0           66.0           23.0     94.0  28.1   
4            0    137.0           40.0           35.0    168.0  43.1   

   DiabetesPedigreeFunction  Age  Outcome  
0                     0.627   50        1  
1                     0.351   31        0  
2                     0.672   32        1  
3                     0.167   21        0  
4                     2.288   33        1  
Pregnancies                   int64
Glucose                     float64
BloodPressure               float64
SkinThickness               float64
Insulin                     float64
BMI                         float64
DiabetesPedigreeFunction    float64
Age                           int64
Outcome        

In [6]:
# 5. Thống kê mô tả cho cột Glucose
glucose = df["Glucose"]

print("\n--- Thống kê mô tả cho cột Glucose ---")
print("Mean:", np.mean(glucose))
print("Median:", np.median(glucose))

glucose_mode = stats.mode(glucose, keepdims=True)
print("Mode:", glucose_mode.mode[0], " (Xuất hiện:", glucose_mode.count[0], "lần)")

print("Variance:", np.var(glucose))
print("Standard Deviation:", np.std(glucose))

print("Max:", np.max(glucose))
print("Min:", np.min(glucose))
print("Range:", np.max(glucose) - np.min(glucose))

print("60th Percentile:", np.percentile(glucose, 60))

print("Q1 (25%):", np.percentile(glucose, 25))
print("Q3 (75%):", np.percentile(glucose, 75))

print("Interquartile Range (IQR):", stats.iqr(glucose))


--- Thống kê mô tả cho cột Glucose ---
Mean: 121.65625
Median: 117.0
Mode: 99.0  (Xuất hiện: 17 lần)
Variance: 925.2828776041666
Standard Deviation: 30.418462775166116
Max: 199.0
Min: 44.0
Range: 155.0
60th Percentile: 125.0
Q1 (25%): 99.75
Q3 (75%): 140.25
Interquartile Range (IQR): 40.5


### Nhận xét

- Giá trị Mean (121.7) hơi lớn hơn Median (117.0) → phân phối hơi lệch phải (skewed to the right).

- Mode (99) thấp hơn cả Mean và Median → nhiều bệnh nhân có Glucose quanh mức này, nhưng vẫn có những giá trị cao kéo trung bình lên.

- Khoảng giá trị (44 → 199) khá rộng, thể hiện sự khác biệt lớn giữa bệnh nhân có đường huyết thấp và cao.

- IQR = 40.5: vùng giá trị Glucose của 50% số người nằm trong khoảng [99.75, 140.25].

Như vậy, dữ liệu Glucose có phân phối khá phân tán, với một số cá nhân có mức đường huyết rất cao, có thể là nhóm nguy cơ tiểu đường rõ rệt.