# Bài tập thực hành 2: Thống kê mô tả dữ liệu tiểu đường Pima

**Mục tiêu:**  
Thực hiện thống kê mô tả trên tập dữ liệu **Pima Indians Diabetes Dataset** — dữ liệu y tế dùng để dự đoán khả năng mắc bệnh tiểu đường.  
Nguồn dữ liệu: [Pima Indians Diabetes EDA & Prediction (Kaggle)](https://www.kaggle.com/code/vincentlugat/pima-indians-diabetes-eda-prediction-0-906).  

**Nội dung thực hiện:**  
- Kiểm tra, làm sạch và mô tả dữ liệu (mean, median, mode, min, max,...).  
- Quan sát phân phối của các biến như Glucose, BMI, Age, Insulin,...

**Mục đích:**  
Xác định các yếu tố chính ảnh hưởng đến nguy cơ mắc bệnh tiểu đường, và chuẩn bị nền tảng cho các mô hình học máy (logistic regression, decision tree, v.v.).


Nhập các thư viện cần thiết cho phân tích dữ liệu (thường là pandas, numpy, matplotlib, seaborn, sklearn,...). Các thư viện này hỗ trợ đọc/ghi dữ liệu, xử lý số liệu, và trực quan hóa.

# 1. Nhập thư viện

In [22]:
import pandas as pd
import numpy as np
from scipy import stats

# 2. Đọc dữ liệu và Thông tin tổng quan



In [23]:
df = pd.read_csv("/content/drive/MyDrive/Colab Notebooks/EDA/diabetes.csv")
# shape
print(f'+ Shape: {df.shape}')
# types
print(f'+ Data Types: \n{df.dtypes}')
# head, tail
print(f'+ Contents: ')
display(df.head(5))
display(df.tail(5))
# info
df.info()
desc = df.describe().T

+ Shape: (768, 9)
+ Data Types: 
Pregnancies                   int64
Glucose                       int64
BloodPressure                 int64
SkinThickness                 int64
Insulin                       int64
BMI                         float64
DiabetesPedigreeFunction    float64
Age                           int64
Outcome                       int64
dtype: object
+ Contents: 


Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
763,10,101,76,48,180,32.9,0.171,63,0
764,2,122,70,27,0,36.8,0.34,27,0
765,5,121,72,23,112,26.2,0.245,30,0
766,1,126,60,0,0,30.1,0.349,47,1
767,1,93,70,31,0,30.4,0.315,23,0


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 768 entries, 0 to 767
Data columns (total 9 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Pregnancies               768 non-null    int64  
 1   Glucose                   768 non-null    int64  
 2   BloodPressure             768 non-null    int64  
 3   SkinThickness             768 non-null    int64  
 4   Insulin                   768 non-null    int64  
 5   BMI                       768 non-null    float64
 6   DiabetesPedigreeFunction  768 non-null    float64
 7   Age                       768 non-null    int64  
 8   Outcome                   768 non-null    int64  
dtypes: float64(2), int64(7)
memory usage: 54.1 KB


### Nhận xét kết quả

Nhận xét: Sau khi đọc dữ liệu, cần kiểm tra kích thước (shape), kiểu dữ liệu (dtypes) và một vài dòng đầu để đảm bảo dữ liệu được nạp đúng. Nếu file không tồn tại hoặc đường dẫn sai sẽ gây lỗi FileNotFound.

# 3. Kiểm tra dữ liệu thiếu và Loại bỏ dữ liệu trùng lặp


In [24]:
has_null = df.isnull().sum().any()
has_nan  = df.isna().sum().any()
n_duplicated = df.duplicated().sum()

print(f'Tính toàn vẹn dữ liệu:')
print(f'+ Có giá trị Null: {has_null}')
if has_null:
    print(df[df.isnull().any(axis=1)])
print(f'+ Có giá trị Nan: {has_nan}')
if has_nan:
    print(df[df.isna().any(axis=1)])
print(f'+ Số dòng trùng: {n_duplicated}')

# Kiểm tra số lượng giá trị 0 ở các cột mà 0 là vô lý
print('Số lượng các giá trị 0 ở các cột:')
cols_zero_invalid = ['Glucose','BloodPressure','SkinThickness','Insulin','BMI']
print((df[cols_zero_invalid] == 0).sum())

Tính toàn vẹn dữ liệu:
+ Có giá trị Null: False
+ Có giá trị Nan: False
+ Số dòng trùng: 0
Số lượng các giá trị 0 ở các cột:
Glucose            5
BloodPressure     35
SkinThickness    227
Insulin          374
BMI               11
dtype: int64


### Nhận xét kết quả

Kiểm tra kỹ kết quả cell để đảm bảo logic chuỗi xử lý và không gây lỗi downstream. Thông tin này cho biết biến nào là numeric/text và có bao nhiêu giá trị thiếu, từ đó tác động đến chiến lược xử lý dữ liệu tiếp theo.

# 4. Xử lý dữ liệu thiếu
Thay thế NaN bằng median


In [25]:
numeric_cols = df.select_dtypes(include=[np.number]).columns
for col in numeric_cols:
    median_val = df[col].median()
    df.loc[df[col] < 0, col] = median_val

for col in numeric_cols:
    if df[col].isnull().sum() > 0:
        # thay bằng median
        df[col].fillna(df[col].median(), inplace=True)

print("\nKiểm tra dữ liệu thiếu sau khi xử lý:")
print(df.isnull().sum())


Kiểm tra dữ liệu thiếu sau khi xử lý:
Pregnancies                 0
Glucose                     0
BloodPressure               0
SkinThickness               0
Insulin                     0
BMI                         0
DiabetesPedigreeFunction    0
Age                         0
Outcome                     0
dtype: int64


  df.loc[df[col] < 0, col] = median_val


### Nhận xét kết quả

Xác định biến nào cần xử lý missing. Tỷ lệ missing lớn ở một số biến quyết định phương án: loại dòng, điền giá trị trung vị/trung bình, hoặc sử dụng mô hình imputation.

# 5. Bổ sung độ lệch và độ nhọn

In [26]:
from scipy.stats import skew, kurtosis
desc["skewness"] = df.skew()
desc["kurtosis"] = df.kurtosis()
print(desc)

                          count        mean         std     min       25%  \
Pregnancies               768.0    3.845052    3.369578   0.000   1.00000   
Glucose                   768.0  120.894531   31.972618   0.000  99.00000   
BloodPressure             768.0   69.105469   19.355807   0.000  62.00000   
SkinThickness             768.0   20.536458   15.952218   0.000   0.00000   
Insulin                   768.0   79.799479  115.244002   0.000   0.00000   
BMI                       768.0   31.992578    7.884160   0.000  27.30000   
DiabetesPedigreeFunction  768.0    0.471876    0.331329   0.078   0.24375   
Age                       768.0   33.240885   11.760232  21.000  24.00000   
Outcome                   768.0    0.348958    0.476951   0.000   0.00000   

                               50%        75%     max  skewness  kurtosis  
Pregnancies                 3.0000    6.00000   17.00  0.901674  0.159220  
Glucose                   117.0000  140.25000  199.00  0.173754  0.640780  
B

# 6. Thống kê mô tả


In [27]:
stats_summary = {}

for col in numeric_cols:
    data = df[col]

    mean_val = np.mean(data)
    median_val = np.median(data)
    mode_val = stats.mode(data, keepdims=True)[0][0]
    var_val = np.var(data, ddof=1)  # variance
    std_val = np.std(data, ddof=1)  # standard deviation
    range_val = np.max(data) - np.min(data)
    q1 = np.percentile(data, 25)
    q3 = np.percentile(data, 75)
    iqr = q3 - q1

    stats_summary[col] = {
        "Mean": mean_val,
        "Median": median_val,
        "Mode": mode_val,
        "Variance": var_val,
        "Std Dev": std_val,
        "Range": range_val,
        "Q1 (25%)": q1,
        "Q3 (75%)": q3,
        "IQR": iqr
    }

In [28]:
stats_df = pd.DataFrame(stats_summary).T
print("\nThống kê mô tả:")
display(stats_df)


Thống kê mô tả:


Unnamed: 0,Mean,Median,Mode,Variance,Std Dev,Range,Q1 (25%),Q3 (75%),IQR
Pregnancies,3.845052,3.0,1.0,11.354056,3.369578,17.0,1.0,6.0,5.0
Glucose,120.894531,117.0,99.0,1022.248314,31.972618,199.0,99.0,140.25,41.25
BloodPressure,69.105469,72.0,70.0,374.647271,19.355807,122.0,62.0,80.0,18.0
SkinThickness,20.536458,23.0,0.0,254.473245,15.952218,99.0,0.0,32.0,32.0
Insulin,79.799479,30.5,0.0,13281.180078,115.244002,846.0,0.0,127.25,127.25
BMI,31.992578,32.0,32.0,62.159984,7.88416,67.1,27.3,36.6,9.3
DiabetesPedigreeFunction,0.471876,0.3725,0.254,0.109779,0.331329,2.342,0.24375,0.62625,0.3825
Age,33.240885,29.0,22.0,138.303046,11.760232,60.0,24.0,41.0,17.0
Outcome,0.348958,0.0,0.0,0.227483,0.476951,1.0,0.0,1.0,1.0


# 7. So sánh trung bình các đặc trưng theo nhóm Outcome

In [31]:
if "Outcome" in df.columns:
    print("\nSo sánh trung bình các đặc trưng theo nhóm Outcome:")
    display(df.groupby("Outcome").mean(numeric_only=True))
else:
    print("\nKhông tìm thấy cột 'Outcome' trong dữ liệu.")


So sánh trung bình các đặc trưng theo nhóm Outcome:


Unnamed: 0_level_0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age
Outcome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
0,3.298,109.98,68.184,19.664,68.792,30.3042,0.429734,31.19
1,4.865672,141.257463,70.824627,22.164179,100.335821,35.142537,0.5505,37.067164


**Nhận xét:**

Các đặc trưng Glucose, BMI, Insulin, Age và DiabetesPedigreeFunction có sự khác biệt rõ ràng giữa hai nhóm Outcome.
→ Đây là những biến quan trọng cần chú ý trong phân tích, mô hình dự đoán hoặc kiểm định giả thuyết.

Ngược lại, BloodPressure và SkinThickness có mức chênh lệch ít hơn, nên ít ảnh hưởng hơn trong việc phân loại kết quả bệnh.

# 8. Thống kê mô tả chi tiết thủ công cho từng cột số

In [29]:
data = df.select_dtypes(include=[np.number])

for col in data.columns:
    values = data[col].dropna().values  # loại bỏ giá trị thiếu nếu có

    mean = np.mean(values)
    median = np.median(values)
    mode = stats.mode(values, keepdims=True)
    var = np.var(values, ddof=1)
    std = np.std(values, ddof=1)
    data_range = np.max(values) - np.min(values)
    q1 = np.percentile(values, 25)
    q3 = np.percentile(values, 75)
    iqr = q3 - q1
    skew = stats.skew(values)
    kurt = stats.kurtosis(values)

    print(f"\n=== {col} ===")
    print(f"Count: {len(values)}")
    print(f"Mean: {mean:.4f}")
    print(f"Median: {median:.4f}")
    print(f"Mode: {mode.mode[0]} (Count={mode.count[0]})")
    print(f"Variance: {var:.4f}")
    print(f"Standard Deviation: {std:.4f}")
    print(f"Range: {data_range:.4f}")
    print(f"Q1 (25%): {q1:.4f}")
    print(f"Q3 (75%): {q3:.4f}")
    print(f"IQR: {iqr:.4f}")
    print(f"Skewness: {skew:.4f}")
    print(f"Kurtosis: {kurt:.4f}")


=== Pregnancies ===
Count: 768
Mean: 3.8451
Median: 3.0000
Mode: 1 (Count=135)
Variance: 11.3541
Standard Deviation: 3.3696
Range: 17.0000
Q1 (25%): 1.0000
Q3 (75%): 6.0000
IQR: 5.0000
Skewness: 0.8999
Kurtosis: 0.1504

=== Glucose ===
Count: 768
Mean: 120.8945
Median: 117.0000
Mode: 99 (Count=17)
Variance: 1022.2483
Standard Deviation: 31.9726
Range: 199.0000
Q1 (25%): 99.0000
Q3 (75%): 140.2500
IQR: 41.2500
Skewness: 0.1734
Kurtosis: 0.6288

=== BloodPressure ===
Count: 768
Mean: 69.1055
Median: 72.0000
Mode: 70 (Count=57)
Variance: 374.6473
Standard Deviation: 19.3558
Range: 122.0000
Q1 (25%): 62.0000
Q3 (75%): 80.0000
IQR: 18.0000
Skewness: -1.8400
Kurtosis: 5.1387

=== SkinThickness ===
Count: 768
Mean: 20.5365
Median: 23.0000
Mode: 0 (Count=227)
Variance: 254.4732
Standard Deviation: 15.9522
Range: 99.0000
Q1 (25%): 0.0000
Q3 (75%): 32.0000
IQR: 32.0000
Skewness: 0.1092
Kurtosis: -0.5245

=== Insulin ===
Count: 768
Mean: 79.7995
Median: 30.5000
Mode: 0.0 (Count=374)
Variance: 13

## Nhận xét và phân tích kết quả

Kết quả thống kê mô tả cho thấy:  
- **Glucose** và **BMI** là hai yếu tố có mối tương quan cao nhất với khả năng mắc bệnh.  
- Nhóm mắc bệnh có xu hướng có **mức glucose và BMI cao hơn rõ rệt**.  
- Dữ liệu có một số giá trị 0 bất hợp lý ở các cột như `Insulin`, `BloodPressure`, cần được xử lý hoặc thay thế.  
- Phân phối tuổi cho thấy nguy cơ tăng dần theo độ tuổi.  

Tổng thể, tập dữ liệu phản ánh tốt các đặc điểm y học liên quan đến bệnh tiểu đường và rất thích hợp cho việc mô hình hóa dự đoán.  
