In [10]:
import pandas as pd
import numpy as np
from scipy import stats

# 1. Đọc dữ liệu


In [11]:
df = pd.read_csv("/content/drive/MyDrive/Colab Notebooks/EDA/diabetes.csv")

# 2. Loại bỏ dữ liệu trùng lặp


In [12]:
df = df.drop_duplicates()
print(df.shape)

(768, 9)


# 3. Thay thế dữ liệu bất hợp lý
Các cột không thể có giá trị bằng 0 (thực tế 0 = missing)

In [13]:
numeric_cols = df.select_dtypes(include=[np.number]).columns
for col in numeric_cols:
    median_val = df[col].median()
    df.loc[df[col] < 0, col] = median_val

  df.loc[df[col] < 0, col] = median_val


# 4. Xử lý dữ liệu thiếu
Thay thế NaN bằng median


In [14]:
for col in numeric_cols:
    if df[col].isnull().sum() > 0:
        # thay bằng median
        df[col].fillna(df[col].median(), inplace=True)

print("\n👉 Kiểm tra dữ liệu thiếu sau khi xử lý:")
print(df.isnull().sum())


👉 Kiểm tra dữ liệu thiếu sau khi xử lý:
Pregnancies                 0
Glucose                     0
BloodPressure               0
SkinThickness               0
Insulin                     0
BMI                         0
DiabetesPedigreeFunction    0
Age                         0
Outcome                     0
dtype: int64


# 5. Thay đổi định dạng


In [15]:
df["Outcome"] = df["Outcome"].astype(int)

# 6. Xuất dữ liệu đã xử lý ra file mới


In [16]:
df.to_csv("diabetes_clean.csv", index=False)

print("\nHoàn tất tiền xử lý. File sạch đã lưu thành diabetes_clean.csv")


Hoàn tất tiền xử lý. File sạch đã lưu thành diabetes_clean.csv


# 7. THỐNG KÊ MÔ TẢ


In [18]:
stats_summary = {}

for col in numeric_cols:
    data = df[col]

    mean_val = np.mean(data)
    median_val = np.median(data)
    mode_val = stats.mode(data, keepdims=True)[0][0]
    var_val = np.var(data, ddof=1)  # variance
    std_val = np.std(data, ddof=1)  # standard deviation
    range_val = np.max(data) - np.min(data)
    q1 = np.percentile(data, 25)
    q3 = np.percentile(data, 75)
    iqr = q3 - q1

    stats_summary[col] = {
        "Mean": mean_val,
        "Median": median_val,
        "Mode": mode_val,
        "Variance": var_val,
        "Std Dev": std_val,
        "Range": range_val,
        "Q1 (25%)": q1,
        "Q3 (75%)": q3,
        "IQR": iqr
    }

In [19]:
stats_df = pd.DataFrame(stats_summary).T
print("\nThống kê mô tả:")
print(stats_df)


Thống kê mô tả:
                                Mean    Median    Mode      Variance  \
Pregnancies                 3.845052    3.0000   1.000     11.354056   
Glucose                   120.894531  117.0000  99.000   1022.248314   
BloodPressure              69.105469   72.0000  70.000    374.647271   
SkinThickness              20.536458   23.0000   0.000    254.473245   
Insulin                    79.799479   30.5000   0.000  13281.180078   
BMI                        31.992578   32.0000  32.000     62.159984   
DiabetesPedigreeFunction    0.471876    0.3725   0.254      0.109779   
Age                        33.240885   29.0000  22.000    138.303046   
Outcome                     0.348958    0.0000   0.000      0.227483   

                             Std Dev    Range  Q1 (25%)   Q3 (75%)       IQR  
Pregnancies                 3.369578   17.000   1.00000    6.00000    5.0000  
Glucose                    31.972618  199.000  99.00000  140.25000   41.2500  
BloodPressure            