In [2]:
# Import các thư viện cần thiết
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats # Để tính mode và iqr

# Thiết lập style chung cho biểu đồ
sns.set(style="darkgrid")

# Đọc dữ liệu từ file CSV
import pandas as pd
df_diabetes = pd.read_csv("diabetes.csv")  
df_diabetes.head()

# Xem thông tin ban đầu
print("--- Dữ liệu 5 dòng đầu (trước khi làm sạch) ---")
print(df_diabetes.head())

print("\n--- Thông tin và kiểu dữ liệu (trước khi làm sạch) ---")
df_diabetes.info()

print(f"\nKích thước dữ liệu ban đầu: {df_diabetes.shape}")

--- Dữ liệu 5 dòng đầu (trước khi làm sạch) ---
   Pregnancies  Glucose  BloodPressure  SkinThickness  Insulin   BMI  \
0            6      148             72             35        0  33.6   
1            1       85             66             29        0  26.6   
2            8      183             64              0        0  23.3   
3            1       89             66             23       94  28.1   
4            0      137             40             35      168  43.1   

   DiabetesPedigreeFunction  Age  Outcome  
0                     0.627   50        1  
1                     0.351   31        0  
2                     0.672   32        1  
3                     0.167   21        0  
4                     2.288   33        1  

--- Thông tin và kiểu dữ liệu (trước khi làm sạch) ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 768 entries, 0 to 767
Data columns (total 9 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    ---------

In [3]:
# Kiểm tra số dòng bị trùng lặp
so_dong_trung = df_diabetes.duplicated().sum()
print(f"Tìm thấy {so_dong_trung} dòng bị trùng lặp.")

# Loại bỏ các dòng trùng lặp (nếu có)
if so_dong_trung > 0:
    df_diabetes.drop_duplicates(inplace=True)
    print(f"Đã loại bỏ. Kích thước mới: {df_diabetes.shape}")

Tìm thấy 0 dòng bị trùng lặp.


In [4]:
# Các cột không thể có giá trị 0
cols_with_missing_zeros = ['Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI']

# 1. Thay thế 0 bằng np.nan
for col in cols_with_missing_zeros:
    df_diabetes[col] = df_diabetes[col].replace(0, np.nan)

print("\n--- Số lượng dữ liệu thiếu (NaN) sau khi thay thế 0 ---")
print(df_diabetes.isnull().sum())

# 2. Điền các giá trị thiếu (NaN) bằng TRUNG VỊ của mỗi cột
for col in cols_with_missing_zeros:
    median_val = df_diabetes[col].median()
    df_diabetes[col].fillna(median_val, inplace=True)

print(f"\nĐã điền {df_diabetes.isnull().sum().sum()} giá trị thiếu (NaN).")


--- Số lượng dữ liệu thiếu (NaN) sau khi thay thế 0 ---
Pregnancies                   0
Glucose                       5
BloodPressure                35
SkinThickness               227
Insulin                     374
BMI                          11
DiabetesPedigreeFunction      0
Age                           0
Outcome                       0
dtype: int64

Đã điền 0 giá trị thiếu (NaN).


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_diabetes[col].fillna(median_val, inplace=True)


In [5]:
df_diabetes['Pregnancies'] = df_diabetes['Pregnancies'].astype(int)
df_diabetes['Outcome'] = df_diabetes['Outcome'].astype('category')

print("--- Thông tin dữ liệu sau khi sửa ---")
df_diabetes.info()

--- Thông tin dữ liệu sau khi sửa ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 768 entries, 0 to 767
Data columns (total 9 columns):
 #   Column                    Non-Null Count  Dtype   
---  ------                    --------------  -----   
 0   Pregnancies               768 non-null    int64   
 1   Glucose                   768 non-null    float64 
 2   BloodPressure             768 non-null    float64 
 3   SkinThickness             768 non-null    float64 
 4   Insulin                   768 non-null    float64 
 5   BMI                       768 non-null    float64 
 6   DiabetesPedigreeFunction  768 non-null    float64 
 7   Age                       768 non-null    int64   
 8   Outcome                   768 non-null    category
dtypes: category(1), float64(6), int64(2)
memory usage: 49.0 KB


In [6]:
print("\n--- Thống kê mô tả (sau khi làm sạch) ---")
# T (Transpose) để xoay bảng cho dễ đọc
print(df_diabetes.describe().T)


--- Thống kê mô tả (sau khi làm sạch) ---
                          count        mean        std     min        25%  \
Pregnancies               768.0    3.845052   3.369578   0.000    1.00000   
Glucose                   768.0  121.656250  30.438286  44.000   99.75000   
BloodPressure             768.0   72.386719  12.096642  24.000   64.00000   
SkinThickness             768.0   29.108073   8.791221   7.000   25.00000   
Insulin                   768.0  140.671875  86.383060  14.000  121.50000   
BMI                       768.0   32.455208   6.875177  18.200   27.50000   
DiabetesPedigreeFunction  768.0    0.471876   0.331329   0.078    0.24375   
Age                       768.0   33.240885  11.760232  21.000   24.00000   

                               50%        75%     max  
Pregnancies                 3.0000    6.00000   17.00  
Glucose                   117.0000  140.25000  199.00  
BloodPressure              72.0000   80.00000  122.00  
SkinThickness              29.0000   32

In [8]:
# Lấy dữ liệu cột 'Glucose'
col_data = df_diabetes['Glucose']

print(f"\n--- Phân tích thống kê chi tiết cho 'Glucose' (dùng Numpy/Stats) ---")

# 1. Mean (Trung bình)
print(f"Mean (Trung bình): {np.mean(col_data):.2f}")

# 2. Median (Trung vị)
print(f"Median (Trung vị): {np.median(col_data):.2f}")

# 4. Variance (Phương sai)
print(f"Variance (Phương sai): {np.var(col_data):.2f}")

# 5. Standard Deviation (Độ lệch chuẩn)
print(f"Standard Deviation (Độ lệch chuẩn): {np.std(col_data):.2f}")

# 6. Range (Khoảng giá trị)
range_val = np.ptp(col_data)
print(f"Range (Khoảng giá trị): {range_val:.2f} (Từ {np.min(col_data)} đến {np.max(col_data)})")

# 7. Quartile & Percentile (Tứ phân vị & Phân vị)
q1 = np.percentile(col_data, 25) # Tứ phân vị thứ 1 (Q1)
q2 = np.percentile(col_data, 50) # Tứ phân vị thứ 2 (Q2)
q3 = np.percentile(col_data, 75) # Tứ phân vị thứ 3 (Q3)
print(f"Quartile 1 (Q1 - 25th): {q1:.2f}")
print(f"Quartile 2 (Q2 - 50th): {q2:.2f}")
print(f"Quartile 3 (Q3 - 75th): {q3:.2f}")

# 8. Interquartile Range (IQR)
iqr_val = stats.iqr(col_data)
print(f"Interquartile Range (IQR): {iqr_val:.2f}")


--- Phân tích thống kê chi tiết cho 'Glucose' (dùng Numpy/Stats) ---
Mean (Trung bình): 121.66
Median (Trung vị): 117.00
Variance (Phương sai): 925.28
Standard Deviation (Độ lệch chuẩn): 30.42
Range (Khoảng giá trị): 155.00 (Từ 44.0 đến 199.0)
Quartile 1 (Q1 - 25th): 99.75
Quartile 2 (Q2 - 50th): 117.00
Quartile 3 (Q3 - 75th): 140.25
Interquartile Range (IQR): 40.50
