In [3]:
import numpy as np
import pandas as pd
from scipy import stats

In [4]:
try:
    diabetes_data = pd.read_csv("diabetes.csv")
    print("Dữ liệu bệnh tiểu đường đã được tải thành công!")
except FileNotFoundError:
    print("Lỗi: Không tìm thấy tệp 'diabetes.csv'.")
    print("Vui lòng đảm bảo tệp nằm trong cùng thư mục hoặc cung cấp đường dẫn chính xác.")
    print("Các tên tệp phổ biến khác có thể là 'pima-indians-diabetes.csv'.")
    exit() 

Dữ liệu bệnh tiểu đường đã được tải thành công!


NHIỆM VỤ 1

In [5]:
diabetes_data.head(5)
diabetes_data.dtypes
diabetes_data.shape

(768, 9)

In [6]:
print("\n--- Thống kê mô tả tổng quan (.describe()) ---")
print(diabetes_data.describe())


--- Thống kê mô tả tổng quan (.describe()) ---
       Pregnancies     Glucose  BloodPressure  SkinThickness     Insulin  \
count   768.000000  768.000000     768.000000     768.000000  768.000000   
mean      3.845052  120.894531      69.105469      20.536458   79.799479   
std       3.369578   31.972618      19.355807      15.952218  115.244002   
min       0.000000    0.000000       0.000000       0.000000    0.000000   
25%       1.000000   99.000000      62.000000       0.000000    0.000000   
50%       3.000000  117.000000      72.000000      23.000000   30.500000   
75%       6.000000  140.250000      80.000000      32.000000  127.250000   
max      17.000000  199.000000     122.000000      99.000000  846.000000   

              BMI  DiabetesPedigreeFunction         Age     Outcome  
count  768.000000                768.000000  768.000000  768.000000  
mean    31.992578                  0.471876   33.240885    0.348958  
std      7.884160                  0.331329   11.760232  

In [8]:
selected_column = diabetes_data["Glucose"] 

In [9]:
data_mean = np.mean(selected_column)
print(f"Giá trị trung bình (Mean) của '{selected_column.name}': {data_mean:.2f}")

Giá trị trung bình (Mean) của 'Glucose': 120.89


In [10]:
data_median = np.median(selected_column)
print(f"Giá trị trung vị (Median) của '{selected_column.name}': {data_median:.2f}")

Giá trị trung vị (Median) của 'Glucose': 117.00


In [11]:
data_mode_result = stats.mode(selected_column, keepdims=True) 
print(f"Giá trị yếu vị (Mode) của '{selected_column.name}': {data_mode_result.mode[0]:.2f} (xuất hiện {data_mode_result.count[0]} lần)")

Giá trị yếu vị (Mode) của 'Glucose': 99.00 (xuất hiện 17 lần)


In [12]:
data_variance = np.var(selected_column)
print(f"Phương sai (Variance) của '{selected_column.name}': {data_variance:.2f}")

Phương sai (Variance) của 'Glucose': 1020.92


In [13]:
data_sd = np.std(selected_column)
print(f"Độ lệch chuẩn (Standard Deviation) của '{selected_column.name}': {data_sd:.2f}")

Độ lệch chuẩn (Standard Deviation) của 'Glucose': 31.95


In [14]:
data_max = np.max(selected_column)
data_min = np.min(selected_column)
print(f"Giá trị lớn nhất (Max) của '{selected_column.name}': {data_max:.2f}")
print(f"Giá trị nhỏ nhất (Min) của '{selected_column.name}': {data_min:.2f}")

Giá trị lớn nhất (Max) của 'Glucose': 199.00
Giá trị nhỏ nhất (Min) của 'Glucose': 0.00


In [15]:
data_range = data_max - data_min
print(f"Khoảng biến thiên (Range) của '{selected_column.name}': {data_range:.2f}")

Khoảng biến thiên (Range) của 'Glucose': 199.00


In [16]:
data_percentile_60 = np.percentile(selected_column, 60)
print(f"Phân vị thứ 60 (60th Percentile) của '{selected_column.name}': {data_percentile_60:.2f}")

Phân vị thứ 60 (60th Percentile) của 'Glucose': 125.00


In [17]:
q1 = np.quantile(selected_column, 0.25)
q2 = np.quantile(selected_column, 0.50) # Tứ phân vị thứ 2 chính là trung vị
q3 = np.quantile(selected_column, 0.75)
print(f"Tứ phân vị thứ 1 (Q1 - 25th Percentile) của '{selected_column.name}': {q1:.2f}")
print(f"Tứ phân vị thứ 2 (Q2 - 50th Percentile / Median) của '{selected_column.name}': {q2:.2f}")
print(f"Tứ phân vị thứ 3 (Q3 - 75th Percentile) của '{selected_column.name}': {q3:.2f}")

Tứ phân vị thứ 1 (Q1 - 25th Percentile) của 'Glucose': 99.00
Tứ phân vị thứ 2 (Q2 - 50th Percentile / Median) của 'Glucose': 117.00
Tứ phân vị thứ 3 (Q3 - 75th Percentile) của 'Glucose': 140.25


In [18]:
data_IQR = stats.iqr(selected_column)
print(f"Khoảng Tứ phân vị (IQR) của '{selected_column.name}': {data_IQR:.2f}")

Khoảng Tứ phân vị (IQR) của 'Glucose': 41.25


NHIỆM VỤ 2

In [21]:
diabetes_data.head()
diabetes_data_duplicate = diabetes_data.drop_duplicates()
diabetes_data_after_drop_row_1 = diabetes_data.drop(labels=[1], axis=0)
diabetes_data_after_drop_pregnancies = diabetes_data.drop(labels=['Pregnancies'], axis=1)

In [24]:
diabetes_data['Outcome_category'] = diabetes_data['Outcome'].replace(
    [0, 1], ['No Diabetes', 'Diabetes'])
diabetes_data['Insulin_filled'] = diabetes_data['Insulin'].fillna(0)
diabetes_data['BMI_int'] = diabetes_data['BMI'].astype(int)

In [25]:
diabetes_data.isnull().sum()
diabetes_data_withoutna = diabetes_data.dropna(how = 'any')
print(diabetes_data_withoutna.shape)

Pregnancies                 0
Glucose                     0
BloodPressure               0
SkinThickness               0
Insulin                     0
BMI                         0
DiabetesPedigreeFunction    0
Age                         0
Outcome                     0
Outcome_category            0
Insulin_filled              0
BMI_int                     0
dtype: int64