## 1. Định nghĩa vấn đề (Define Problem)

#### Mô tả:
    Bộ dữ liệu về bệnh đái tháo đường Pima Indian (Pima Indians Diabetes Dataset) được thu thập từ cộng đồng người da đỏ Pima.

Dữ liệu này bao gồm nhiều đặc điểm lâm sàng và nhân khẩu học của bệnh nhân.

Mục tiêu là dự đoán khả năng mắc bệnh tiểu đường (diabetes) của một cá nhân dựa trên các thông tin y tế cơ bản.

+ Dữ liệu vào (Input features):

    + Số lần mang thai (Pregnancies)

    + Nồng độ glucose huyết tương sau 2 giờ (Glucose)

    + Huyết áp tâm trương (BloodPressure)

    + Độ dày nếp gấp da (SkinThickness)

    + Nồng độ insulin (Insulin)

    + số khối cơ thể (BMI)

    + chức năng phả hệ tiểu đường (DiabetesPedigreeFunction)

    + Tuổi (Age)

+ Kết quả (Output):

    + Outcome (0 = Không mắc bệnh, 1 = Mắc bệnh)


## 2. Đọc và hiểu dữ liệu
### 2.1. Import thư iện cần thiết


### 2.1. Import thư viện cần thiết

In [1]:
import pandas as pd
import numbers as pd

from IPython import display

## 2.2. Tải dữ liệu

In [3]:
import pandas as pd
df = pd.read_csv("diabetes.csv")   # cần có file diabetes.csv (Pima dataset)
X = df.drop("Outcome", axis=1)
y = df["Outcome"]

## 3. Phân tích dữ liệu

### 3.1. Thống kê mô tả

#### (1) Thông tin chung về dữ liệu

* Số dòng và số cột trong dữ liệu.
* Kiểu dữ liệu của từng biến.
* Ý nghĩa và đơn vị đo lường của các biến:

  * **Pregnancies**: số lần mang thai (lần)
  * **Glucose**: nồng độ glucose trong huyết tương lúc đói (mg/dL)
  * **BloodPressure**: huyết áp tâm thu (mmHg)
  * **SkinThickness**: độ dày nếp gấp da (mm)
  * **Insulin**: nồng độ insulin (µU/mL)
  * **BMI**: chỉ số khối cơ thể (kg/m²)
  * **DiabetesPedigreeFunction (DPF)**: chỉ số nguy cơ di truyền (không có đơn vị)
  * **Age**: tuổi (năm)
  * **Outcome**: kết quả chẩn đoán bệnh tiểu đường (0 = không mắc, 1 = mắc bệnh)

#### (2) Kiểm tra chất lượng dữ liệu

* Kiểm tra dữ liệu trùng lặp.
* Kiểm tra giá trị Null/NaN hoặc các giá trị không hợp lý (ví dụ: Glucose = 0, BloodPressure = 0, BMI = 0, vì trong thực tế không thể có giá trị 0).

#### (3) Thống kê tóm tắt các biến số

* Các thước đo thống kê cơ bản: giá trị nhỏ nhất, lớn nhất, trung bình, trung vị, độ lệch chuẩn, các phân vị.
* Bổ sung **median** vì `describe()` mặc định không tính trung vị.

#### (4) Phân bố biến phân loại (Outcome)

* Tính tần số xuất hiện của từng nhóm bệnh (0 = không bệnh, 1 = bệnh).
* Tính tỷ lệ phần trăm để đánh giá mức độ phân bố giữa hai nhóm.

#### (5) Nhận xét sơ bộ

* So sánh giá trị trung bình và độ biến thiên giữa các biến.
* Nhận diện các biến có khoảng dao động rộng hoặc khả năng có ngoại lệ (ví dụ: Insulin, SkinThickness).
* Đặc điểm phân bố của biến mục tiêu **Outcome**: cân bằng hay lệch, từ đó xác định vấn đề phân lớp có bị mất cân bằng dữ liệu hay không.


In [None]:
# (1) Thông tin chung
print("Kích thước dữ liệu:", df.shape)
print("\nKiểu dữ liệu:\n", df.dtypes)
print("\n5 dòng đầu:",df.head() )
print("\n5 dòng cuối:",df.tail())
print("\nThông tin tổng quan:")
df.info()

# (2) Kiểm tra chất lượng dữ liệu
print("\n--- Kiểm tra dữ liệu ---")
print("Số dòng trùng lặp:", df.duplicated().sum())
print("Có giá trị Null:", df.isnull().sum().any())
print("Có giá trị NaN:", df.isna().sum().any())

# (3) Thống kê tóm tắt các biến số
print("\n--- Bảng thống kê describe() ---", df.describe().T)

print("\n--- Median của các biến ---", df.median(numeric_only=True))

# (4) Phân bố biến phân loại (Outcome)
print("\n--- Tần số xuất hiện của Outcome ---", df['Outcome'].value_counts().sort_index())

print("\n--- Tỷ lệ phần trăm của Outcome ---", df['Outcome'].value_counts(normalize=True).sort_index() * 100)


Kích thước dữ liệu: (768, 9)

Kiểu dữ liệu:
 Pregnancies                   int64
Glucose                       int64
BloodPressure                 int64
SkinThickness                 int64
Insulin                       int64
BMI                         float64
DiabetesPedigreeFunction    float64
Age                           int64
Outcome                       int64
dtype: object

5 dòng đầu:    Pregnancies  Glucose  BloodPressure  SkinThickness  Insulin   BMI  \
0            6      148             72             35        0  33.6   
1            1       85             66             29        0  26.6   
2            8      183             64              0        0  23.3   
3            1       89             66             23       94  28.1   
4            0      137             40             35      168  43.1   

   DiabetesPedigreeFunction  Age  Outcome  
0                     0.627   50        1  
1                     0.351   31        0  
2                     0.672   32       

**Kích thước và cấu trúc dữ liệu:** Dữ liệu có 768 quan sát, 9 biến, không có giá trị trùng lặp hay thiếu.
Dữ liệu có 8 tính chất để phân lớp:Pregnancies, glucose, bloodPressure, skinThickness,Insulin, BMI,DiabetesPedigreeFunction, age.

**Các biến:** Bao gồm các chỉ số sinh lý (Glucose, BloodPressure, SkinThickness, Insulin, BMI), tuổi, tiền sử thai kỳ (Pregnancies), chỉ số di truyền (DiabetesPedigreeFunction) và kết quả bệnh (Outcome).

**Thống kê tổng quan:**

   * Giá trị trung bình và trung vị gần nhau với một số biến như BMI (mean ≈ 32, median = 32), cho thấy phân bố không lệch nhiều.
   * Một số biến có giá trị 0 đáng chú ý (Glucose, BloodPressure, SkinThickness, Insulin, BMI), có thể cần xử lý vì về mặt sinh lý 0 là không hợp lý.
   * Biến Insulin có độ lệch chuẩn lớn (115), phân bố không đồng đều, có nhiều giá trị cực trị.
**Outcome (kết quả bệnh):**

   * Có 268 người mắc bệnh (≈35%) và 500 người không mắc (≈65%). Dữ liệu hơi lệch về nhóm không bệnh.



#### (2) Kiểm tra tính toàn vẹn của dử liệu
+ Dữ liệu có bị trùng lặp không? Hiển thị dòng bị vi phạm.
+ Dữ liệu có tồn tại giá trị Null không? Hiển thị dòng bị vi phạm.
+ Dữ liệu có tồn tại giá trị NaN không? Hiển thị dòng bị vi phạm

In [7]:
has_null = df.isnull().sum().any()
has_nan  = df.isna().sum().any()
n_duplicated = df.duplicated().sum()
print(f'Tính toàn vẹn dữ liệu:')
print(f'+ Có giá trị Null: {has_null}')
if has_null:
    display.display(df[df.isnull().any(axis=1)])
print(f'+ Có giá trị Nan: {has_nan}')
if has_nan:
    display.display(df[df.isna().any(axis=1)])
print(f'+ Số dòng trùng: {n_duplicated}')
if n_duplicated>0:
    display.display(df[df.duplicated()])


Tính toàn vẹn dữ liệu:
+ Có giá trị Null: False
+ Có giá trị Nan: False
+ Số dòng trùng: 0


**Nhận xét:**
+ Dự liệu có 240 dòng bị trùng
+ DỰ liệu không có giá trị bị rỗng

#### **Thống kê mô tả tổng quát**

In [8]:
import pandas as pd


# --- 1. Tính toán các chỉ số thống kê cơ bản và tùy chỉnh ---

# Tính Mean, Median, Variance, và Standard Deviation
basic_stats = df.agg(['mean', 'median', 'var', 'std']).T
basic_stats = basic_stats.rename(columns={'mean': 'Mean', 'median': 'Median', 'var': 'Variance', 'std': 'Standard Deviation'})

# Tính Min, Max, Quartiles (Q1, Q3)
desc_stats = df.describe().T[['min', 'max', '25%', '75%']]
desc_stats = desc_stats.rename(columns={'min': 'Min', 'max': 'Max', '25%': 'Q1 (25th Pct)', '75%': 'Q3 (75th Pct)'})

# Tính Range (Phạm vi)
desc_stats['Range'] = desc_stats['Max'] - desc_stats['Min']

# Tính IQR (Interquartile Range: Q3 - Q1)
desc_stats['IQR'] = desc_stats['Q3 (75th Pct)'] - desc_stats['Q1 (25th Pct)']

# Tính thêm Percentiles (ví dụ: 10th và 90th percentile)
percentiles = df.quantile([0.1, 0.9]).T
percentiles = percentiles.rename(columns={0.1: '10th Percentile', 0.9: '90th Percentile'})

# Tính Mode (Yếu vị)
# Lấy giá trị mode đầu tiên nếu có nhiều hơn một mode
mode_series = df.mode().iloc[0]
mode_df = mode_series.to_frame(name='Mode').T.rename(index={0: 'Mode'})

# --- 2. Kết hợp tất cả các kết quả vào một DataFrame duy nhất ---

# Kết hợp các bảng
final_stats = pd.merge(basic_stats, desc_stats, left_index=True, right_index=True)
final_stats = pd.merge(final_stats, percentiles, left_index=True, right_index=True)
final_stats = pd.merge(final_stats, mode_df.T, left_index=True, right_index=True)

# Sắp xếp lại và làm tròn các cột cho dễ đọc
column_order = [
    'Mean', 'Median', 'Mode', 'Standard Deviation', 'Variance',
    'Min', 'Max', 'Range', 'Q1 (25th Pct)', 'Q3 (75th Pct)', 'IQR',
    '10th Percentile', '90th Percentile'
]
final_stats = final_stats[column_order]

# --- 3. Hiển thị kết quả ---
print("### Bảng Tổng Hợp Thống Kê Mô Tả Toàn Diện ###")
# Hiển thị kết quả, làm tròn 3 chữ số thập phân
print(final_stats.round(3))

### Bảng Tổng Hợp Thống Kê Mô Tả Toàn Diện ###
                             Mean   Median    Mode  Standard Deviation  \
Pregnancies                 3.845    3.000   1.000               3.370   
Glucose                   120.895  117.000  99.000              31.973   
BloodPressure              69.105   72.000  70.000              19.356   
SkinThickness              20.536   23.000   0.000              15.952   
Insulin                    79.799   30.500   0.000             115.244   
BMI                        31.993   32.000  32.000               7.884   
DiabetesPedigreeFunction    0.472    0.372   0.254               0.331   
Age                        33.241   29.000  22.000              11.760   
Outcome                     0.349    0.000   0.000               0.477   

                           Variance     Min     Max    Range  Q1 (25th Pct)  \
Pregnancies                  11.354   0.000   17.00   17.000          1.000   
Glucose                    1022.248   0.000  199.00  1

**Phân bố dữ liệu:** Các biến như Glucose, Insulin và SkinThickness có giá trị tối thiểu bằng 0, cho thấy có khả năng dữ liệu thiếu hoặc không hợp lý về mặt sinh lý.

**Trung bình và trung vị:** Nhiều biến (BMI, Age, Pregnancies) có giá trị trung bình gần trung vị, chỉ ra phân bố tương đối cân bằng; nhưng Insulin và SkinThickness lệch phải do một số giá trị cực trị lớn.

**Biến Outcome:** Tỷ lệ mắc bệnh ≈ 35%, không cân bằng nhưng vẫn đủ để phân tích.

**Độ biến thiên:** Insulin có phương sai và độ lệch chuẩn rất lớn (≈115), cho thấy phân bố dữ liệu không đồng đều; các biến còn lại biến thiên vừa phải.

**Khoảng tứ phân vị (IQR):** Cho thấy sự phân bố dữ liệu rộng nhất ở Insulin, SkinThickness và Glucose, trong khi các biến như DiabetesPedigreeFunction, Age và BMI phân bố đều hơn.
