# Bệnh đái tháo đường ở nữ giới Pima Indian

## 1. Giới thiệu

### Mô tả vấn đề
Bệnh tiểu đường là một trong những bệnh mạn tính phổ biến và nguy hiểm, đặc biệt trong nhóm người có yếu tố nguy cơ như béo phì, tuổi cao, hoặc có tiền sử gia đình.  
Bộ dữ liệu **Pima Indians Diabetes** được thu thập từ phụ nữ Pima (Arizona, Mỹ) ≥ 21 tuổi, nhằm mục tiêu phân tích các yếu tố sức khỏe liên quan đến khả năng mắc bệnh tiểu đường.  

### Mục tiêu phân tích
- Khám phá đặc điểm dữ liệu và kiểm tra chất lượng dữ liệu (missing values, ngoại lai).
- Phân tích mối quan hệ giữa các chỉ số sức khỏe (Glucose, BMI, Age, …) và biến mục tiêu `Outcome`.
- Xác định những biến quan trọng có thể hữu ích cho việc xây dựng mô hình dự đoán.  

### Thông tin cơ bản về dữ liệu
- **Số mẫu**: 768  
- **Số thuộc tính**: 8 đặc trưng + 1 biến mục tiêu  
- **Biến mục tiêu**: `Outcome` (0 = không tiểu đường, 1 = có tiểu đường)  

### Các bước tiếp theo 
1. Import thư viện & nạp dữ liệu
2. Khám phá cấu trúc dữ liệu
3. Phân tích đơn biến
4. Phân tích đa biến
5. Kiểm tra tương quan
6. Tóm tắt insights

## 2. Import thư viện và nạp dữ liệu

### 2.1 Khai báo thư viện (Load Libraries)

- **pandas**: dùng để xử lý dữ liệu dạng bảng (DataFrame), hỗ trợ đọc, ghi, và thao tác dữ liệu.
- **numpy**: thư viện tính toán số học, hỗ trợ mảng đa chiều và các phép toán nhanh chóng.
- **scikit-learn (SimpleImputer)**: cung cấp công cụ để xử lý giá trị thiếu (missing values), ở đây dùng `SimpleImputer`.
- **seaborn**: thư viện trực quan hóa dữ liệu, giúp vẽ các biểu đồ đẹp và dễ nhìn hơn.
- **matplotlib.pyplot**: thư viện cơ bản để vẽ biểu đồ trong Python.

In [2]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

### 2.2 Nạp dữ liệu (Load Dataset)

- Thực hiện việc **nạp dữ liệu gốc** từ file `pima-indians-diabetes.csv` vào Python bằng thư viện `pandas`.  
- Do file CSV không chứa tiêu đề cột (header), ta cần **gán tên cột** dựa trên mô tả trong tài liệu nghiên cứu gốc.  
- Kết quả: dữ liệu được lưu vào một **DataFrame** có cấu trúc rõ ràng.

In [3]:
# Đọc dữ liệu từ file CSV
data_path = 'pima-indians-diabetes.csv'  # Đường dẫn tới file dữ liệu

# Gán tên cột dựa trên mô tả trong tài liệu
column_names = ['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI', 'DiabetesPedigreeFunction', 'Age', 'Outcome'] # Tên các cột

# Đọc dữ liệu từ file CSV
data = pd.read_csv(data_path, header=None, names=column_names)

### 2.3. Khám phá cấu trúc dữ liệu

- Sử dụng các hàm cơ bản của pd đễ hỗ trợ cho chúng ta có một cái nhìn tổng quát về số liệu của file 

In [4]:
data.shape

(768, 9)

In [5]:
data.columns

Index(['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness', 'Insulin',
       'BMI', 'DiabetesPedigreeFunction', 'Age', 'Outcome'],
      dtype='object')

In [6]:
# Hiển thị 5 dòng đầu để kiểm tra
print("5 dòng đầu của dữ liệu:")
print(data.head())

5 dòng đầu của dữ liệu:
   Pregnancies  Glucose  BloodPressure  SkinThickness  Insulin   BMI  \
0            6      148             72             35        0  33.6   
1            1       85             66             29        0  26.6   
2            8      183             64              0        0  23.3   
3            1       89             66             23       94  28.1   
4            0      137             40             35      168  43.1   

   DiabetesPedigreeFunction  Age  Outcome  
0                     0.627   50        1  
1                     0.351   31        0  
2                     0.672   32        1  
3                     0.167   21        0  
4                     2.288   33        1  


In [7]:
print("5 dòng cuối của dữ liệu:")
print(data.tail())

5 dòng cuối của dữ liệu:
     Pregnancies  Glucose  BloodPressure  SkinThickness  Insulin   BMI  \
763           10      101             76             48      180  32.9   
764            2      122             70             27        0  36.8   
765            5      121             72             23      112  26.2   
766            1      126             60              0        0  30.1   
767            1       93             70             31        0  30.4   

     DiabetesPedigreeFunction  Age  Outcome  
763                     0.171   63        0  
764                     0.340   27        0  
765                     0.245   30        0  
766                     0.349   47        1  
767                     0.315   23        0  


In [8]:
# Hiển thị thông tin cơ bản về dữ liệu
print(data.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 768 entries, 0 to 767
Data columns (total 9 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Pregnancies               768 non-null    int64  
 1   Glucose                   768 non-null    int64  
 2   BloodPressure             768 non-null    int64  
 3   SkinThickness             768 non-null    int64  
 4   Insulin                   768 non-null    int64  
 5   BMI                       768 non-null    float64
 6   DiabetesPedigreeFunction  768 non-null    float64
 7   Age                       768 non-null    int64  
 8   Outcome                   768 non-null    int64  
dtypes: float64(2), int64(7)
memory usage: 54.1 KB
None


**Nhận xét cấu trúc dữ liệu:**
   - Tổng cộng **767 dòng × 9 cột**.  
   - Tất cả các biến đều dạng số (`int` hoặc `float`). 

In [9]:
# Thống kê mô tả
print(data.describe())

       Pregnancies     Glucose  BloodPressure  SkinThickness     Insulin  \
count   768.000000  768.000000     768.000000     768.000000  768.000000   
mean      3.845052  120.894531      69.105469      20.536458   79.799479   
std       3.369578   31.972618      19.355807      15.952218  115.244002   
min       0.000000    0.000000       0.000000       0.000000    0.000000   
25%       1.000000   99.000000      62.000000       0.000000    0.000000   
50%       3.000000  117.000000      72.000000      23.000000   30.500000   
75%       6.000000  140.250000      80.000000      32.000000  127.250000   
max      17.000000  199.000000     122.000000      99.000000  846.000000   

              BMI  DiabetesPedigreeFunction         Age     Outcome  
count  768.000000                768.000000  768.000000  768.000000  
mean    31.992578                  0.471876   33.240885    0.348958  
std      7.884160                  0.331329   11.760232    0.476951  
min      0.000000                  

- Các thống kê mô tả chính và ý nghĩa:
    + count: số lượng mẫu dữ liệu (ở đây tất cả cột = 768).
    + mean: giá trị trung bình.
    + std: độ lệch chuẩn → mức độ phân tán quanh trung bình.
    + min, max: giá trị nhỏ nhất và lớn nhất.
    + 25%, 50%, 75% (quartiles): các mốc phân vị → dùng để đánh giá sự phân phối dữ liệu.

- Chỉ số đo lường sự biến động (Dispersion):
    + std (độ lệch chuẩn):
        + Glucose: 32 → biến thiên khá lớn, thể hiện sự khác biệt giữa người khỏe mạnh và người có nguy cơ cao.
        + Insulin: 115, lớn hơn cả mean (~80) → chứng tỏ dữ liệu rất phân tán và nhiều ngoại lệ.
        + BMI: 7.88 → tương đối ổn định, dao động vừa phải.
        + Age: 11.8 → đa dạng độ tuổi, từ 21 đến 81 tuổi.
- Khoảng (range = max - min):
    + Pregnancies: 0–17, cho thấy có vài trường hợp đặc biệt mang thai rất nhiều lần.
    + Insulin: 0–846, cực kỳ phân tán → cần chuẩn hóa hoặc log-transform khi phân tích.
    + SkinThickness: 0–99, cũng có nhiều giá trị bất hợp lý.

### 2.4. Kiểm tra giá trị thiếu (Missing Values) và giá trị trùng lặp

In [10]:
data.isnull().sum()

Pregnancies                 0
Glucose                     0
BloodPressure               0
SkinThickness               0
Insulin                     0
BMI                         0
DiabetesPedigreeFunction    0
Age                         0
Outcome                     0
dtype: int64

- **Nhận xét:** Không có giá trị nào Null

In [11]:
(data==0).sum()

Pregnancies                 111
Glucose                       5
BloodPressure                35
SkinThickness               227
Insulin                     374
BMI                          11
DiabetesPedigreeFunction      0
Age                           0
Outcome                     500
dtype: int64

- **Nhận xét về dữ liệu có giá trị 0:**  
   1. Pregnancies (111 giá trị 0):
      + 0 lần mang thai là hợp lý (có những phụ nữ chưa từng mang thai).
      + Không cần xử lý coi là missing.
   2. Glucose (5 giá trị 0):
      + Về mặt y khoa, glucose máu không thể = 0.
      + Đây là giá trị bất thường → coi là dữ liệu thiếu.
   3. BloodPressure (35 giá trị 0):
      + Huyết áp tâm trương không thể = 0.
      + Các giá trị này là missing values cần xử lý
   4. SkinThickness (227 giá trị 0):
      + 0 mm nếp gấp da là không hợp lý.
      + Đây là một biến có nhiều thiếu dữ liệu (≈ 30% dữ liệu).
   5. Insulin (374 giá trị 0):
      + 0 µU/mL insulin là không thực tế.
      + Biến này có nhiều dữ liệu thiếu nhất (≈ 49%).
   6. BMI (11 giá trị 0):
      + BMI = 0 là bất hợp lý.
      + Một số ít dữ liệu cần xử lý missing.
   7. DiabetesPedigreeFunction (0 giá trị 0):
      + Không có giá trị 0, dữ liệu đầy đủ.
   8. Age (0 giá trị 0):
      + Không có giá trị 0, dữ liệu đầy đủ.
   9. Outcome (500 giá trị 0):
      + Đây là biến nhãn (class):
         + 0 = không mắc tiểu đường (500 mẫu).
         + 1 = mắc tiểu đường (268 mẫu).
      + Đây không phải dữ liệu thiếu mà là nhãn hợp lệ.

In [12]:
data.duplicated().sum()

0

- **Nhận xét:** Không có giá trị nào trùng lặp

In [13]:
# Phân bố lớp
print("\nPhân bố biến lớp (Outcome):")
print(data['Outcome'].value_counts())


Phân bố biến lớp (Outcome):
Outcome
0    500
1    268
Name: count, dtype: int64


- **Nhận xét:** Tỉ lệ mắc 65% không tiểu đường, 35% có tiểu đường => Dataset có chênh lệch nhưng không quá nghiêm trọng

### 2.5. Kiểm tra độ tương quan dữ liệu

In [14]:
data.corr()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
Pregnancies,1.0,0.129459,0.141282,-0.081672,-0.073535,0.017683,-0.033523,0.544341,0.221898
Glucose,0.129459,1.0,0.15259,0.057328,0.331357,0.221071,0.137337,0.263514,0.466581
BloodPressure,0.141282,0.15259,1.0,0.207371,0.088933,0.281805,0.041265,0.239528,0.065068
SkinThickness,-0.081672,0.057328,0.207371,1.0,0.436783,0.392573,0.183928,-0.11397,0.074752
Insulin,-0.073535,0.331357,0.088933,0.436783,1.0,0.197859,0.185071,-0.042163,0.130548
BMI,0.017683,0.221071,0.281805,0.392573,0.197859,1.0,0.140647,0.036242,0.292695
DiabetesPedigreeFunction,-0.033523,0.137337,0.041265,0.183928,0.185071,0.140647,1.0,0.033561,0.173844
Age,0.544341,0.263514,0.239528,-0.11397,-0.042163,0.036242,0.033561,1.0,0.238356
Outcome,0.221898,0.466581,0.065068,0.074752,0.130548,0.292695,0.173844,0.238356,1.0


**Nhận xét độ tương quan**

- **Glucose ↔ Outcome** (0.49): mối quan hệ mạnh nhất, đường huyết cao liên quan trực tiếp đến tiểu đường.  
- **BMI** (0.31)**, Age** (0.24)**, Pregnancies**(0.22) **↔ Outcome**: cũng có ảnh hưởng, lần lượt theo mức độ.  
- **Age ↔ Pregnancies** (0.54) và **SkinThickness ↔ BMI** (0.54): quan hệ chặt chẽ, hợp lý về mặt sinh lý.  
- Các biến khác (BloodPressure, Insulin, DPF) có tương quan yếu hơn.  

**=>** Glucose là biến quan trọng nhất, sau đó đến BMI, Age và Pregnancies.


## 3. Chuẩn bị dữ liệu (Prepare Data)

### 3.1 Làm sạch dữ liệu (Data Cleaning)

#### Xử lý dữ liệu bị thiếu
- Dữ liệu này không có giá trị nào Null, chỉ có giá trị bằng 0, nên ta thay giá trị 0 bằng NaN để xử lý

In [16]:
from sklearn.impute import SimpleImputer
# Thay thế giá trị 0 bằng NaN để xử lý
for column in ['Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI']:
    data[column] = data[column].replace(0, np.nan)

# Sử dụng SimpleImputer để điền giá trị thiếu bằng trung bình
imputer = SimpleImputer(strategy='mean')
data[['Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI']] = imputer.fit_transform(data[['Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI']])

# Kiểm tra lại số lượng giá trị thiếu
print("Số lượng giá trị thiếu sau khi xử lý:")
print(data.isnull().sum())

Số lượng giá trị thiếu sau khi xử lý:
Pregnancies                 0
Glucose                     0
BloodPressure               0
SkinThickness               0
Insulin                     0
BMI                         0
DiabetesPedigreeFunction    0
Age                         0
Outcome                     0
dtype: int64


- Việc thay thế bằng trung bình giúp duy trì tính đại diện của dữ liệu mà không làm mất thông tin quan trọng.
    - SimpleImputer với chiến lược mean thay thế các giá trị thiếu (bao gồm cả null và NaN) bằng trung bình của cột, giữ nguyên ý nghĩa thống kê.
    - Sau khi xử lý, tất cả giá trị thiếu sẽ được điền, đảm bảo dữ liệu không còn khoảng trống.

#### Xử lý chuẩn hóa dữ liệu

- Giới thiệu MinMaxScaler (sklearn.preprocessing)
- **MinMaxScaler** là một công cụ trong thư viện **Scikit-learn** dùng để **chuẩn hóa dữ liệu (feature scaling)**.  
- Nguyên lý hoạt động: đưa toàn bộ giá trị của một biến về trong **khoảng [0, 1]** (hoặc một khoảng tùy chọn do người dùng định nghĩa). 
Công thức biến đổi:
$$
X' = \frac{X - X_{min}}{X_{max} - X_{min}}
$$
Trong đó:  
- \(X\) là giá trị gốc,  
- \(X_{min}\) là giá trị nhỏ nhất của cột,  
- \(X_{max}\) là giá trị lớn nhất của cột,  
- \(X'\) là giá trị đã được scale (nằm trong [0,1]). 

In [18]:
# Chuẩn hóa dữ liệu bằng MinMaxScaler
from sklearn.preprocessing import MinMaxScaler

# Kiểm tra phạm vi giá trị của các cột
print("\nPhạm vi giá trị của các cột:")
print(data.describe())

scaler = MinMaxScaler()
data_scaled = pd.DataFrame(scaler.fit_transform(data.drop('Outcome', axis=1)), columns=data.drop('Outcome', axis=1).columns)
data_scaled['Outcome'] = data['Outcome']

# Hiển thị 5 dòng đầu của dữ liệu đã chuẩn hóa
print("\n5 dòng đầu của dữ liệu đã chuẩn hóa:")
print(data_scaled.head())


Phạm vi giá trị của các cột:
       Pregnancies     Glucose  BloodPressure  SkinThickness     Insulin  \
count   768.000000  768.000000     768.000000     768.000000  768.000000   
mean      3.845052  121.686763      72.405184      29.153420  155.548223   
std       3.369578   30.435949      12.096346       8.790942   85.021108   
min       0.000000   44.000000      24.000000       7.000000   14.000000   
25%       1.000000   99.750000      64.000000      25.000000  121.500000   
50%       3.000000  117.000000      72.202592      29.153420  155.548223   
75%       6.000000  140.250000      80.000000      32.000000  155.548223   
max      17.000000  199.000000     122.000000      99.000000  846.000000   

              BMI  DiabetesPedigreeFunction         Age     Outcome  
count  768.000000                768.000000  768.000000  768.000000  
mean    32.457464                  0.471876   33.240885    0.348958  
std      6.875151                  0.331329   11.760232    0.476951  
min  

- describe() kiểm tra phạm vi giá trị (min, max) để đánh giá cần chuẩn hóa không. Ví dụ, Age và Pregnancies có thể có giá trị lớn hơn các cột khác.
- MinMaxScaler chuẩn hóa dữ liệu về khoảng [0, 1], giúp các thuộc tính có cùng thang đo, đặc biệt quan trọng cho mô hình hóa sau này.
- Dữ liệu chuẩn hóa được lưu vào data_scaled. Có thể gán data = data_scaled nếu muốn sử dụng ngay.

#### Kiểm tra dữ liệu sau khi xử lý

In [19]:
# Hiển thị thông tin cơ bản sau khi xử lý
print("\nThông tin cơ bản về dữ liệu sau khi xử lý:")
print(data.info())

# Phân bố lớp sau khi xử lý
print("\nPhân bố biến lớp (Outcome) sau khi xử lý:")
print(data['Outcome'].value_counts())


Thông tin cơ bản về dữ liệu sau khi xử lý:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 768 entries, 0 to 767
Data columns (total 9 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Pregnancies               768 non-null    int64  
 1   Glucose                   768 non-null    float64
 2   BloodPressure             768 non-null    float64
 3   SkinThickness             768 non-null    float64
 4   Insulin                   768 non-null    float64
 5   BMI                       768 non-null    float64
 6   DiabetesPedigreeFunction  768 non-null    float64
 7   Age                       768 non-null    int64  
 8   Outcome                   768 non-null    int64  
dtypes: float64(6), int64(3)
memory usage: 54.1 KB
None

Phân bố biến lớp (Outcome) sau khi xử lý:
Outcome
0    500
1    268
Name: count, dtype: int64


- info() xác nhận không còn giá trị thiếu và kiểu dữ liệu phù hợp.
- value_counts() kiểm tra phân bố lớp vẫn giữ nguyên (500 mẫu 0 và 268 mẫu 1), đảm bảo không mất dữ liệu quan trọng.

## 4. Phân tích dữ liệu (Analyze Data)