# Thực hiện thống kê mô tả trên tập dữ liệu về bệnh tiểu đường

## 1. Giới thiệu chung
- Bộ dữ liệu Pima Indians Diabetes bao gồm thông tin y tế của phụ nữ thuộc bộ tộc da đỏ Pima có khả năng mắc bệnh đái tháo đường (diabetes) hay không.
- Dữ liệu được thu thập để dự đoán khả năng mắc bệnh đái tháo đường dựa trên các chỉ số y sinh.

## 2. Mục tiêu
- Thực hiện thống kê mô tả (Exploratory Data Analysis) để hiểu cấu trúc dữ liệu.

## 3. Thông tin về dữ liệu

- 768 mẫu dữ liệu
- 9 biến (features): 8 biến độc lập + 1 biến phụ thuộc (Outcome)

| Biến | Mô tả | Đơn vị |
|--------|----------|-----------|
| Pregnancies | Số lần mang thai | - | 
| Glucose | Nồng độ glucose huyết tương sau 2 giờ trong nghiệm pháp dung nạp glucose | mg/dL |
| BloodPressure | Huyết áp tâm trương | mmHg |
| SkinThickness | Độ dày nếp gấp da | mm |
| Insulin | Nồng độ insulin huyết thanh | μU/ml |
| BMI | Chỉ số khối cơ thể = cân nặng/chiều cao² | kg/m² |
| DiabetesPedigreeFunction | Chỉ số nguy cơ di truyền bệnh đái tháo đường | - |
| Age | Tuổi | - |
| Outcome | 0 = không mắc bệnh đái tháo đường, 1 = mắc bệnh đái tháo đường | - |

## 4. Nạp và xem trước dữ liệu

### Import thư viện

In [1]:
import numpy as np
import pandas as pd
from scipy import stats
from scipy.stats import skew, kurtosis

### Đọc dữ liệu

In [7]:
data = pd.read_csv("diabetes.csv")
data.head(5)

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


### Một số thông tin của dữ liệu

In [8]:
print("5 dòng đầu: ")
display(data.head(5))

5 dòng đầu: 


Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


In [9]:
print("5 dòng cuối: ")
display(data.tail(5))

5 dòng cuối: 


Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
763,10,101,76,48,180,32.9,0.171,63,0
764,2,122,70,27,0,36.8,0.34,27,0
765,5,121,72,23,112,26.2,0.245,30,0
766,1,126,60,0,0,30.1,0.349,47,1
767,1,93,70,31,0,30.4,0.315,23,0


In [10]:
print("Kiểu dữ liệu của mỗi biến: ")
display(data.dtypes)

Kiểu dữ liệu của mỗi biến: 


Pregnancies                   int64
Glucose                       int64
BloodPressure                 int64
SkinThickness                 int64
Insulin                       int64
BMI                         float64
DiabetesPedigreeFunction    float64
Age                           int64
Outcome                       int64
dtype: object

In [11]:
print("Số dòng, số cột của dữ liệu: ")
display(data.shape)

Số dòng, số cột của dữ liệu: 


(768, 9)

In [12]:
print("Kiểm tra dữ liệu và giá trị thiếu: ")
data.info()

Kiểm tra dữ liệu và giá trị thiếu: 
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 768 entries, 0 to 767
Data columns (total 9 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Pregnancies               768 non-null    int64  
 1   Glucose                   768 non-null    int64  
 2   BloodPressure             768 non-null    int64  
 3   SkinThickness             768 non-null    int64  
 4   Insulin                   768 non-null    int64  
 5   BMI                       768 non-null    float64
 6   DiabetesPedigreeFunction  768 non-null    float64
 7   Age                       768 non-null    int64  
 8   Outcome                   768 non-null    int64  
dtypes: float64(2), int64(7)
memory usage: 54.1 KB


In [13]:
print("Kiểm tra giá trị null: ")
data.isnull().sum()

Kiểm tra giá trị null: 


Pregnancies                 0
Glucose                     0
BloodPressure               0
SkinThickness               0
Insulin                     0
BMI                         0
DiabetesPedigreeFunction    0
Age                         0
Outcome                     0
dtype: int64

**Nhận xét**
- Dữ liệu có 8 tính chất để phân lớp:
- Tổng số dòng dữ liệu là 768 dòng.
- Dữ liệu để phân lớp ở cột Outcome.
- Không có giá trị thiếu.

## 5. Thống kê mô tả

In [14]:
data.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Pregnancies,768.0,3.845052,3.369578,0.0,1.0,3.0,6.0,17.0
Glucose,768.0,120.894531,31.972618,0.0,99.0,117.0,140.25,199.0
BloodPressure,768.0,69.105469,19.355807,0.0,62.0,72.0,80.0,122.0
SkinThickness,768.0,20.536458,15.952218,0.0,0.0,23.0,32.0,99.0
Insulin,768.0,79.799479,115.244002,0.0,0.0,30.5,127.25,846.0
BMI,768.0,31.992578,7.88416,0.0,27.3,32.0,36.6,67.1
DiabetesPedigreeFunction,768.0,0.471876,0.331329,0.078,0.24375,0.3725,0.62625,2.42
Age,768.0,33.240885,11.760232,21.0,24.0,29.0,41.0,81.0
Outcome,768.0,0.348958,0.476951,0.0,0.0,0.0,1.0,1.0


**Nhận xét**
- Pregnancies (Số lần mang thai)
    - Mean ≈ 3.8, Median = 3. Dữ liệu khá cân đối.
    - Max = 17. Có một số phụ nữ mang thai rất nhiều lần (ngoại lai nhẹ).
    - Dữ liệu hợp lý.
- Glucose (Nồng độ glucose huyết tương)
    - Mean ≈ 121, Median = 117. Dữ liệu hơi lệch phải.
    - Min = 0. Không hợp lý trong thực tế y tế.
    - Max = 199. Có thể bị bệnh đái tháo đường nặng.
- BloodPressure (Huyết áp tâm trương)
    - Mean ≈ 69, Median = 72. Dữ liệu khá gần, phân phối ổn.
    - Min = 0 (Không hợp lý, lỗi dữ liệu).
    - Max = 122. Giá trị cao, nhưng không quá cực đoan.
- SkinThickness (Độ dày nếp gấp da)
    - Median = 23, nhưng Min = 0 (Không hợp lý).
    - Std = 16 khá cao, chứng tỏ dữ liệu phân tán mạnh.
    - Có ngoại lai ở giá trị Max = 99.
- Insulin (Nồng độ insulin huyết thanh)
    - Mean = 80 nhưng Std = 115 rất cao.
    - Min = 0 không hợp lý.
    - Max = 846. Có ngoại lai rất lớn.
- BMI (Chỉ số khối cơ thể)
    - Mean ≈ 32, Median = 32 → cân đối.
    - Min = 0 (không hợp lý, vì BMI không thể bằng 0).
    - Max = 67 khá cao (béo phì nặng).
- DiabetesPedigreeFunction (Chỉ số nguy cơ di truyền bệnh đái tháo đường)
    - Mean ≈ 0.47, Median = 0.37. Dữ liệu lệch phải (có giá trị cao bất thường).
    - Max = 2.42. Giá trị ngoại lai nhẹ.
- Age (Tuổi)
    - Mean ≈ 33, Median = 29. Phân phối lệch phải (nhiều người trẻ, ít người lớn tuổi).
    - Max = 81. Có người rất lớn tuổi.

In [15]:
data["Outcome"].value_counts()

Outcome
0    500
1    268
Name: count, dtype: int64

**Nhận xét**
- Có 500 trường hợp không bị tiểu đường (Outcome = 0) chiếm khoảng 65% dữ liệu.
- Có 268 trường hợp bị tiểu đường (Outcome = 1) chiếm khoảng 35% dữ liệu.
- Dữ liệu không hoàn toàn cân bằng: lớp 0 nhiều hơn lớp 1. Tuy nhiên, sự chênh lệch chưa quá lớn (tỉ lệ ~2:1).

In [16]:
skewness = data.apply(lambda x: skew(x))
kurt = data.apply(lambda x: kurtosis(x))

summary_shape = pd.DataFrame({'Skewness': skewness, 'Kurtosis': kurt})
summary_shape

Unnamed: 0,Skewness,Kurtosis
Pregnancies,0.899912,0.150383
Glucose,0.173414,0.628813
BloodPressure,-1.840005,5.138691
SkinThickness,0.109159,-0.524494
Insulin,2.26781,7.159575
BMI,-0.428143,3.261257
DiabetesPedigreeFunction,1.916159,5.550792
Age,1.127389,0.631177
Outcome,0.633776,-1.598328


|Biến|Nhận xét|
|-----|-----------------|
|Pregnancies|Lệch phải nhẹ, phân phối hơi nhọn hơn chuẩn.|
|Glucose|Gần chuẩn, phân phối khá cân đối.|
|BloodPressure|Lệch trái mạnh, có thể có nhiều giá trị thấp bất thường.|
|SkinThickness|Phân phối gần chuẩn, hơi bẹt.|
|Insulin|Lệch phải mạnh và rất nhọn → nhiều giá trị cực lớn → nên chuẩn hóa hoặc log-transform.|
|BMI|Lệch trái nhẹ, hơi nhọn.|
|DiabetesPedigreeFunction|Lệch phải mạnh, có thể chứa outlier.|
|Age|Lệch phải nhẹ, khá ổn định.|
|Outcome|Lệch phải nhẹ (do tỷ lệ người mắc bệnh cao hơn).|