# THỐNG KÊ MÔ TẢ TẬP DỮ LIỆU BỆNH TIỂU ĐƯỜNG

## Giới thiệu
Tập dữ liệu **Pima Indians Diabetes** được lấy từ [Kaggle](https://www.kaggle.com/code/vincentlugat/pima-indians-diabetes-eda-prediction-0-906).  
Dữ liệu chứa thông tin y tế của phụ nữ Pima Indian trên 21 tuổi, với mục tiêu dự đoán xem họ **có mắc bệnh tiểu đường hay không** (`Outcome`: 1 = Có, 0 = Không).

---

## Mục lục
1. Nạp dữ liệu  
2. Khám phá thông tin tổng quát  
3. Thống kê mô tả  
4. Kiểm tra dữ liệu thiếu và giá trị bất thường  
5. Trực quan hóa dữ liệu  
6. Kết luận  

---


## 1️.Nạp dữ liệu


In [2]:

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Đọc dữ liệu CSV (đặt đúng đường dẫn file)
diabetes = pd.read_csv("diabetes.csv")

# Hiển thị 5 dòng đầu tiên
diabetes.head()


FileNotFoundError: [Errno 2] No such file or directory: 'diabetes.csv'

## 2.Thông tin tổng quát về dữ liệu


In [None]:
# Kích thước, kiểu dữ liệu
print("Kích thước dữ liệu:", diabetes.shape)
diabetes.info()


**Nhận xét:**
- Tập dữ liệu gồm **768 dòng và 9 cột**.
- Tất cả các thuộc tính đều là dạng số (`int64`, `float64`), thuận tiện cho mô hình hóa.
- Cột **Outcome** là biến mục tiêu (0: Không bị, 1: Bị tiểu đường).


## 3.Thống kê mô tả


In [None]:
# Thống kê mô tả các cột số
diabetes.describe().T


**Nhận xét:**
- Một số cột có giá trị `0` không hợp lý như `Glucose`, `BloodPressure`, `BMI` (vì không thể bằng 0 trong thực tế).
- Giá trị trung bình của `Glucose` khoảng 120, cao hơn mức bình thường → mẫu dữ liệu có xu hướng thiên về nhóm bệnh nhân tiểu đường.


## 4.Kiểm tra dữ liệu thiếu và giá trị bất thường


In [None]:
# Kiểm tra giá trị thiếu
print("🔹 Số giá trị thiếu mỗi cột:")
print(diabetes.isnull().sum())

# Kiểm tra giá trị 0 ở các cột quan trọng
cols = ["Glucose", "BloodPressure", "SkinThickness", "Insulin", "BMI"]
for col in cols:
    zero_count = (diabetes[col] == 0).sum()
    print(f"{col}: {zero_count} giá trị 0")


**Nhận xét:**
- Không có giá trị thiếu dạng `NaN`.
- Tuy nhiên, có nhiều giá trị **0 bất hợp lý** trong `Glucose`, `BloodPressure`, `BMI`, `SkinThickness`, `Insulin`.  
->> Cần **xử lý thay thế hoặc nội suy** trong giai đoạn tiền xử lý sau này.


In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

plt.figure(figsize=(6,4))

# Sửa lỗi: Thêm hue='Outcome' và legend=False
sns.countplot(x='Outcome', data=diabetes, hue='Outcome', palette='Set2', legend=False)

plt.title('Phân bố bệnh tiểu đường')
plt.xlabel('Outcome (0 = Không, 1 = Có)')
plt.ylabel('Số lượng')
plt.show()

**Nhận xét:**
- Dữ liệu **mất cân bằng nhẹ**: Số người không bị bệnh (0) nhiều hơn số người bị (1).


## 5.Trực quan hóa dữ liệu


### 5.1. Phân bố biến mục tiêu (Outcome)

In [3]:
import matplotlib.pyplot as plt
import seaborn as sns

plt.figure(figsize=(6,4))

# Sửa lỗi: Thêm hue='Outcome' và legend=False
sns.countplot(x='Outcome', data=diabetes, hue='Outcome', palette='Set2', legend=False)

plt.title('Phân bố bệnh tiểu đường')
plt.xlabel('Outcome (0 = Không, 1 = Có)')
plt.ylabel('Số lượng')
plt.show()

NameError: name 'diabetes' is not defined

<Figure size 600x400 with 0 Axes>

### 5.2. Phân bố các đặc trưng chính


In [None]:
diabetes.hist(figsize=(12,10), bins=20, color='#3CB371')
plt.suptitle('Phân bố các đặc trưng trong tập dữ liệu', fontsize=14)
plt.show()


Nhận xét phân bố các đặc trưng trong tập dữ liệu tiểu đường

Các biểu đồ histogram cho thấy hình thái phân bố của từng biến. Việc hiểu rõ sự phân bố là bước quan trọng để xác định phương pháp tiền xử lý dữ liệu phù hợp trước khi huấn luyện mô hình.

1. Các biến có dạng phân bố chuẩn hoặc gần chuẩn
Các biến này có hình chuông và ít bị lệch, phù hợp để sử dụng trực tiếp hoặc sau khi chuẩn hóa đơn giản (Standardization):
- Glucose (Đường huyết): Phân bố gần chuẩn, tập trung chủ yếu quanh mức 100-125.
- BloodPressure (Huyết áp): Phân bố gần chuẩn, tập trung mạnh quanh mức 70-80.
- BMI (Chỉ số khối cơ thể): Phân bố gần chuẩn, tập trung chủ yếu quanh mức 30-35.

2. Các biến bị lệch phải (Right-Skewed)
Các biến này có đuôi kéo dài về phía giá trị lớn hơn và có nhiều giá trị bằng 0 hoặc rất nhỏ. Các biến này cần được xử lý (như biến đổi logarit) để giảm độ lệch trước khi đưa vào mô hình:
- Pregnancies (Số lần mang thai): Bị lệch phải, nhiều phụ nữ có số lần mang thai nhỏ.
- Insulin: Bị lệch phải rất mạnh, đa số các giá trị tập trung ở mức gần 0, nhưng có một đuôi dài về phía các giá trị insulin rất cao.
- SkinThickness (Độ dày da): Bị lệch phải, với nhiều giá trị ở mức thấp, có thể có giá trị 0 không hợp lý (cần kiểm tra).
- DiabetesPedigreeFunction: Bị lệch phải, cho thấy đa số bệnh nhân có điểm chức năng phả hệ thấp.
- Age (Tuổi): Bị lệch phải nhẹ, tập trung chủ yếu ở độ tuổi trẻ hơn (20-30).

3. Biến mục tiêu (Outcome)
Outcome (Kết quả) là biến nhị phân, cho thấy dữ liệu bị mất cân bằng.
- 0 (Không mắc bệnh): Chiếm số lượng lớn hơn nhiều (gần 500 mẫu).
- 1 (Mắc bệnh): Chiếm số lượng ít hơn (khoảng 250-300 mẫu).
Kết luận: Cần áp dụng kỹ thuật xử lý dữ liệu mất cân bằng (như SMOTE hoặc điều chỉnh trọng số lớp) trong quá trình huấn luyện mô hình.


### 5.3.Ma trận tương quan giữa các đặc trưng


In [4]:
plt.figure(figsize=(10,8))
sns.heatmap(diabetes.corr(), annot=True, cmap='YlOrRd', fmt=".2f")
plt.title("Ma trận tương quan giữa các biến")
plt.show()


NameError: name 'diabetes' is not defined

<Figure size 1000x800 with 0 Axes>

Đánh giá nhận xét ma trận tương quan

Các nhận xét kèm theo biểu đồ là chính xác và hợp lý.

1. Mối quan hệ chủ đạo với bệnh (Outcome)
- Glucose (0.47): Có tương quan dương mạnh nhất với Outcome (nguy cơ mắc bệnh).
  Ý nghĩa: Đây là kết quả sinh học quan trọng nhất – đường huyết càng cao thì khả năng mắc bệnh tiểu đường càng cao.
- BMI (0.29), Age (0.24), DiabetesPedigreeFunction (0.17): Đều có tương quan dương với Outcome.
  Ý nghĩa: Các yếu tố về cân nặng, tuổi tác và tiền sử gia đình đều là những yếu tố nguy cơ quan trọng, đứng sau chỉ số đường huyết.

2. Mối quan hệ giữa các đặc trưng độc lập
- Pregnancies và Age (0.54): Có tương quan dương mạnh nhất giữa các biến độc lập.
  Ý nghĩa: Số lần mang thai có mối liên hệ mật thiết với tuổi tác, cho thấy chúng có thể đo lường cùng một khía cạnh.
- SkinThickness và BMI (0.44), SkinThickness và Insulin (0.44): Có tương quan dương mạnh.
  Ý nghĩa: Độ dày da, chỉ số khối cơ thể và mức insulin có liên hệ chặt chẽ với nhau, phản ánh mức độ béo phì và sức khỏe trao đổi chất.


## 6.Kết luận

- Tập dữ liệu **Pima Indians Diabetes** gồm 768 mẫu, 8 đặc trưng đầu vào và 1 biến nhãn (`Outcome`).  
- Không có dữ liệu thiếu, nhưng có nhiều giá trị **0 không hợp lệ** cần xử lý trước khi huấn luyện mô hình.  
- Các đặc trưng có ảnh hưởng lớn đến kết quả bệnh gồm:
- `Glucose` (đường huyết)
- `BMI` (chỉ số khối cơ thể)
- `Age` (tuổi)
- `DiabetesPedigreeFunction` (yếu tố di truyền)

->> Dữ liệu đã sẵn sàng cho **bước tiền xử lý và phân loại bằng mô hình học máy** ở nhiệm vụ tiếp theo.
