In [None]:
print("\n" + "="*80)
print("✅ PHÂN TÍCH KHÁM PHÁ DỮ LIỆU (EDA) HOÀN THÀNH")
print("="*80)
print("\n📝 Các bước tiếp theo:")
print("1. ✓ Tiền xử lý dữ liệu (Preprocessing)")
print("2. ✓ Xây dựng mô hình học máy (Model Training)")
print("3. ✓ Đánh giá mô hình (Model Evaluation)")
print("4. ✓ Dự đoán nguy cơ tiểu đường (Prediction Demo)")
print("="*80)

## 7️⃣ Tóm Tắt Kết Quả Phân Tích (EDA Summary)

### Kết Luận Chính:
1. **Cấu trúc dữ liệu**: 768 quan sát, 9 cột (8 đặc trưng + 1 target)
2. **Tương quan mạnh nhất với Outcome**:
   - Glucose (nồng độ glucose)
   - BMI (chỉ số khối cơ thể)
   - Age (tuổi)
   - Insulin (nồng độ insulin)

3. **Giá trị 0 không hợp lệ**: Cần xử lý các cột như Glucose, BloodPressure, Insulin
4. **Mất cân bằng dữ liệu**: ~65% không mắc, ~35% mắc tiểu đường
5. **Phân phối**: Các đặc trưng có phân phối không chuẩn tắc, nên chuẩn hóa là cần thiết

In [None]:
# Vẽ Violin plot để so sánh phân bố
fig, axes = plt.subplots(3, 3, figsize=(15, 12))
fig.suptitle('🎻 Violin Plot - So Sánh Phân Bố Theo Outcome', fontsize=16, fontweight='bold', y=1.00)

for idx, feature in enumerate(df.columns[:-1]):
    ax = axes[idx // 3, idx % 3]
    
    # Tạo dataframe cho violin plot
    plot_data = df[[feature, 'Outcome']].copy()
    plot_data['Outcome'] = plot_data['Outcome'].map({0: 'Không mắc', 1: 'Mắc'})
    
    sns.violinplot(data=plot_data, x='Outcome', y=feature, ax=ax, palette=['#2ecc71', '#e74c3c'])
    ax.set_title(feature, fontweight='bold')
    ax.grid(True, alpha=0.3, axis='y')

plt.tight_layout()
plt.show()

print("✓ Violin plot đã được vẽ")

In [None]:
# So sánh đặc trưng giữa hai nhóm
print("📊 So sánh các đặc trưng giữa nhóm không mắc (0) và mắc (1) tiểu đường:")
print("="*80)

features = df.columns[:-1]  # Loại trừ Outcome
for feature in features:
    group0 = df[df['Outcome'] == 0][feature]
    group1 = df[df['Outcome'] == 1][feature]
    
    print(f"\n{feature}:")
    print(f"  Không mắc (0): Mean={group0.mean():.2f}, Std={group0.std():.2f}")
    print(f"  Mắc (1):      Mean={group1.mean():.2f}, Std={group1.std():.2f}")

## 6️⃣ So Sánh Các Đặc Trưng Theo Outcome

In [None]:
# Phân tích Outcome
print("🎯 Phân tích biến Outcome:")
print("="*60)
outcome_counts = df['Outcome'].value_counts()
outcome_percent = df['Outcome'].value_counts(normalize=True) * 100

print(f"Người không mắc tiểu đường (0): {outcome_counts[0]} ({outcome_percent[0]:.1f}%)")
print(f"Người mắc tiểu đường (1):      {outcome_counts[1]} ({outcome_percent[1]:.1f}%)")
print(f"Tỷ lệ: {outcome_counts[0]} : {outcome_counts[1]}")

# Vẽ biểu đồ phân bố
fig, axes = plt.subplots(1, 2, figsize=(12, 4))

# Bar plot
axes[0].bar(['Không mắc', 'Mắc'], outcome_counts.values, color=['#2ecc71', '#e74c3c'], alpha=0.8)
axes[0].set_ylabel('Số lượng')
axes[0].set_title('📊 Số lượng bệnh nhân theo Outcome', fontweight='bold')
axes[0].grid(True, alpha=0.3, axis='y')
for i, v in enumerate(outcome_counts.values):
    axes[0].text(i, v+5, str(v), ha='center', fontweight='bold')

# Pie chart
colors = ['#2ecc71', '#e74c3c']
explode = (0.05, 0.05)
axes[1].pie(outcome_counts.values, labels=['Không mắc (0)', 'Mắc (1)'], 
            autopct='%1.1f%%', colors=colors, explode=explode, shadow=True, startangle=90)
axes[1].set_title('📊 Tỷ lệ % Outcome', fontweight='bold')

plt.tight_layout()
plt.show()

print("\n✓ Biểu đồ phân bố Outcome đã được vẽ")
print("\n⚠️ Lưu ý: Dữ liệu có sự mất cân bằng (imbalanced) - sẽ cần xử lý khi huấn luyện mô hình")

## 5️⃣ Phân Tích Biến Target (Outcome)

In [None]:
# Vẽ Heatmap tương quan
plt.figure(figsize=(10, 8))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', center=0, 
            fmt='.2f', square=True, linewidths=1)
plt.title('🔥 Heatmap Tương Quan Giữa Các Đặc Trưng', fontsize=14, fontweight='bold', pad=20)
plt.tight_layout()
plt.show()

print("✓ Heatmap tương quan đã được vẽ")

In [None]:
# Tính ma trận tương quan
correlation_matrix = df.corr()

print("📊 Ma trận tương quan:")
print("="*60)
print(correlation_matrix)

# Tương quan với Outcome
print("\n\n🎯 Tương quan của các đặc trưng với Outcome:")
print("="*60)
correlation_with_outcome = correlation_matrix['Outcome'].sort_values(ascending=False)
print(correlation_with_outcome)
print("\n→ Glucose, BMI, Age có tương quan cao nhất với Outcome")

## 4️⃣ Phân Tích Tương Quan Giữa Các Đặc Trưng

In [None]:
# Vẽ Box plot để phát hiện outliers
fig, axes = plt.subplots(3, 3, figsize=(15, 12))
fig.suptitle('📊 Box Plot - Phát hiện Outliers', fontsize=16, fontweight='bold', y=1.00)

for idx, col in enumerate(df.columns):
    ax = axes[idx // 3, idx % 3]
    df.boxplot(column=col, ax=ax)
    ax.set_title(col, fontweight='bold')
    ax.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print("✓ Box plot đã được vẽ")

In [None]:
# Vẽ phân phối của các đặc trưng
fig, axes = plt.subplots(3, 3, figsize=(15, 12))
fig.suptitle('📊 Phân phối các đặc trưng', fontsize=16, fontweight='bold', y=1.00)

columns = df.columns
for idx, col in enumerate(columns):
    ax = axes[idx // 3, idx % 3]
    df[col].hist(bins=30, ax=ax, edgecolor='black', alpha=0.7)
    ax.set_title(col, fontweight='bold')
    ax.set_ylabel('Tần số')
    ax.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print("✓ Biểu đồ phân phối đã được vẽ")

## 3️⃣ Phân Tích Phân Phối Các Đặc Trưng

In [None]:
# Thống kê mô tả
print("📈 Thống kê mô tả:")
print("="*60)
print(df.describe())

# Phân tích giá trị thiếu
print("\n\n🔍 Kiểm tra giá trị thiếu:")
print("="*60)
missing_values = df.isnull().sum()
print(f"Giá trị thiếu:\n{missing_values}")
print(f"Tổng cộng: {missing_values.sum()} giá trị thiếu")

# Kiểm tra giá trị 0 không hợp lệ
print("\n\n⚠️ Kiểm tra giá trị 0 (có thể không hợp lệ):")
print("="*60)
cols_with_zero = ['Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI']
for col in cols_with_zero:
    zero_count = (df[col] == 0).sum()
    zero_percent = (zero_count / len(df)) * 100
    print(f"{col}: {zero_count} giá trị 0 ({zero_percent:.1f}%)")

## 2️⃣ Phân Tích Thống Kê Mô Tả

In [None]:
# Hiển thị thông tin cơ bản về dữ liệu
print("📊 Thông tin tổng quát về dữ liệu:")
print("="*60)
print(f"\nKích thước: {df.shape}")
print(f"\nCác cột: {df.columns.tolist()}")
print(f"\nKiểu dữ liệu:\n{df.dtypes}")
print(f"\n5 dòng đầu tiên:\n{df.head()}")
print(f"\n5 dòng cuối cùng:\n{df.tail()}")

In [None]:
# Tải dữ liệu từ Kaggle (Pima Indians Diabetes Database)
# URL: https://www.kaggle.com/uciml/pima-indians-diabetes-database

# Tạo dữ liệu sample nếu chưa có file
import os

data_path = '../data/diabetes.csv'

# Nếu chưa có file, tạo dữ liệu sample
if not os.path.exists(data_path):
    print("📥 Tải dữ liệu từ Kaggle...")
    # Bạn có thể tải từ đây: https://www.kaggle.com/uciml/pima-indians-diabetes-database
    # Hoặc sử dụng code tạo dữ liệu sample
    print("⚠️ Vui lòng tải diabetes.csv từ Kaggle và đặt vào thư mục 'data/'")
else:
    print("✓ Tìm thấy file dữ liệu!")

# Load dữ liệu
try:
    df = pd.read_csv(data_path)
    print(f"✓ Tải dữ liệu thành công!")
    print(f"  - Kích thước: {df.shape[0]} dòng, {df.shape[1]} cột")
except FileNotFoundError:
    print("❌ Không tìm thấy file dữ liệu. Vui lòng tải từ Kaggle.")

## 1️⃣ Tải và Khám Phá Dữ Liệu

In [None]:
# Nhập thư viện cần thiết
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
import warnings
warnings.filterwarnings('ignore')

# Cài đặt style cho biểu đồ
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")

print("✓ Các thư viện đã được import thành công!")

# 🏥 Dự đoán Bệnh Tiểu Đường - Phân Tích Khám Phá Dữ Liệu (EDA)

## Đề tài: Dự đoán bệnh nhân có khả năng bị tiểu đường từ dữ liệu y tế

### Mục tiêu
- Phân tích bộ dữ liệu Pima Indians Diabetes Database
- Xác định yếu tố sức khỏe ảnh hưởng đến khả năng mắc tiểu đường
- Xây dựng mô hình ML dự đoán với độ chính xác cao
- Phân loại mức rủi ro (Thấp, Trung bình, Cao)