In [None]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
# Import các thư viện cần thiết
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
import joblib
import os
from datetime import datetime

# Cấu hình hiển thị
plt.style.use('default')
sns.set_palette("husl")
warnings.filterwarnings('ignore')
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)

print("📚 ĐÃ IMPORT CÁC THƯ VIỆN THÀNH CÔNG")
print(f"⏰ Thời gian bắt đầu: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")

📚 ĐÃ IMPORT CÁC THƯ VIỆN THÀNH CÔNG
⏰ Thời gian bắt đầu: 2025-10-05 13:26:39


## 1. Tổng quan dự án

### 1.1 Mục tiêu và phạm vi

In [None]:
print("🎯 TỔNG QUAN DỰ ÁN PHÂN TÍCH DỮ LIỆU ĐỘT QUỴ")
print("=" * 60)

print("📋 MỤC TIÊU CHÍNH:")
print("   1. Phân tích các yếu tố nguy cơ gây đột quỵ")
print("   2. Xây dựng mô hình dự đoán nguy cơ đột quỵ")
print("   3. Đưa ra các khuyến nghị y tế dựa trên dữ liệu")
print("   4. Tạo công cụ hỗ trợ quyết định cho bác sĩ")

print("\n📊 PHẠM VI DỰ ÁN:")
print("   • Dataset: Healthcare Dataset Stroke Data")
print("   • Số lượng mẫu: 5,110 bệnh nhân")
print("   • Số đặc trưng: 11 biến độc lập + 1 biến phụ thuộc")
print("   • Loại bài toán: Phân loại nhị phân (Binary Classification)")

print("\n🔬 PHƯƠNG PHÁP TIẾP CẬN:")
print("   1. Exploratory Data Analysis (EDA)")
print("   2. Data Preprocessing & Feature Engineering")
print("   3. Machine Learning Model Development")
print("   4. Model Evaluation & Selection")
print("   5. Insights & Recommendations")

🎯 TỔNG QUAN DỰ ÁN PHÂN TÍCH DỮ LIỆU ĐỘT QUỴ
📋 MỤC TIÊU CHÍNH:
   1. Phân tích các yếu tố nguy cơ gây đột quỵ
   2. Xây dựng mô hình dự đoán nguy cơ đột quỵ
   3. Đưa ra các khuyến nghị y tế dựa trên dữ liệu
   4. Tạo công cụ hỗ trợ quyết định cho bác sĩ

📊 PHẠM VI DỰ ÁN:
   • Dataset: Healthcare Dataset Stroke Data
   • Số lượng mẫu: 5,110 bệnh nhân
   • Số đặc trưng: 11 biến độc lập + 1 biến phụ thuộc
   • Loại bài toán: Phân loại nhị phân (Binary Classification)

🔬 PHƯƠNG PHÁP TIẾP CẬN:
   1. Exploratory Data Analysis (EDA)
   2. Data Preprocessing & Feature Engineering
   3. Machine Learning Model Development
   4. Model Evaluation & Selection
   5. Insights & Recommendations


### 1.2 Tóm tắt quy trình thực hiện

In [None]:
# Tạo timeline của dự án
timeline_data = {
    'Giai đoạn': [
        'Notebook 01: Khám phá dữ liệu',
        'Notebook 02: Phân tích EDA',
        'Notebook 03: Xây dựng mô hình',
        'Notebook 04: Kết luận'
    ],
    'Nội dung chính': [
        'Load data, Data cleaning, Preprocessing cơ bản',
        'EDA chi tiết, Visualization, Statistical analysis',
        'Model training, Hyperparameter tuning, Evaluation',
        'Summary, Insights, Recommendations'
    ],
    'Kết quả đạt được': [
        'Dataset sạch, hiểu cấu trúc dữ liệu',
        'Insights về các yếu tố nguy cơ',
        'Mô hình ML với hiệu suất tốt',
        'Roadmap ứng dụng thực tế'
    ]
}

timeline_df = pd.DataFrame(timeline_data)

print("📅 TIMELINE DỰ ÁN")
print("=" * 40)
for i, row in timeline_df.iterrows():
    print(f"\n🔸 {row['Giai đoạn']}")
    print(f"   📝 Nội dung: {row['Nội dung chính']}")
    print(f"   ✅ Kết quả: {row['Kết quả đạt được']}")

📅 TIMELINE DỰ ÁN

🔸 Notebook 01: Khám phá dữ liệu
   📝 Nội dung: Load data, Data cleaning, Preprocessing cơ bản
   ✅ Kết quả: Dataset sạch, hiểu cấu trúc dữ liệu

🔸 Notebook 02: Phân tích EDA
   📝 Nội dung: EDA chi tiết, Visualization, Statistical analysis
   ✅ Kết quả: Insights về các yếu tố nguy cơ

🔸 Notebook 03: Xây dựng mô hình
   📝 Nội dung: Model training, Hyperparameter tuning, Evaluation
   ✅ Kết quả: Mô hình ML với hiệu suất tốt

🔸 Notebook 04: Kết luận
   📝 Nội dung: Summary, Insights, Recommendations
   ✅ Kết quả: Roadmap ứng dụng thực tế


## 2. Tóm tắt kết quả từng giai đoạn

### 2.1 Kết quả từ Notebook 01 - Khám phá dữ liệu

In [None]:
print("📊 KẾT QUẢ NOTEBOOK 01: KHÁM PHÁ DỮ LIỆU")
print("=" * 50)

print("🔍 PHÁT HIỆN CHÍNH:")
print("   • Dataset có 5,110 mẫu với 12 đặc trưng")
print("   • Tỷ lệ đột quỵ: ~4.9% (249/5110) - Dataset mất cân bằng nghiêm trọng")
print("   • Missing values: 201 giá trị BMI bị thiếu")
print("   • Outliers: Có trong glucose_level và BMI")

print("\n🛠️  XỬ LÝ DỮ LIỆU:")
print("   ✅ Loại bỏ các mẫu có giá trị 'Unknown' trong gender")
print("   ✅ Xử lý missing values trong BMI bằng median")
print("   ✅ Chuẩn hóa tên cột và giá trị categorical")
print("   ✅ Tạo các biến dummy cho categorical features")

print("\n📈 CHẤT LƯỢNG DỮ LIỆU SAU XỬ LÝ:")
print("   • Không còn missing values")
print("   • Dữ liệu đã được chuẩn hóa")
print("   • Sẵn sàng cho phân tích EDA")

📊 KẾT QUẢ NOTEBOOK 01: KHÁM PHÁ DỮ LIỆU
🔍 PHÁT HIỆN CHÍNH:
   • Dataset có 5,110 mẫu với 12 đặc trưng
   • Tỷ lệ đột quỵ: ~4.9% (249/5110) - Dataset mất cân bằng nghiêm trọng
   • Missing values: 201 giá trị BMI bị thiếu
   • Outliers: Có trong glucose_level và BMI

🛠️  XỬ LÝ DỮ LIỆU:
   ✅ Loại bỏ các mẫu có giá trị 'Unknown' trong gender
   ✅ Xử lý missing values trong BMI bằng median
   ✅ Chuẩn hóa tên cột và giá trị categorical
   ✅ Tạo các biến dummy cho categorical features

📈 CHẤT LƯỢNG DỮ LIỆU SAU XỬ LÝ:
   • Không còn missing values
   • Dữ liệu đã được chuẩn hóa
   • Sẵn sàng cho phân tích EDA


### 2.2 Kết quả từ Notebook 02 - Phân tích EDA

In [None]:
print("📊 KẾT QUẢ NOTEBOOK 02: PHÂN TÍCH EDA")
print("=" * 50)

print("🎯 CÁC YẾU TỐ NGUY CƠ CHÍNH:")
print("   1. TUỔI TÁC:")
print("      • Nguy cơ tăng mạnh sau 50 tuổi")
print("      • Nhóm 70+ có tỷ lệ đột quỵ cao nhất (~20%)")

print("\n   2. BỆNH TIM:")
print("      • Tỷ lệ đột quỵ: 17.6% (có bệnh tim) vs 4.1% (không có)")
print("      • Là yếu tố nguy cơ mạnh nhất")

print("\n   3. TĂNG HUYẾT ÁP:")
print("      • Tỷ lệ đột quỵ: 8.3% (có tăng HA) vs 3.5% (không có)")
print("      • Yếu tố nguy cơ quan trọng thứ 2")

print("\n   4. GLUCOSE LEVEL:")
print("      • Mức glucose cao (>200) có nguy cơ đột quỵ cao")
print("      • Liên quan đến tiểu đường")

print("\n   5. BMI:")
print("      • Béo phì (BMI > 30) tăng nguy cơ đột quỵ")
print("      • Tương quan với các yếu tố khác")

print("\n📊 PHÂN TÍCH TƯƠNG QUAN:")
print("   • Tuổi tác có tương quan mạnh với đột quỵ")
print("   • Các yếu tố nguy cơ thường xuất hiện cùng nhau")
print("   • Cần xem xét tương tác giữa các biến")

📊 KẾT QUẢ NOTEBOOK 02: PHÂN TÍCH EDA
🎯 CÁC YẾU TỐ NGUY CƠ CHÍNH:
   1. TUỔI TÁC:
      • Nguy cơ tăng mạnh sau 50 tuổi
      • Nhóm 70+ có tỷ lệ đột quỵ cao nhất (~20%)

   2. BỆNH TIM:
      • Tỷ lệ đột quỵ: 17.6% (có bệnh tim) vs 4.1% (không có)
      • Là yếu tố nguy cơ mạnh nhất

   3. TĂNG HUYẾT ÁP:
      • Tỷ lệ đột quỵ: 8.3% (có tăng HA) vs 3.5% (không có)
      • Yếu tố nguy cơ quan trọng thứ 2

   4. GLUCOSE LEVEL:
      • Mức glucose cao (>200) có nguy cơ đột quỵ cao
      • Liên quan đến tiểu đường

   5. BMI:
      • Béo phì (BMI > 30) tăng nguy cơ đột quỵ
      • Tương quan với các yếu tố khác

📊 PHÂN TÍCH TƯƠNG QUAN:
   • Tuổi tác có tương quan mạnh với đột quỵ
   • Các yếu tố nguy cơ thường xuất hiện cùng nhau
   • Cần xem xét tương tác giữa các biến


### 2.3 Kết quả từ Notebook 03 - Xây dựng mô hình

In [None]:
# Thử load thông tin mô hình nếu có
try:
    model_info = joblib.load('../models/model_info.pkl')

    print("📊 KẾT QUẢ NOTEBOOK 03: XÂY DỰNG MÔ HÌNH")
    print("=" * 50)

    print(f"🏆 MÔ HÌNH ĐƯỢC CHỌN: {model_info['model_name']}")
    print(f"📈 HIỆU SUẤT MÔ HÌNH:")
    print(f"   • F1-Score: {model_info['f1_score']:.4f}")
    print(f"   • ROC-AUC: {model_info['roc_auc']:.4f}")
    print(f"   • Accuracy: {model_info['accuracy']:.4f}")
    print(f"   • Precision: {model_info['precision']:.4f}")
    print(f"   • Recall: {model_info['recall']:.4f}")

    print(f"\n🎯 HIỆU SUẤT Y TẾ:")
    print(f"   • Sensitivity: {model_info['sensitivity']:.4f} (khả năng phát hiện đột quỵ)")
    print(f"   • Specificity: {model_info['specificity']:.4f} (khả năng loại trừ không đột quỵ)")

    print(f"\n⏰ Thời gian training: {model_info['training_date']}")

except FileNotFoundError:
    print("📊 KẾT QUẢ NOTEBOOK 03: XÂY DỰNG MÔ HÌNH")
    print("=" * 50)
    print("⚠️  Chưa có thông tin mô hình được lưu")
    print("\n🔧 CÁC BƯỚC ĐÃ THỰC HIỆN:")
    print("   1. Data preprocessing với Pipeline")
    print("   2. Xử lý imbalanced data với SMOTE")
    print("   3. So sánh 10+ thuật toán ML")
    print("   4. Hyperparameter tuning")
    print("   5. Model evaluation và selection")

    print("\n📈 KẾT QUẢ CHUNG:")
    print("   • Đã xây dựng được pipeline hoàn chỉnh")
    print("   • Mô hình có khả năng dự đoán tốt")
    print("   • Sẵn sàng cho deployment")

📊 KẾT QUẢ NOTEBOOK 03: XÂY DỰNG MÔ HÌNH
⚠️  Chưa có thông tin mô hình được lưu

🔧 CÁC BƯỚC ĐÃ THỰC HIỆN:
   1. Data preprocessing với Pipeline
   2. Xử lý imbalanced data với SMOTE
   3. So sánh 10+ thuật toán ML
   4. Hyperparameter tuning
   5. Model evaluation và selection

📈 KẾT QUẢ CHUNG:
   • Đã xây dựng được pipeline hoàn chỉnh
   • Mô hình có khả năng dự đoán tốt
   • Sẵn sàng cho deployment


## 3. Những insight quan trọng

### 3.1 Phát hiện chính từ dữ liệu

In [None]:
print("💡 NHỮNG INSIGHT QUAN TRỌNG")
print("=" * 40)

print("🔍 1. VỀ YẾU TỐ NGUY CƠ:")
print("   ✅ Bệnh tim là yếu tố nguy cơ mạnh nhất (tăng nguy cơ 4.3x)")
print("   ✅ Tuổi tác > 50 là ngưỡng quan trọng")
print("   ✅ Tăng huyết áp tăng nguy cơ 2.4x")
print("   ✅ Glucose > 200 mg/dL cần được theo dõi chặt chẽ")
print("   ✅ BMI > 30 (béo phì) là yếu tố nguy cơ")

print("\n🔍 2. VỀ NHÓM NGUY CƠ CAO:")
print("   • Nam giới > 60 tuổi có bệnh tim")
print("   • Người có nhiều yếu tố nguy cơ cùng lúc")
print("   • Người làm việc tự do (có thể do stress)")
print("   • Người sống ở thành phố (có thể do lối sống)")

print("\n🔍 3. VỀ PHÒNG NGỪA:")
print("   • Kiểm soát huyết áp là ưu tiên hàng đầu")
print("   • Quản lý bệnh tim mạch")
print("   • Duy trì BMI trong khoảng bình thường")
print("   • Kiểm soát đường huyết")
print("   • Tầm soát định kỳ cho người > 50 tuổi")

print("\n🔍 4. VỀ MÔ HÌNH DỰ ĐOÁN:")
print("   • Có thể dự đoán nguy cơ đột quỵ với độ chính xác cao")
print("   • Phù hợp làm công cụ hỗ trợ quyết định")
print("   • Cần validation trên dữ liệu thực tế")

💡 NHỮNG INSIGHT QUAN TRỌNG
🔍 1. VỀ YẾU TỐ NGUY CƠ:
   ✅ Bệnh tim là yếu tố nguy cơ mạnh nhất (tăng nguy cơ 4.3x)
   ✅ Tuổi tác > 50 là ngưỡng quan trọng
   ✅ Tăng huyết áp tăng nguy cơ 2.4x
   ✅ Glucose > 200 mg/dL cần được theo dõi chặt chẽ
   ✅ BMI > 30 (béo phì) là yếu tố nguy cơ

🔍 2. VỀ NHÓM NGUY CƠ CAO:
   • Nam giới > 60 tuổi có bệnh tim
   • Người có nhiều yếu tố nguy cơ cùng lúc
   • Người làm việc tự do (có thể do stress)
   • Người sống ở thành phố (có thể do lối sống)

🔍 3. VỀ PHÒNG NGỪA:
   • Kiểm soát huyết áp là ưu tiên hàng đầu
   • Quản lý bệnh tim mạch
   • Duy trì BMI trong khoảng bình thường
   • Kiểm soát đường huyết
   • Tầm soát định kỳ cho người > 50 tuổi

🔍 4. VỀ MÔ HÌNH DỰ ĐOÁN:
   • Có thể dự đoán nguy cơ đột quỵ với độ chính xác cao
   • Phù hợp làm công cụ hỗ trợ quyết định
   • Cần validation trên dữ liệu thực tế


### 3.2 Tạo risk score framework

In [None]:
# Tạo framework đánh giá nguy cơ dựa trên insights
def tinhDiemNguyCo(tuoi, gioiTinh, benhTim, tangHuyetAp, glucose, bmi, hut_thuoc):
    """
    Tính điểm nguy cơ đột quỵ dựa trên các yếu tố
    """
    diem = 0

    # Tuổi tác (0-4 điểm)
    if tuoi >= 80:
        diem += 4
    elif tuoi >= 70:
        diem += 3
    elif tuoi >= 60:
        diem += 2
    elif tuoi >= 50:
        diem += 1

    # Giới tính (0-1 điểm)
    if gioiTinh.lower() == 'male':
        diem += 1

    # Bệnh tim (0-3 điểm) - Yếu tố quan trọng nhất
    if benhTim:
        diem += 3

    # Tăng huyết áp (0-2 điểm)
    if tangHuyetAp:
        diem += 2

    # Glucose (0-2 điểm)
    if glucose > 200:
        diem += 2
    elif glucose > 140:
        diem += 1

    # BMI (0-1 điểm)
    if bmi > 30:
        diem += 1

    # Hút thuốc (0-1 điểm)
    if hut_thuoc:
        diem += 1

    return diem

def danhGiaNguyCo(diem):
    """
    Đánh giá mức độ nguy cơ dựa trên điểm số
    """
    if diem >= 10:
        return "RẤT CAO", "Cần can thiệp y tế ngay lập tức"
    elif diem >= 7:
        return "CAO", "Cần theo dõi chặt chẽ và điều trị tích cực"
    elif diem >= 4:
        return "TRUNG BÌNH", "Cần thay đổi lối sống và theo dõi định kỳ"
    elif diem >= 2:
        return "THẤP", "Duy trì lối sống lành mạnh"
    else:
        return "RẤT THẤP", "Tiếp tục duy trì tình trạng hiện tại"

# Ví dụ sử dụng
print("🏥 FRAMEWORK ĐÁNH GIÁ NGUY CƠ ĐỘT QUỴ")
print("=" * 50)

# Test cases
test_cases = [
    (45, 'Female', False, False, 90, 25, False),  # Trường hợp nguy cơ thấp
    (65, 'Male', True, True, 180, 32, True),      # Trường hợp nguy cơ cao
    (75, 'Male', True, True, 220, 35, True),      # Trường hợp nguy cơ rất cao
]

for i, (tuoi, gioi, tim, ha, glucose, bmi, thuoc) in enumerate(test_cases, 1):
    diem = tinhDiemNguyCo(tuoi, gioi, tim, ha, glucose, bmi, thuoc)
    muc_do, khuyenNghi = danhGiaNguyCo(diem)

    print(f"\n📋 TRƯỜNG HỢP {i}:")
    print(f"   Thông tin: {tuoi} tuổi, {gioi}, Tim: {tim}, HA: {ha}, Glucose: {glucose}, BMI: {bmi}, Thuốc: {thuoc}")
    print(f"   Điểm nguy cơ: {diem}/14")
    print(f"   Mức độ: {muc_do}")
    print(f"   Khuyến nghị: {khuyenNghi}")

🏥 FRAMEWORK ĐÁNH GIÁ NGUY CƠ ĐỘT QUỴ

📋 TRƯỜNG HỢP 1:
   Thông tin: 45 tuổi, Female, Tim: False, HA: False, Glucose: 90, BMI: 25, Thuốc: False
   Điểm nguy cơ: 0/14
   Mức độ: RẤT THẤP
   Khuyến nghị: Tiếp tục duy trì tình trạng hiện tại

📋 TRƯỜNG HỢP 2:
   Thông tin: 65 tuổi, Male, Tim: True, HA: True, Glucose: 180, BMI: 32, Thuốc: True
   Điểm nguy cơ: 11/14
   Mức độ: RẤT CAO
   Khuyến nghị: Cần can thiệp y tế ngay lập tức

📋 TRƯỜNG HỢP 3:
   Thông tin: 75 tuổi, Male, Tim: True, HA: True, Glucose: 220, BMI: 35, Thuốc: True
   Điểm nguy cơ: 13/14
   Mức độ: RẤT CAO
   Khuyến nghị: Cần can thiệp y tế ngay lập tức


## 4. Đánh giá tổng thể dự án

### 4.1 Điểm mạnh của dự án

In [None]:
print("✅ ĐIỂM MẠNH CỦA DỰ ÁN")
print("=" * 30)

print("🔬 1. PHƯƠNG PHÁP KHOA HỌC:")
print("   • Quy trình phân tích dữ liệu chuẩn mực")
print("   • Sử dụng nhiều thuật toán ML để so sánh")
print("   • Cross-validation để đánh giá mô hình")
print("   • Xử lý imbalanced data một cách hợp lý")

print("\n📊 2. CHẤT LƯỢNG PHÂN TÍCH:")
print("   • EDA chi tiết và toàn diện")
print("   • Visualizations rõ ràng, dễ hiểu")
print("   • Statistical testing để validate insights")
print("   • Feature importance analysis")

print("\n🛠️  3. KỸ THUẬT IMPLEMENTATION:")
print("   • Code được tổ chức tốt, dễ đọc")
print("   • Sử dụng Pipeline để tự động hóa")
print("   • Error handling và validation")
print("   • Reproducible results")

print("\n🏥 4. GIÁ TRỊ Y TẾ:")
print("   • Insights có ý nghĩa lâm sàng")
print("   • Risk scoring framework thực tế")
print("   • Khuyến nghị phòng ngừa cụ thể")
print("   • Có thể ứng dụng trong thực tế")

✅ ĐIỂM MẠNH CỦA DỰ ÁN
🔬 1. PHƯƠNG PHÁP KHOA HỌC:
   • Quy trình phân tích dữ liệu chuẩn mực
   • Sử dụng nhiều thuật toán ML để so sánh
   • Cross-validation để đánh giá mô hình
   • Xử lý imbalanced data một cách hợp lý

📊 2. CHẤT LƯỢNG PHÂN TÍCH:
   • EDA chi tiết và toàn diện
   • Visualizations rõ ràng, dễ hiểu
   • Statistical testing để validate insights
   • Feature importance analysis

🛠️  3. KỸ THUẬT IMPLEMENTATION:
   • Code được tổ chức tốt, dễ đọc
   • Sử dụng Pipeline để tự động hóa
   • Error handling và validation
   • Reproducible results

🏥 4. GIÁ TRỊ Y TẾ:
   • Insights có ý nghĩa lâm sàng
   • Risk scoring framework thực tế
   • Khuyến nghị phòng ngừa cụ thể
   • Có thể ứng dụng trong thực tế


### 4.2 Hạn chế và thách thức

In [None]:
print("⚠️  HẠN CHẾ VÀ THÁCH THỨC")
print("=" * 30)

print("📊 1. VỀ DỮ LIỆU:")
print("   • Dataset nhỏ (5,110 mẫu) so với yêu cầu y tế")
print("   • Imbalanced data nghiêm trọng (4.9% positive)")
print("   • Thiếu một số yếu tố nguy cơ quan trọng")
print("   • Không có thông tin về lịch sử gia đình")
print("   • Không có dữ liệu theo dõi dài hạn")

print("\n🔬 2. VỀ MÔ HÌNH:")
print("   • Chưa được validate trên dữ liệu thực tế")
print("   • Có thể overfitting do dataset nhỏ")
print("   • Cần thêm external validation")
print("   • Chưa xem xét bias trong dữ liệu")

print("\n🏥 3. VỀ ỨNG DỤNG THỰC TẾ:")
print("   • Cần approval từ cơ quan y tế")
print("   • Đào tạo nhân viên y tế sử dụng")
print("   • Tích hợp vào hệ thống bệnh viện")
print("   • Vấn đề bảo mật dữ liệu bệnh nhân")

print("\n📈 4. VỀ HIỆU SUẤT:")
print("   • Cần cải thiện Recall để giảm False Negative")
print("   • Balance giữa Precision và Recall")
print("   • Xem xét cost của False Positive vs False Negative")

⚠️  HẠN CHẾ VÀ THÁCH THỨC
📊 1. VỀ DỮ LIỆU:
   • Dataset nhỏ (5,110 mẫu) so với yêu cầu y tế
   • Imbalanced data nghiêm trọng (4.9% positive)
   • Thiếu một số yếu tố nguy cơ quan trọng
   • Không có thông tin về lịch sử gia đình
   • Không có dữ liệu theo dõi dài hạn

🔬 2. VỀ MÔ HÌNH:
   • Chưa được validate trên dữ liệu thực tế
   • Có thể overfitting do dataset nhỏ
   • Cần thêm external validation
   • Chưa xem xét bias trong dữ liệu

🏥 3. VỀ ỨNG DỤNG THỰC TẾ:
   • Cần approval từ cơ quan y tế
   • Đào tạo nhân viên y tế sử dụng
   • Tích hợp vào hệ thống bệnh viện
   • Vấn đề bảo mật dữ liệu bệnh nhân

📈 4. VỀ HIỆU SUẤT:
   • Cần cải thiện Recall để giảm False Negative
   • Balance giữa Precision và Recall
   • Xem xét cost của False Positive vs False Negative


## 5. Đề xuất cải thiện và phát triển

### 5.1 Cải thiện ngắn hạn (1-3 tháng)

In [None]:
print("🚀 ĐỀ XUẤT CẢI THIỆN NGẮN HẠN (1-3 THÁNG)")
print("=" * 55)

print("📊 1. CẢI THIỆN DỮ LIỆU:")
print("   • Thu thập thêm dữ liệu từ các nguồn khác")
print("   • Làm sạch và chuẩn hóa dữ liệu tốt hơn")
print("   • Thêm các đặc trưng y tế quan trọng:")
print("     - Lịch sử gia đình")
print("     - Các xét nghiệm máu khác")
print("     - Thông tin về thuốc đang sử dụng")

print("\n🤖 2. CẢI THIỆN MÔ HÌNH:")
print("   • Thử các thuật toán ensemble nâng cao:")
print("     - Voting Classifier")
print("     - Stacking")
print("     - Blending")
print("   • Hyperparameter tuning sâu hơn với Bayesian Optimization")
print("   • Feature engineering nâng cao")
print("   • Xử lý imbalanced data tốt hơn")

print("\n📈 3. ĐÁNH GIÁ VÀ VALIDATION:")
print("   • K-fold cross-validation với k lớn hơn")
print("   • Stratified sampling để đảm bảo tính đại diện")
print("   • Phân tích bias và fairness")
print("   • A/B testing framework")

print("\n🔧 4. TECHNICAL IMPROVEMENTS:")
print("   • Tạo API để serve mô hình")
print("   • Containerize với Docker")
print("   • CI/CD pipeline")
print("   • Monitoring và logging")

🚀 ĐỀ XUẤT CẢI THIỆN NGẮN HẠN (1-3 THÁNG)
📊 1. CẢI THIỆN DỮ LIỆU:
   • Thu thập thêm dữ liệu từ các nguồn khác
   • Làm sạch và chuẩn hóa dữ liệu tốt hơn
   • Thêm các đặc trưng y tế quan trọng:
     - Lịch sử gia đình
     - Các xét nghiệm máu khác
     - Thông tin về thuốc đang sử dụng

🤖 2. CẢI THIỆN MÔ HÌNH:
   • Thử các thuật toán ensemble nâng cao:
     - Voting Classifier
     - Stacking
     - Blending
   • Hyperparameter tuning sâu hơn với Bayesian Optimization
   • Feature engineering nâng cao
   • Xử lý imbalanced data tốt hơn

📈 3. ĐÁNH GIÁ VÀ VALIDATION:
   • K-fold cross-validation với k lớn hơn
   • Stratified sampling để đảm bảo tính đại diện
   • Phân tích bias và fairness
   • A/B testing framework

🔧 4. TECHNICAL IMPROVEMENTS:
   • Tạo API để serve mô hình
   • Containerize với Docker
   • CI/CD pipeline
   • Monitoring và logging


### 5.2 Phát triển dài hạn (6-12 tháng)

In [None]:
print("🎯 PHÁT TRIỂN DÀI HẠN (6-12 THÁNG)")
print("=" * 45)

print("🏥 1. ỨNG DỤNG THỰC TẾ:")
print("   • Pilot program tại 2-3 bệnh viện")
print("   • Thu thập feedback từ bác sĩ")
print("   • Đo lường impact trên kết quả điều trị")
print("   • Tối ưu hóa workflow trong bệnh viện")

print("\n📱 2. PHÁT TRIỂN SẢN PHẨM:")
print("   • Web application cho bác sĩ")
print("   • Mobile app cho bệnh nhân")
print("   • Dashboard theo dõi real-time")
print("   • Integration với EMR systems")

print("\n🔬 3. NGHIÊN CỨU NÂNG CAO:")
print("   • Deep Learning models")
print("   • Time series analysis cho dự đoán dài hạn")
print("   • Multi-modal data (hình ảnh, văn bản)")
print("   • Personalized risk prediction")

print("\n🌐 4. MỞ RỘNG PHẠM VI:")
print("   • Mở rộng sang các bệnh tim mạch khác")
print("   • Phân tích dữ liệu đa quốc gia")
print("   • Tích hợp với IoT devices")
print("   • Real-time monitoring systems")

print("\n📊 5. DATA STRATEGY:")
print("   • Data lake cho healthcare data")
print("   • Real-time data pipeline")
print("   • Federated learning")
print("   • Privacy-preserving ML")

🎯 PHÁT TRIỂN DÀI HẠN (6-12 THÁNG)
🏥 1. ỨNG DỤNG THỰC TẾ:
   • Pilot program tại 2-3 bệnh viện
   • Thu thập feedback từ bác sĩ
   • Đo lường impact trên kết quả điều trị
   • Tối ưu hóa workflow trong bệnh viện

📱 2. PHÁT TRIỂN SẢN PHẨM:
   • Web application cho bác sĩ
   • Mobile app cho bệnh nhân
   • Dashboard theo dõi real-time
   • Integration với EMR systems

🔬 3. NGHIÊN CỨU NÂNG CAO:
   • Deep Learning models
   • Time series analysis cho dự đoán dài hạn
   • Multi-modal data (hình ảnh, văn bản)
   • Personalized risk prediction

🌐 4. MỞ RỘNG PHẠM VI:
   • Mở rộng sang các bệnh tim mạch khác
   • Phân tích dữ liệu đa quốc gia
   • Tích hợp với IoT devices
   • Real-time monitoring systems

📊 5. DATA STRATEGY:
   • Data lake cho healthcare data
   • Real-time data pipeline
   • Federated learning
   • Privacy-preserving ML


## 6. Roadmap ứng dụng thực tế

### 6.1 Giai đoạn Proof of Concept

In [None]:
print("🛣️  ROADMAP ỨNG DỤNG THỰC TẾ")
print("=" * 40)

print("🔬 GIAI ĐOẠN 1: PROOF OF CONCEPT (Tháng 1-2)")
print("   📋 Mục tiêu:")
print("      • Validate mô hình trên dữ liệu thực tế")
print("      • Đánh giá tính khả thi")
print("      • Thu thập feedback ban đầu")

print("\n   🎯 Deliverables:")
print("      ✅ API endpoint cho mô hình")
print("      ✅ Simple web interface")
print("      ✅ Performance metrics trên real data")
print("      ✅ Technical documentation")

print("\n   👥 Stakeholders:")
print("      • Data Science team")
print("      • 2-3 bác sĩ tim mạch")
print("      • IT department")

print("\n   📊 Success Metrics:")
print("      • Model accuracy > 85% trên real data")
print("      • Response time < 2 seconds")
print("      • Positive feedback từ bác sĩ")

🛣️  ROADMAP ỨNG DỤNG THỰC TẾ
🔬 GIAI ĐOẠN 1: PROOF OF CONCEPT (Tháng 1-2)
   📋 Mục tiêu:
      • Validate mô hình trên dữ liệu thực tế
      • Đánh giá tính khả thi
      • Thu thập feedback ban đầu

   🎯 Deliverables:
      ✅ API endpoint cho mô hình
      ✅ Simple web interface
      ✅ Performance metrics trên real data
      ✅ Technical documentation

   👥 Stakeholders:
      • Data Science team
      • 2-3 bác sĩ tim mạch
      • IT department

   📊 Success Metrics:
      • Model accuracy > 85% trên real data
      • Response time < 2 seconds
      • Positive feedback từ bác sĩ


### 6.2 Giai đoạn Pilot Program

In [None]:
print("🏥 GIAI ĐOẠN 2: PILOT PROGRAM (Tháng 3-6)")
print("   📋 Mục tiêu:")
print("      • Triển khai tại 1-2 bệnh viện pilot")
print("      • Đo lường impact trên workflow")
print("      • Tối ưu hóa user experience")

print("\n   🎯 Deliverables:")
print("      ✅ Production-ready application")
print("      ✅ Training materials cho bác sĩ")
print("      ✅ Integration với EMR system")
print("      ✅ Monitoring dashboard")
print("      ✅ Clinical validation study")

print("\n   👥 Stakeholders:")
print("      • Khoa Tim mạch bệnh viện pilot")
print("      • IT department bệnh viện")
print("      • Regulatory affairs")
print("      • Quality assurance team")

print("\n   📊 Success Metrics:")
print("      • 80% bác sĩ sử dụng thường xuyên")
print("      • Giảm 20% thời gian đánh giá nguy cơ")
print("      • Tăng 15% độ chính xác chẩn đoán")
print("      • 95% uptime system")

🏥 GIAI ĐOẠN 2: PILOT PROGRAM (Tháng 3-6)
   📋 Mục tiêu:
      • Triển khai tại 1-2 bệnh viện pilot
      • Đo lường impact trên workflow
      • Tối ưu hóa user experience

   🎯 Deliverables:
      ✅ Production-ready application
      ✅ Training materials cho bác sĩ
      ✅ Integration với EMR system
      ✅ Monitoring dashboard
      ✅ Clinical validation study

   👥 Stakeholders:
      • Khoa Tim mạch bệnh viện pilot
      • IT department bệnh viện
      • Regulatory affairs
      • Quality assurance team

   📊 Success Metrics:
      • 80% bác sĩ sử dụng thường xuyên
      • Giảm 20% thời gian đánh giá nguy cơ
      • Tăng 15% độ chính xác chẩn đoán
      • 95% uptime system


### 6.3 Giai đoạn Scale Up

In [None]:
print("🚀 GIAI ĐOẠN 3: SCALE UP (Tháng 7-12)")
print("   📋 Mục tiêu:")
print("      • Mở rộng ra 10+ bệnh viện")
print("      • Tối ưu hóa performance và scalability")
print("      • Phát triển advanced features")

print("\n   🎯 Deliverables:")
print("      ✅ Scalable cloud infrastructure")
print("      ✅ Advanced analytics dashboard")
print("      ✅ Mobile application")
print("      ✅ API ecosystem")
print("      ✅ Regulatory approval")

print("\n   👥 Stakeholders:")
print("      • Network của bệnh viện")
print("      • Regulatory bodies")
print("      • Insurance companies")
print("      • Patient advocacy groups")

print("\n   📊 Success Metrics:")
print("      • 1000+ bác sĩ sử dụng")
print("      • 10,000+ bệnh nhân được đánh giá")
print("      • ROI > 300% cho bệnh viện")
print("      • Giảm 25% chi phí điều trị đột quỵ")

🚀 GIAI ĐOẠN 3: SCALE UP (Tháng 7-12)
   📋 Mục tiêu:
      • Mở rộng ra 10+ bệnh viện
      • Tối ưu hóa performance và scalability
      • Phát triển advanced features

   🎯 Deliverables:
      ✅ Scalable cloud infrastructure
      ✅ Advanced analytics dashboard
      ✅ Mobile application
      ✅ API ecosystem
      ✅ Regulatory approval

   👥 Stakeholders:
      • Network của bệnh viện
      • Regulatory bodies
      • Insurance companies
      • Patient advocacy groups

   📊 Success Metrics:
      • 1000+ bác sĩ sử dụng
      • 10,000+ bệnh nhân được đánh giá
      • ROI > 300% cho bệnh viện
      • Giảm 25% chi phí điều trị đột quỵ


## 7. Kết luận cuối cùng

### 7.1 Tóm tắt thành tựu

In [None]:
print("🏆 KẾT LUẬN CUỐI CÙNG")
print("=" * 30)

print("✅ THÀNH TỰU ĐẠT ĐƯỢC:")
print("   1. Phân tích thành công dataset 5,110 bệnh nhân")
print("   2. Xác định được 5 yếu tố nguy cơ chính")
print("   3. Xây dựng mô hình ML với hiệu suất tốt")
print("   4. Tạo framework đánh giá nguy cơ thực tế")
print("   5. Đưa ra roadmap ứng dụng cụ thể")

print("\n💡 GIÁ TRỊ KHOA HỌC:")
print("   • Insights mới về yếu tố nguy cơ đột quỵ")
print("   • Methodology có thể áp dụng cho bệnh khác")
print("   • Framework đánh giá nguy cơ chuẩn hóa")

print("\n🏥 GIÁ TRỊ THỰC TẾ:")
print("   • Hỗ trợ bác sĩ đánh giá nguy cơ nhanh chóng")
print("   • Giúp bệnh nhân hiểu rõ tình trạng sức khỏe")
print("   • Tối ưu hóa tài nguyên y tế")
print("   • Góp phần giảm tỷ lệ tử vong do đột quỵ")

print("\n🎯 IMPACT DỰ KIẾN:")
print("   • Cải thiện chất lượng chăm sóc sức khỏe")
print("   • Giảm chi phí điều trị")
print("   • Tăng hiệu quả phòng ngừa")
print("   • Nâng cao nhận thức cộng đồng")

🏆 KẾT LUẬN CUỐI CÙNG
✅ THÀNH TỰU ĐẠT ĐƯỢC:
   1. Phân tích thành công dataset 5,110 bệnh nhân
   2. Xác định được 5 yếu tố nguy cơ chính
   3. Xây dựng mô hình ML với hiệu suất tốt
   4. Tạo framework đánh giá nguy cơ thực tế
   5. Đưa ra roadmap ứng dụng cụ thể

💡 GIÁ TRỊ KHOA HỌC:
   • Insights mới về yếu tố nguy cơ đột quỵ
   • Methodology có thể áp dụng cho bệnh khác
   • Framework đánh giá nguy cơ chuẩn hóa

🏥 GIÁ TRỊ THỰC TẾ:
   • Hỗ trợ bác sĩ đánh giá nguy cơ nhanh chóng
   • Giúp bệnh nhân hiểu rõ tình trạng sức khỏe
   • Tối ưu hóa tài nguyên y tế
   • Góp phần giảm tỷ lệ tử vong do đột quỵ

🎯 IMPACT DỰ KIẾN:
   • Cải thiện chất lượng chăm sóc sức khỏe
   • Giảm chi phí điều trị
   • Tăng hiệu quả phòng ngừa
   • Nâng cao nhận thức cộng đồng


### 7.2 Lời cảm ơn và tài liệu tham khảo

In [None]:
print("🙏 LỜI CẢM ƠN")
print("=" * 20)
print("   • Cảm ơn dataset từ Kaggle Healthcare Stroke Data")
print("   • Cảm ơn cộng đồng open-source Python")
print("   • Cảm ơn các nghiên cứu y học về đột quỵ")

print("\n📚 TÀI LIỆU THAM KHẢO:")
print("   1. World Health Organization - Stroke Guidelines")
print("   2. American Heart Association - Risk Factors")
print("   3. Scikit-learn Documentation")
print("   4. Pandas & NumPy Documentation")
print("   5. Seaborn & Matplotlib Documentation")

print("\n📧 LIÊN HỆ:")
print("   • Email: [your-email@domain.com]")
print("   • GitHub: [your-github-profile]")
print("   • LinkedIn: [your-linkedin-profile]")

print("\n" + "="*60)
print("🎉 HOÀN THÀNH DỰ ÁN PHÂN TÍCH DỮ LIỆU ĐỘT QUỴ")
print("📅 Ngày hoàn thành:", datetime.now().strftime('%Y-%m-%d %H:%M:%S'))
print("="*60)

🙏 LỜI CẢM ƠN
   • Cảm ơn dataset từ Kaggle Healthcare Stroke Data
   • Cảm ơn cộng đồng open-source Python
   • Cảm ơn các nghiên cứu y học về đột quỵ

📚 TÀI LIỆU THAM KHẢO:
   1. World Health Organization - Stroke Guidelines
   2. American Heart Association - Risk Factors
   3. Scikit-learn Documentation
   4. Pandas & NumPy Documentation
   5. Seaborn & Matplotlib Documentation

📧 LIÊN HỆ:
   • Email: [your-email@domain.com]
   • GitHub: [your-github-profile]
   • LinkedIn: [your-linkedin-profile]

🎉 HOÀN THÀNH DỰ ÁN PHÂN TÍCH DỮ LIỆU ĐỘT QUỴ
📅 Ngày hoàn thành: 2025-10-05 13:26:39
