Proyek ini merupakan implementasi machine learning untuk memprediksi status glikemik seseorang (Normal / Pre-diabetes / Diabetes) berdasarkan data klinis dan laboratorium.
Dataset bersumber dari masyarakat Irak (Medical City Hospital & Al-Kindy Teaching Hospital), diakses melalui Mendeley Data.
- Mengembangkan model prediktif yang akurat dan dapat dipertanggungjawabkan.
- Mengeksplorasi faktor klinis (HbA1c, BMI, profil lipid, usia, dll) yang berkontribusi pada klasifikasi diabetes.
- Menangani masalah class imbalance dengan SMOTE untuk meningkatkan performa pada kelas minoritas.
- EDA (Exploratory Data Analysis) β distribusi data, korelasi, insight klinis.
- Data Cleaning & Preprocessing β normalisasi label, scaling numerik, one-hot encoding kategorikal.
- Resampling (SMOTE) β hanya diterapkan pada data training untuk mengatasi imbalance.
- Baseline Models β Logistic Regression, Random Forest, Gradient Boosting, SVC.
- Model Selection & Tuning β Gradient Boosting dipilih dan dioptimasi dengan GridSearchCV.
- Evaluation β Accuracy, F1-weighted, Macro ROC-AUC, Classification Report, Confusion Matrix.
- Interpretasi β Feature importance & visualisasi.
- Gradient Boosting Classifier (tuned) menjadi model terbaik.
- HbA1c terbukti sebagai faktor dominan, diikuti BMI dan biomarker lipid.
- Performansi model sangat baik dengan F1-weighted tinggi dan Macro ROC-AUC mendekati 1.
- Penanganan imbalance (SMOTE) terbukti meningkatkan performa kelas minoritas.
- Model berbasis boosting lebih unggul dibandingkan baseline linear atau bagging.
- Potensi besar untuk clinical decision support system dalam skrining awal diabetes.
.
βββ diabetes_lab_IS2025.ipynb # Notebook utama (storytelling + code)
βββ Dataset of Diabetes .csv # Dataset (perlu disimpan manual, sesuai lisensi)
βββ best_model_diabetes.pkl # Model terlatih (opsional)
βββ README.md # Deskripsi proyek
- Dataset tidak berisi PII (sudah dianonimkan).
- Model ini hanya alat bantu β tidak menggantikan diagnosis klinis.
- Untuk penggunaan nyata, perlu validasi eksternal dan kalibrasi probabilitas.