# Diabetes Risk Factor Analysis Dashboard 🏥📊

**Author:** Rafhiromadoni Sopandi | **Role:** Data Analyst / Healthcare Analyst
**Tech Stack:** Python, Pandas, Plotly Interactive

## 📌 Executive Summary
Diabetes adalah salah satu penyakit kronis dengan prevalensi tinggi global. Analisis ini bertujuan untuk mengidentifikasi **Faktor Risiko Utama** yang berkontribusi terhadap diagnosis diabetes pada pasien perempuan (Dataset Pima Indians).

Dashboard ini dirancang untuk menjawab:
1.  **Risk Profiling:** Bagaimana profil pasien yang berisiko tinggi?
2.  **Key Indicators:** Apakah Glukosa dan BMI adalah indikator mutlak?
3.  **Actionable Insight:** Rekomendasi screening untuk penyedia layanan kesehatan.

In [2]:
# --- SYSTEM CONFIGURATION ---
import warnings
import os
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import plotly.express as px
import plotly.graph_objects as go
import plotly.figure_factory as ff
from plotly.subplots import make_subplots

# Menyembunyikan warning agar notebook bersih
warnings.filterwarnings('ignore')

print("✅ Environment Ready: Plotly Interactive Loaded.")

✅ Environment Ready: Plotly Interactive Loaded.


In [3]:
from google.colab import files
# Upload file diabetes.csv
uploaded = files.upload()


Saving diabetes_dataset.csv to diabetes_dataset.csv


In [5]:


# Baca file yang di-upload
df = pd.read_csv("diabetes_dataset.csv")

# Tampilkan 5 baris pertama
df.head()


Unnamed: 0,year,gender,age,location,race:AfricanAmerican,race:Asian,race:Caucasian,race:Hispanic,race:Other,hypertension,heart_disease,smoking_history,bmi,hbA1c_level,blood_glucose_level,diabetes
0,2020,Female,32.0,Alabama,0,0,0,0,1,0,0,never,27.32,5.0,100,0
1,2015,Female,29.0,Alabama,0,1,0,0,0,0,0,never,19.95,5.0,90,0
2,2015,Male,18.0,Alabama,0,0,0,0,1,0,0,never,23.76,4.8,160,0
3,2015,Male,41.0,Alabama,0,0,1,0,0,0,0,never,27.32,4.0,159,0
4,2016,Female,52.0,Alabama,1,0,0,0,0,0,0,never,23.75,6.5,90,0


In [8]:
# --- 1. PREVALENSI DIABETES BERDASARKAN GENDER ---
import plotly.express as px

# Mapping Label agar mudah dibaca (0=Sehat, 1=Diabetes)
df['Status'] = df['diabetes'].map({0: 'Sehat (No Diabetes)', 1: 'Diabetes (Positive)'})

# Kita lihat distribusi diabetes berdasarkan Gender
fig = px.sunburst(df, path=['gender', 'Status'],
                  title='Distribusi Kasus Diabetes berdasarkan Gender',
                  color='Status',
                  color_discrete_map={'Sehat (No Diabetes)':'#66b3ff', 'Diabetes (Positive)':'#ff9999'})

fig.show()

In [9]:
# --- 2. GLUCOSE & HbA1c LEVEL ANALYSIS ---
# HbA1c adalah rata-rata gula darah jangka panjang (Indikator paling akurat)

fig = px.box(df, x="Status", y="blood_glucose_level", color="Status",
             title="Perbandingan Kadar Glukosa Darah: Sehat vs Diabetes",
             color_discrete_map={'Sehat (No Diabetes)':'#66b3ff', 'Diabetes (Positive)':'#ff9999'},
             notched=True) # Notched box plot untuk melihat signifikansi median

fig.update_layout(xaxis_title="Diagnosis", yaxis_title="Blood Glucose Level (mg/dL)")
fig.show()

# Tambahan: Analisis HbA1c (Karena dataset Anda punya kolom mahal ini!)
fig2 = px.box(df, x="Status", y="hbA1c_level", color="Status",
              title="Perbandingan HbA1c Level (Indikator Kunci Diabetes)",
              color_discrete_map={'Sehat (No Diabetes)':'#90ee90', 'Diabetes (Positive)':'#ff6347'})
fig2.show()

In [10]:
# --- 3. MULTIVARIATE RISK ANALYSIS ---
# Kita ingin melihat hubungan Glukosa, BMI, dan Umur
# Ditambah dimensi warna: Status Merokok (smoking_history)

fig = px.scatter(df, x="blood_glucose_level", y="bmi", color="Status",
                 size="age", hover_data=['hbA1c_level', 'smoking_history', 'hypertension', 'heart_disease'],
                 color_discrete_map={'Sehat (No Diabetes)':'#66b3ff', 'Diabetes (Positive)':'#ff9999'},
                 title="Peta Risiko: Glukosa vs BMI (Besar Titik = Usia)",
                 opacity=0.6)

# Menambahkan garis ambang batas medis
fig.add_vline(x=200, line_dash="dash", line_color="black", annotation_text="Diabetes Threshold (>200)")
fig.add_hline(y=30, line_dash="dash", line_color="black", annotation_text="Obesity (>30)")

fig.update_layout(xaxis_title="Blood Glucose Level", yaxis_title="BMI")
fig.show()

## 💡 Key Insights & Recommendations

Berdasarkan analisis visual interaktif pada dataset ini:

1.  **The HbA1c Factor:** Selain glukosa sesaat (*blood glucose*), terlihat pemisahan yang sangat tegas pada level **HbA1c**. Pasien dengan HbA1c > 6.5 hampir dipastikan positif diabetes. Ini indikator screening yang lebih baik daripada glukosa biasa.
2.  **Komorbiditas:** Dataset ini menunjukkan korelasi antara BMI tinggi dan diabetes. Faktor usia (*size bubble* pada scatter plot) juga memperbesar risiko.
3.  **Rekomendasi Bisnis/Klinis:**
    * **Screening Prioritas:** Fokuskan tes HbA1c pada individu dengan BMI > 30 dan usia > 45 tahun.
    * **Lifestyle Intervention:** Mengingat data *smoking_history* tersedia, program berhenti merokok bisa disarankan sebagai bagian dari pencegahan komplikasi jantung (*heart_disease*) pada pasien diabetes.