# Prediksi Diabetes Menggunakan Machine Learning

## Business Understanding

### Problem Statement
Tingginya angka keterlambatan diagnosis penyakit diabetes menjadi salah satu tantangan besar dalam dunia kesehatan. Banyak penderita tidak menyadari kondisi mereka hingga muncul komplikasi serius, seperti kerusakan ginjal, gangguan penglihatan, dan penyakit kardiovaskular. Keterbatasan akses terhadap layanan medis dan pemeriksaan rutin memperburuk situasi ini, terutama di daerah dengan sumber daya terbatas. Oleh karena itu, diperlukan solusi prediktif yang mampu membantu deteksi dini penyakit ini secara efisien.

### Goals
- Mengembangkan model machine learning yang mampu mengklasifikasi risiko diabetes pada pasien berdasarkan data medis.
- Mencapai akurasi prediksi minimal 70%.
- Meminimalisasi jumlah false negative, yaitu kasus positif diabetes yang tidak terdeteksi oleh model.


### Solution Statement
- Menggunakan dua algoritma machine learning: Logistic Regression dan Random Forest.
- Melakukan tuning hyperparameter untuk meningkatkan performa Random Forest.
- Mengevaluasi model berdasarkan metrik akurasi, precision, recall, dan f1-score.


## Import Library

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score

## Data Understanding

Dataset yang digunakan adalah [Pima Indians Diabetes Database](https://www.kaggle.com/datasets/uciml/pima-indians-diabetes-database). Dataset ini berisi data medis dari wanita keturunan Indian Pima, digunakan untuk memprediksi apakah seseorang mengidap diabetes atau tidak.

### Membaca Dataset

> Membaca dataset menggunakan pandas untuk melihat isi awal data.

In [4]:
df = pd.read_csv('diabetes.csv')
df.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


### Jumlah Baris dan Kolom

Mengecek dimensi dataset untuk mengetahui ukuran data yang tersedia.

In [5]:
print(f"Jumlah baris: {df.shape[0]}")
print(f"Jumlah kolom: {df.shape[1]}")

Jumlah baris: 768
Jumlah kolom: 9


### Informasi Data

Melihat tipe data dan apakah ada nilai kosong (null).

In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 768 entries, 0 to 767
Data columns (total 9 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Pregnancies               768 non-null    int64  
 1   Glucose                   768 non-null    int64  
 2   BloodPressure             768 non-null    int64  
 3   SkinThickness             768 non-null    int64  
 4   Insulin                   768 non-null    int64  
 5   BMI                       768 non-null    float64
 6   DiabetesPedigreeFunction  768 non-null    float64
 7   Age                       768 non-null    int64  
 8   Outcome                   768 non-null    int64  
dtypes: float64(2), int64(7)
memory usage: 54.1 KB


### Cek Nilai 0 yang Tidak Valid

Beberapa fitur seperti tekanan darah atau BMI tidak mungkin bernilai 0. Kita cek kolom mana saja yang memiliki nilai 0.


In [7]:
cols_with_zero = ["Glucose", "BloodPressure", "SkinThickness", "Insulin", "BMI"]
for col in cols_with_zero:
    print(f"{col} memiliki {df[df[col] == 0].shape[0]} nilai 0")

Glucose memiliki 5 nilai 0
BloodPressure memiliki 35 nilai 0
SkinThickness memiliki 227 nilai 0
Insulin memiliki 374 nilai 0
BMI memiliki 11 nilai 0


## Data Preparation

### Mengganti Nilai 0 dengan Mean (Kecuali kolom 'Pregnancies' dan 'Outcome')

In [8]:
for col in cols_with_zero:
    df[col] = df[col].replace(0, df[col].mean())

### Split Data

### Membagi Data

Memisahkan fitur (X) dan target (y), serta membagi dataset menjadi data pelatihan dan pengujian (80:20).

In [9]:
X = df.drop("Outcome", axis=1)
y = df["Outcome"]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

## Modeling

### Model 1: Logistic Regression

In [10]:
logreg = LogisticRegression(random_state=42, max_iter=1000)
logreg.fit(X_train, y_train)
y_pred_logreg = logreg.predict(X_test)

### Evaluasi Logistic Regression

In [11]:
print("Akurasi Logistic Regression:", accuracy_score(y_test, y_pred_logreg))
print("\nClassification Report:\n", classification_report(y_test, y_pred_logreg))
print("\nConfusion Matrix:\n", confusion_matrix(y_test, y_pred_logreg))

Akurasi Logistic Regression: 0.7662337662337663

Classification Report:
               precision    recall  f1-score   support

           0       0.81      0.84      0.82        99
           1       0.69      0.64      0.66        55

    accuracy                           0.77       154
   macro avg       0.75      0.74      0.74       154
weighted avg       0.76      0.77      0.76       154


Confusion Matrix:
 [[83 16]
 [20 35]]


### Model 2: Random Forest (Tanpa Tuning)

In [12]:
rf = RandomForestClassifier(random_state=42)
rf.fit(X_train, y_train)
y_pred_rf = rf.predict(X_test)

### Evaluasi Random Forest

In [13]:
print("Akurasi Random Forest:", accuracy_score(y_test, y_pred_rf))
print("\nClassification Report:\n", classification_report(y_test, y_pred_rf))
print("\nConfusion Matrix:\n", confusion_matrix(y_test, y_pred_rf))

Akurasi Random Forest: 0.7662337662337663

Classification Report:
               precision    recall  f1-score   support

           0       0.83      0.80      0.81        99
           1       0.66      0.71      0.68        55

    accuracy                           0.77       154
   macro avg       0.75      0.75      0.75       154
weighted avg       0.77      0.77      0.77       154


Confusion Matrix:
 [[79 20]
 [16 39]]


### Hyperparameter Tuning Random Forest

In [15]:
param_grid = {
    'n_estimators': [100, 200],
    'max_depth': [5, 10, None],
    'min_samples_split': [2, 5],
    'min_samples_leaf': [1, 2]
}
gs = GridSearchCV(RandomForestClassifier(random_state=42), param_grid, cv=5, scoring='accuracy')
gs.fit(X_train, y_train)

print("Best Parameters:", gs.best_params_)

Best Parameters: {'max_depth': 10, 'min_samples_leaf': 2, 'min_samples_split': 5, 'n_estimators': 100}


### Evaluasi Model Setelah Tuning

In [16]:
best_model = gs.best_estimator_
y_pred_best = best_model.predict(X_test)

print("Akurasi Model Random Forest setelah Tuning:", accuracy_score(y_test, y_pred_best))
print("\nClassification Report:\n", classification_report(y_test, y_pred_best))
print("\nConfusion Matrix:\n", confusion_matrix(y_test, y_pred_best))

Akurasi Model Random Forest setelah Tuning: 0.7532467532467533

Classification Report:
               precision    recall  f1-score   support

           0       0.81      0.80      0.81        99
           1       0.65      0.67      0.66        55

    accuracy                           0.75       154
   macro avg       0.73      0.74      0.73       154
weighted avg       0.76      0.75      0.75       154


Confusion Matrix:
 [[79 20]
 [18 37]]


## Evaluation

Model yang dikembangkan telah berhasil menjawab permasalahan yang diajukan dalam *Problem Statement*. Berdasarkan evaluasi:

- **Logistic Regression** menghasilkan akurasi **76.62%** dengan recall **64%** pada kelas positif (penderita diabetes).
- **Random Forest** default menghasilkan akurasi yang sama (**76.62%**) dengan recall lebih tinggi (**71%**).
- Setelah dilakukan **hyperparameter tuning**, model Random Forest memiliki akurasi **75.32%** dan recall **67%**, yang tetap berada di atas ambang batas performa minimum yang ditetapkan (**70% akurasi**).



### Kesesuaian dengan Goals:
- **Goal 1: Membangun model prediksi diabetes** — tercapai melalui implementasi dua model klasifikasi.
- **Goal 2: Mencapai akurasi minimal 70%** — semua model mencapai akurasi di atas 75%.
- **Goal 3: Meminimalkan false negative** — recall pada kelas positif menjadi perhatian utama, dan model Random Forest berhasil meningkatkan recall dibanding Logistic Regression, mengurangi risiko pasien positif tidak terdeteksi.

### Dampak Terhadap Business Understanding:
- Model ini memberikan solusi untuk **deteksi dini** diabetes, sesuai kebutuhan sistem kesehatan di wilayah dengan keterbatasan akses medis.
- Dengan false negative yang relatif rendah, model dapat digunakan sebagai alat **skrining awal**, sehingga pasien berisiko tinggi dapat dirujuk untuk pemeriksaan lebih lanjut.
- Proses tuning membuktikan bahwa dengan penyesuaian parameter, performa model bisa dioptimalkan untuk konteks aplikasi nyata, meskipun trade-off antara akurasi dan recall tetap perlu diperhatikan.

### Dampak Solusi Statement:
- Penggunaan **Logistic Regression** memberi baseline yang sederhana dan mudah diinterpretasikan.
- **Random Forest**, baik default maupun hasil tuning, menunjukkan kinerja yang lebih baik dalam mendeteksi kasus positif.
- Seluruh pendekatan dalam solution statement terbukti **berdampak secara signifikan terhadap kualitas model**, serta relevan terhadap kebutuhan diagnosis cepat dan akurat.


In [2]:
!jupyter nbconvert --to script Prediksi_Diabetes_Model.ipynb

[NbConvertApp] Converting notebook Prediksi_Diabetes_Model.ipynb to script
[NbConvertApp] Writing 6997 bytes to Prediksi_Diabetes_Model.py
