# Prediksi Diabetes Menggunakan Machine Learning

**Nama:** Iqbal Satria Nugraha  
**NIM:** A11.2023.15310  
**Kelas:** A11.4402
**Mata Kuliah:** Pembelajaran Mesin 



## Ringkasan dan Permasalahan
Diabetes adalah penyakit kronis yang berdampak signifikan pada kesehatan masyarakat. Deteksi dini terhadap risiko diabetes dapat membantu tindakan pencegahan yang lebih cepat dan efektif.

Namun, diagnosis diabetes membutuhkan pemeriksaan medis yang terkadang mahal atau memakan waktu. Oleh karena itu, dibutuhkan sistem prediksi berbasis data medis yang cepat dan akurat.

## Tujuan
- Memprediksi apakah seseorang menderita diabetes berdasarkan data medis dasar.
- Menerapkan metode supervised learning untuk membangun model klasifikasi.
- Membandingkan performa beberapa algoritma (Logistic Regression, Decision Tree, Random Forest).

## Alur Penyelesaian
```mermaid
graph TD
A[Load Dataset] --> B[EDA & Analisis]
B --> C[Preprocessing Fitur]
C --> D[Split Data Training/Test]
D --> E[Modeling dan Pelatihan]
E --> F[Evaluasi dan Kesimpulan]



---

## 📊 **3. Penjelasan Dataset, EDA, dan Proses Fitur**  
🟦 **[Markdown Cell]**
```markdown
## Dataset
Dataset yang digunakan adalah **Pima Indians Diabetes Dataset**, terdiri dari 768 data pasien perempuan keturunan Pima Indian dengan 8 fitur prediktor dan 1 label target (`Outcome`).

### Fitur:
- Pregnancies: Jumlah kehamilan
- Glucose: Konsentrasi glukosa darah
- BloodPressure: Tekanan darah diastolik
- SkinThickness: Ketebalan lipatan kulit
- Insulin: Kadar insulin
- BMI: Indeks massa tubuh
- DiabetesPedigreeFunction: Riwayat keluarga
- Age: Usia
- Outcome: 1 (diabetes), 0 (tidak)

## EDA & Feature Processing
Beberapa fitur memiliki nilai nol yang tidak realistis, seperti tekanan darah atau insulin = 0. Nilai tersebut diisi dengan **median**. Dataset kemudian dinormalisasi menggunakan `StandardScaler`.


In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

# Load dataset
file_path = "pima-indians-diabetes.data.csv"
columns = [
    "Pregnancies", "Glucose", "BloodPressure", "SkinThickness",
    "Insulin", "BMI", "DiabetesPedigreeFunction", "Age", "Outcome"
]

data = pd.read_csv(file_path, names=columns)
data.head()


ModuleNotFoundError: No module named 'pandas'

In [None]:
# Cek informasi awal
data.info()
data.describe()


In [None]:
# Visualisasi distribusi kelas
sns.countplot(x='Outcome', data=data)
plt.title("Distribusi Kelas")
plt.show()


In [None]:
# Ganti nilai 0 dengan NaN, lalu isi median
cols = ["Glucose", "BloodPressure", "SkinThickness", "Insulin", "BMI"]
data[cols] = data[cols].replace(0, np.nan)
data.fillna(data.median(), inplace=True)


In [None]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

X = data.drop("Outcome", axis=1)
y = data["Outcome"]

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)


In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier

# Logistic Regression
lr = LogisticRegression()
lr.fit(X_train, y_train)
y_pred_lr = lr.predict(X_test)

# Decision Tree
dt = DecisionTreeClassifier()
dt.fit(X_train, y_train)
y_pred_dt = dt.predict(X_test)

# Random Forest
rf = RandomForestClassifier()
rf.fit(X_train, y_train)
y_pred_rf = rf.predict(X_test)


In [None]:
from sklearn.metrics import accuracy_score

print("Akurasi Logistic Regression:", accuracy_score(y_test, y_pred_lr))
print("Akurasi Decision Tree:", accuracy_score(y_test, y_pred_dt))
print("Akurasi Random Forest:", accuracy_score(y_test, y_pred_rf))


In [None]:
from sklearn.metrics import classification_report, confusion_matrix

print("Confusion Matrix:")
print(confusion_matrix(y_test, y_pred_rf))

print("\nClassification Report:")
print(classification_report(y_test, y_pred_rf))


## Diskusi dan Kesimpulan

- Dataset cukup bersih setelah dilakukan pengisian nilai kosong.
- Model **Random Forest** memberikan hasil akurasi tertinggi, diikuti oleh Logistic Regression.
- Decision Tree memiliki kecenderungan overfitting pada data training.

**Kesimpulan:**
Model machine learning dapat digunakan sebagai alat bantu diagnosis awal diabetes berdasarkan data medis dasar. Namun, tetap diperlukan validasi oleh tenaga medis profesional untuk diagnosis final.
