## Penjelasan Kode Random Forest Classifier

### Pemilihan Fitur

Fitur yang digunakan: ['Glucose', 'BMI']

Model hanya menggunakan dua fitur utama yaitu kadar glukosa dan indeks massa tubuh (BMI) untuk memprediksi apakah seseorang menderita diabetes.

### Pelatihan dan Evaluasi Model

- Algoritma yang digunakan adalah Random Forest Classifier dari pustaka scikit-learn.
- Model dilatih pada data latih (X_train, y_train).
- Evaluasi dilakukan pada data uji (X_test, y_test) menggunakan beberapa metrik performa.

### Metode Evaluasi

- Akurasi: Proporsi prediksi yang benar terhadap jumlah total prediksi.
- Classification Report: Menyediakan metrik evaluasi untuk setiap kelas:
  - precision: ketepatan model dalam memprediksi kelas tertentu.
  - recall: seberapa banyak dari kelas sebenarnya yang berhasil dikenali.
  - f1-score: rata-rata harmonik dari precision dan recall.
- Confusion Matrix: Matriks yang menunjukkan jumlah prediksi benar dan salah untuk setiap kelas.

In [1]:
# 1. Import library
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# 2. Load dataset
df = pd.read_csv("diabetes.csv")

# 3. Pisahkan fitur dan target
features = df.columns.drop("Outcome")
X_all = df[features]
y = df["Outcome"]

# 4. Pilih acak 2 fitur
np.random.seed(42)
selected_features = np.random.choice(features, size=2, replace=False)
print("Fitur yang dipilih:", selected_features)

X = df[selected_features]

# 5. Split data
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 6. Normalisasi fitur
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# 7. Latih model Random Forest
rf_model = RandomForestClassifier(n_estimators=100, max_depth=3, random_state=42)
rf_model.fit(X_train_scaled, y_train)

# 8. Evaluasi model
y_pred = rf_model.predict(X_test_scaled)

print("\nAccuracy:", accuracy_score(y_test, y_pred))
print("\nClassification Report:\n", classification_report(y_test, y_pred))
print("\nConfusion Matrix:\n", confusion_matrix(y_test, y_pred))


Fitur yang dipilih: ['Glucose' 'BMI']

Accuracy: 0.7727272727272727

Classification Report:
               precision    recall  f1-score   support

           0       0.80      0.86      0.83        99
           1       0.71      0.62      0.66        55

    accuracy                           0.77       154
   macro avg       0.76      0.74      0.74       154
weighted avg       0.77      0.77      0.77       154


Confusion Matrix:
 [[85 14]
 [21 34]]


## Hasil Evaluasi

Akurasi: 0.7727 (sekitar 77.27 persen)

Classification Report:

| Kelas | Precision | Recall | F1-score | Support |
|-------|-----------|--------|----------|---------|
| 0 (Tidak Diabetes) | 0.80 | 0.86 | 0.83 | 99 |
| 1 (Diabetes)       | 0.71 | 0.62 | 0.66 | 55 |

Interpretasi:
- Model lebih baik dalam memprediksi kelas 0 (tidak diabetes).
- Recall untuk kelas 1 (diabetes) hanya 62 persen, artinya sekitar 38 persen kasus diabetes tidak terdeteksi.

Confusion Matrix:

[[85 14]  
 [21 34]]

Penjelasan:
- 85 data tidak diabetes diprediksi benar.
- 14 data tidak diabetes salah diprediksi sebagai diabetes (false positive).
- 34 data diabetes diprediksi dengan benar.
- 21 data diabetes salah diprediksi sebagai tidak diabetes (false negative).

## Kesimpulan

Model Random Forest dengan fitur Glucose dan BMI menunjukkan performa yang cukup baik dengan akurasi sekitar 77 persen. Namun, performa dalam mengenali kasus diabetes (kelas 1) masih bisa ditingkatkan. Hal ini dapat dicapai dengan:
- Menambahkan fitur tambahan (seperti tekanan darah, usia, dll).
- Melakukan tuning parameter model untuk meningkatkan kemampuan generalisasi.
