# Implementasi Algoritma K-Nearest Neighbors (KNN) untuk Deteksi Diabetes


Notebook ini mencerminkan penjelasan dalam skripsi saya, berikut langkah-langkahnya:
1. Penentuan nilai \( K = 3 \) untuk model.
2. Normalisasi data menggunakan Min-Max Normalization untuk mengatasi perbedaan skala atribut.
3. Evaluasi menggunakan akurasi, Confusion Matrix, precision, recall, dan error rate.
    

In [1]:
# Import library yang diperlukan
import pickle
import pandas as pd
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

In [2]:
# 1. Muat dataset
# Dataset berisi atribut pasien seperti kadar glukosa darah, tekanan darah, dll.
data = pd.read_csv('data/diabetes.csv')  # Sesuaikan path jika diperlukan
X = data.drop('Outcome', axis=1)  # Fitur
y = data['Outcome']  # Target (1 = Diabetes, 0 = Tidak Diabetes)

In [3]:
# 2. Normalisasi Data
# Normalisasi dilakukan menggunakan Min-Max Normalization untuk menyamakan skala atribut
scaler = MinMaxScaler()
X_normalized = scaler.fit_transform(X)

In [4]:
# 3. Split Data
# Membagi dataset menjadi data pelatihan (80%) dan data pengujian (20%)
X_train, X_test, y_train, y_test = train_test_split(X_normalized, y, test_size=0.2, random_state=42)

In [5]:
# 4. Latih Model dengan K = 3
# Menggunakan metrik Euclidean Distance untuk menghitung jarak antar data
model = KNeighborsClassifier(n_neighbors=3, metric='euclidean')
model.fit(X_train, y_train)

In [6]:
# 5. Prediksi Data Uji
# Prediksi dilakukan pada data uji untuk mengevaluasi performa model
y_pred = model.predict(X_test)

In [7]:
# 6. Evaluasi Model
# a. Akurasi
accuracy = accuracy_score(y_test, y_pred)
print(f"Akurasi: {accuracy:.2f}")

Akurasi: 0.93


In [8]:
# b. Laporan Klasifikasi
print("Laporan Klasifikasi:")
print(classification_report(y_test, y_pred))

Laporan Klasifikasi:
              precision    recall  f1-score   support

           0       0.97      0.90      0.93       160
           1       0.89      0.96      0.93       139

    accuracy                           0.93       299
   macro avg       0.93      0.93      0.93       299
weighted avg       0.93      0.93      0.93       299



In [9]:
# c. Confusion Matrix
conf_matrix = confusion_matrix(y_test, y_pred)
print("Confusion Matrix:")
print(conf_matrix)

Confusion Matrix:
[[144  16]
 [  5 134]]


In [10]:
# 7. Hitung Error Rate
# Error rate dihitung dari False Positive (FP) dan False Negative (FN)
TN, FP, FN, TP = conf_matrix.ravel()
error_rate = (FP + FN) / (TN + FP + FN + TP)
print(f"Error Rate: {error_rate:.2f}")

Error Rate: 0.07


In [11]:

# Simpan model dan scaler bersama dalam satu file .pkl
with open('model-knn.pkl', 'wb') as file:
    pickle.dump({'model': model, 'scaler': scaler}, file)
print("Model dan scaler berhasil disimpan ke model-knn.pkl.")
                

Model dan scaler berhasil disimpan ke model-knn.pkl.


In [12]:
# 9. Prediksi Data Baru
# Contoh prediksi pasien
# Pastikan input baru diubah menjadi array numpy
new_input = pd.DataFrame([[5, 72, 35, 0, 0, 33.6, 0.627, 50]], columns=X.columns)
prediction = model.predict(new_input.to_numpy())  # Ubah DataFrame menjadi array
print("Prediksi untuk input baru:", "Diabetes" if prediction[0] == 1 else "Tidak Diabetes")

Prediksi untuk input baru: Diabetes
