**Import Libraries**

In [13]:
import numpy as np
import pandas as pd
from sklearn import model_selection
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report


Bagian ini mengimpor semua library yang dibutuhkan untuk melakukan analisis. Library numpy dan pandas digunakan untuk manipulasi data, sementara scikit-learn menyediakan berbagai alat untuk membangun dan mengevaluasi model machine learning, seperti model_selection untuk validasi silang, berbagai model klasifikasi (KNN, Naive Bayes, dan SVM), serta metrik evaluasi.

**Membuat Validasi Dataset**


In [15]:
# Memuat dataset dan menyiapkan data fitur (X) dan label (Y)
# Asumsikan dataset telah dimuat ke dalam variabel `dataset`
array = dataset.values
X = array[:, 0:4]  # Fitur
Y = array[:, 4]    # Label

# Membagi dataset menjadi data latih dan data validasi
validation_size = 0.20
seed = 7
X_train, X_validation, Y_train, Y_validation = model_selection.train_test_split(X, Y, test_size=validation_size, random_state=seed)


Pada bagian ini, dataset dibagi menjadi dua bagian, yaitu data latih (80%) dan data validasi (20%). Pembagian ini bertujuan untuk memastikan bahwa model diuji pada data yang belum pernah dilihatnya sebelumnya, sehingga hasil akurasi yang diperoleh mencerminkan performa model secara objektif. Variabel seed digunakan untuk memastikan bahwa hasil pembagian data konsisten setiap kali kode dijalankan.

**K-Folds Cross Validation**

In [16]:
# Mengatur parameter untuk cross-validation
seed = 7
kfold = model_selection.KFold(n_splits=10, random_state=seed, shuffle=True)
scoring = 'accuracy'


Cross-validation (validasi silang) dengan 10-fold digunakan di sini. Teknik ini membagi data latih menjadi 10 subset (fold), di mana setiap fold bergantian menjadi data uji, sementara fold lainnya menjadi data latih. Proses ini diulang 10 kali, sehingga setiap subset data digunakan untuk pengujian satu kali. Hasil dari 10 pengujian ini kemudian dirata-rata untuk memberikan estimasi akurasi yang lebih stabil. Parameter scoring diatur ke accuracy untuk menghitung akurasi sebagai metrik evaluasi.

**Membangun Model dan Evaluasi KNN**

In [17]:
# Model K-Nearest Neighbors (KNN)
print("\nEvaluasi Model: K-Nearest Neighbors (KNN)")
knn = KNeighborsClassifier()
knn_cv_results = model_selection.cross_val_score(knn, X_train, Y_train, cv=kfold, scoring=scoring)
print(f"Rata-rata Akurasi KNN: {knn_cv_results.mean():.4f}")
print(f"Standar Deviasi KNN: {knn_cv_results.std():.4f}")

# Melatih dan menguji KNN pada data validasi
knn.fit(X_train, Y_train)
knn_predictions = knn.predict(X_validation)
print("\n--- Evaluasi KNN pada Data Validasi ---")
print("Akurasi KNN pada Data Validasi:", accuracy_score(Y_validation, knn_predictions))
print("Matriks Kebingungan KNN:\n", confusion_matrix(Y_validation, knn_predictions))
print("Laporan Klasifikasi KNN:\n", classification_report(Y_validation, knn_predictions))



Evaluasi Model: K-Nearest Neighbors (KNN)
Rata-rata Akurasi KNN: 0.9833
Standar Deviasi KNN: 0.0333

--- Evaluasi KNN pada Data Validasi ---
Akurasi KNN pada Data Validasi: 0.9
Matriks Kebingungan KNN:
 [[ 7  0  0]
 [ 0 11  1]
 [ 0  2  9]]
Laporan Klasifikasi KNN:
                  precision    recall  f1-score   support

    Iris-setosa       1.00      1.00      1.00         7
Iris-versicolor       0.85      0.92      0.88        12
 Iris-virginica       0.90      0.82      0.86        11

       accuracy                           0.90        30
      macro avg       0.92      0.91      0.91        30
   weighted avg       0.90      0.90      0.90        30



Model K-Nearest Neighbors (KNN) diinisialisasi dan dievaluasi menggunakan cross-validation. Hasilnya adalah rata-rata akurasi dan standar deviasi, yang menggambarkan kinerja rata-rata model serta variasi akurasi di antara setiap fold. Setelah cross-validation, model KNN dilatih pada data latih penuh dan diuji pada data validasi, menghasilkan akurasi, matriks kebingungan, dan laporan klasifikasi untuk mengevaluasi kinerja KNN pada data yang belum pernah dilihat.

**Membangun Model dan Evaluasi Naive Bayes**

In [18]:
# Model Gaussian Naive Bayes (NB)
print("\nEvaluasi Model: Gaussian Naive Bayes (NB)")
nb = GaussianNB()
nb_cv_results = model_selection.cross_val_score(nb, X_train, Y_train, cv=kfold, scoring=scoring)
print(f"Rata-rata Akurasi NB: {nb_cv_results.mean():.4f}")
print(f"Standar Deviasi NB: {nb_cv_results.std():.4f}")

# Melatih dan menguji NB pada data validasi
nb.fit(X_train, Y_train)
nb_predictions = nb.predict(X_validation)
print("\n--- Evaluasi NB pada Data Validasi ---")
print("Akurasi NB pada Data Validasi:", accuracy_score(Y_validation, nb_predictions))
print("Matriks Kebingungan NB:\n", confusion_matrix(Y_validation, nb_predictions))
print("Laporan Klasifikasi NB:\n", classification_report(Y_validation, nb_predictions))



Evaluasi Model: Gaussian Naive Bayes (NB)
Rata-rata Akurasi NB: 0.9667
Standar Deviasi NB: 0.0408

--- Evaluasi NB pada Data Validasi ---
Akurasi NB pada Data Validasi: 0.8333333333333334
Matriks Kebingungan NB:
 [[7 0 0]
 [0 9 3]
 [0 2 9]]
Laporan Klasifikasi NB:
                  precision    recall  f1-score   support

    Iris-setosa       1.00      1.00      1.00         7
Iris-versicolor       0.82      0.75      0.78        12
 Iris-virginica       0.75      0.82      0.78        11

       accuracy                           0.83        30
      macro avg       0.86      0.86      0.86        30
   weighted avg       0.84      0.83      0.83        30



Pada bagian ini, model Gaussian Naive Bayes (NB) dievaluasi dengan metode yang sama seperti KNN. Cross-validation digunakan untuk menghitung rata-rata akurasi dan standar deviasi dari NB. Setelah itu, model dilatih pada data latih penuh dan diuji pada data validasi. Metrik akurasi, matriks kebingungan, dan laporan klasifikasi dihasilkan untuk menilai kinerja model NB pada data validasi.

**Membangun Model dan Evaluasi SVM**

In [19]:
# Model Support Vector Machine (SVM)
print("\nEvaluasi Model: Support Vector Machine (SVM)")
svm = SVC()
svm_cv_results = model_selection.cross_val_score(svm, X_train, Y_train, cv=kfold, scoring=scoring)
print(f"Rata-rata Akurasi SVM: {svm_cv_results.mean():.4f}")
print(f"Standar Deviasi SVM: {svm_cv_results.std():.4f}")

# Melatih dan menguji SVM pada data validasi
svm.fit(X_train, Y_train)
svm_predictions = svm.predict(X_validation)
print("\n--- Evaluasi SVM pada Data Validasi ---")
print("Akurasi SVM pada Data Validasi:", accuracy_score(Y_validation, svm_predictions))
print("Matriks Kebingungan SVM:\n", confusion_matrix(Y_validation, svm_predictions))
print("Laporan Klasifikasi SVM:\n", classification_report(Y_validation, svm_predictions))



Evaluasi Model: Support Vector Machine (SVM)
Rata-rata Akurasi SVM: 0.9833
Standar Deviasi SVM: 0.0333

--- Evaluasi SVM pada Data Validasi ---
Akurasi SVM pada Data Validasi: 0.8666666666666667
Matriks Kebingungan SVM:
 [[ 7  0  0]
 [ 0 10  2]
 [ 0  2  9]]
Laporan Klasifikasi SVM:
                  precision    recall  f1-score   support

    Iris-setosa       1.00      1.00      1.00         7
Iris-versicolor       0.83      0.83      0.83        12
 Iris-virginica       0.82      0.82      0.82        11

       accuracy                           0.87        30
      macro avg       0.88      0.88      0.88        30
   weighted avg       0.87      0.87      0.87        30



Model Support Vector Machine (SVM) dievaluasi dengan cross-validation untuk memperoleh akurasi rata-rata dan standar deviasi. Setelah proses cross-validation, model SVM dilatih pada data latih dan diuji pada data validasi. Hasil evaluasi akhir berupa akurasi, matriks kebingungan, dan laporan klasifikasi, memberikan gambaran menyeluruh tentang kinerja SVM pada data validasi.

**Rangkuman Hasil Cross-Validation dan Pemilihan Model Terbaik**

In [20]:
# Rangkuman hasil cross-validation untuk setiap model
print("\n--- Rangkuman Hasil Cross-Validation ---")
print(f"KNN: Rata-rata Akurasi = {knn_cv_results.mean():.4f}, Standar Deviasi = {knn_cv_results.std():.4f}")
print(f"NB: Rata-rata Akurasi = {nb_cv_results.mean():.4f}, Standar Deviasi = {nb_cv_results.std():.4f}")
print(f"SVM: Rata-rata Akurasi = {svm_cv_results.mean():.4f}, Standar Deviasi = {svm_cv_results.std():.4f}")

# Memilih model terbaik berdasarkan akurasi tertinggi
model_accuracies = {
    "KNN": knn_cv_results.mean(),
    "NB": nb_cv_results.mean(),
    "SVM": svm_cv_results.mean()
}

best_model_name = max(model_accuracies, key=model_accuracies.get)
print(f"\nModel Terbaik Berdasarkan Cross-Validation: {best_model_name}")



--- Rangkuman Hasil Cross-Validation ---
KNN: Rata-rata Akurasi = 0.9833, Standar Deviasi = 0.0333
NB: Rata-rata Akurasi = 0.9667, Standar Deviasi = 0.0408
SVM: Rata-rata Akurasi = 0.9833, Standar Deviasi = 0.0333

Model Terbaik Berdasarkan Cross-Validation: KNN


Pada bagian ini, hasil cross-validation dari setiap model dirangkum untuk memudahkan perbandingan. Model dengan akurasi rata-rata tertinggi dipilih sebagai model terbaik. Pemilihan model terbaik membantu dalam menentukan model yang akan digunakan di tahap implementasi atau penerapan lanjutan, berdasarkan performanya pada data uji.