<a href="https://colab.research.google.com/github/Kinnaruo/MachineLearning/blob/main/UTS/Klasifikasi/Klasifikasi.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
import pandas as pd
from sklearn.feature_selection import VarianceThreshold
from sklearn.feature_selection import mutual_info_classif, SelectKBest
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import BaggingClassifier, AdaBoostClassifier
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix, roc_auc_score, RocCurveDisplay
import matplotlib.pyplot as plt

In [4]:
df = pd.read_csv("/content/KlasifikasiUTS.csv")
X = df.drop("Class", axis=1)
y = df["Class"]


X = VarianceThreshold(threshold=0.01).fit_transform(X)

In [6]:
selector = VarianceThreshold(threshold=0.01)
X = selector.fit_transform(X)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Standardisasi
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Logistic Regression

In [7]:
results = {}

model = LogisticRegression(max_iter=1000)
model.fit(X_train_scaled, y_train)
y_pred = model.predict(X_test_scaled)
y_prob = model.predict_proba(X_test_scaled)[:, 1]

acc = accuracy_score(y_test, y_pred)
prec = precision_score(y_test, y_pred)
rec = recall_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)
auc = roc_auc_score(y_test, y_prob)

print("📌 Logistic Regression")
print(f"Accuracy : {acc:.2f}")
print(f"Precision: {prec:.2f}")
print(f"Recall   : {rec:.2f}")
print(f"F1 Score : {f1:.2f}")
print(f"AUC      : {auc:.2f}")

results["Logistic Regression"] = {"Accuracy": acc, "Precision": prec, "Recall": rec, "F1": f1, "AUC": auc}

📌 Logistic Regression
Accuracy : 1.00
Precision: 0.85
Recall   : 0.56
F1 Score : 0.67
AUC      : 0.98


Logistic Regression adalah model klasifikasi linier yang digunakan untuk memprediksi probabilitas kelas dalam masalah klasifikasi biner (atau dengan ekstensi, multi-kelas). Model ini menghitung log-odds dari kelas target sebagai kombinasi linier dari fitur input. Karena sifatnya yang sederhana dan interpretatif, Logistic Regression sangat berguna sebagai baseline model atau ketika pemahaman terhadap pengaruh setiap fitur penting. Meski demikian, model ini kurang cocok jika data memiliki relasi non-linier yang kuat antar fitur.

# Decision Tree

In [8]:
model = DecisionTreeClassifier()
model.fit(X_train_scaled, y_train)
y_pred = model.predict(X_test_scaled)
y_prob = model.predict_proba(X_test_scaled)[:, 1]

acc = accuracy_score(y_test, y_pred)
prec = precision_score(y_test, y_pred)
rec = recall_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)
auc = roc_auc_score(y_test, y_prob)

print("📌 Decision Tree")
print(f"Accuracy : {acc:.2f}")
print(f"Precision: {prec:.2f}")
print(f"Recall   : {rec:.2f}")
print(f"F1 Score : {f1:.2f}")
print(f"AUC      : {auc:.2f}")

results["Decision Tree"] = {"Accuracy": acc, "Precision": prec, "Recall": rec, "F1": f1, "AUC": auc}

📌 Decision Tree
Accuracy : 1.00
Precision: 0.72
Recall   : 0.81
F1 Score : 0.76
AUC      : 0.90


Decision Tree membagi dataset ke dalam cabang-cabang berdasarkan aturan keputusan dari fitur input. Proses pembagian dilakukan dengan memilih fitur yang paling baik memisahkan kelas berdasarkan metrik seperti Gini Index atau Entropy. Model ini mudah diinterpretasikan, namun rentan terhadap overfitting jika tidak dibatasi kedalaman pohonnya. Cocok untuk data dengan interaksi kompleks antar fitur dan tidak membutuhkan skala fitur.

# KNN

In [9]:
model = KNeighborsClassifier()
model.fit(X_train_scaled, y_train)
y_pred = model.predict(X_test_scaled)
y_prob = model.predict_proba(X_test_scaled)[:, 1]

acc = accuracy_score(y_test, y_pred)
prec = precision_score(y_test, y_pred)
rec = recall_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)
auc = roc_auc_score(y_test, y_prob)

print("📌 K-Nearest Neighbors")
print(f"Accuracy : {acc:.2f}")
print(f"Precision: {prec:.2f}")
print(f"Recall   : {rec:.2f}")
print(f"F1 Score : {f1:.2f}")
print(f"AUC      : {auc:.2f}")

results["KNN"] = {"Accuracy": acc, "Precision": prec, "Recall": rec, "F1": f1, "AUC": auc}

📌 K-Nearest Neighbors
Accuracy : 1.00
Precision: 0.94
Recall   : 0.78
F1 Score : 0.85
AUC      : 0.93


KNN adalah model berbasis instance yang mengklasifikasikan data baru berdasarkan mayoritas label dari k tetangga terdekatnya. Jarak (biasanya Euclidean) digunakan untuk menentukan kedekatan antar titik. Model ini sangat intuitif dan non-parametrik, namun kurang efisien pada dataset besar karena proses prediksi dilakukan saat inferensi (lazy learner). KNN juga sensitif terhadap skala data, sehingga normalisasi sangat disarankan.

# Bagging Classifier

In [10]:
model = BaggingClassifier()
model.fit(X_train_scaled, y_train)
y_pred = model.predict(X_test_scaled)
y_prob = model.predict_proba(X_test_scaled)[:, 1]

acc = accuracy_score(y_test, y_pred)
prec = precision_score(y_test, y_pred)
rec = recall_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)
auc = roc_auc_score(y_test, y_prob)

print("📌 Bagging Classifier")
print(f"Accuracy : {acc:.2f}")
print(f"Precision: {prec:.2f}")
print(f"Recall   : {rec:.2f}")
print(f"F1 Score : {f1:.2f}")
print(f"AUC      : {auc:.2f}")

results["Bagging"] = {"Accuracy": acc, "Precision": prec, "Recall": rec, "F1": f1, "AUC": auc}


📌 Bagging Classifier
Accuracy : 1.00
Precision: 0.94
Recall   : 0.79
F1 Score : 0.86
AUC      : 0.92


Bagging (Bootstrap Aggregating) adalah teknik ensemble yang melatih banyak model dasar (biasanya decision tree) pada subset data yang diambil secara acak dengan pengembalian. Prediksi akhir diambil dari voting mayoritas (untuk klasifikasi). Tujuan utama bagging adalah mengurangi variansi dan meningkatkan stabilitas model. Model ini sangat efektif untuk model dasar yang cenderung overfitting, seperti decision tree.

# AdaBoost

In [11]:
model = AdaBoostClassifier()
model.fit(X_train_scaled, y_train)
y_pred = model.predict(X_test_scaled)
y_prob = model.predict_proba(X_test_scaled)[:, 1]

acc = accuracy_score(y_test, y_pred)
prec = precision_score(y_test, y_pred)
rec = recall_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)
auc = roc_auc_score(y_test, y_prob)

print("📌 AdaBoost Classifier")
print(f"Accuracy : {acc:.2f}")
print(f"Precision: {prec:.2f}")
print(f"Recall   : {rec:.2f}")
print(f"F1 Score : {f1:.2f}")
print(f"AUC      : {auc:.2f}")

results["AdaBoost"] = {"Accuracy": acc, "Precision": prec, "Recall": rec, "F1": f1, "AUC": auc}

📌 AdaBoost Classifier
Accuracy : 1.00
Precision: 0.79
Recall   : 0.68
F1 Score : 0.73
AUC      : 0.98


AdaBoost bekerja dengan melatih model lemah secara berurutan, di mana setiap model berikutnya fokus pada kesalahan yang dibuat oleh model sebelumnya. Model akhir adalah gabungan dari semua model lemah dengan bobot yang diberikan berdasarkan performanya. AdaBoost efektif untuk meningkatkan akurasi model lemah, tetapi sensitif terhadap outlier dan noise. Biasanya digunakan dengan decision stump (tree 1-level) sebagai model dasarnya.

# SVC

In [12]:
model = SVC(probability=True)
model.fit(X_train_scaled, y_train)
y_pred = model.predict(X_test_scaled)
y_prob = model.predict_proba(X_test_scaled)[:, 1]

acc = accuracy_score(y_test, y_pred)
prec = precision_score(y_test, y_pred)
rec = recall_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)
auc = roc_auc_score(y_test, y_prob)

print("📌 Support Vector Classifier")
print(f"Accuracy : {acc:.2f}")
print(f"Precision: {prec:.2f}")
print(f"Recall   : {rec:.2f}")
print(f"F1 Score : {f1:.2f}")
print(f"AUC      : {auc:.2f}")

results["SVC"] = {"Accuracy": acc, "Precision": prec, "Recall": rec, "F1": f1, "AUC": auc}

📌 Support Vector Classifier
Accuracy : 1.00
Precision: 0.97
Recall   : 0.62
F1 Score : 0.76
AUC      : 0.96


SVC menggunakan prinsip margin maksimal untuk memisahkan kelas. Ia mencari hyperplane optimal yang memaksimalkan jarak antara kelas berbeda. Dengan bantuan kernel trick, SVC dapat menangani data non-linear dengan sangat baik. Meski akurat dan cocok untuk dataset kecil hingga menengah, SVC bisa lambat saat bekerja dengan dataset besar dan membutuhkan tuning hyperparameter yang teliti (misalnya C, kernel, dan gamma).

In [13]:
import pandas as pd

results_df = pd.DataFrame(results).T
results_df = results_df.sort_values("F1", ascending=False)

print("📊 Ringkasan Evaluasi Model Klasifikasi:")
display(results_df)

📊 Ringkasan Evaluasi Model Klasifikasi:


Unnamed: 0,Accuracy,Precision,Recall,F1,AUC
Bagging,0.999544,0.939024,0.785714,0.855556,0.923182
KNN,0.999526,0.938272,0.77551,0.849162,0.93356
Decision Tree,0.99914,0.724771,0.806122,0.763285,0.902797
SVC,0.999315,0.968254,0.622449,0.757764,0.961881
AdaBoost,0.99914,0.788235,0.683673,0.73224,0.975455
Logistic Regression,0.99907,0.846154,0.561224,0.674847,0.975861
