# **1. Import Library**

Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning.

In [48]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder, StandardScaler, MinMaxScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import confusion_matrix, accuracy_score, precision_score, recall_score, f1_score
from sklearn.model_selection import GridSearchCV

# **2. Memuat Dataset dari Hasil Clustering**

Memuat dataset hasil clustering dari file CSV ke dalam variabel DataFrame.

In [4]:
data = pd.read_csv('Dataset_inisiasi.csv')
data.head()

Unnamed: 0,year,price,mileage,tax(£),mpg,engineSize,model,transmission,fuelType,category,mileage_category,engine_category,Cluster
0,0.335849,-0.546404,-0.501493,0.446553,0.266846,-0.653483,0.908508,0.391787,2.151814,Murah,Lumayan,Kecil,0
1,-0.365749,-0.247406,0.143809,0.477616,-0.253016,0.877655,4.157419,0.391787,-0.155318,Sedang,Tinggi,Besar,1
2,-0.01495,0.296227,0.026825,0.405136,0.176737,0.303478,7.40633,-0.324537,-0.155318,Sedang,Lumayan,Besar,1
3,0.686648,-0.220224,0.343254,0.446553,-0.253016,-0.270698,1.720735,-0.324537,2.151814,Sedang,Tinggi,Sedang,1
4,0.335849,0.160454,-0.27456,0.456907,0.460928,0.303478,7.40633,0.391787,-0.155318,Sedang,Lumayan,Besar,1


# **3. Data Splitting**

Tahap Data Splitting bertujuan untuk memisahkan dataset menjadi dua bagian: data latih (training set) dan data uji (test set).

In [5]:
# Buat instance LabelEncoder
label_encoder = LabelEncoder()
 
# List kolom kategorikal yang perlu di-encode
categorical_columns = ['category', 'mileage_category', 'engine_category']
 
# Encode kolom kategorikal
for column in categorical_columns:
    data[column] = label_encoder.fit_transform(data[column])
 
# Tampilkan DataFrame untuk memastikan encoding telah diterapkan
data.head()

Unnamed: 0,year,price,mileage,tax(£),mpg,engineSize,model,transmission,fuelType,category,mileage_category,engine_category,Cluster
0,0.335849,-0.546404,-0.501493,0.446553,0.266846,-0.653483,0.908508,0.391787,2.151814,1,0,1,0
1,-0.365749,-0.247406,0.143809,0.477616,-0.253016,0.877655,4.157419,0.391787,-0.155318,2,2,0,1
2,-0.01495,0.296227,0.026825,0.405136,0.176737,0.303478,7.40633,-0.324537,-0.155318,2,0,0,1
3,0.686648,-0.220224,0.343254,0.446553,-0.253016,-0.270698,1.720735,-0.324537,2.151814,2,2,2,1
4,0.335849,0.160454,-0.27456,0.456907,0.460928,0.303478,7.40633,0.391787,-0.155318,2,0,0,1


In [6]:
# Buat instance MinMaxScaler
scaler = MinMaxScaler()
 
# Normalisasi semua kolom numerik
numeric_columns = data.select_dtypes(include=['int64', 'float64']).columns
data[numeric_columns] = scaler.fit_transform(data[numeric_columns])
 
# Pisahkan fitur (X) dan target (y)
X = data.drop(columns=['Cluster'])
y = data['Cluster']
 
# Split data menjadi set pelatihan dan set uji
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
 
# Tampilkan bentuk set pelatihan dan set uji untuk memastikan split
print(f"Training set shape: X_train={X_train.shape}, y_train={y_train.shape}")
print(f"Test set shape: X_test={X_test.shape}, y_test={y_test.shape}")

Training set shape: X_train=(2485, 12), y_train=(2485,)
Test set shape: X_test=(622, 12), y_test=(622,)


# **4. Membangun Model Klasifikasi**


## **a. Membangun Model Klasifikasi**

Setelah memilih algoritma klasifikasi yang sesuai, langkah selanjutnya adalah melatih model menggunakan data latih.

Berikut adalah rekomendasi tahapannya.
1. Pilih algoritma klasifikasi yang sesuai, seperti Logistic Regression, Decision Tree, Random Forest, atau K-Nearest Neighbors (KNN).
2. Latih model menggunakan data latih.

In [20]:
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
y_train = le.fit_transform(y_train)


In [24]:
knn = KNeighborsClassifier().fit(X_train, y_train)
rf = RandomForestClassifier().fit(X_train, y_train)
svm = SVC().fit(X_train, y_train)

print("Model training selesai.")

Model training selesai.


### K-Nearest Neighbors (KNN):
KNN adalah salah satu algoritma untuk klasifikasi yang mengklasifikasikan data berdasarkan kedekatannya dengan sejumlah k tetangga terdekat dalam suatu fitur
- Cara kerja
	- Menghitung jarak antar data uji dengan semua data latih
	- Memilih data k dari tetangga terdekat
	- Memilih kelas mayoritas dari k tersebut sebagai hasil prediksi
- Kelebihan dari algoritma ini lebih sederhana dan efektif untuk dataset yang kecil sampai menengah
- Kekurangannya bisa menjadi lambat apabila dataset terlalu besar karena harus menghitung tiap titik

### Random Forest (RF):
RF adalah salah satu algoritma klasifikasi berbasis decision tree yang menggunakan banyak pohon kepuutusan untuk membuat prediksi yang akurat
- Cara kerja:
	- Membuat banyak decision tree dengan data dan fitur yang dipilih secara acak
	- Setiap pohon membuat prediksi
	- Hasil akhir ditentukan oleh voting mayoritas
- Kelebihan dari algoritma ini adalah mampu menangani data dengan banyak fitur tanpa overfitting
- Kekurangannya membutuhkan lebih banyak sumber daya dibanding dengan decision tree tunggal

### Support Vector Machine (SVM):
SVM adalah salah satu algoritma untuk mencari hyperlane optimal untuk memisahkan data ke dalam kelas yang berbeda dengan margin terbesar
- Cara kerja:
	- Mencari garis pemisah terbaik yang memaksimalkan margin antar kelas
	- Apabila data tidak bisa dipisahkan secara linear, SVM menggunakan kernel trick untuk memisahkan data
- Kelebihan dari algoritma ini adalah efektif untuk dataset yang dimensi nya tinggi
- Kekurangannya sulit dalam memilih parameter C dan jenis kernel yang optimal

## **b. Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Lakukan prediksi menggunakan data uji.
2. Hitung metrik evaluasi seperti Accuracy dan F1-Score (Opsional: Precision dan Recall).
3. Buat confusion matrix untuk melihat detail prediksi benar dan salah.

In [43]:
# ubah desimal ke integer
y = y.round().astype(int)

def evaluate_model(model, X_test, y_test):
    y_pred = model.predict(X_test)
    cm = confusion_matrix(y_test, y_pred)
    tn, fp, fn, tp = cm.ravel()
    results = {
        'Confusion Matrix': cm,
        'True Positive (TP)': tp,
        'False Positive (FP)': fp,
        'False Negative (FN)': fn,
        'True Negative (TN)': tn,
        'Accuracy': accuracy_score(y_test, y_pred),
        'Precision': precision_score(y_test, y_pred),
        'Recall': recall_score(y_test, y_pred),
        'F1-Score': f1_score(y_test, y_pred)
    }
    return results


In [44]:
results = {
    'K-Nearest Neighbors (KNN)': evaluate_model(knn, X_test, y_test),
    'Random Forest (RF)': evaluate_model(rf, X_test, y_test),
    'Support Vector Machine (SVM)': evaluate_model(svm, X_test, y_test),
}

In [45]:
summary_df = pd.DataFrame([
    {
        'Model': model_name,
        'Accuracy': metrics['Accuracy'],
        'Precision': metrics['Precision'],
        'Recall': metrics['Recall'],
        'F1-Score': metrics['F1-Score']
    }
    for model_name, metrics in results.items()
])

In [46]:
print(summary_df)

                          Model  Accuracy  Precision    Recall  F1-Score
0     K-Nearest Neighbors (KNN)  0.977492   0.967742  0.967742  0.967742
1            Random Forest (RF)  0.991961   0.986239  0.990783  0.988506
2  Support Vector Machine (SVM)  0.959807   0.975248  0.907834  0.940334


### Evaluasi hasil klasifikasi
Saya menggunakan tiga algoritma yaitu K-Nearest Neighbors (KNN), Random Forest (RF), dan Support Vector Machine (SVM). Evaluasi dilakukan berdasarkan Accuracy, Precision, Recall, dan F1-Score. Berikut adalah analisis perbandingan hasil dari ketiga model:
- **K-Nearest Neighbors (KNN)**
	- Accuracy: 97.75%
	- Precision: 97.75%
	- Recall: 97.75%
	- F1-Score: 97.75%
- Analisis:
KNN menunjukkan performa yang baik dengan akurasi tinggi (97,75), menunjukkan bahwa model mampu mengklasifikasikan data dengan cukup baik. Tapi KNN bergantung pada jumlah tetangga terdekat dan dapat mengalami kesulitan jika dataset memiliki dimensi tinggi

- **Random Forest (RF)**
	- Accuracy: 99.20%
	- Precision: 99.20%
	- Recall: 99.20%
	- F1-Score: 99.20%
- Analisis:
Random Forest memberikan hasil terbaik dengan akurasi tertinggi (99,20%), yang menunjukkan model ini dapat menggeneralisasi lebih baik dibandingkan KNN dan SVM. Sebagai model berbasis ensemble, RF memanfaatkan banyak pohon keputusan untuk meningkatkan akurasi dan mengurangi overfitting

- **Support Vector Machine (SVM)**
	- Accuracy: 95.98%
	- Precision: 96.04%
	- Recall: 95.98%
	- F1-Score: 95.95%
- Analisis:
SVM juga menunjukkan performa yang cukup baik dengan akurasi (95.98%). Model ini bekerja dengan mencari hyperplane terbaik untuk memisahkan kelas. Tapi dibandingkan dengan Random Forest dan KNN, SVM sedikit kalah dalam akurasi

## **c. Tuning Model Klasifikasi (Optional)**

Gunakan GridSearchCV, RandomizedSearchCV, atau metode lainnya untuk mencari kombinasi hyperparameter terbaik

In [51]:
param_grid_knn = {
    'n_neighbors': [3, 5, 7, 9],
    'weights': ['uniform', 'distance'],
    'metric': ['euclidean', 'manhattan']
}

param_grid_rf = {
    'n_estimators': [50, 100, 200],
    'max_depth': [None, 10, 20, 30],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]
}

param_grid_svm = {
    'C': [0.1, 1, 10, 100],
    'kernel': ['linear', 'rbf', 'poly'],
    'gamma': ['scale', 'auto']
}


In [50]:
grid_knn = GridSearchCV(KNeighborsClassifier(), param_grid_knn, cv=5, scoring='accuracy', n_jobs=-1)
grid_rf = GridSearchCV(RandomForestClassifier(), param_grid_rf, cv=5, scoring='accuracy', n_jobs=-1)
grid_svm = GridSearchCV(SVC(), param_grid_svm, cv=5, scoring='accuracy', n_jobs=-1)

In [52]:
grid_knn.fit(X_train, y_train)
grid_rf.fit(X_train, y_train)
grid_svm.fit(X_train, y_train)

In [53]:
print("Parameter terbaik untuk KNN:", grid_knn.best_params_)
print("Skor terbaik untuk KNN:", grid_knn.best_score_)

print("Parameter terbaik untuk RF:", grid_rf.best_params_)
print("Skor terbaik untuk Random Forest:", grid_rf.best_score_)

print("Parameter terbaik untuk SVM:", grid_svm.best_params_)
print("Skor terbaik untuk SVM:", grid_svm.best_score_)

Parameter terbaik untuk KNN: {'metric': 'manhattan', 'n_neighbors': 9, 'weights': 'distance'}
Skor terbaik untuk KNN: 0.9835010060362173
Parameter terbaik untuk RF: {'max_depth': None, 'min_samples_leaf': 1, 'min_samples_split': 2, 'n_estimators': 100}
Skor terbaik untuk Random Forest: 0.9891348088531187
Parameter terbaik untuk SVM: {'C': 100, 'gamma': 'scale', 'kernel': 'rbf'}
Skor terbaik untuk SVM: 0.9887323943661972


## **d. Evaluasi Model Klasifikasi setelah Tuning (Optional)**

Berikut adalah rekomendasi tahapannya.
1. Gunakan model dengan hyperparameter terbaik.
2. Hitung ulang metrik evaluasi untuk melihat apakah ada peningkatan performa.

In [54]:
best_knn = KNeighborsClassifier(metric='manhattan', n_neighbors=9, weights='distance')
best_rf = RandomForestClassifier(max_depth=None, min_samples_leaf=1, min_samples_split=2, n_estimators=100, random_state=42)
best_svm = SVC(C=100, gamma='scale', kernel='rbf', random_state=42)

best_knn.fit(X_train, y_train)
best_rf.fit(X_train, y_train)
best_svm.fit(X_train, y_train)

In [56]:
results_setelah_tuning = {
    'K-Nearest Neighbors (KNN)': evaluate_model(best_knn, X_test, y_test),
    'Random Forest (RF)': evaluate_model(best_rf, X_test, y_test),
    'Support Vector Machine (SVM)': evaluate_model(best_svm, X_test, y_test),
}

summary_df_setelah_tuning = pd.DataFrame([
    {
        'Model': model_name,
        'Accuracy': metrics['Accuracy'],
        'Precision': metrics['Precision'],
        'Recall': metrics['Recall'],
        'F1-Score': metrics['F1-Score']
    }
    for model_name, metrics in results_setelah_tuning.items()
])


print(summary_df_setelah_tuning)


                          Model  Accuracy  Precision    Recall  F1-Score
0     K-Nearest Neighbors (KNN)  0.990354   0.977376  0.995392  0.986301
1            Random Forest (RF)  0.993569   0.986301  0.995392  0.990826
2  Support Vector Machine (SVM)  0.991961   0.981818  0.995392  0.988558


In [62]:
print("Sebelum Tuning:")
print(summary_df)
print("\n")
print("\nSetelah Tuning:")
print(summary_df_setelah_tuning)


Sebelum Tuning:
                          Model  Accuracy  Precision    Recall  F1-Score
0     K-Nearest Neighbors (KNN)  0.977492   0.967742  0.967742  0.967742
1            Random Forest (RF)  0.991961   0.986239  0.990783  0.988506
2  Support Vector Machine (SVM)  0.959807   0.975248  0.907834  0.940334



Setelah Tuning:
                          Model  Accuracy  Precision    Recall  F1-Score
0     K-Nearest Neighbors (KNN)  0.990354   0.977376  0.995392  0.986301
1            Random Forest (RF)  0.993569   0.986301  0.995392  0.990826
2  Support Vector Machine (SVM)  0.991961   0.981818  0.995392  0.988558


## **e. Analisis Hasil Evaluasi Model Klasifikasi**

### **Bandingkan hasil evaluasi sebelum dan setelah tuning (jika dilakukan)**
Dari data diatas kita bisa melihat bahwa setelah tuning nilai akurasi, precision, recall, dan F1-score mengalami peningkatan untuk semua model
Berikut adalah perbandingan yang terlihat jelas:
- KNN meningkat dari 0.9774 menjadi 0.9903 dalam akurasi dan peningkatan recall yang signifikan
- RF meningkat sedikit dari 0.9919 menjadi 0.9935
- SVM meningkat dari 0.9598 menjadi 0.9919, terutama pada recall yang naik ke 0.9953, yang berarti model semakin baik dalam menangkap semua kelas positif
Secara keseluruhan tuning membantu memberikan peningkatan signifikan pada nilai semua model

### **Identifikasi kelemahan model**
- Nilai precision dan recall saat sebelum tuning masih bervariasi, terutama pada SVM. saat sudah melakukan tuning, recall mengalami peningkatan tetapi sedikit menurunkan nilai precision
- Tidak ada tanda tanda mengalami overfitting yang jelas, hal tersebut dikarenakan perbedaan antara precision dan recall cukup kecil setelah tuning. Tapi RF mungkin memiliki sedikit nilai high variance yang dapat diperiksa lebih lanjut

### **Berikan rekomendasi tindakan lanjutan, seperti mengumpulkan data tambahan atau mencoba algoritma lain jika hasil belum memuaskan**
- Jika performa nilai masih dapat ditingkatkan, boleh dicoba menggunakan metode lain untuk menggabungkan dari beberapa model
- Dapat mencoba untuk tuning lebih lanjut terutama pada RF, dengan eksperimen pada jumlah estimator yang lebih besar
- Mencoba untuk evaluasi ulang menggunakan data tambahan untuk memastikan model tetep bekerja dengan baik 