# **1. Import Library**

Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning.

In [45]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder, StandardScaler, MinMaxScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import confusion_matrix, accuracy_score, precision_score, recall_score, f1_score

# **2. Memuat Dataset dari Hasil Clustering**

Memuat dataset hasil clustering dari file CSV ke dalam variabel DataFrame.

In [46]:
#Type your code here
df = pd.read_csv('result_clustering')
df.head()

Unnamed: 0.1,Unnamed: 0,Age,Annual Income ($),Spending Score (1-100),Work Experience,Cluster,PCA1,PCA2
0,0,19,15000,39,1,1,-95731.822071,-17.985235
1,1,21,35000,81,3,1,-75731.821436,-39.689207
2,2,20,86000,6,1,0,-24731.822543,0.933686
3,3,23,59000,77,0,1,-51731.821494,-35.883073
4,4,31,38000,40,2,1,-72731.821895,-8.629322


In [47]:

print(df.isnull().sum())

Unnamed: 0                0
Age                       0
Annual Income ($)         0
Spending Score (1-100)    0
Work Experience           0
Cluster                   0
PCA1                      0
PCA2                      0
dtype: int64


# **3. Data Splitting**

Tahap Data Splitting bertujuan untuk memisahkan dataset menjadi dua bagian: data latih (training set) dan data uji (test set).

In [48]:
# membagi dataset menjadi dua bagian

train_df, test_df = train_test_split(df, test_size=0.2, random_state=42)

train_df.to_csv('train.csv', index=False)
train_df.to_csv('test.csv', index=False)

In [49]:
train_df = pd.read_csv('train.csv')
test_df = pd.read_csv('test.csv')

In [50]:
# Pisahkan fitur dan target
X = df.drop(columns=['Cluster'])  # Semua kolom kecuali 'Cluster' digunakan sebagai fitur
y = df['Cluster']  # 'Cluster' adalah target yang ingin diprediksi


X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# **4. Membangun Model Klasifikasi**


## **a. Membangun Model Klasifikasi**

Setelah memilih algoritma klasifikasi yang sesuai, langkah selanjutnya adalah melatih model menggunakan data latih.

Berikut adalah rekomendasi tahapannya.
1. Pilih algoritma klasifikasi yang sesuai, seperti Logistic Regression, Decision Tree, Random Forest, atau K-Nearest Neighbors (KNN).
2. Latih model menggunakan data latih.

In [51]:
# Melatih model
knn = KNeighborsClassifier().fit(X_train, y_train)
dt = DecisionTreeClassifier().fit(X_train, y_train)
rf = RandomForestClassifier().fit(X_train, y_train)
svm = SVC().fit(X_train, y_train)
nb = GaussianNB().fit(X_train, y_train)

print("Model training selesai.")

Model training selesai.


Tulis narasi atau penjelasan algoritma yang Anda gunakan.

## **b. Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Lakukan prediksi menggunakan data uji.
2. Hitung metrik evaluasi seperti Accuracy dan F1-Score (Opsional: Precision dan Recall).
3. Buat confusion matrix untuk melihat detail prediksi benar dan salah.

In [52]:
# Prediksi
y_pred_knn = knn.predict(X_test)
y_pred_dt = dt.predict(X_test)
y_pred_rf = rf.predict(X_test)
y_pred_svm = svm.predict(X_test)
y_pred_nb = nb.predict(X_test)

# Hitung akurasi
accuracy_knn = accuracy_score(y_test, y_pred_knn)
accuracy_dt = accuracy_score(y_test, y_pred_dt)
accuracy_rf = accuracy_score(y_test, y_pred_rf)
accuracy_svm = accuracy_score(y_test, y_pred_svm)
accuracy_nb = accuracy_score(y_test, y_pred_nb)

# Tampilkan hasil akurasi
print(f"Akurasi KNN: {accuracy_knn:.4f}")
print(f"Akurasi Decision Tree: {accuracy_dt:.4f}")
print(f"Akurasi Random Forest: {accuracy_rf:.4f}")
print(f"Akurasi SVM: {accuracy_svm:.4f}")
print(f"Akurasi Naïve Bayes: {accuracy_nb:.4f}")


Akurasi KNN: 0.9975
Akurasi Decision Tree: 0.9975
Akurasi Random Forest: 0.9975
Akurasi SVM: 1.0000
Akurasi Naïve Bayes: 0.9825


In [56]:

def evaluate_model(y_test, y_pred, model_name):
    accuracy = accuracy_score(y_test, y_pred)
    precision = precision_score(y_test, y_pred, average='weighted')
    recall = recall_score(y_test, y_pred, average='weighted')
    f1 = f1_score(y_test, y_pred, average='weighted')
    
    print(f"Evaluasi Model: {model_name}")
    print(f"Accuracy  : {accuracy:.2f}")
    print(f"Precision : {precision:.2f}")
    print(f"Recall    : {recall:.2f}")
    print(f" F1-Score  : {f1:.2f}")
    print("-" * 40)

# Evaluasi masing-masing model
evaluate_model(y_test, y_pred_knn, "K-Nearest Neighbors")
evaluate_model(y_test, y_pred_dt, "Decision Tree")
evaluate_model(y_test, y_pred_rf, "Random Forest")
evaluate_model(y_test, y_pred_svm, "SVM")
evaluate_model(y_test, y_pred_nb, "Naïve Bayes")


Evaluasi Model: K-Nearest Neighbors
Accuracy  : 1.00
Precision : 1.00
Recall    : 1.00
 F1-Score  : 1.00
----------------------------------------
Evaluasi Model: Decision Tree
Accuracy  : 1.00
Precision : 1.00
Recall    : 1.00
 F1-Score  : 1.00
----------------------------------------
Evaluasi Model: Random Forest
Accuracy  : 1.00
Precision : 1.00
Recall    : 1.00
 F1-Score  : 1.00
----------------------------------------
Evaluasi Model: SVM
Accuracy  : 1.00
Precision : 1.00
Recall    : 1.00
 F1-Score  : 1.00
----------------------------------------
Evaluasi Model: Naïve Bayes
Accuracy  : 0.98
Precision : 0.98
Recall    : 0.98
 F1-Score  : 0.98
----------------------------------------


Tulis hasil evaluasi algoritma yang digunakan, jika Anda menggunakan 2 algoritma, maka bandingkan hasilnya.

## **c. Tuning Model Klasifikasi (Optional)**

Gunakan GridSearchCV, RandomizedSearchCV, atau metode lainnya untuk mencari kombinasi hyperparameter terbaik

In [53]:
#Type your code here

## **d. Evaluasi Model Klasifikasi setelah Tuning (Optional)**

Berikut adalah rekomendasi tahapannya.
1. Gunakan model dengan hyperparameter terbaik.
2. Hitung ulang metrik evaluasi untuk melihat apakah ada peningkatan performa.

## **e. Analisis Hasil Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Bandingkan hasil evaluasi sebelum dan setelah tuning (jika dilakukan).
2. Identifikasi kelemahan model, seperti:
  - Precision atau Recall rendah untuk kelas tertentu.
  - Apakah model mengalami overfitting atau underfitting?
3. Berikan rekomendasi tindakan lanjutan, seperti mengumpulkan data tambahan atau mencoba algoritma lain jika hasil belum memuaskan.