# **1. Import Library**

Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning.

In [58]:
from google.colab import drive
drive.mount('/content/drive')

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


Memuat dataset hasil clustering dari file CSV ke dalam variabel DataFrame.

In [59]:
df = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/Project ML idcamp/segmented_data.csv')
df

Unnamed: 0,Age,Profession,Work_Experience,Spending_Score,Family_Size,cluster
0,22,5,1.0,2,4.0,0
1,67,2,1.0,2,1.0,1
2,67,7,0.0,1,2.0,1
3,56,0,0.0,0,2.0,1
4,32,5,1.0,2,3.0,0
...,...,...,...,...,...,...
5291,39,5,3.0,2,2.0,0
5292,48,0,0.0,0,6.0,1
5293,41,0,0.0,1,5.0,0
5294,35,4,3.0,2,4.0,0


# **3. Data Splitting**

Tahap Data Splitting bertujuan untuk memisahkan dataset menjadi dua bagian: data latih (training set) dan data uji (test set).

In [60]:
from sklearn.model_selection import train_test_split

# Misalnya dataset Anda bernama df
X = df.drop('cluster', axis=1)
y = df['cluster']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [61]:
print(f"Ukuran data latih: {X_train.shape}")
print(f"Ukuran data uji: {X_test.shape}")

Ukuran data latih: (4236, 5)
Ukuran data uji: (1060, 5)


# **4. Membangun Model Klasifikasi**


## **a. Membangun Model Klasifikasi**

Setelah memilih algoritma klasifikasi yang sesuai, langkah selanjutnya adalah melatih model menggunakan data latih.

Berikut adalah rekomendasi tahapannya.
1. Pilih algoritma klasifikasi yang sesuai, seperti Logistic Regression, Decision Tree, Random Forest, atau K-Nearest Neighbors (KNN).
2. Latih model menggunakan data latih.

In [62]:
from sklearn.ensemble import RandomForestClassifier
from xgboost import XGBClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

### KNN

In [63]:
# Inisialisasi model KNN
knn = KNeighborsClassifier(n_neighbors=5)  # Pilih k=5 (bisa di-tuning)

# Training model
knn.fit(X_train, y_train)

### Random Forest

In [64]:
# Inisialisasi model Random Forest
rf = RandomForestClassifier(n_estimators=100, random_state=42)  # Default n_estimators=100

# Training model
rf.fit(X_train, y_train)

Tulis narasi atau penjelasan algoritma yang Anda gunakan.

## **b. Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Lakukan prediksi menggunakan data uji.
2. Hitung metrik evaluasi seperti Accuracy dan F1-Score (Opsional: Precision dan Recall).
3. Buat confusion matrix untuk melihat detail prediksi benar dan salah.

In [65]:
# Prediksi
y_pred_knn = knn.predict(X_test)

# Evaluasi
print("KNN Accuracy:", accuracy_score(y_test, y_pred_knn))
print("Classification Report:\n", classification_report(y_test, y_pred_knn))
print("Confusion Matrix:\n", confusion_matrix(y_test, y_pred_knn))

KNN Accuracy: 0.9952830188679245
Classification Report:
               precision    recall  f1-score   support

           0       1.00      1.00      1.00       639
           1       1.00      0.99      0.99       421

    accuracy                           1.00      1060
   macro avg       1.00      0.99      1.00      1060
weighted avg       1.00      1.00      1.00      1060

Confusion Matrix:
 [[637   2]
 [  3 418]]


In [66]:
# Evaluasi KNN pada training data
train_acc_knn = knn.score(X_train, y_train)
test_acc_knn = knn.score(X_test, y_test)

print("KNN Training Accuracy:", train_acc_knn)
print("KNN Testing Accuracy:", test_acc_knn)

# Perbedaan akurasi
print("KNN Overfitting Gap:", train_acc_knn - test_acc_knn)


KNN Training Accuracy: 0.9978753541076487
KNN Testing Accuracy: 0.9952830188679245
KNN Overfitting Gap: 0.0025923352397242416


In [67]:
# Prediksi
y_pred_rf = rf.predict(X_test)

# Evaluasi
print("Random Forest Accuracy:", accuracy_score(y_test, y_pred_rf))
print("Classification Report:\n", classification_report(y_test, y_pred_rf))
print("Confusion Matrix:\n", confusion_matrix(y_test, y_pred_rf))

Random Forest Accuracy: 1.0
Classification Report:
               precision    recall  f1-score   support

           0       1.00      1.00      1.00       639
           1       1.00      1.00      1.00       421

    accuracy                           1.00      1060
   macro avg       1.00      1.00      1.00      1060
weighted avg       1.00      1.00      1.00      1060

Confusion Matrix:
 [[639   0]
 [  0 421]]


Tulis hasil evaluasi algoritma yang digunakan, jika Anda menggunakan 2 algoritma, maka bandingkan hasilnya.

In [68]:
# Evaluasi Random Forest pada training data
train_acc_rf = rf.score(X_train, y_train)
test_acc_rf = rf.score(X_test, y_test)

print("Random Forest Training Accuracy:", train_acc_rf)
print("Random Forest Testing Accuracy:", test_acc_rf)

# Perbedaan akurasi
print("Random Forest Overfitting Gap:", train_acc_rf - test_acc_rf)

Random Forest Training Accuracy: 1.0
Random Forest Testing Accuracy: 1.0
Random Forest Overfitting Gap: 0.0


## **c. Tuning Model Klasifikasi (Optional)**

Gunakan GridSearchCV, RandomizedSearchCV, atau metode lainnya untuk mencari kombinasi hyperparameter terbaik

In [69]:
#Type your code here

## **d. Evaluasi Model Klasifikasi setelah Tuning (Optional)**

Berikut adalah rekomendasi tahapannya.
1. Gunakan model dengan hyperparameter terbaik.
2. Hitung ulang metrik evaluasi untuk melihat apakah ada peningkatan performa.

In [70]:
#Type your code here

## **e. Analisis Hasil Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Bandingkan hasil evaluasi sebelum dan setelah tuning (jika dilakukan).
2. Identifikasi kelemahan model, seperti:
  - Precision atau Recall rendah untuk kelas tertentu.
  - Apakah model mengalami overfitting atau underfitting?
3. Berikan rekomendasi tindakan lanjutan, seperti mengumpulkan data tambahan atau mencoba algoritma lain jika hasil belum memuaskan.

### Jawab
 1. saya tidak melakukan tuning dikarenakan model yang saya gunakan sudah menunjukan hasil evaluasi yang sangat baik di accuracy  0.99 untuk KNN  dan 1.0 untuk Random Forest
 2. saya telah melakukan deteksi overviting pada model menggunakan data test maupun data latih, dan mendapatkan hasil gap yang sangat sedikit bahkan sampai di angka 0
 3. mungkin model ini bisa dicoba untuk memprediski data baru yang benar benar inputan dari ma