# **1. Import Library**

Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning.

In [1]:
# Import library
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import GridSearchCV, RandomizedSearchCV
from sklearn.metrics import accuracy_score, f1_score, confusion_matrix
from sklearn.metrics import classification_report

# **2. Memuat Dataset dari Hasil Clustering**

Memuat dataset hasil clustering dari file CSV ke dalam variabel DataFrame.

In [2]:
# Load data
file_path = '/content/clustering_results.csv'
df = pd.read_csv(file_path)
df.head()

Unnamed: 0,Customer_ID,Age,Annual_Income,Spending_Score,Purchase_Frequency,Transaction_Amount,Cluster,Cluster_Selected
0,8270,31.0,75851.592212,77.104268,17.0,129.72419,1,1
1,1860,48.0,44460.183764,61.349076,25.0,91.479265,1,1
2,6390,17.0,43677.755605,22.589956,9.0,130.573812,3,0
3,6191,34.0,48666.812544,82.069525,0.0,72.395846,2,3
4,6734,44.0,46080.334029,65.076915,3.0,156.399077,3,0


# **3. Data Splitting**

Tahap Data Splitting bertujuan untuk memisahkan dataset menjadi dua bagian: data latih (training set) dan data uji (test set).

In [3]:
# Data Splitting
X = df.drop(['Cluster', 'Cluster_Selected'], axis=1)
y = df['Cluster']

# Split data into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
print("Training set shape:", X_train.shape, y_train.shape)
print("Testing set shape:", X_test.shape, y_test.shape)

Training set shape: (8160, 6) (8160,)
Testing set shape: (2040, 6) (2040,)


# **4. Membangun Model Klasifikasi**


## **a. Membangun Model Klasifikasi**

Setelah memilih algoritma klasifikasi yang sesuai, langkah selanjutnya adalah melatih model menggunakan data latih.

Berikut adalah rekomendasi tahapannya.
1. Pilih algoritma klasifikasi yang sesuai, seperti Logistic Regression, Decision Tree, Random Forest, atau K-Nearest Neighbors (KNN).
2. Latih model menggunakan data latih.

In [4]:
# Klasifikasi random forest
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

# prediksi
y_pred = model.predict(X_test)

# accuracy
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)

Accuracy: 0.9661764705882353


Random Forest adalah algoritma pembelajaran mesin berbasis ensemble learning yang digunakan untuk klasifikasi dan regresi. Algoritma ini menggabungkan beberapa Decision Tree untuk meningkatkan akurasi dan mengurangi overfitting.

In [5]:
# Klasifikasi decision tree
model_dcs = DecisionTreeClassifier(random_state=42)
model_dcs.fit(X_train, y_train)

# prediksi
y_pred_dcs = model_dcs.predict(X_test)

# accuracy
accuracy_dcs = accuracy_score(y_test, y_pred_dcs)
print("Accuracy:", accuracy_dcs)

Accuracy: 0.9303921568627451


Decision Tree adalah algoritma pembelajaran mesin yang digunakan untuk klasifikasi dan regresi. Algoritma ini bekerja dengan membagi data menjadi cabang-cabang berdasarkan aturan yang ditetapkan dari fitur-fitur yang ada.

## **b. Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Lakukan prediksi menggunakan data uji.
2. Hitung metrik evaluasi seperti Accuracy dan F1-Score (Opsional: Precision dan Recall).
3. Buat confusion matrix untuk melihat detail prediksi benar dan salah.

In [6]:
# f1_score random forest
f1 = f1_score(y_test, y_pred, average='weighted')
print("F1-Score:", f1)

# confusion matrix random forest
conf_matrix = confusion_matrix(y_test, y_pred)
print("Confusion Matrix:\n", conf_matrix)

F1-Score: 0.9661674788942466
Confusion Matrix:
 [[498   5  10   2]
 [  6 494   5   6]
 [  4   7 499  13]
 [  3   5   3 480]]


In [7]:
# f1_score decision tree
f1_dcs = f1_score(y_test, y_pred_dcs, average='weighted')
print("F1-Score:", f1_dcs)

# confusion matrix decision tree
conf_matrix_dcs = confusion_matrix(y_test, y_pred_dcs)
print("Confusion Matrix:\n", conf_matrix_dcs)

F1-Score: 0.9303414767689812
Confusion Matrix:
 [[494   7   8   6]
 [ 13 470  15  13]
 [ 12  12 475  24]
 [  7   7  18 459]]


Dalam percobaan ini, kita melakukan klasifikasi menggunakan dua algoritma:
1. Random Forest (Ensemble Learning)
2. Decision Tree (Single Tree Classifier)

Evaluasi model dilakukan menggunakan F1-Score dan Confusion Matrix untuk melihat performa masing-masing algoritma dalam mengklasifikasikan data uji.

Hasil Evaluasi


*   Model	Random Forest	Accuracy 96.62%	F1-Score 0.9662
*   Model Decision Tree	Accuracy 93.04%	F1-Score 0.9303

Analisis Perbandingan
* Random Forest lebih unggul dalam akurasi dan F1-Score dibandingkan Decision Tree.
* Random Forest memiliki lebih sedikit kesalahan klasifikasi dibanding Decision Tree (dapat dilihat dari confusion matrix) dimana random forest memilki 63 kesalahan sedangkan decision tree 141 kesalahan.
* Decision Tree lebih rentan terhadap overfitting, karena hanya menggunakan satu pohon keputusan.
* Random Forest lebih stabil dan generalizable, karena menggabungkan banyak pohon keputusan melalui ensemble learning.

## **c. Tuning Model Klasifikasi (Optional)**

Gunakan GridSearchCV, RandomizedSearchCV, atau metode lainnya untuk mencari kombinasi hyperparameter terbaik

In [8]:
# Tuning RandomForestClassifier
param_grid = {
    'n_estimators': [50, 100, 200],
    'max_depth': [None, 10, 20],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]
}

grid_search = GridSearchCV(estimator=RandomForestClassifier(random_state=42),
                           param_grid=param_grid,
                           cv=5,
                           scoring='accuracy',
                           n_jobs=-1)

grid_search.fit(X_train, y_train)

print("Best hyperparameters for RandomForestClassifier:", grid_search.best_params_)
print("Best accuracy for RandomForestClassifier:", grid_search.best_score_)

best_rf_model = grid_search.best_estimator_
y_pred_tuned_rf = best_rf_model.predict(X_test)
accuracy_tuned_rf = accuracy_score(y_test, y_pred_tuned_rf)
print(f"Tuned Random Forest Accuracy: {accuracy_tuned_rf}")

Best hyperparameters for RandomForestClassifier: {'max_depth': None, 'min_samples_leaf': 1, 'min_samples_split': 2, 'n_estimators': 200}
Best accuracy for RandomForestClassifier: 0.9659313725490195
Tuned Random Forest Accuracy: 0.9656862745098039


In [9]:
# Tuning DecisionTreeClassifier
param_dist = {
    'max_depth': [None, 10, 20, 30],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4],
    'criterion': ['gini', 'entropy']
}

random_search = RandomizedSearchCV(estimator=DecisionTreeClassifier(random_state=42),
                                   param_distributions=param_dist,
                                   n_iter=10,  # Number of parameter settings sampled
                                   cv=5,
                                   scoring='accuracy',
                                   n_jobs=-1,
                                   random_state=42)

random_search.fit(X_train, y_train)

print("\nBest hyperparameters for DecisionTreeClassifier:", random_search.best_params_)
print("Best accuracy for DecisionTreeClassifier:", random_search.best_score_)

best_dt_model = random_search.best_estimator_
y_pred_tuned_dt = best_dt_model.predict(X_test)
accuracy_tuned_dt = accuracy_score(y_test, y_pred_tuned_dt)
print(f"Tuned Decision Tree Accuracy: {accuracy_tuned_dt}")


Best hyperparameters for DecisionTreeClassifier: {'min_samples_split': 2, 'min_samples_leaf': 1, 'max_depth': 20, 'criterion': 'entropy'}
Best accuracy for DecisionTreeClassifier: 0.9403186274509803
Tuned Decision Tree Accuracy: 0.9382352941176471


## **d. Evaluasi Model Klasifikasi setelah Tuning (Optional)**

Berikut adalah rekomendasi tahapannya.
1. Gunakan model dengan hyperparameter terbaik.
2. Hitung ulang metrik evaluasi untuk melihat apakah ada peningkatan performa.

In [10]:
# model dengan hyperparameter terbaik.
# For RandomForestClassifier:
y_pred_tuned_rf = best_rf_model.predict(X_test)
accuracy_tuned_rf = accuracy_score(y_test, y_pred_tuned_rf)
f1_tuned_rf = f1_score(y_test, y_pred_tuned_rf, average='weighted')
conf_matrix_tuned_rf = confusion_matrix(y_test, y_pred_tuned_rf)

print("Tuned Random Forest Results:")
print(f"Accuracy: {accuracy}")
print(f"Accuracy Tuned: {accuracy_tuned_rf}")
print(f"F1-Score: {f1_tuned_rf}")
print(f"Confusion Matrix:\n{conf_matrix_tuned_rf}")

Tuned Random Forest Results:
Accuracy: 0.9661764705882353
Accuracy Tuned: 0.9656862745098039
F1-Score: 0.9656827379873166
Confusion Matrix:
[[497   6   9   3]
 [  5 493   7   6]
 [  4   7 500  12]
 [  3   5   3 480]]


In [11]:
# For DecisionTreeClassifier:
y_pred_tuned_dt = best_dt_model.predict(X_test)
accuracy_tuned_dt = accuracy_score(y_test, y_pred_tuned_dt)
f1_tuned_dt = f1_score(y_test, y_pred_tuned_dt, average='weighted')
conf_matrix_tuned_dt = confusion_matrix(y_test, y_pred_tuned_dt)

print("Tuned Decision Tree Results:")
print(f"Accuracy: {accuracy_dcs}")
print(f"Accuracy: {accuracy_tuned_dt}")
print(f"F1-Score: {f1_tuned_dt}")
print(f"Confusion Matrix:\n{conf_matrix_tuned_dt}")

Tuned Decision Tree Results:
Accuracy: 0.9303921568627451
Accuracy: 0.9382352941176471
F1-Score: 0.9382065181734242
Confusion Matrix:
[[487  11  11   6]
 [ 13 482   7   9]
 [ 10  10 478  25]
 [  7   9   8 467]]


In [12]:
if accuracy_tuned_rf > accuracy_tuned_dt:
    print("\nThe tuned Random Forest model performs better.")
    best_model = best_rf_model
else:
    print("\nThe tuned Decision Tree model performs better.")
    best_model = best_dt_model


The tuned Random Forest model performs better.


## **e. Analisis Hasil Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Bandingkan hasil evaluasi sebelum dan setelah tuning (jika dilakukan).
2. Identifikasi kelemahan model, seperti:
  - Precision atau Recall rendah untuk kelas tertentu.
  - Apakah model mengalami overfitting atau underfitting?
3. Berikan rekomendasi tindakan lanjutan, seperti mengumpulkan data tambahan atau mencoba algoritma lain jika hasil belum memuaskan.

In [13]:
print("Tuned Random Forest Results:")
print(f"Accuracy: {accuracy}")
print(f"Accuracy Tuned: {accuracy_tuned_rf}")
print(f"F1-Score: {f1_tuned_rf}")
print(f"Confusion Matrix:\n{conf_matrix_tuned_rf}")

Tuned Random Forest Results:
Accuracy: 0.9661764705882353
Accuracy Tuned: 0.9656862745098039
F1-Score: 0.9656827379873166
Confusion Matrix:
[[497   6   9   3]
 [  5 493   7   6]
 [  4   7 500  12]
 [  3   5   3 480]]


In [14]:
print("Tuned Decision Tree Results:")
print(f"Accuracy: {accuracy_dcs}")
print(f"Accuracy: {accuracy_tuned_dt}")
print(f"F1-Score: {f1_tuned_dt}")
print(f"Confusion Matrix:\n{conf_matrix_tuned_dt}")

Tuned Decision Tree Results:
Accuracy: 0.9303921568627451
Accuracy: 0.9382352941176471
F1-Score: 0.9382065181734242
Confusion Matrix:
[[487  11  11   6]
 [ 13 482   7   9]
 [ 10  10 478  25]
 [  7   9   8 467]]


Random Forest
* Perubahan sangat kecil setelah tuning, accuracy turun sedikit dari 96.62% ke 96.57%.
* Tuning tidak memberi peningkatan signifikan, kemungkinan model sudah cukup optimal.
* Kesalahan klasifikasi hampir sama dengan sebelum tuning.
* Model tidak terlalu berubah, menunjukkan tuning kurang efektif.

Decision Tree
* Peningkatan akurasi setelah tuning dari 93.04% ke 93.82%.
* Kesalahan klasifikasi menurun dari 141 menjadi 94, menunjukkan peningkatan model.
* Masih lebih buruk dibanding Random Forest karena Decision Tree lebih rentan overfitting.

In [15]:
print(classification_report(y_test, y_pred_tuned_rf))
print(classification_report(y_test, y_pred_tuned_dt))

              precision    recall  f1-score   support

           0       0.98      0.97      0.97       515
           1       0.96      0.96      0.96       511
           2       0.96      0.96      0.96       523
           3       0.96      0.98      0.97       491

    accuracy                           0.97      2040
   macro avg       0.97      0.97      0.97      2040
weighted avg       0.97      0.97      0.97      2040

              precision    recall  f1-score   support

           0       0.94      0.95      0.94       515
           1       0.94      0.94      0.94       511
           2       0.95      0.91      0.93       523
           3       0.92      0.95      0.94       491

    accuracy                           0.94      2040
   macro avg       0.94      0.94      0.94      2040
weighted avg       0.94      0.94      0.94      2040



Precision atau Recall Rendah untuk Kelas Tertentu
* Random Forest lebih stabil, tetapi masih ada beberapa salah klasifikasi pada kelas minoritas.
* Pada Decision Tree, banyak kesalahan pada kelas 2 dan 3.

Overfitting atau Underfitting
* Random Forest lebih robust, tetapi tuning tidak memberikan perbedaan signifikan karena model sudah cukup optimal.
* Decision Tree lebih rentan overfitting karena hanya satu pohon yang menentukan hasilnya.

Rekomendasi Tindakan Lanjutan
Jika ingin meningkatkan akurasi lebih jauh:
* Coba Boosting seperti XGBoost atau Gradient Boosting untuk meningkatkan akurasi.
* Atau menggunakan algoritma lain seperti SVM atau Neural Networks untuk eksplorasi lebih lanjut.

Jika model masih overfitting atau kurang stabil:
* Kurangi jumlah estimators pada Random Forest untuk mengurangi kompleksitas.
* Kurangi depth pada Decision Tree atau gunakan Pruning.