# **1. Import Library**

Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning.

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder, StandardScaler, MinMaxScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.metrics import confusion_matrix, accuracy_score, precision_score, recall_score, f1_score

# **2. Memuat Dataset dari Hasil Clustering**

Memuat dataset hasil clustering dari file CSV ke dalam variabel DataFrame.

In [2]:
df = pd.read_csv('/content/hasil_clustering.csv')
df

Unnamed: 0,CustomerID,Gender,Age,Annual Income ($),Spending Score (1-100),Profession,Work Experience,Family Size,Cluster
0,1,1,-1.052345,-2.086675,-0.431850,5,-0.787837,0.123358,2
1,2,1,-0.981941,-1.650205,1.069755,2,-0.278342,-0.384815,2
2,3,0,-1.017143,-0.537207,-1.611684,2,-0.787837,-1.401161,2
3,4,0,-0.911538,-1.126441,0.926745,7,-1.042584,-0.892988,2
4,5,0,-0.629924,-1.584734,-0.396098,3,-0.533089,1.139704,2
...,...,...,...,...,...,...,...,...,...
1960,1996,0,0.778147,1.609940,-0.396098,0,0.995394,1.647877,1
1961,1997,0,1.482183,-0.817464,-0.682118,1,0.740647,1.647877,1
1962,1998,1,1.341376,-0.428941,-1.325663,5,1.250141,-0.892988,1
1963,1999,1,0.989358,1.560226,-1.683189,4,0.740647,-0.892988,1


# **3. Data Splitting**

Tahap Data Splitting bertujuan untuk memisahkan dataset menjadi dua bagian: data latih (training set) dan data uji (test set).

In [4]:
X = df.drop('Cluster', axis=1)
y = df['Cluster']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# **4. Membangun Model Klasifikasi**


## **a. Membangun Model Klasifikasi**

Setelah memilih algoritma klasifikasi yang sesuai, langkah selanjutnya adalah melatih model menggunakan data latih.

Berikut adalah rekomendasi tahapannya.
1. Pilih algoritma klasifikasi yang sesuai, seperti Logistic Regression, Decision Tree, Random Forest, atau K-Nearest Neighbors (KNN).
2. Latih model menggunakan data latih.

In [5]:
models = {
    "Decision Tree": DecisionTreeClassifier(),
    "Random Forest": RandomForestClassifier(),
    "K-Nearest Neighbors": KNeighborsClassifier(),
}

In [6]:
for name, model in models.items():
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)

1. Decision Tree
- Deskripsi: Algoritma Decision Tree membangun struktur pohon keputusan di mana setiap node internal mewakili atribut (fitur), setiap cabang mewakili aturan keputusan, dan setiap daun mewakili hasil (kelas).
- Proses: Data dibagi berdasarkan aturan tertentu (misalnya, informasi gain atau Gini impurity).
Pohon terus bercabang hingga memenuhi kriteria tertentu, seperti kedalaman maksimal atau jumlah data minimum dalam daun.
- Kelebihan: Mudah dimengerti dan diinterpretasikan.
- Kekurangan: Cenderung overfitting jika pohon terlalu dalam.
2. Random Forest
- Deskripsi: Random Forest adalah ensemble learning method yang menggabungkan banyak pohon keputusan. Hasil akhir ditentukan oleh voting mayoritas (klasifikasi) atau rata-rata (regresi).
- Proses:
Membuat beberapa pohon keputusan dari subset data acak.
Fitur yang digunakan untuk membangun setiap pohon juga dipilih secara acak.
Hasil akhir diambil berdasarkan agregasi dari semua pohon.
- Kelebihan:
Mengurangi overfitting dibandingkan Decision Tree.
Memberikan akurasi yang tinggi pada data yang kompleks.
- Kekurangan: Memerlukan lebih banyak sumber daya komputasi.
3. K-Nearest Neighbors (KNN)
- Deskripsi: KNN adalah algoritma yang menentukan kelas suatu data berdasarkan kedekatannya (jarak) dengan data lainnya.
- Proses:
Untuk setiap data baru, algoritma menghitung jarak ke semua data dalam dataset.
Data diklasifikasikan berdasarkan mayoritas kelas dari k tetangga terdekat.
- Kelebihan: Sederhana dan tidak memerlukan pelatihan (lazy learner).
- Kekurangan: Kinerja menurun jika dataset terlalu besar atau tidak dinormalisasi.Tulis narasi atau penjelasan algoritma yang Anda gunakan.

## **b. Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Lakukan prediksi menggunakan data uji.
2. Hitung metrik evaluasi seperti Accuracy dan F1-Score (Opsional: Precision dan Recall).
3. Buat confusion matrix untuk melihat detail prediksi benar dan salah.

In [14]:
results = {}
for name, model in models.items():
    accuracy = accuracy_score(y_test, y_pred)
    precision = precision_score(y_test, y_pred, average='weighted')
    recall = recall_score(y_test, y_pred, average='weighted')
    f1 = f1_score(y_test, y_pred, average='weighted')
    cm = confusion_matrix(y_test, y_pred)

    results[name] = {
        "accuracy": accuracy,
        "precision": precision,
        "recall": recall,
        "f1_score": f1,
        "confusion_matrix": cm
    }

    print(f"Hasil evaluasi model {name}:")
    print(f"Accuracy: {accuracy:.4f}")
    print(f"Precision: {precision:.4f}")
    print(f"Recall: {recall:.4f}")
    print(f"F1-score: {f1:.4f}")
    print("Confusion Matrix:")
    print(cm)
    print("-" * 20)

Hasil evaluasi model Decision Tree:
Accuracy: 1.0000
Precision: 1.0000
Recall: 1.0000
F1-score: 1.0000
Confusion Matrix:
[[113   0   0]
 [  0 137   0]
 [  0   0 143]]
--------------------
Hasil evaluasi model Random Forest:
Accuracy: 1.0000
Precision: 1.0000
Recall: 1.0000
F1-score: 1.0000
Confusion Matrix:
[[113   0   0]
 [  0 137   0]
 [  0   0 143]]
--------------------
Hasil evaluasi model K-Nearest Neighbors:
Accuracy: 1.0000
Precision: 1.0000
Recall: 1.0000
F1-score: 1.0000
Confusion Matrix:
[[113   0   0]
 [  0 137   0]
 [  0   0 143]]
--------------------


## **e. Analisis Hasil Evaluasi Model Klasifikasi**

### Identifikasi Model
1. Precision, Recall, dan F1-Score: Semua metrik menunjukkan nilai sempurna (1.0000) untuk ketiga algoritma. Ini mengindikasikan tidak ada kesalahan klasifikasi pada data uji.
2. Confusion Matrix: Tidak ada prediksi yang salah, setiap kelas diidentifikasi dengan benar. Namun, hasil ini dapat menjadi indikasi potensi masalah, seperti:
- Dataset terlalu sederhana atau cluster sangat terpisah, sehingga model tidak diuji dengan kondisi yang lebih kompleks.
- Kebocoran data: Jika informasi dari data uji secara tidak langsung bocor ke data latih, model dapat menghasilkan performa sempurna yang tidak realistis.

### Analisis fitting
1. Overfitting:
Model menghasilkan performa sempurna pada data uji, tetapi ini bisa berarti model terlalu "mengingat" data alih-alih belajar pola yang sebenarnya.
Jika dataset mengandung noise atau tidak cukup beragam, overfitting menjadi lebih mungkin.
1. Underfitting:
Tidak teridentifikasi karena metrik evaluasi sempurna, yang menunjukkan bahwa model mampu menangkap pola dalam data dengan sangat baik (atau terlalu baik).

### Rekomendasi Tindakan Lanjutan
1. Validasi Model dengan Cross-Validation:

Gunakan k-fold cross-validation untuk menguji generalisasi model pada seluruh dataset.
Ini membantu memastikan performa model konsisten dan tidak hanya baik pada satu subset data.
2. Analisis Dataset:

Pastikan tidak ada kebocoran data, seperti fitur yang terlalu berkorelasi langsung dengan label (kolom Cluster).
Periksa distribusi data untuk setiap fitur dan kelas untuk memastikan dataset mencerminkan kasus dunia nyata.
3. Menggunakan Dataset yang Lebih Kompleks:

Jika dataset saat ini terlalu sederhana atau tersegmentasi, pertimbangkan untuk mengumpulkan data tambahan yang lebih bervariasi dan kompleks.
4. Eksperimen dengan Algoritma Lain:

Coba algoritma lain seperti Logistic Regression, Support Vector Machines (SVM), atau Gradient Boosting (e.g., XGBoost, LightGBM) untuk membandingkan performa.
5. Tuning Hyperparameter:

Lakukan pencarian hyperparameter untuk model seperti Random Forest atau KNN untuk memastikan hasil optimal.
6. Evaluasi dengan Data Baru:

Jika memungkinkan, uji model dengan dataset baru untuk mengevaluasi kemampuannya menangani data yang tidak terlihat sebelumnya.
