# **1. Import Library**

Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning.

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.cluster import KMeans


# **2. Memuat Dataset dari Hasil Clustering**

Memuat dataset hasil clustering dari file CSV ke dalam variabel DataFrame.

In [3]:
df = pd.read_csv('Data_clustering.csv')
df.head()

Unnamed: 0,CustomerID,Gender,Age,Annual Income (k$),Spending Score (1-100),Cluster_Selected
0,1,Male,19,15,39,2
1,2,Male,21,15,81,2
2,3,Female,20,16,6,2
3,4,Female,23,16,77,2
4,5,Female,31,17,40,2


# **3. Data Splitting**

Tahap Data Splitting bertujuan untuk memisahkan dataset menjadi dua bagian: data latih (training set) dan data uji (test set).

In [23]:
# 1. Mapping Gender
X['Gender'] = X['Gender'].map({'Male': 1, 'Female': 0})

# 2. Split data
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5, random_state=42)

# 3. Pastikan y_train 1D
y_train = y_train.values.ravel()

# **4. Membangun Model Klasifikasi**


## **a. Membangun Model Klasifikasi**

Setelah memilih algoritma klasifikasi yang sesuai, langkah selanjutnya adalah melatih model menggunakan data latih.

Berikut adalah rekomendasi tahapannya.
1. Pilih algoritma klasifikasi yang sesuai, seperti Logistic Regression, Decision Tree, Random Forest, atau K-Nearest Neighbors (KNN).
2. Latih model menggunakan data latih.

In [24]:


# 4. Import model
from sklearn.ensemble import RandomForestClassifier

# 5. Inisialisasi model
model_rf = RandomForestClassifier(random_state=42)

# 6. Training
model_rf.fit(X_train, y_train)

# 7. Info
print("Model Random Forest berhasil dilatih.")


Model Random Forest berhasil dilatih.


Sebelum melatih model, data yang berisi tulisan seperti 'Male' dan 'Female' pada kolom Gender harus diubah menjadi angka karena model hanya bisa membaca angka. Setelah itu, data dibagi rata menjadi dua bagian: satu untuk melatih model (data train) dan satu lagi untuk menguji hasilnya (data test). Supaya target prediksinya pas, label (y_train) juga disesuaikan menjadi bentuk satu baris data. Selanjutnya, dibuat model Random Forest, yaitu model yang bekerja dengan membuat banyak pohon keputusan untuk menghasilkan prediksi yang lebih kuat. Model ini dilatih menggunakan data train, dan kalau berhasil, berarti model sudah siap untuk dipakai memprediksi data baru.

## **b. Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Lakukan prediksi menggunakan data uji.
2. Hitung metrik evaluasi seperti Accuracy dan F1-Score (Opsional: Precision dan Recall).
3. Buat confusion matrix untuk melihat detail prediksi benar dan salah.

In [25]:
from sklearn.metrics import accuracy_score, f1_score, classification_report, confusion_matrix

# 1. Lakukan prediksi dengan data uji
y_pred = model_rf.predict(X_test)

# 2. Hitung metrik evaluasi
accuracy = accuracy_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred, average='weighted')  # pakai 'weighted' karena multiclass
report = classification_report(y_test, y_pred)

# 3. Buat confusion matrix
cm = confusion_matrix(y_test, y_pred)

# Cetak hasil evaluasi
print(f'Akurasi: {accuracy:.2f}')
print(f'F1-Score: {f1:.2f}')
print('Classification Report:\n', report)
print('Confusion Matrix:\n', cm)


Akurasi: 0.98
F1-Score: 0.98
Classification Report:
               precision    recall  f1-score   support

           0       0.98      0.98      0.98        48
           1       1.00      0.95      0.97        19
           2       0.97      1.00      0.99        33

    accuracy                           0.98       100
   macro avg       0.98      0.98      0.98       100
weighted avg       0.98      0.98      0.98       100

Confusion Matrix:
 [[47  0  1]
 [ 1 18  0]
 [ 0  0 33]]


Kita lakukan prediksi hasil dari x_test lalu diukur ke akuratan model dengan accurancy dan F1-score dengan melihat hasil classification report dan membuat confusion matrix untuk mengetahui prediksi apakah bernilai bnar atau salah.

## **c. Tuning Model Klasifikasi (Optional)**

Gunakan GridSearchCV, RandomizedSearchCV, atau metode lainnya untuk mencari kombinasi hyperparameter terbaik

In [26]:
from sklearn.model_selection import GridSearchCV

# Tentukan parameter yang mau dicoba
param_grid = {
    'n_estimators': [50, 100, 150],
    'max_depth': [None, 5, 10],
    'min_samples_split': [2, 5, 10]
}

# Inisialisasi model Random Forest
model = RandomForestClassifier(random_state=42)

# Inisialisasi GridSearchCV
grid_search = GridSearchCV(estimator=model, param_grid=param_grid, cv=5, scoring='accuracy')

# Lakukan pencarian
grid_search.fit(X_train, y_train)

# Cetak hasil terbaik
print("Best Parameters:", grid_search.best_params_)
print("Best Score (Accuracy):", grid_search.best_score_)


Best Parameters: {'max_depth': None, 'min_samples_split': 2, 'n_estimators': 50}
Best Score (Accuracy): 0.96


## **d. Evaluasi Model Klasifikasi setelah Tuning (Optional)**

Berikut adalah rekomendasi tahapannya.
1. Gunakan model dengan hyperparameter terbaik.
2. Hitung ulang metrik evaluasi untuk melihat apakah ada peningkatan performa.

In [27]:
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# Gunakan model terbaik hasil tuning
best_model = grid_search.best_estimator_

# Prediksi dengan data uji
y_pred_best = best_model.predict(X_test)

# Hitung dan tampilkan evaluasi
print("Accuracy setelah tuning:", accuracy_score(y_test, y_pred_best))
print("\nClassification Report:\n", classification_report(y_test, y_pred_best))
print("\nConfusion Matrix:\n", confusion_matrix(y_test, y_pred_best))


Accuracy setelah tuning: 0.97

Classification Report:
               precision    recall  f1-score   support

           0       0.96      0.98      0.97        48
           1       1.00      0.95      0.97        19
           2       0.97      0.97      0.97        33

    accuracy                           0.97       100
   macro avg       0.98      0.97      0.97       100
weighted avg       0.97      0.97      0.97       100


Confusion Matrix:
 [[47  0  1]
 [ 1 18  0]
 [ 1  0 32]]


## **e. Analisis Hasil Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Bandingkan hasil evaluasi sebelum dan setelah tuning (jika dilakukan).
2. Identifikasi kelemahan model, seperti:
  - Precision atau Recall rendah untuk kelas tertentu.
  - Apakah model mengalami overfitting atau underfitting?
3. Berikan rekomendasi tindakan lanjutan, seperti mengumpulkan data tambahan atau mencoba algoritma lain jika hasil belum memuaskan.

Setelah dilakukan evaluasi sebelum dan sesudah tuning, terlihat bahwa performa model mengalami peningkatan dari segi akurasi dan F1-score. Meskipun begitu, berdasarkan classification report, terdapat kelas tertentu yang precision atau recall-nya masih rendah, yang menunjukkan model belum sempurna dalam membedakan kelas tersebut. Dari confusion matrix, juga terlihat bahwa ada beberapa kesalahan prediksi. Jika dibandingkan, model tidak mengalami overfitting karena performa pada data training dan testing seimbang, namun masih ada potensi underfitting kecil pada kelas minoritas. Oleh karena itu, rekomendasi tindak lanjut adalah memperbanyak data untuk kelas yang sulit diprediksi atau mencoba algoritma lain seperti Gradient Boosting untuk hasil yang lebih optimal.

# 5. Mengekspor Data
Mengekspor data klasifiksi ke csv

In [29]:
hasil_klasifikasi = pd.DataFrame({
    'Actual': y_test,
    'Predicted': y_pred
})

# Menyimpan ke file CSV
hasil_klasifikasi.to_csv('Data_klasifikasi.csv', index=False)

print("Data hasil klasifikasi berhasil diekspor ke 'Data_klasifikasi.csv'")

Data hasil klasifikasi berhasil diekspor ke 'Data_klasifikasi.csv'
