# **1. Import Library**

Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning.

In [3]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, accuracy_score, confusion_matrix

# **2. Memuat Dataset dari Hasil Clustering**

Memuat dataset hasil clustering dari file CSV ke dalam variabel DataFrame.

In [4]:
data = pd.read_csv('data_clustering.csv')
data.head()

Unnamed: 0,customer_id,customer_type,product,category,unit_price,quantity,discount,total_price,region,order_date,cluster,unit_price_outlier,quantity_outlier,discount_outlier,total_price_outlier,region_encoded,Cluster
0,504,0,42,3,1.66,53,0.1,79.18,0,965,1,False,False,False,False,0,0
1,504,0,9,3,1.56,90,0.1,126.36,0,965,1,False,True,False,False,0,0
2,504,0,38,2,1.17,73,0.05,81.14,0,965,1,False,True,False,False,0,0
3,504,0,29,1,3.22,59,0.1,170.98,0,965,1,False,False,False,True,0,0
4,504,0,12,3,0.87,35,0.1,27.4,0,965,1,False,False,False,False,0,0


In [5]:
data.head()

Unnamed: 0,customer_id,customer_type,product,category,unit_price,quantity,discount,total_price,region,order_date,cluster,unit_price_outlier,quantity_outlier,discount_outlier,total_price_outlier,region_encoded,Cluster
0,504,0,42,3,1.66,53,0.1,79.18,0,965,1,False,False,False,False,0,0
1,504,0,9,3,1.56,90,0.1,126.36,0,965,1,False,True,False,False,0,0
2,504,0,38,2,1.17,73,0.05,81.14,0,965,1,False,True,False,False,0,0
3,504,0,29,1,3.22,59,0.1,170.98,0,965,1,False,False,False,True,0,0
4,504,0,12,3,0.87,35,0.1,27.4,0,965,1,False,False,False,False,0,0


# **3. Data Splitting**

Tahap Data Splitting bertujuan untuk memisahkan dataset menjadi dua bagian: data latih (training set) dan data uji (test set).

In [6]:
X = data.drop(columns=['cluster'])
y = data['Cluster']

In [7]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# **4. Membangun Model Klasifikasi**


## **a. Membangun Model Klasifikasi**

Setelah memilih algoritma klasifikasi yang sesuai, langkah selanjutnya adalah melatih model menggunakan data latih.

Berikut adalah rekomendasi tahapannya.
1. Pilih algoritma klasifikasi yang sesuai, seperti Logistic Regression, Decision Tree, Random Forest, atau K-Nearest Neighbors (KNN).
2. Latih model menggunakan data latih.

In [8]:
model = RandomForestClassifier(random_state=42)

In [9]:
model.fit(X_train, y_train)

Kemudian saya ingin menguji dengan menggunakan algoritma SVM


In [10]:
svm_model =SVC(random_state=42)
svm_model.fit(X_train,y_train)
y_pred_svm = svm_model.predict(X_test)

## **b. Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Lakukan prediksi menggunakan data uji.
2. Hitung metrik evaluasi seperti Accuracy dan F1-Score (Opsional: Precision dan Recall).
3. Buat confusion matrix untuk melihat detail prediksi benar dan salah.

In [11]:
y_pred = model.predict(X_test)

In [12]:
coufution_matrix = pd.crosstab(y_test,y_pred)
print('Confusion Matrix:')
print(coufution_matrix)

report = classification_report(y_test,y_pred)
print(report)

accuracy = accuracy_score(y_test,y_pred)
print(f'Akurasi: {accuracy}')

Confusion Matrix:
col_0        0    1
Cluster            
0        14526    0
1            0  164
              precision    recall  f1-score   support

           0       1.00      1.00      1.00     14526
           1       1.00      1.00      1.00       164

    accuracy                           1.00     14690
   macro avg       1.00      1.00      1.00     14690
weighted avg       1.00      1.00      1.00     14690

Akurasi: 1.0


In [13]:
accuracy_svm = accuracy_score(y_test,y_pred_svm)
print(f'Akurasi dengan SVM: {accuracy_svm}')

classification_report_svm = classification_report(y_test,y_pred_svm,zero_division=0)
print('Classification Report (SVM):')
print(classification_report_svm)

confusion_matrix_svm = confusion_matrix(y_test,y_pred_svm)
print('Confusion Matrix (SVM):')
print(confusion_matrix_svm)

Akurasi dengan SVM: 0.9997957794417971
Classification Report (SVM):
              precision    recall  f1-score   support

           0       1.00      1.00      1.00     14526
           1       1.00      0.98      0.99       164

    accuracy                           1.00     14690
   macro avg       1.00      0.99      1.00     14690
weighted avg       1.00      1.00      1.00     14690

Confusion Matrix (SVM):
[[14526     0]
 [    3   161]]


1. Model SVM :

- Hasil dari precision menunjukkan 1.0, dan f1-score yang menunjukkan nilai 1.0, ini menunjukkan performa sangat tinggi, namun masih terdapat 3 data dari kelas 1 yang salah diklasifikasikan sebagai kelas 0

2. RandomForest :
- Hasil nilai precision dan f1-score yang memiliki nilali 1.0. Akurasi yang diberikan dari Random Forest adalah 1.0, Ini memberikan performa yang sempurna (100%) dalam prediksi dataset ini, tanpa kesalahan klasifikasi

## **c. Tuning Model Klasifikasi (Optional)**

Gunakan GridSearchCV, RandomizedSearchCV, atau metode lainnya untuk mencari kombinasi hyperparameter terbaik

In [14]:
#Type your code here

## **d. Evaluasi Model Klasifikasi setelah Tuning (Optional)**

Berikut adalah rekomendasi tahapannya.
1. Gunakan model dengan hyperparameter terbaik.
2. Hitung ulang metrik evaluasi untuk melihat apakah ada peningkatan performa.

In [15]:
#Type your code here

## **e. Analisis Hasil Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Bandingkan hasil evaluasi sebelum dan setelah tuning (jika dilakukan) :     
Random Forest

- Random Forest berhasil mengklasifikasikan data dengan akurasi 100%, tanpa ada kesalahan sama sekali. Nilai precision, recall, dan f1-score-nya juga sempurna, yaitu 1.00 di semua kelas.

- SVM juga memiliki performa yang sangat bagus, dengan akurasi sekitar 99.98%. Namun, masih terdapat sedikit kesalahan, yaitu 3 data dari kelas 1 salah diklasifikasikan. Hal ini terlihat dari recall-nya yang turun sedikit menjadi 0.98 untuk kelas 1.


2. Identifikasi kelemahan model, seperti:
  
SVM:

- Recall rendah pada kelas 1 (0.98) menunjukkan bahwa ada beberapa kasus kelas 1 yang tidak terdeteksi (False Negative).

- Hal ini menunjukkan bahwa model SVM kurang optimal dalam mengenali kelas minoritas.

- Kemungkinan terjadi sedikit underfitting atau perlu tuning hyperparameter lebih lanjut.

Random Forest:

- Tidak ditemukan kelemahan pada metrik evaluasi. Namun, akurasinya yang sempurna bisa menandakan overfitting, terutama jika hasil validasi di data nyata tidak setinggi itu.



3. Berikan rekomendasi tindakan lanjutan, seperti mengumpulkan data tambahan atau mencoba algoritma lain jika hasil belum memuaskan :  
- Kalau Random Forest juga tetap bagus saat diuji di data lain, model ini sangat layak untuk digunakan.

- Tapi kalau mau pakai SVM, sebaiknya:

  - Coba tuning hyperparameter-nya (misal: kernel, C, gamma).

  - Tambahkan data dari kelas minoritas (kelas 1) supaya model bisa belajar lebih seimbang.

- Untuk Random Forest, kalau ternyata overfitting:

- Bisa dikurangi kompleksitasnya, misalnya turunin jumlah pohon (estimators) atau kedalaman pohonnya.