# **1. Import Library**

Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning.

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, f1_score


# **2. Memuat Dataset dari Hasil Clustering**

Memuat dataset hasil clustering dari file CSV ke dalam variabel DataFrame.

In [2]:
## Membaca data hasil clustering 
df = pd.read_csv("dataset_klasifikasi.csv")
df

Unnamed: 0,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,Cluster,PCA1,PCA2
0,WHITE HANGING HEART T-LIGHT HOLDER,0.500843,12/1/2010 8:26,0.000089,0.715046,United Kingdom,0,1.124841,-0.091986
1,WHITE METAL LANTERN,0.500843,12/1/2010 8:26,0.000089,0.715046,United Kingdom,0,1.118116,-0.099378
2,CREAM CUPID HEARTS COAT HANGER,0.500843,12/1/2010 8:26,0.000089,0.715046,United Kingdom,0,1.120204,-0.087388
3,KNITTED UNION FLAG HOT WATER BOTTLE,0.500843,12/1/2010 8:26,0.000089,0.715046,United Kingdom,0,1.118116,-0.099378
4,RED WOOLLY HOTTIE WHITE HEART.,0.500843,12/1/2010 8:26,0.000089,0.715046,United Kingdom,0,1.118116,-0.099378
...,...,...,...,...,...,...,...,...,...
406824,PACK OF 20 SPACEBOY NAPKINS,0.500843,12/9/2011 12:50,0.000089,0.642647,France,1,-1.106984,0.104935
406825,CHILDREN'S APRON DOLLY GIRL,0.500843,12/9/2011 12:50,0.000089,0.642647,France,1,-1.107884,0.074861
406826,CHILDRENS CUTLERY DOLLY GIRL,0.500843,12/9/2011 12:50,0.000089,0.642647,France,1,-1.121262,0.050464
406827,CHILDRENS CUTLERY CIRCUS PARADE,0.500843,12/9/2011 12:50,0.000089,0.642647,France,1,-1.121262,0.050464


In [10]:
# Pastikan dataset memiliki kolom target 'Cluster'
X = df.drop(columns=["Cluster"])
y = df["Cluster"]


# **3. Data Splitting**

Tahap Data Splitting bertujuan untuk memisahkan dataset menjadi dua bagian: data latih (training set) dan data uji (test set).

In [11]:
# Bagi dataset menjadi training & testing (80% training, 20% testing)**
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

ValueError: The least populated class in y has only 1 member, which is too few. The minimum number of groups for any class cannot be less than 2.

# **4. Membangun Model Klasifikasi**


## **a. Membangun Model Klasifikasi**

Setelah memilih algoritma klasifikasi yang sesuai, langkah selanjutnya adalah melatih model menggunakan data latih.

Berikut adalah rekomendasi tahapannya.
1. Pilih algoritma klasifikasi yang sesuai, seperti Logistic Regression, Decision Tree, Random Forest, atau K-Nearest Neighbors (KNN).
2. Latih model menggunakan data latih.

In [21]:
# Gunakan model RandomForestClassifier
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)


In [22]:
y_pred = model.predict(X_test)

Tulis narasi atau penjelasan algoritma yang Anda gunakan.

## **b. Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Lakukan prediksi menggunakan data uji.
2. Hitung metrik evaluasi seperti Accuracy dan F1-Score (Opsional: Precision dan Recall).
3. Buat confusion matrix untuk melihat detail prediksi benar dan salah.

In [19]:
accuracy = accuracy_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred, average="weighted")

In [25]:
print(f"Akurasi: {accuracy:.2f}")
print(f"F1-score: {f1:.2f}")

Akurasi: 1.00
F1-score: 1.00


Tulis hasil evaluasi algoritma yang digunakan, jika Anda menggunakan 2 algoritma, maka bandingkan hasilnya.

## **c. Tuning Model Klasifikasi (Optional)**

Gunakan GridSearchCV, RandomizedSearchCV, atau metode lainnya untuk mencari kombinasi hyperparameter terbaik

## **d. Evaluasi Model Klasifikasi setelah Tuning (Optional)**

Berikut adalah rekomendasi tahapannya.
1. Gunakan model dengan hyperparameter terbaik.
2. Hitung ulang metrik evaluasi untuk melihat apakah ada peningkatan performa.

## **e. Analisis Hasil Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Bandingkan hasil evaluasi sebelum dan setelah tuning (jika dilakukan).
2. Identifikasi kelemahan model, seperti:
  - Precision atau Recall rendah untuk kelas tertentu.
  - Apakah model mengalami overfitting atau underfitting?
3. Berikan rekomendasi tindakan lanjutan, seperti mengumpulkan data tambahan atau mencoba algoritma lain jika hasil belum memuaskan.

Identifikasi Kelemahan Model

Precision atau Recall Rendah untuk Kelas Tertentu
Jika pada laporan klasifikasi (classification_report) terlihat bahwa precision atau recall rendah pada kelas tertentu, maka model kurang mampu mengenali kelas tersebut.
Contoh kasus:
    Precision rendah → Model banyak menghasilkan false positive.
    Recall rendah → Model banyak menghasilkan false negative.
  Solusi:
✔️ Tambahkan data lebih banyak untuk kelas yang memiliki performa rendah.
✔️ Coba metode balancing data seperti SMOTE (Synthetic Minority Over-sampling Technique) jika data tidak seimbang.


Rekomendasi Tindakan Lanjutan
1. Coba Algoritma Lain
Jika hasil Random Forest masih kurang optimal, coba algoritma lain seperti:

XGBoost / LightGBM → Jika ingin model yang lebih kuat dalam menangani data kompleks.
SVM (Support Vector Machine) → Jika dataset memiliki dimensi tinggi.
Deep Learning (Neural Networks) → Jika dataset besar dan kompleks.

2. Tambahkan Data Baru
Jika model kesulitan mengenali kelas tertentu, kumpulkan lebih banyak data pelatihan yang lebih bervariasi.
Pastikan dataset tidak memiliki bias ke kelas tertentu.