# **1. Import Library**

Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning.

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, f1_score
from sklearn.model_selection import learning_curve
from sklearn.metrics import precision_score, recall_score, classification_report

# **2. Memuat Dataset dari Hasil Clustering**

Memuat dataset hasil clustering dari file CSV ke dalam variabel DataFrame.

In [21]:
## Membaca data hasil clustering 
df = pd.read_csv("dataset_klasifikasi.csv")
df

Unnamed: 0,Quantity,UnitPrice,Cluster
0,2.228409e+06,663.218027,0
1,2.228409e+06,800.620777,0
2,2.889625e+06,695.932968,0
3,9.059785e+05,1497.449006,1
4,2.228409e+06,941.295020,0
...,...,...,...
4962,1.049360e+07,314.803913,2
4963,4.542663e+06,2284.243321,1
4964,1.611393e+07,1739.539564,1
4965,2.206487e+07,308.260925,2


In [22]:
# Pastikan dataset memiliki kolom target 'Cluster'
X = df.drop(columns=["Cluster"])
y = df["Cluster"]


# **3. Data Splitting**

Tahap Data Splitting bertujuan untuk memisahkan dataset menjadi dua bagian: data latih (training set) dan data uji (test set).

In [23]:
# Bagi dataset menjadi training & testing (80% training, 20% testing)**
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

# **4. Membangun Model Klasifikasi**


## **a. Membangun Model Klasifikasi**

Setelah memilih algoritma klasifikasi yang sesuai, langkah selanjutnya adalah melatih model menggunakan data latih.

Berikut adalah rekomendasi tahapannya.
1. Pilih algoritma klasifikasi yang sesuai, seperti Logistic Regression, Decision Tree, Random Forest, atau K-Nearest Neighbors (KNN).
2. Latih model menggunakan data latih.

In [24]:
# Gunakan model RandomForestClassifier
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)


In [25]:
y_pred = model.predict(X_test)

Tulis narasi atau penjelasan algoritma yang Anda gunakan.

## **b. Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Lakukan prediksi menggunakan data uji.
2. Hitung metrik evaluasi seperti Accuracy dan F1-Score (Opsional: Precision dan Recall).
3. Buat confusion matrix untuk melihat detail prediksi benar dan salah.

In [26]:
accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred, average="weighted")
recall = recall_score(y_test, y_pred, average="weighted")
f1 = f1_score(y_test, y_pred, average="weighted")


In [28]:
print("\nClassification Report:")
print(classification_report(y_test, y_pred))


Classification Report:
              precision    recall  f1-score   support

           0       1.00      1.00      1.00       503
           1       1.00      0.98      0.99       253
           2       0.99      1.00      0.99       238

    accuracy                           0.99       994
   macro avg       0.99      0.99      0.99       994
weighted avg       0.99      0.99      0.99       994



Tulis hasil evaluasi algoritma yang digunakan, jika Anda menggunakan 2 algoritma, maka bandingkan hasilnya.

## **c. Tuning Model Klasifikasi (Optional)**

Gunakan GridSearchCV, RandomizedSearchCV, atau metode lainnya untuk mencari kombinasi hyperparameter terbaik

## **d. Evaluasi Model Klasifikasi setelah Tuning (Optional)**

Berikut adalah rekomendasi tahapannya.
1. Gunakan model dengan hyperparameter terbaik.
2. Hitung ulang metrik evaluasi untuk melihat apakah ada peningkatan performa.

## **e. Analisis Hasil Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Bandingkan hasil evaluasi sebelum dan setelah tuning (jika dilakukan).
2. Identifikasi kelemahan model, seperti:
  - Precision atau Recall rendah untuk kelas tertentu.
  - Apakah model mengalami overfitting atau underfitting?
3. Berikan rekomendasi tindakan lanjutan, seperti mengumpulkan data tambahan atau mencoba algoritma lain jika hasil belum memuaskan.

# **Analisis Classification Report dari Model Klasifikasi**

## **1. Evaluasi Performa Model**
Berdasarkan classification report di atas, model klasifikasi menunjukkan **performa yang sangat baik** dengan skor **precision, recall, dan f1-score hampir sempurna** untuk semua kelas.

- **Accuracy**: 0.99 → Model berhasil mengklasifikasikan hampir semua sampel dengan sangat baik.  
- **Precision**: 1.00 untuk kelas 0 dan 1, serta 0.99 untuk kelas 2. Ini berarti model jarang membuat kesalahan dalam prediksi.  
- **Recall**: Hampir sempurna di semua kelas, menunjukkan bahwa model berhasil mendeteksi hampir semua sampel yang benar.  
- **F1-score**: Mendekati 1, yang menunjukkan keseimbangan antara precision dan recall.  

## **2. Interpretasi Hasil**
- Model ini **sangat andal** dalam membedakan antara tiga kelas yang ada.  
- Tidak ada indikasi adanya bias terhadap salah satu kelas.  
- Karena nilai metrik sangat tinggi, kemungkinan model telah **menangkap pola dalam data dengan baik** dan memiliki generalisasi yang kuat.  

## **3. Rekomendasi untuk Tahap Selanjutnya**
1. **Gunakan Model dengan Hyperparameter Terbaik**  
   - Jika model ini menggunakan parameter default, lakukan **Hyperparameter Tuning** (misalnya dengan GridSearchCV atau RandomizedSearchCV) untuk memastikan bahwa performanya optimal.  
   - Evaluasi kembali apakah ada peningkatan performa setelah tuning.  

2. **Hitung Ulang Metrik Evaluasi**  
   - Lakukan validasi dengan data uji yang berbeda untuk melihat apakah model tetap **konsisten**.  
   - Pastikan tidak ada **overfitting**, dengan membandingkan metrik pada data latih dan data uji.  

3. **Eksplorasi dengan Data Tambahan**  
   - Jika memungkinkan, coba dengan dataset baru atau augmentasi data untuk melihat apakah model tetap **stabil dan akurat**.  
   - Analisis apakah model tetap mempertahankan performa tinggi dalam kondisi data yang berbeda.  

4. **Uji dengan Berbagai Skema Validasi**  
   - Gunakan **cross-validation** untuk memastikan model tetap **generalizable** di berbagai subset data.  
   - Pastikan model tidak hanya bekerja baik pada dataset ini tetapi juga pada data dunia nyata.  

Dengan metrik yang sudah sangat tinggi, langkah selanjutnya adalah memastikan model **tetap stabil** dan tidak hanya bekerja baik pada dataset ini saja, tetapi juga pada data di dunia nyata.
