# **1. Import Library**

Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning.

In [None]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, f1_score, classification_report, confusion_matrix
from sklearn.metrics import accuracy_score, f1_score, precision_score, recall_score, confusion_matrix, classification_report
from sklearn.metrics import precision_score, recall_score, confusion_matrix, classification_report

# **2. Memuat Dataset dari Hasil Clustering**

Memuat dataset hasil clustering dari file CSV ke dalam variabel DataFrame.

In [None]:
# Memuat Dataset Dari github
file_path = "https://raw.githubusercontent.com/deayulianis/submission-belajar-mc/refs/heads/main/Dataset%20Hasil%20Clustering.csv"
df = pd.read_csv(file_path)

# Tampilkan 10 baris pertama
df.head(10)

Unnamed: 0,Customer_Type,Region,Unit_Price,Quantity,Discount,Total_Price,Cluster
0,B2B,Baden-Württemberg,5.691,9622702,0.083464,54148868.94,0
1,B2B,Bayern,5.719661,9784414,0.083634,55383162.54,0
2,B2B,Berlin,5.772474,10087675,0.083427,57836081.49,0
3,B2B,Brandenburg,5.747892,9653513,0.083468,55025039.49,0
4,B2B,Bremen,4.933685,10271591,0.083473,49738398.65,2
5,B2B,Hamburg,5.726868,11281724,0.083557,64006460.3,0
6,B2B,Hessen,5.746837,11006591,0.083457,62515292.28,0
7,B2B,Mecklenburg-Vorpommern,5.656656,10559429,0.083466,59473176.98,0
8,B2B,Niedersachsen,5.721323,9420151,0.083541,53165902.62,0
9,B2B,Nordrhein-Westfalen,5.566024,9784646,0.083606,53765860.2,0


# **3. Data Splitting**

Tahap Data Splitting bertujuan untuk memisahkan dataset menjadi dua bagian: data latih (training set) dan data uji (test set).

In [None]:
# Misalkan df adalah DataFrame dan "Cluster" adalah target/label
X = df.drop("Cluster", axis=1)  # Fitur (semua kolom kecuali Cluster)
y = df["Cluster"]               # Target klasifikasi

# Split data menjadi 80% training dan 20% testing
X_train, X_test, y_train, y_test = train_test_split(
    X, y,
    test_size=0.2,     # 20% untuk testing
    random_state=42,   # Supaya hasil konsisten setiap run
    stratify=y         # Membagi data proporsional antar kelas
)

# **4. Membangun Model Klasifikasi**


## **a. Membangun Model Klasifikasi**

Setelah memilih algoritma klasifikasi yang sesuai, langkah selanjutnya adalah melatih model menggunakan data latih.

Berikut adalah rekomendasi tahapannya.
1. Pilih algoritma klasifikasi yang sesuai, seperti Logistic Regression, Decision Tree, Random Forest, atau K-Nearest Neighbors (KNN).
2. Latih model menggunakan data latih.

In [None]:
# Pisahkan kolom fitur numerikal dan kategorikal
numerical_cols = ["Unit_Price", "Quantity", "Discount", "Total_Price"]
categorical_cols = ["Customer_Type", "Region"]

# Buat ColumnTransformer untuk preprocessing
preprocessor = ColumnTransformer(
    transformers=[
        ("num", StandardScaler(), numerical_cols),
        ("cat", OneHotEncoder(drop='first', handle_unknown='ignore'), categorical_cols)
    ]
)

In [None]:
# RANDOM FOREST
# Pipeline Random Forest
rf_pipeline = Pipeline([
    ("preprocessor", preprocessor),
    ("classifier", RandomForestClassifier(random_state=42))
])

# Latih model
rf_pipeline.fit(X_train, y_train)

# 1. Random Forest Classifier
-  Akurasi Tinggi: Random Forest cenderung memberikan performa yang baik bahkan tanpa banyak tuning.
- Model Ansambel: Menggabungkan banyak pohon keputusan untuk mengurangi overfitting dan meningkatkan generalisasi.
- Mampu Menangani Data Campuran: Cocok untuk data yang memiliki kombinasi fitur numerik dan kategorikal.
-  Interpretabilitas Fitur: Bisa digunakan untuk melihat fitur mana yang paling berpengaruh dalam prediksi.



In [None]:
# K-NEAREST NEIGHBORS
# Pipeline KNN
knn_pipeline = Pipeline([
    ("preprocessor", preprocessor),
    ("classifier", KNeighborsClassifier())
])

# Latih model
knn_pipeline.fit(X_train, y_train)

# 2.K-Nearest Neighbors (KNN)
- Algoritma Sederhana dan Intuitif: Prediksi berdasarkan kedekatan dengan tetangga terdekat pada data latih.
- Tanpa Pelatihan Langsung: Tidak memerlukan pelatihan model yang kompleks, hanya menyimpan data.
- Cocok untuk Data Kecil: Karena dataset relatif kecil, KNN bisa digunakan tanpa beban komputasi tinggi.
- Sensitif terhadap Skala: Karena itu digunakan StandardScaler dalam preprocessing untuk hasil optimal.

## **b. Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Lakukan prediksi menggunakan data uji.
2. Hitung metrik evaluasi seperti Accuracy dan F1-Score (Opsional: Precision dan Recall).
3. Buat confusion matrix untuk melihat detail prediksi benar dan salah.

In [None]:
# Evaluasi
y_pred_rf = rf_pipeline.predict(X_test)
print("📌 Random Forest Classifier")
print("Accuracy:", accuracy_score(y_test, y_pred_rf))
print("F1-Score:", f1_score(y_test, y_pred_rf, average="weighted"))
print("Precision:", precision_score(y_test, y_pred_rf, average="weighted"))
print("Recall:", recall_score(y_test, y_pred_rf, average="weighted"))
print("Confusion Matrix:\n", confusion_matrix(y_test, y_pred_rf))
print("Classification Report:\n", classification_report(y_test, y_pred_rf))

📌 Random Forest Classifier
Accuracy: 0.8571428571428571
F1-Score: 0.7959183673469388
Precision: 0.75
Recall: 0.8571428571428571
Confusion Matrix:
 [[3 0 0]
 [0 3 0]
 [1 0 0]]
Classification Report:
               precision    recall  f1-score   support

           0       0.75      1.00      0.86         3
           1       1.00      1.00      1.00         3
           2       0.00      0.00      0.00         1

    accuracy                           0.86         7
   macro avg       0.58      0.67      0.62         7
weighted avg       0.75      0.86      0.80         7



  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


In [None]:
# Evaluasi
y_pred_knn = knn_pipeline.predict(X_test)
print("📌 K-Nearest Neighbors (KNN) Classifier")
print("Accuracy:", accuracy_score(y_test, y_pred_knn))
print("F1-Score:", f1_score(y_test, y_pred_knn, average="weighted"))
print("Precision:", precision_score(y_test, y_pred_knn, average="weighted"))
print("Recall:", recall_score(y_test, y_pred_knn, average="weighted"))
print("Confusion Matrix:\n", confusion_matrix(y_test, y_pred_knn))
print("Classification Report:\n", classification_report(y_test, y_pred_knn))

📌 K-Nearest Neighbors (KNN) Classifier
Accuracy: 0.8571428571428571
F1-Score: 0.7959183673469388
Precision: 0.75
Recall: 0.8571428571428571
Confusion Matrix:
 [[3 0 0]
 [0 3 0]
 [1 0 0]]
Classification Report:
               precision    recall  f1-score   support

           0       0.75      1.00      0.86         3
           1       1.00      1.00      1.00         3
           2       0.00      0.00      0.00         1

    accuracy                           0.86         7
   macro avg       0.58      0.67      0.62         7
weighted avg       0.75      0.86      0.80         7



  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


# Hasil Evaluasi Algoritma Yang Dipakai Dalam Proses

# 🔹 1. Random Forest Classifier

- **Accuracy: 85.71%**

- **F1-Score (weighted): 0.80**

- **Precision (weighted): 0.75**

- **ecall (weighted): 0.86**

- **Confusion Matrix:**

  1.Kelas 0 dan 1 diprediksi dengan sangat baik.

  2.Kelas 2 tidak berhasil diprediksi (recall = 0.00), kemungkinan karena jumlah datanya hanya 1 (minoritas).

- **Kelebihan:**

  1.Performa kuat meskipun data tidak besar.

  2.Menangani fitur numerik dan kategorikal secara efektif.
  
  3.Tidak terlalu overfitting karena pendekatan ensemble (banyak pohon).

# 🔹 2. K-Nearest Neighbors (KNN)
- **Accuracy: 85.71%**

- **F1-Score (weighted): 0.80**

- **Precision (weighted): 0.75**

- **Recall (weighted): 0.86**

- **Confusion Matrix:**

  1.Hasil identik dengan Random Forest, dengan kelemahan sama di kelas minoritas.

- **Kelebihan:**

  1.Implementasi sederhana dan tidak memerlukan proses pelatihan.

  2.Efektif untuk dataset kecil.

- **Kekurangan:**
  1.Sensitif terhadap skala dan jarak antar data.
  
  2.Performa bisa menurun pada dataset dengan distribusi tidak seimbang.

# ⚖️ Kesimpulan Perbandingan
- Kedua algoritma memberikan hasil evaluasi yang sama pada dataset ini, baik dari akurasi, F1-score, hingga confusion matrix.

- Random Forest tetap lebih direkomendasikan untuk penggunaan lebih lanjut karena:

  1.Random Forest tetap lebih direkomendasikan untuk penggunaan lebih lanjut karena:

  2.Lebih tahan terhadap noise dan outlier.

  3.Memberikan informasi penting seperti feature importance.
  

Untuk meningkatkan performa ke depannya, disarankan menambahkan lebih banyak data, khususnya untuk kelas minoritas (kelas 2), atau melakukan balancing dengan teknik seperti oversampling (SMOTE) atau undersampling.

## **c. Tuning Model Klasifikasi (Optional)**

Gunakan GridSearchCV, RandomizedSearchCV, atau metode lainnya untuk mencari kombinasi hyperparameter terbaik

In [None]:
#Type your code here

## **d. Evaluasi Model Klasifikasi setelah Tuning (Optional)**

Berikut adalah rekomendasi tahapannya.
1. Gunakan model dengan hyperparameter terbaik.
2. Hitung ulang metrik evaluasi untuk melihat apakah ada peningkatan performa.

In [None]:
#Type your code here

## **e. Analisis Hasil Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Bandingkan hasil evaluasi sebelum dan setelah tuning (jika dilakukan).

- ( Tidak ada proses tuning yang dilakukan dalam evaluasi ini. )

2. Identifikasi kelemahan model, seperti:
  - Precision atau Recall rendah untuk kelas tertentu.

   Precision dan Recall Rendah pada Kelas Tertentu:

   1.Pada kelas 2, precision = 0.00 dan recall = 0.00.

   2.Artinya, model tidak mampu memprediksi kelas 2 sama sekali.

   3.Hal ini kemungkinan besar disebabkan oleh jumlah data yang sangat sedikit (hanya 1 data) untuk kelas tersebut, sehingga model sulit belajar representasinya.

  - Apakah model mengalami overfitting atau underfitting?

  1. Model Tidak Mengalami Overfitting

  2.Performa model pada data uji cukup baik (akurasi 85.7%), dan tidak menunjukkan perbedaan mencolok antara hasil pelatihan dan pengujian.

  3.Namun, karena data uji hanya terdiri dari 7 sampel, masih terlalu sedikit untuk kesimpulan definitif.


3. Berikan rekomendasi tindakan lanjutan, seperti mengumpulkan data tambahan atau mencoba algoritma lain jika hasil belum memuaskan.

- Tambahkan Data untuk Kelas Minoritas:

  1.Kelas 2 hanya memiliki 1 sampel → sangat tidak seimbang.

  2.Perlu menambahkan lebih banyak data untuk memastikan model bisa mengenali pola dari kelas ini.

- Gunakan Teknik Penyeimbangan Data:

  Terapkan metode seperti:
  
  1.SMOTE (Synthetic Minority Oversampling Technique)

  2.Random Oversampling

  3.Stratified Sampling saat splitting

  Tujuannya adalah memperbaiki performa prediksi pada kelas minoritas.

- Eksperimen dengan Algoritma Lain:

 Coba algoritma lain seperti:

 1.Gradient Boosting (XGBoost/LightGBM)

 2.Support Vector Machine (SVM) dengan kernel yang sesuai

 Model-model ini kadang lebih kuat dalam menangani distribusi data yang tidak merata.

- Gunakan Cross-Validation:

  1.Karena data uji sangat kecil, sebaiknya evaluasi model menggunakan k-fold cross-validation untuk hasil yang lebih stabil dan akurat.