# **1. Import Library**

Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning.

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder, StandardScaler, MinMaxScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import RandomForestRegressor
from sklearn.svm import SVC
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import confusion_matrix, accuracy_score, precision_score, recall_score, f1_score, mean_absolute_error, mean_squared_error, r2_score
from sklearn.decomposition import PCA

# **2. Memuat Dataset dari Hasil Clustering**

Memuat dataset hasil clustering dari file CSV ke dalam variabel DataFrame.

In [2]:
df = pd.read_csv('Dataset_inisiasi.csv')
df.head()

Unnamed: 0,Order_ID,Customer_ID,Product,Unit_Price,Quantity,Discount,Total_Price,Region,Order_Date,Customer_Type_B2C,Category_Juices,Category_Soft Drinks,Category_Water,Product_FreqEnc,Region_FreqEnc,Quantity_Bin,TotalPrice_Bin,Cluster,Cluster_PCA
0,ORD1663596,CUS5073,Hohes C Orange,1.87,74,0.1,124.54,Niedersachsen,2023-11-29,False,True,False,False,0.03675,0.06275,High,High,0,0
1,ORD1999010,CUS141,Fritz-Kola,1.87,18,0.05,31.98,Bremen,2021-05-13,False,False,True,False,0.02375,0.06875,High,Medium,1,1
2,ORD347756,CUS562,Merlot,12.04,71,0.15,726.61,Thüringen,2021-04-21,False,False,False,False,0.01075,0.05875,High,High,0,0
3,ORD600360,CUS7718,Moët & Chandon,64.91,91,0.1,5316.13,Hamburg,2021-08-23,False,False,False,False,0.01175,0.06725,High,High,2,2
4,ORD2300591,CUS6160,Granini Apple,1.64,4,0.0,6.56,Sachsen,2022-10-16,True,True,False,False,0.03575,0.06425,Low,Low,1,1


In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4000 entries, 0 to 3999
Data columns (total 19 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   Order_ID              4000 non-null   object 
 1   Customer_ID           4000 non-null   object 
 2   Product               4000 non-null   object 
 3   Unit_Price            4000 non-null   float64
 4   Quantity              4000 non-null   int64  
 5   Discount              4000 non-null   float64
 6   Total_Price           4000 non-null   float64
 7   Region                4000 non-null   object 
 8   Order_Date            4000 non-null   object 
 9   Customer_Type_B2C     4000 non-null   bool   
 10  Category_Juices       4000 non-null   bool   
 11  Category_Soft Drinks  4000 non-null   bool   
 12  Category_Water        4000 non-null   bool   
 13  Product_FreqEnc       4000 non-null   float64
 14  Region_FreqEnc        4000 non-null   float64
 15  Quantity_Bin         

# **3. Data Splitting**

Tahap Data Splitting bertujuan untuk memisahkan dataset menjadi dua bagian: data latih (training set) dan data uji (test set).

In [4]:
from sklearn.model_selection import train_test_split

# Memisahkan fitur dan target
X = df.drop(columns=['Cluster', 'Order_ID', 'Customer_ID', 'Order_Date'])  # Menghilangkan kolom non-numerik dan 'Cluster'
y = df['Cluster']  # Targetnya adalah kolom 'Cluster'

# Membagi data menjadi data latih (80%) dan data uji (20%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Tampilkan bentuk data latih dan uji
print(f"Data Latih: {X_train.shape}, Data Uji: {X_test.shape}")

Data Latih: (3200, 15), Data Uji: (800, 15)


In [5]:
# Mengonversi kolom kategorikal menjadi variabel dummy (One-Hot Encoding)
df_encoded = pd.get_dummies(df, drop_first=True)  # drop_first=True untuk menghindari dummy variable trap

# Memisahkan fitur dan target lagi setelah encoding
X = df_encoded.drop(columns=['Cluster'])  # Menghilangkan kolom target 'Cluster'
y = df_encoded['Cluster']  # Targetnya adalah kolom 'Cluster'

# Membagi data menjadi data latih (80%) dan data uji (20%)
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Tampilkan bentuk data latih dan uji
print(f"Data Latih: {X_train.shape}, Data Uji: {X_test.shape}")

Data Latih: (3200, 8433), Data Uji: (800, 8433)


# **4. Membangun Model Klasifikasi**


## **a. Membangun Model Klasifikasi**

Setelah memilih algoritma klasifikasi yang sesuai, langkah selanjutnya adalah melatih model menggunakan data latih.

Berikut adalah rekomendasi tahapannya.
1. Pilih algoritma klasifikasi yang sesuai, seperti Logistic Regression, Decision Tree, Random Forest, atau K-Nearest Neighbors (KNN).
2. Latih model menggunakan data latih.

### **KNN**

In [6]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import classification_report, accuracy_score

knn_model = KNeighborsClassifier(n_neighbors=5)  # Pilih jumlah k (misal: k=5)
knn_model.fit(X_train, y_train)

y_pred_knn = knn_model.predict(X_test)

print("Training model selesai")

Training model selesai


### **Random Forest**

In [7]:
from sklearn.ensemble import RandomForestClassifier

rf_model = RandomForestClassifier(random_state=42)
rf_model.fit(X_train, y_train)

y_pred_rf = rf_model.predict(X_test)

print("Training model selesai")

Training model selesai


**`Algoritma KNN (K-Nearest Neighbors)`** <br>
Pada dasarnya, algoritma ini bekerja dengan mencari k data terdekat (tetangga terdekat) di ruang fitur dan menentukan kelas berdasarkan mayoritas kelas tetangga tersebut. KNN adalah algoritma non-parametrik yang sederhana, tidak memerlukan asumsi tentang distribusi data, dan sangat bergantung pada jarak antar data.

**`Penerapan KNN dalam Proyek Ini`** <br>
Pada proyek ini, algoritma KNN digunakan untuk melakukan klasifikasi data dengan tujuan memprediksi kelas atau label pada dataset yang digunakan. Secara spesifik, model KNN diterapkan pada dataset yang memiliki banyak fitur dan label yang berbeda, di mana model ini akan menghitung jarak antara data uji dan tetangga terdekat dalam data latih untuk memprediksi kelas yang paling sering muncul di antara tetangga tersebut.

**`Algoritma Random Forest Tree`** <br>
Algoritma ensemble yang menggabungkan banyak decision trees untuk meningkatkan akurasi klasifikasi. Setiap pohon keputusan pada Random Forest dibuat dengan memilih subset acak dari data dan fitur, yang mengurangi kemungkinan overfitting dan meningkatkan generalisasi model. Random Forest adalah algoritma yang sangat kuat dan sering digunakan untuk klasifikasi dan regresi, terutama dalam dataset yang besar dan kompleks.

**`Penerapan Random Forest dalam Proyek Ini`** <br>
Pada proyek ini, Random Forest diterapkan untuk melakukan klasifikasi pada data yang serupa dengan KNN, tetapi dengan pendekatan yang berbeda. Random Forest membangun banyak pohon keputusan yang saling beragam dan menghasilkan prediksi berdasarkan hasil mayoritas dari semua pohon yang ada. Setiap pohon dibangun menggunakan subset acak dari data dan fitur, sehingga meningkatkan keberagaman antar pohon dan mengurangi overfitting.

## **b. Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Lakukan prediksi menggunakan data uji.
2. Hitung metrik evaluasi seperti Accuracy dan F1-Score (Opsional: Precision dan Recall).
3. Buat confusion matrix untuk melihat detail prediksi benar dan salah.

### **KNN**

In [8]:
accuracy_knn = accuracy_score(y_test, y_pred_knn)
print(f"Accuracy KNN: {accuracy_knn:.4f}")
print("Classification Report KNN:")
print(classification_report(y_test, y_pred_knn))

Accuracy KNN: 0.9563
Classification Report KNN:
              precision    recall  f1-score   support

           0       0.92      0.87      0.90       175
           1       0.97      0.98      0.97       571
           2       1.00      1.00      1.00        12
           3       0.93      0.95      0.94        42

    accuracy                           0.96       800
   macro avg       0.95      0.95      0.95       800
weighted avg       0.96      0.96      0.96       800



In [9]:
cm_knn = confusion_matrix(y_test, y_pred_knn)
print("KNN Confusion Matrix:")
print(cm_knn)

KNN Confusion Matrix:
[[153  19   0   3]
 [ 11 560   0   0]
 [  0   0  12   0]
 [  2   0   0  40]]


### **Random Forest Tree**

In [10]:
rf_accuracy = accuracy_score(y_test, y_pred_rf)
rf_classification_report = classification_report(y_test, y_pred_rf)

print(f"Accuracy Random Forest: {rf_accuracy:.4f}")
print(f"Classification Report Random Forest:\n{rf_classification_report}")

Accuracy Random Forest: 0.9988
Classification Report Random Forest:
              precision    recall  f1-score   support

           0       0.99      1.00      1.00       175
           1       1.00      1.00      1.00       571
           2       1.00      1.00      1.00        12
           3       1.00      0.98      0.99        42

    accuracy                           1.00       800
   macro avg       1.00      0.99      1.00       800
weighted avg       1.00      1.00      1.00       800



In [11]:
cm_rf = confusion_matrix(y_test, y_pred_rf)
print("\nRandom Forest Confusion Matrix:")
print(cm_rf)


Random Forest Confusion Matrix:
[[175   0   0   0]
 [  0 571   0   0]
 [  0   0  12   0]
 [  1   0   0  41]]


Berikut adalah perbedaan dua algoritma klasifikasi yang digunakan, yaitu K-Nearest Neighbors (KNN) dan Random Forest:

1. `K-Nearest Neighbors (KNN)`: <br>
Akurasi model KNN mencapai **`95.63%`**, yang menunjukkan bahwa model ini cukup baik dalam memprediksi cluster secara keseluruhan.

  `Report`
  - Precision, recall, dan F1-score sangat baik untuk cluster 1 (nilai tertinggi, 97-98%) yang merupakan cluster mayoritas.
  - cluster 0 (dengan support 175) memiliki precision yang sedikit lebih rendah (92%) dan recall yang juga rendah (87%), mengindikasikan bahwa model KNN sedikit kurang efektif dalam mengidentifikasi cluster 0.
  - cluster 2 (dengan support 12) mendapatkan hasil yang sangat baik, dengan recall dan precision masing-masing 100%.
  - cluster 3 (dengan support 42) juga menunjukkan hasil yang baik, meskipun ada sedikit penurunan pada recall (95%) dibandingkan cluster lainnya.

  `Confusion Matrix`
  - cluster 0 memiliki beberapa prediksi yang salah, yaitu 19 prediksi salah cluster 1 dan 3 prediksi salah cluster 3.
  - cluster 1 menunjukkan sedikit kesalahan, dengan 11 prediksi salah pada cluster 0.
  - cluster 2 berhasil diprediksi dengan sempurna tanpa kesalahan.
  - cluster 3 juga menunjukkan hasil yang baik dengan hanya 2 kesalahan pada cluster 0.

2. `Random Forest:` <br>
Akurasi model Random Forest mencapai 99.88%, yang sangat tinggi dan menunjukkan performa model yang hampir sempurna.

  `Report`
  - Precision, recall, dan F1-score untuk semua cluster sangat tinggi (di atas 99%) dengan Random Forest menunjukkan performa yang hampir sempurna pada setiap cluster.
  - Untuk cluster 0 dan 1, model ini mencapai akurasi 100% pada precision dan recall.
  - cluster 2 juga mendapat hasil yang sangat baik dengan 100% recall dan precision.
  - cluster 3 hanya memiliki sedikit penurunan pada recall (98%), tetapi tetap menunjukkan performa yang sangat baik secara keseluruhan.

  `Confusion Matrix`
  - Semua cluster teridentifikasi dengan sangat baik tanpa adanya kesalahan pada cluster mayoritas (cluster 1 dan 0).
  - cluster 2 dan 3 juga terprediksi dengan sangat akurat, dengan hanya satu kesalahan pada cluster 3.
  - Tidak ada kesalahan besar dalam prediksi pada Random Forest.

## **c. Tuning Model Klasifikasi (Optional)**

Gunakan GridSearchCV, RandomizedSearchCV, atau metode lainnya untuk mencari kombinasi hyperparameter terbaik

### **Hyperparameter Tuning Random Forest Tree menggunakan RandomizedSearchCV**

In [12]:
from sklearn.model_selection import RandomizedSearchCV
from sklearn.ensemble import RandomForestClassifier
import numpy as np

param_dist = {
    'n_estimators': np.arange(50, 201, 50),  # Jumlah pohon (forest)
    'max_features': ['sqrt', 'sqrt', 'log2'],  # Fitur yang dipertimbangkan untuk split
    'max_depth': np.arange(10, 101, 10),  # Kedalaman maksimal pohon
    'min_samples_split': np.arange(2, 11, 1),  # Minimum sampel untuk melakukan split
    'min_samples_leaf': np.arange(1, 11, 1),  # Minimum sampel di daun pohon
    'bootstrap': [True, False]  # Bootstrap sampling
}

rf = RandomForestClassifier(random_state=42)

random_search = RandomizedSearchCV(rf, param_distributions=param_dist, n_iter=10, cv=5, verbose=1, random_state=42, n_jobs=-1)

### **Hyperparameter Tuning KNN menggunakan RandomizedSearchCV**

In [13]:
from sklearn.model_selection import RandomizedSearchCV
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, classification_report

param_dist_knn = {
    'n_neighbors': [3, 5, 7, 9, 11, 13],  # Jumlah tetangga yang digunakan
    'weights': ['uniform', 'distance'],   # Jenis bobot (uniform atau distance)
    'algorithm': ['auto', 'ball_tree', 'kd_tree', 'brute'],  # Algoritma yang digunakan
    'leaf_size': [20, 30, 40, 50],        # Ukuran daun untuk algoritma Ball Tree dan KD Tree
    'p': [2]                          # Parameter untuk metrik Minkowski (1=Manhattan, 2=Euclidean)
}

knn_model = KNeighborsClassifier()

random_search_knn = RandomizedSearchCV(knn_model, param_distributions=param_dist_knn,
                                       n_iter=3, cv=3, verbose=1, random_state=42)

## **d. Evaluasi Model Klasifikasi setelah Tuning (Optional)**

Berikut adalah rekomendasi tahapannya.
1. Gunakan model dengan hyperparameter terbaik.
2. Hitung ulang metrik evaluasi untuk melihat apakah ada peningkatan performa.

### **Evaluasi Hyperparameter Tuning Random Forest menggunakan RandomizedSearchCV**

In [14]:
random_search.fit(X_train, y_train)

print(f"Best Parameters: {random_search.best_params_}")

best_rf_model = random_search.best_estimator_
y_pred_best_rf = best_rf_model.predict(X_test)

accuracy_best_rf = accuracy_score(y_test, y_pred_best_rf)
print(f"Accuracy Random Forest (Tuning): {accuracy_best_rf:.4f}")
print("Classification Report Random Forest (Tuning):")
print(classification_report(y_test, y_pred_best_rf))

Fitting 5 folds for each of 10 candidates, totalling 50 fits
Best Parameters: {'n_estimators': np.int64(200), 'min_samples_split': np.int64(7), 'min_samples_leaf': np.int64(1), 'max_features': 'sqrt', 'max_depth': np.int64(40), 'bootstrap': False}
Accuracy Random Forest (Tuning): 0.9988
Classification Report Random Forest (Tuning):
              precision    recall  f1-score   support

           0       0.99      1.00      1.00       175
           1       1.00      1.00      1.00       571
           2       1.00      1.00      1.00        12
           3       1.00      0.98      0.99        42

    accuracy                           1.00       800
   macro avg       1.00      0.99      1.00       800
weighted avg       1.00      1.00      1.00       800



### **Evaluasi Hyperparameter Tuning KNN menggunakan RandomizedSearchCV**

In [15]:
random_search_knn.fit(X_train, y_train)

print(f"Best Parameters for KNN: {random_search_knn.best_params_}")

best_knn_model = random_search_knn.best_estimator_
y_pred_best_knn = best_knn_model.predict(X_test)

accuracy_best_knn = accuracy_score(y_test, y_pred_best_knn)
print(f"Accuracy KNN (Tuning): {accuracy_best_knn:.4f}")
print("Classification Report KNN (Tuning):")
print(classification_report(y_test, y_pred_best_knn))

Fitting 3 folds for each of 3 candidates, totalling 9 fits
Best Parameters for KNN: {'weights': 'distance', 'p': 2, 'n_neighbors': 11, 'leaf_size': 50, 'algorithm': 'auto'}
Accuracy KNN (Tuning): 0.9550
Classification Report KNN (Tuning):
              precision    recall  f1-score   support

           0       0.94      0.86      0.90       175
           1       0.96      0.98      0.97       571
           2       1.00      1.00      1.00        12
           3       0.87      0.98      0.92        42

    accuracy                           0.95       800
   macro avg       0.94      0.95      0.95       800
weighted avg       0.96      0.95      0.95       800



## **e. Analisis Hasil Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.

1. Perbanbandingan hasil evaluasi sebelum dan setelah tuning.

  `Random Forest Tree`
  - Setelah tuning, akurasi meningkat sedikit (dari 99.75% menjadi 99.88%), meskipun perubahan ini tidak terlalu signifikan, namun menunjukkan bahwa tuning hyperparameter memberikan sedikit perbaikan.
  - Precision dan Recall tetap sangat baik dan stabil untuk semua cluster, dengan sedikit peningkatan di beberapa metrik.
  - F1-Score tetap sangat baik, dengan nilai 1.00 untuk tiga cluster pertama dan 0.99 untuk cluster 3, yang menunjukkan model sudah sangat optimal setelah tuning.

  `KNN`
  - Akurasi tetap sama setelah tuning (95.50%), yang menunjukkan bahwa hyperparameter tuning pada KNN tidak memberikan perubahan besar pada akurasi secara keseluruhan.
  - Precision dan Recall untuk cluster 0, meskipun cukup baik, masih menunjukkan adanya kelemahan, terutama pada cluster 0 di bagian recall (0.86).
  - F1-Score juga tetap sama, dengan cluster 0 masih menjadi tantangan bagi model.
  - Meskipun tuning menghasilkan beberapa perubahan dalam parameter, model KNN tidak menunjukkan peningkatan signifikan dibandingkan sebelum tuning, terutama pada cluster 0.

  `Kesimpulan`
  - Random Forest menunjukkan peningkatan sedikit dalam akurasi setelah tuning, tetapi perubahan pada metrik lain relatif kecil. Model ini sangat efektif setelah tuning, dengan hasil precision, recall, dan f1-score hampir sempurna.
  - KNN, meskipun mengalami tuning, akurasi tidak berubah, dan model masih kesulitan pada cluster 0, dengan precision dan recall yang lebih rendah dibandingkan cluster lainnya. Tuning tidak memberikan dampak besar pada performa KNN.


2. Identifikasi kelemahan model:

  `Random Forest`
  - Meskipun precision untuk cluster 3 sangat tinggi (1.00), recall untuk cluster 3 sedikit lebih rendah (0.98). Ini menunjukkan bahwa meskipun model dapat mengenali sebagian besar instance cluster 3 dengan sangat baik, ada sedikit kelemahan dalam mengidentifikasi beberapa data cluster 3 yang mungkin lebih sulit atau ambigu.
  - cluster 2 (yang memiliki hanya 12 data) memiliki hasil yang sangat baik, namun ini tidak sepenuhnya menggambarkan bahwa model tersebut akan efektif pada dataset yang lebih besar atau lebih tidak seimbang. <br>

  `Apakah Model Mengalami Overfitting atau Underfitting?`
  - Random Forest tidak menunjukkan tanda-tanda overfitting. Akurasi tinggi pada data uji (99.88%) menunjukkan bahwa model dapat memgeneralisasi dengan baik dan tidak hanya menghafal data latih. Selain itu, model ini menggunakan cross-validation yang menunjukkan bahwa hasilnya stabil di berbagai subset data.
  - Random Forest tampaknya tidak mengalami underfitting karena akurasi dan metrik evaluasi lainnya sangat baik. Model ini cukup kompleks dan memiliki kemampuan untuk menangkap pola dengan baik.

  `Kesimpulan` <br>
  Model Random Forest secara keseluruhan menunjukkan performa yang sangat baik dengan sedikit kelemahan pada cluster 3 dalam hal recall. Model ini tidak menunjukkan overfitting atau underfitting.

  `KNN (K-Nearest Neighbors)`
  - Pada model KNN sebelum tuning, recall untuk cluster 0 sangat rendah (0.86), yang menunjukkan bahwa model kesulitan dalam mengidentifikasi instance dari cluster 0. Ini berhubungan dengan precision yang lebih rendah pada cluster 0 (0.94) dibandingkan dengan cluster lainnya.
  - Hal ini mungkin terjadi karena cluster 0 memiliki jumlah data yang cukup banyak, dan mungkin terdapat lebih banyak variasi dalam data cluster 0 yang sulit untuk dipelajari oleh model KNN dengan parameter yang ada sebelum tuning.
  - Recall untuk cluster 3 tetap sangat baik (0.98), tetapi precision untuk cluster 3 lebih rendah dibandingkan dengan cluster 1 dan cluster 2 (0.87). cluster 3 menjadi tantangan yang lebih besar untuk KNN, mungkin karena distribusi data yang tidak seimbang atau fitur yang kurang informatif untuk membedakan cluster ini dari cluster lainnya.

  `Apakah Model Mengalami Overfitting atau Underfitting?`
  - Model KNN menunjukkan kemungkinan underfitting lebih daripada overfitting. Meskipun KNN sudah dioptimalkan dengan hyperparameter tuning, hasil akurasi tetap stabil dan precision serta recall untuk beberapa cluster (terutama cluster 0) menunjukkan bahwa model masih tidak dapat sepenuhnya menangani kompleksitas dataset.
  - KNN cenderung underfitting karena meskipun akurasi cukup tinggi (95.50%), ada kelemahan yang signifikan pada beberapa cluster, terutama pada recall untuk cluster 0. Ini menunjukkan bahwa model tidak cukup kompleks atau tidak cukup baik dalam menangkap variasi data pada cluster tertentu.

  `Kesimpulan` <br>
  Model KNN menunjukkan underfitting, dengan kelemahan terbesar pada cluster 0 dalam hal recall dan precision. Meskipun tuning dapat memperbaiki beberapa aspek, model ini masih kesulitan dalam menangani cluster dengan variasi data yang lebih besar, seperti cluster 0.

3. Rekomendasi Tindakan Lanjutan

  - Tambahkan lebih banyak data, terutama untuk kelas minoritas (seperti kelas 3), agar model lebih efektif dalam mengenali pola pada kelas tersebut.
  - Jika hasil belum memuaskan, pertimbangkan untuk mencoba algoritma lain seperti Support Vector Machines (SVM) atau XGBoost yang sering memberikan hasil lebih baik pada dataset besar dan kompleks.

  - Lakukan tuning parameter lebih mendalam menggunakan Grid Search atau metode optimasi lainnya untuk menemukan kombinasi parameter yang lebih optimal.

  - Gunakan teknik seperti SMOTE untuk oversampling kelas minoritas atau sesuaikan class weights untuk memberikan perhatian lebih pada kelas yang kurang terwakili.

  - Gunakan lebih banyak fold (misalnya, 10-fold cross-validation) untuk mendapatkan evaluasi yang lebih stabil dan akurat.