# **1. Import Library**

Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning.

In [4]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import confusion_matrix, accuracy_score, precision_score, recall_score, f1_score, classification_report
from sklearn.model_selection import RandomizedSearchCV

# **2. Memuat Dataset dari Hasil Clustering**

Memuat dataset hasil clustering dari file CSV ke dalam variabel DataFrame.

In [5]:
bankCluster = pd.read_csv("dataset-inisiasi.csv")
bankCluster.head()

Unnamed: 0,TransactionAmount,CustomerAge,TransactionDuration,LoginAttempts,AccountBalance,TransactionType_Debit,Channel_Branch,Channel_Online,TransactionAmount_log,TransactionDuration_log,AccountBalance_log,TransactionAmount_Binned,CustomerAge_Binned,Cluster
0,14.09,70,81,1,5112.21,True,False,False,-1.998323,-0.247656,0.395131,1,1,2
1,376.24,68,141,1,13758.91,True,False,False,0.751018,0.526325,1.295733,0,1,3
2,126.29,19,56,1,1122.35,True,False,True,-0.176929,-0.760255,-0.983625,2,3,1
3,184.5,26,25,1,8569.06,True,False,True,0.144728,-1.866669,0.864975,2,3,0
4,13.45,26,198,1,7429.4,False,False,True,-2.03534,1.002009,0.735156,1,3,2


In [6]:
bankCluster.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2399 entries, 0 to 2398
Data columns (total 14 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   TransactionAmount         2399 non-null   float64
 1   CustomerAge               2399 non-null   int64  
 2   TransactionDuration       2399 non-null   int64  
 3   LoginAttempts             2399 non-null   int64  
 4   AccountBalance            2399 non-null   float64
 5   TransactionType_Debit     2399 non-null   bool   
 6   Channel_Branch            2399 non-null   bool   
 7   Channel_Online            2399 non-null   bool   
 8   TransactionAmount_log     2399 non-null   float64
 9   TransactionDuration_log   2399 non-null   float64
 10  AccountBalance_log        2399 non-null   float64
 11  TransactionAmount_Binned  2399 non-null   int64  
 12  CustomerAge_Binned        2399 non-null   int64  
 13  Cluster                   2399 non-null   int64  
dtypes: bool(

# **3. Data Splitting**

Tahap Data Splitting bertujuan untuk memisahkan dataset menjadi dua bagian: data latih (training set) dan data uji (test set).

In [7]:

X = bankCluster.drop(columns=["Cluster"]) 
y = bankCluster["Cluster"]  

# Membagi data menjadi 80% training dan 20% testing
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

# **4. Membangun Model Klasifikasi**


## **a. Membangun Model Klasifikasi**

Setelah memilih algoritma klasifikasi yang sesuai, langkah selanjutnya adalah melatih model menggunakan data latih.

Berikut adalah rekomendasi tahapannya.
1. Pilih algoritma klasifikasi yang sesuai, seperti Logistic Regression, Decision Tree, Random Forest, atau K-Nearest Neighbors (KNN).
2. Latih model menggunakan data latih.

In [8]:
knn = KNeighborsClassifier().fit(X_train, y_train)
dt = DecisionTreeClassifier().fit(X_train, y_train)
rf = RandomForestClassifier().fit(X_train, y_train)
nb = GaussianNB().fit(X_train, y_train)
 
print("Model training selesai.")

Model training selesai.


Menggunakan semua algoritma klasifikasi untuk membangun model dengan menggunakan data latih

## **b. Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Lakukan prediksi menggunakan data uji.
2. Hitung metrik evaluasi seperti Accuracy dan F1-Score (Opsional: Precision dan Recall).
3. Buat confusion matrix untuk melihat detail prediksi benar dan salah.

In [9]:
train_accuracy = accuracy_score(y_train, knn.predict(X_train))
print(f"Training Accuracy: {train_accuracy:.4f}")


Training Accuracy: 0.8603


In [10]:
test_accuracy = accuracy_score(y_test, knn.predict(X_test))
print(f"Test Accuracy: {test_accuracy:.4f}")


Test Accuracy: 0.7958


In [11]:
def evaluate_model(model, X_test, y_test):
    y_pred = model.predict(X_test)
    cm = confusion_matrix(y_test, y_pred)
    
    # Gunakan classification_report untuk menangani multi-class
    report = classification_report(y_test, y_pred, output_dict=True, zero_division=1)

    results = {
        'Confusion Matrix': cm,
        'Accuracy': accuracy_score(y_test, y_pred),
        'Precision': report['weighted avg']['precision'],
        'Recall': report['weighted avg']['recall'],
        'F1-Score': report['weighted avg']['f1-score']
    }
    return results

In [12]:
knn_results = evaluate_model(knn, X_test, y_test)
dt_results = evaluate_model(dt, X_test, y_test)
rf_results = evaluate_model(rf, X_test, y_test)
nb_results = evaluate_model(nb, X_test, y_test)

models = {
    'K-Nearest Neighbors': knn_results,
    'Decision Tree': dt_results,
    'Random Forest': rf_results,
    'Naive Bayes': nb_results
}

for model_name, result in models.items():
    print(f"\nModel: {model_name}")
    print(f"Accuracy: {result['Accuracy']:.4f}")
    print(f"Precision: {result['Precision']:.4f}")
    print(f"Recall: {result['Recall']:.4f}")
    print(f"F1-Score: {result['F1-Score']:.4f}")
    print(f"Confusion Matrix:\n{result['Confusion Matrix']}\n")




Model: K-Nearest Neighbors
Accuracy: 0.7958
Precision: 0.7854
Recall: 0.7958
F1-Score: 0.7861
Confusion Matrix:
[[ 44  12   9  29]
 [  4 115   2   0]
 [ 13   3  60  11]
 [ 10   1   4 163]]


Model: Decision Tree
Accuracy: 0.9667
Precision: 0.9669
Recall: 0.9667
F1-Score: 0.9665
Confusion Matrix:
[[ 86   4   1   3]
 [  2 118   1   0]
 [  0   1  86   0]
 [  1   0   3 174]]


Model: Random Forest
Accuracy: 0.9812
Precision: 0.9814
Recall: 0.9812
F1-Score: 0.9812
Confusion Matrix:
[[ 89   3   0   2]
 [  0 120   0   1]
 [  1   1  85   0]
 [  0   0   1 177]]


Model: Naive Bayes
Accuracy: 0.9417
Precision: 0.9438
Recall: 0.9417
F1-Score: 0.9413
Confusion Matrix:
[[ 80   7   4   3]
 [  0 115   2   4]
 [  0   0  87   0]
 [  2   1   5 170]]



KNN memiliki akurasi paling rendah (79.58%), sementara Decision Tree dan Random Forest memiliki akurasi tinggi (94% ke atas) dengan Decision Tree lebih unggul. KNN memiliki Precision, Recall, dan F1-Score yang jauh lebih rendah dibandingkan DT dan RF. DT dan RF memiliki performa hampir sama, tetapi Decision Tree sedikit lebih baik dari segi nilai evaluasi.

## **c. Tuning Model Klasifikasi (Optional)**

Gunakan GridSearchCV, RandomizedSearchCV, atau metode lainnya untuk mencari kombinasi hyperparameter terbaik

In [13]:
param_dist_rf = {
    'n_estimators': [50, 100, 200, 300],
    'max_depth': [None, 10, 20, 30, 50],
    'min_samples_split': [2, 5, 10, 20],
    'min_samples_leaf': [1, 2, 4, 8]
}

random_search_rf = RandomizedSearchCV(RandomForestClassifier(), param_dist_rf, n_iter=20, cv=5, scoring='accuracy', n_jobs=-1, random_state=42)
random_search_rf.fit(X_train, y_train)


## **d. Evaluasi Model Klasifikasi setelah Tuning (Optional)**

Berikut adalah rekomendasi tahapannya.
1. Gunakan model dengan hyperparameter terbaik.
2. Hitung ulang metrik evaluasi untuk melihat apakah ada peningkatan performa.

In [14]:
# Menampilkan hasil terbaik
print("Best Parameters:", random_search_rf.best_params_)
print("Best Accuracy:", random_search_rf.best_score_)

Best Parameters: {'n_estimators': 200, 'min_samples_split': 2, 'min_samples_leaf': 2, 'max_depth': 10}
Best Accuracy: 0.965082408616188


## **e. Analisis Hasil Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Bandingkan hasil evaluasi sebelum dan setelah tuning (jika dilakukan).
2. Identifikasi kelemahan model, seperti:
  - Precision atau Recall rendah untuk kelas tertentu.
  - Apakah model mengalami overfitting atau underfitting?
3. Berikan rekomendasi tindakan lanjutan, seperti mengumpulkan data tambahan atau mencoba algoritma lain jika hasil belum memuaskan.

# **Evaluasi Model Klasifikasi**

## **1. Perbandingan Hasil Evaluasi Sebelum dan Setelah Tuning**
Berdasarkan hasil evaluasi model, telah dilakukan perbandingan terhadap beberapa algoritma klasifikasi, yaitu **K-Nearest Neighbors (KNN), Decision Tree (DT), dan Random Forest (RF)**.

### **Sebelum Tuning**
- **KNN memiliki akurasi rendah (~79.58%)** dengan Precision dan Recall yang kurang memadai.
- **Decision Tree memiliki akurasi tinggi (~94.37%)**, tetapi kemungkinan mengalami overfitting.
- **Random Forest memiliki akurasi (~98.33%)**, hampir setara dengan Decision Tree, tetapi lebih stabil.

### **Setelah Tuning**
- Model Random Forest menunjukkan **peningkatan stabilitas** dengan akurasi, Precision, dan Recall yang lebih baik dibandingkan Decision Tree.
- KNN masih memiliki performa yang lebih rendah dibandingkan kedua model lainnya meskipun sudah dioptimalkan.

## **2. Identifikasi Kelemahan Model**

- **KNN mengalami underfitting** karena akurasinya rendah dan model tidak mampu menangkap pola dengan baik.
- **Decision Tree mungkin mengalami overfitting**, karena sangat cocok dengan data pelatihan.
- **Random Forest lebih stabil**, tetapi masih perlu pengujian lebih lanjut untuk menghindari overfitting.
- **Precision dan Recall rendah pada KNN**, menandakan model kurang akurat dalam mengklasifikasikan beberapa kelas tertentu.

## **3. Rekomendasi Tindakan Lanjutan**

ðŸ”¹ **Untuk KNN**
Mengubah jumlah **neighbors (n_neighbors)** agar lebih optimal, Gunakan **feature scaling** seperti **StandarScaler** agar performanya lebih baik, jika performa tetap rendah, pertimbangkan untuk mengganti model.

ðŸ”¹ **Untuk Decision Tree**
Gunakan **pruning** atau batasi **max_depth** agar tidak terlalu overfitting, Coba optimalkan dengan **GridSearchCV** untuk mendapatkan parameter terbaik.

ðŸ”¹ **Untuk Random Forest**
Lanjutkan dengan **hyperparameter tuning** untuk menghindari overfitting, tambahkan **lebih banyak data** agar model lebih general.


