# **1. Import Library**

Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning.

In [13]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, f1_score, confusion_matrix, recall_score, precision_score

# **2. Memuat Dataset dari Hasil Clustering**

Memuat dataset hasil clustering dari file CSV ke dalam variabel DataFrame.

In [None]:
data_df = pd.read_csv('Dataset_inisiasi.csv')
data_df.head()

Unnamed: 0,TransactionAmount,CustomerAge,TransactionType,LoginAttempts,Channel,TransactionDuration,AccountBalance,KMeans_cluster
0,14.09,70,Branch,1,ATM,81,5112.21,0
1,376.24,68,Branch,1,ATM,141,13758.91,2
2,126.29,19,Branch,1,Online,56,1122.35,1
3,184.5,26,Branch,1,Online,25,8569.06,0
4,13.45,26,ATM,1,Online,198,7429.4,0


In [3]:
label_encoder = LabelEncoder()
data_df['TransactionType'] = label_encoder.fit_transform(data_df['TransactionType'])
data_df['Channel'] = label_encoder.fit_transform(data_df['Channel'])
data_df.head()

Unnamed: 0,TransactionAmount,CustomerAge,TransactionType,LoginAttempts,Channel,TransactionDuration,AccountBalance,KMeans_cluster
0,14.09,70,1,1,0,81,5112.21,0
1,376.24,68,1,1,0,141,13758.91,2
2,126.29,19,1,1,2,56,1122.35,1
3,184.5,26,1,1,2,25,8569.06,0
4,13.45,26,0,1,2,198,7429.4,0


# **3. Data Splitting**

Tahap Data Splitting bertujuan untuk memisahkan dataset menjadi dua bagian: data latih (training set) dan data uji (test set).

In [4]:
x_train, x_test, y_train, y_test = train_test_split(data_df.drop('KMeans_cluster', axis=1), data_df['KMeans_cluster'], test_size=0.2, random_state=42)

print(f'Jumlah data latih: x_train = {len(x_train)} y_train = {len(y_train)}')
print(f'Jumlah data uji: x_test = {len(x_test)} y_test = {len(y_test)}')

Jumlah data latih: x_train = 2009 y_train = 2009
Jumlah data uji: x_test = 503 y_test = 503


Membagi data agar ada data yang digunakan untuk uji dan ada data yang digunakan untuk training

# **4. Membangun Model Klasifikasi**


## **a. Membangun Model Klasifikasi**

Setelah memilih algoritma klasifikasi yang sesuai, langkah selanjutnya adalah melatih model menggunakan data latih.

Berikut adalah rekomendasi tahapannya.
1. Pilih algoritma klasifikasi yang sesuai, seperti Logistic Regression, Decision Tree, Random Forest, atau K-Nearest Neighbors (KNN).
2. Latih model menggunakan data latih.

In [5]:
knn = KNeighborsClassifier().fit(x_train,y_train)
dt = DecisionTreeClassifier().fit(x_train, y_train)
rf = RandomForestClassifier().fit(x_train, y_train)
print('Model selesai di train.')

Model selesai di train.


Tulis narasi atau penjelasan algoritma yang Anda gunakan.

## **b. Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Lakukan prediksi menggunakan data uji.
2. Hitung metrik evaluasi seperti Accuracy dan F1-Score (Opsional: Precision dan Recall).
3. Buat confusion matrix untuk melihat detail prediksi benar dan salah.

In [20]:
def evalueate_model(model, x_test, y_test):
  y_pred = model.predict(x_test)
  cm = confusion_matrix(y_test,y_pred)
  result={
      'Confussion Matrix' : cm,
      'Accuracy' : accuracy_score(y_test, y_pred),
      'F1-Score' : f1_score(y_test,y_pred, average='weighted'),
      'Precision' : precision_score(y_test, y_pred, average='weighted'),
      'Recall' : recall_score(y_test, y_pred, average='weighted')
  }
  return result

results = {
    'K-Nearest Neighbors' : evalueate_model(knn, x_test, y_test),
    'Decision Tree' : evalueate_model(dt, x_test, y_test),
    'Random Forest' : evalueate_model(rf, x_test, y_test)
}

summary_df = pd.DataFrame(columns = ['Model', 'Accuracy', 'F1-Score'])

rows = []
for model, metric in results.items():
  rows.append({
      'Model' : model,
      'Recall' : metric['Recall'],
      'Precision' : metric['Precision'],
      'Accuracy' : metric['Accuracy'],
      'F1-Score' : metric['F1-Score']
  })

summary_df = pd.DataFrame(rows)

print(summary_df)


                 Model    Recall  Precision  Accuracy  F1-Score
0  K-Nearest Neighbors  0.988072   0.988128  0.988072  0.988066
1        Decision Tree  0.998012   0.998036  0.998012  0.998016
2        Random Forest  0.998012   0.998036  0.998012  0.998016


Dari ketiga algoritma tersebut dapat saya temukan bahwa
# KNN
Memiliki nilai F1-score yang paling rendah yaitu 0,988066 dibandingkan dengan algoritma lainnya dalam menguji klasifikasi dari data yang telah ada serta algoritma ini memiliki nilai akurasi terendah yaitu 0,988072. Kemudian nilai recall dan precisionnya juga yang terendah dimana untuk recall yaitu 0,988072 dan
precision yaitu 0,988128.

# Decision Tree
Memiliki nilai F1-score yang paling tinggi yaitu 0,998016 sama dengan random forest serta akurasinya  lebih tinggi dari algoritma KNN yaitu 0,998012. Kemudian nilai recall dan precisionnya juga paling tinggi yaitu recall berupa 0.988012 dan precision berupa 0,998036.

# Random Forest
Memiliki nilai F1-score yang paling tinggi yaitu 0,998016 sama dengan decision tree serta akurasinya  lebih tinggi dari algoritma KNN yaitu 0,998012. Kemudian hasil nilai recall dan precisionnya juga tertinggi yaitu recall berupa 0,998012 dan precision berupa 0,998036

Kesimpulan yang dapat saya tarik adalah metode klasifikasi terbaik yang digunakan untuk kasus ini adalah random forest dan decision tree namun karena random forest lebih memakan waktu dan sumber daya maka sangat saya lebih prefer untuk menggunakan decision tree.

Tulis hasil evaluasi algoritma yang digunakan, jika Anda menggunakan 2 algoritma, maka bandingkan hasilnya.

## **c. Tuning Model Klasifikasi (Optional)**

Gunakan GridSearchCV, RandomizedSearchCV, atau metode lainnya untuk mencari kombinasi hyperparameter terbaik

In [7]:
#Type your code here

## **d. Evaluasi Model Klasifikasi setelah Tuning (Optional)**

Berikut adalah rekomendasi tahapannya.
1. Gunakan model dengan hyperparameter terbaik.
2. Hitung ulang metrik evaluasi untuk melihat apakah ada peningkatan performa.

In [8]:
#Type your code here

## **e. Analisis Hasil Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Bandingkan hasil evaluasi sebelum dan setelah tuning (jika dilakukan).
2. Identifikasi kelemahan model, seperti:
  - Precision atau Recall rendah untuk kelas tertentu.
  - Apakah model mengalami overfitting atau underfitting?
3. Berikan rekomendasi tindakan lanjutan, seperti mengumpulkan data tambahan atau mencoba algoritma lain jika hasil belum memuaskan.

**Untuk model decision tree dan random forest sangat ideal dengan data yang ada dimana menghasilkan recall, precision, accuracy dan f1-score tertinggi dibandingkan dengan KNN.**

**Menurut saya model ini tidak overfitting dan underfitting karena data uji sudah diacak dan mendapatkan nilai yang sangat baik pada saat pengujian dilakukan.**

**Untuk rekomendasi saya adalah dengan menambah data uji yang lebih besar untuk mengecek apakah model tersebut overfit atau underfit jika diuji dengan data yang jauh lebih banyak dan beragam. Untuk pengujian algoritma lain saya sarankan untuk uji algoritma seperti SVC, Gaussian dan masih banyak lagi model algoritma klasigikasi lainnya.**