# **1. Import Library**

Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning.

In [11]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import confusion_matrix, accuracy_score, precision_score, recall_score, f1_score

# **2. Memuat Dataset dari Hasil Clustering**

Memuat dataset hasil clustering dari file CSV ke dalam variabel DataFrame.

In [12]:
df = pd.read_csv('fraud_clustering.csv')
df

Unnamed: 0,TransactionAmount,TransactionDuration,LoginAttempts,AccountBalance,Albuquerque,Atlanta,Austin,Baltimore,Boston,Charlotte,...,Sacramento,San Antonio,San Diego,San Francisco,San Jose,Seattle,Tucson,Virginia Beach,Washington,cluster
0,-0.971275,-0.552443,-0.206794,-0.000537,0,0,0,0,0,0,...,0,0,1,0,0,0,0,0,0,Normal
1,0.269440,0.305314,-0.206794,2.216472,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,Normal
2,-0.586882,-0.909842,-0.206794,-1.023534,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,Normal
3,-0.387456,-1.353017,-0.206794,0.885797,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,Normal
4,-0.973468,1.120184,-0.206794,0.593589,0,1,0,0,0,0,...,0,0,0,0,0,0,0,0,0,Normal
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2507,1.913802,-0.152156,-0.206794,1.942606,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,Normal
2508,-0.157779,0.819969,-0.206794,-1.245986,0,0,0,0,0,0,...,0,0,0,0,0,0,1,0,0,Normal
2509,-0.921462,0.376794,-0.206794,-0.443928,0,0,0,0,0,0,...,0,0,1,0,0,0,0,0,0,Normal
2510,-0.382420,-1.438793,-0.206794,-0.855705,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,Normal


# **3. Data Splitting**

Tahap Data Splitting bertujuan untuk memisahkan dataset menjadi dua bagian: data latih (training set) dan data uji (test set).

In [13]:
x = df.drop('cluster', axis=1)
y = df['cluster']

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=42)
print("Shape of training data:", x_train.shape)
print("Shape of testing data:", x_test.shape)

Shape of training data: (1758, 47)
Shape of testing data: (754, 47)


# **4. Membangun Model Klasifikasi**


## **a. Membangun Model Klasifikasi**

Setelah memilih algoritma klasifikasi yang sesuai, langkah selanjutnya adalah melatih model menggunakan data latih.

Berikut adalah rekomendasi tahapannya.
1. Pilih algoritma klasifikasi yang sesuai, seperti Logistic Regression, Decision Tree, Random Forest, atau K-Nearest Neighbors (KNN).
2. Latih model menggunakan data latih.

In [14]:
# Random Forest Classifier: Sangat cocok untuk klasifikasi dengan dimensi yang besar dan logika yang rumit karena random forest membuat decision tree yang rumit dan banyak yang nantinya memberikan hasil yang adil terbaik melalui voting
rf = RandomForestClassifier(random_state=42)
rf.fit(x_train, y_train)
rf_y_train_pred = rf.predict(x_train)
rf_y_test_pred = rf.predict(x_test)

# K-Nearest Neighbor: Memilih k tetangga terdekat, lalu ikut dengan klasifikasi tetangga yang lebih banyak. Cocok untuk klasifikasi simpel dengan logic yang jelas/pengelompokan bulat berdasar spasial yang lebih baik dan cepat
knn = KNeighborsClassifier()
knn.fit(x_train, y_train)
knn_y_train_pred = knn.predict(x_train)
knn_y_test_pred = knn.predict(x_test)

Tulis narasi atau penjelasan algoritma yang Anda gunakan.

## **b. Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Lakukan prediksi menggunakan data uji.
2. Hitung metrik evaluasi seperti Accuracy dan F1-Score (Opsional: Precision dan Recall).
3. Buat confusion matrix untuk melihat detail prediksi benar dan salah.

In [15]:
# Random forest classifier
accurracy_train = accuracy_score(y_train, rf_y_train_pred)
accurracy_test = accuracy_score(y_test, rf_y_test_pred)
f1_train = f1_score(y_train, rf_y_train_pred, average='weighted')
f1_test = f1_score(y_test, rf_y_test_pred, average='weighted')
print("Akurasi train:", accurracy_train)
print("Akurasi test:", accurracy_test)
print("F1 score train:", f1_train)
print("F1 score test:", f1_test)
confusion_matrix(y_test, rf_y_test_pred)

Akurasi train: 1.0
Akurasi test: 0.9960212201591512
F1 score train: 1.0
F1 score test: 0.9959498501723699


array([[713,   0],
       [  3,  38]])

In [16]:
# K-Nearest Neighbor
accurracy_train = accuracy_score(y_train, knn_y_train_pred)
accurracy_test = accuracy_score(y_test, knn_y_test_pred)
f1_train = f1_score(y_train, knn_y_train_pred, average='weighted')
f1_test = f1_score(y_test, knn_y_test_pred, average='weighted')
print("Akurasi train:", accurracy_train)
print("Akurasi test:", accurracy_test)
print("F1 score train:", f1_train)
print("F1 score test:", f1_test)
confusion_matrix(y_test, knn_y_test_pred)

Akurasi train: 0.9920364050056882
Akurasi test: 0.9907161803713528
F1 score train: 0.9918145999471532
F1 score test: 0.9904309767679969


array([[712,   1],
       [  6,  35]])

Tulis hasil evaluasi algoritma yang digunakan, jika Anda menggunakan 2 algoritma, maka bandingkan hasilnya.

## **c. Tuning Model Klasifikasi (Optional)**

Gunakan GridSearchCV, RandomizedSearchCV, atau metode lainnya untuk mencari kombinasi hyperparameter terbaik

In [17]:
#Type your code here

## **d. Evaluasi Model Klasifikasi setelah Tuning (Optional)**

Berikut adalah rekomendasi tahapannya.
1. Gunakan model dengan hyperparameter terbaik.
2. Hitung ulang metrik evaluasi untuk melihat apakah ada peningkatan performa.

In [18]:
#Type your code here

## **e. Analisis Hasil Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Bandingkan hasil evaluasi sebelum dan setelah tuning (jika dilakukan).
2. Identifikasi kelemahan model, seperti:
  - Precision atau Recall rendah untuk kelas tertentu.
  - Apakah model mengalami overfitting atau underfitting?
3. Berikan rekomendasi tindakan lanjutan, seperti mengumpulkan data tambahan atau mencoba algoritma lain jika hasil belum memuaskan.

Model mendapatkan beberapa False Negative dimana beberapa kasus transaksi yang penipuan dianggap tidak penipuan, ini tentu perlu ditingkatkan sebaik mungkin. Untuk False Positive, KNN dalam beberapa kasus transaksi menggangap transaksi normal sebagai penipuan. Dataset secara baik mengelompokan transaksi sehingga secara umum model dapat digunakan dengan baik tanpa banyak tunning.

Demikian dari kelemahan model tersebut, menambahkan data tambahan pasti akan membuat model lebih aware dan dapat mengenali transaksi penipuan dan tidak penipuan lebih jauh lagi. Terutama untuk data transaksi penipuan akan sangat membantu model menghindari False Negative.