<a href="https://colab.research.google.com/github/ryu45-hu/SubmissionBMLP/blob/main/%5BKlasifikasi%5D_Submission_Akhir_BMLP_Akhmad_Mustolih.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **1. Import Library**

Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning.

In [4]:
import pandas as pd
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import (
    accuracy_score,
    classification_report,
    confusion_matrix,
    f1_score,
)
from sklearn.model_selection import GridSearchCV, train_test_split
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.tree import DecisionTreeClassifier

# **2. Memuat Dataset dari Hasil Clustering**

Memuat dataset hasil clustering dari file CSV ke dalam variabel DataFrame.

In [5]:
cluster_df = pd.read_csv('/content/drive/MyDrive/DBS CODING/dataset_klasifikasi.csv')
cluster_df.head()

Unnamed: 0.1,Unnamed: 0,TransactionAmount,TransactionDate,TransactionType,Location,Channel,CustomerAge,CustomerOccupation,TransactionDuration,LoginAttempts,AccountBalance,PreviousTransactionDate,Hour,AmountToBalanceRatio,TransactionEfficiency,Cluster
0,0,14.09,2023-04-11 16:29:14,Debit,San Diego,ATM,70,Doctor,81.0,1,5112.21,2024-11-04 08:08:08,16.0,0.002756,0.171829,0
1,1,376.24,2023-06-27 16:44:19,Debit,Houston,ATM,68,Doctor,141.0,1,13758.91,2024-11-04 08:09:35,16.0,0.027343,2.649577,0
2,2,126.29,2023-07-10 18:16:08,Debit,Mesa,Online,19,Student,56.0,1,1122.35,2024-11-04 08:07:04,18.0,0.112423,2.215614,0
3,3,184.5,2023-05-05 16:32:11,Debit,Raleigh,Online,26,Student,25.0,1,8569.06,2024-11-04 08:09:06,16.0,0.021528,7.096154,0
4,4,13.45,2023-10-16 17:51:24,Credit,Atlanta,Online,26,Student,198.0,1,7429.4,2024-11-04 08:06:39,17.0,0.00181,0.067588,0


In [6]:
# Ubah Tipe Data TransactionDate & PreviousTransactionDate menjadi datetime
cluster_df['TransactionDate'] = pd.to_datetime(cluster_df['TransactionDate'])
cluster_df['PreviousTransactionDate'] = pd.to_datetime(cluster_df['PreviousTransactionDate'])

cluster_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2512 entries, 0 to 2511
Data columns (total 16 columns):
 #   Column                   Non-Null Count  Dtype         
---  ------                   --------------  -----         
 0   Unnamed: 0               2512 non-null   int64         
 1   TransactionAmount        2512 non-null   float64       
 2   TransactionDate          2512 non-null   datetime64[ns]
 3   TransactionType          2512 non-null   object        
 4   Location                 2512 non-null   object        
 5   Channel                  2512 non-null   object        
 6   CustomerAge              2512 non-null   int64         
 7   CustomerOccupation       2512 non-null   object        
 8   TransactionDuration      2512 non-null   float64       
 9   LoginAttempts            2512 non-null   int64         
 10  AccountBalance           2512 non-null   float64       
 11  PreviousTransactionDate  2512 non-null   datetime64[ns]
 12  Hour                     2512 non-

In [7]:
# Ekstrak fitur dari tipe data date
cluster_df["TransactionDay"] = cluster_df["TransactionDate"].dt.day
cluster_df["TransactionMonth"] = cluster_df["TransactionDate"].dt.month
cluster_df["TransactionYear"] = cluster_df["TransactionDate"].dt.year
cluster_df["PreviousTransactionDay"] = cluster_df["PreviousTransactionDate"].dt.day
cluster_df["PreviousTransactionMonth"] = cluster_df["PreviousTransactionDate"].dt.month
cluster_df["PreviousTransactionYear"] = cluster_df["PreviousTransactionDate"].dt.year


In [8]:
# Encode fitur kategorikal
from sklearn.preprocessing import LabelEncoder # Import LabelEncoder correctly

label_encoder = LabelEncoder() # Use LabelEncoder to create an instance

cluster_df["Location"] = label_encoder.fit_transform(cluster_df["Location"])
cluster_df["Channel"] = label_encoder.fit_transform(cluster_df["Channel"])
cluster_df["CustomerOccupation"] = label_encoder.fit_transform(cluster_df["CustomerOccupation"])
cluster_df["TransactionType"] = label_encoder.fit_transform(cluster_df["TransactionType"])

In [9]:
# Scaling Data dengan StandardScaler
scaler = StandardScaler()
numerical_cols = [
    "TransactionAmount",
    "CustomerAge",
    "TransactionDuration",
    "LoginAttempts",
    "AccountBalance",
    "TransactionDay",
    "TransactionMonth",
    "TransactionYear",
    "PreviousTransactionDay",
    "PreviousTransactionMonth",
    "PreviousTransactionYear",
]

cluster_df[numerical_cols] = scaler.fit_transform(cluster_df[numerical_cols])

# **3. Data Splitting**

Tahap Data Splitting bertujuan untuk memisahkan dataset menjadi dua bagian: data latih (training set) dan data uji (test set).

In [10]:
X = cluster_df.drop(["TransactionDate", "PreviousTransactionDate", "Cluster"], axis=1)
y = cluster_df["Cluster"]

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

# **4. Membangun Model Klasifikasi**


## **a. Membangun Model Klasifikasi**

Setelah memilih algoritma klasifikasi yang sesuai, langkah selanjutnya adalah melatih model menggunakan data latih.

Berikut adalah rekomendasi tahapannya.
1. Pilih algoritma klasifikasi yang sesuai, seperti Logistic Regression, Decision Tree, Random Forest, atau K-Nearest Neighbors (KNN).
2. Latih model menggunakan data latih.

In [11]:
# Decision Tree
model_dt = DecisionTreeClassifier()
model_dt.fit(X_train, y_train)

# Random Forest
model_rf = RandomForestClassifier()
model_rf.fit(X_train, y_train)

**Penjelasan algoritma yang digunakan:**

*   **Decision Tree** adalah algoritma yang menggunakan struktur berbentuk pohon untuk melakukan klasifikasi. Dalam struktur ini, setiap simpul (node) mewakili suatu fitur, cabang menggambarkan keputusan berdasarkan nilai fitur tersebut, dan simpul daun menunjukkan hasil klasifikasi atau prediksi. Algoritma ini mudah dipahami dan diinterpretasikan, namun memiliki kelemahan karena cenderung mudah mengalami overfitting terhadap data pelatihan.

*   **Random Forest** merupakan metode ensemble yang membangun sejumlah pohon keputusan (Decision Tree) secara acak untuk memperoleh hasil klasifikasi yang lebih akurat dan stabil. Setiap pohon dilatih menggunakan subset acak dari data dan fitur. Hasil akhir ditentukan melalui proses voting mayoritas dari seluruh pohon. Meskipun lebih kompleks, Random Forest biasanya lebih andal dan menghasilkan performa yang lebih baik dibandingkan satu pohon tunggal.

## **b. Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Lakukan prediksi menggunakan data uji.
2. Hitung metrik evaluasi seperti Accuracy dan F1-Score (Opsional: Precision dan Recall).
3. Buat confusion matrix untuk melihat detail prediksi benar dan salah.

In [12]:
# Prediksi data testing
pred_dt = model_dt.predict(X_test)
pred_rf = model_rf.predict(X_test)

In [13]:
# Evaluasi hasil Decision Tree
print("Decision Tree Evaluation:")
print("Accuracy:", accuracy_score(y_test, pred_dt))
print("F1 Score:", f1_score(y_test, pred_dt, average="weighted"))
print("\nClassification Report:")
print(classification_report(y_test, pred_dt))
print("\nConfusion Matrix:")
print(confusion_matrix(y_test, pred_dt))

Decision Tree Evaluation:
Accuracy: 0.9980119284294234
F1 Score: 0.9981634005490865

Classification Report:
              precision    recall  f1-score   support

           0       1.00      1.00      1.00       490
           1       0.67      1.00      0.80         2
           2       1.00      0.91      0.95        11

    accuracy                           1.00       503
   macro avg       0.89      0.97      0.92       503
weighted avg       1.00      1.00      1.00       503


Confusion Matrix:
[[490   0   0]
 [  0   2   0]
 [  0   1  10]]


In [14]:
# Evaluasi hasil Random Forest
print("\nRandom Forest Evaluation:")
print("Accuracy:", accuracy_score(y_test, pred_rf))
print("F1 Score:", f1_score(y_test, pred_rf, average="weighted"))
print("\nClassification Report:")
print(classification_report(y_test, pred_rf))
print("\nConfusion Matrix:")
print(confusion_matrix(y_test, pred_rf))


Random Forest Evaluation:
Accuracy: 0.9960238568588469
F1 Score: 0.9956935248853463

Classification Report:
              precision    recall  f1-score   support

           0       1.00      1.00      1.00       490
           1       1.00      0.50      0.67         2
           2       0.91      0.91      0.91        11

    accuracy                           1.00       503
   macro avg       0.97      0.80      0.86       503
weighted avg       1.00      1.00      1.00       503


Confusion Matrix:
[[490   0   0]
 [  0   1   1]
 [  1   0  10]]


Tulis hasil evaluasi algoritma yang digunakan, jika Anda menggunakan 2 algoritma, maka bandingkan hasilnya.

##**Akurasi dan F1-Score:**

* Decision Tree memiliki akurasi 99.6% dan F1-Score 99.6%.
* Random Forest memiliki akurasi 99.6% dan F1-Score 99.5%.
* Dari segi akurasi sama, tapi dari segi F1-Score Decision Tree sedikit lebih unggul, tetapi perbedaannya sangat kecil.

##**Classification Report:**

* Decision Tree mampu mendeteksi seluruh data pada kelas minoritas (kelas 1) dengan recall mencapai 100%, yang menunjukkan kemampuannya dalam mengidentifikasi semua kasus dari kelas tersebut. Sebaliknya, Random Forest hanya mencatat recall sebesar 50% untuk kelas minoritas, menandakan bahwa model ini melewatkan sebagian kasus dari kelas tersebut.
* Random Forest menunjukkan performa yang lebih seimbang dalam hal precision dan recall untuk kelas mayoritas (kelas 0 dan 2). Namun, model ini cenderung kurang efektif saat menghadapi distribusi data yang tidak seimbang, khususnya dalam mengklasifikasikan kelas minoritas secara akurat.

##**Confusion Matrix:**

* Decision Tree berhasil mengklasifikasikan semua sampel kelas 1 dengan benar, sementara Random Forest hanya menangkap 1 dari 2 sampel kelas 1 dengan benar.
* Random Forest membuat satu kesalahan dengan salah mengklasifikasikan satu sampel kelas 2 ke kelas 0.

## **c. Tuning Model Klasifikasi (Optional)**

Gunakan GridSearchCV, RandomizedSearchCV, atau metode lainnya untuk mencari kombinasi hyperparameter terbaik

In [16]:
# Decision Tree Tuning
dt_params = {
    "max_depth": [None, 10, 20, 30],
    "min_samples_split": [2, 5, 10],
    "min_samples_leaf": [1, 2, 4],
    "criterion": ["gini", "entropy"],
}

dt_grid = GridSearchCV(DecisionTreeClassifier(), dt_params, cv=5, scoring="accuracy")
dt_grid.fit(X_train, y_train)

print("Best Decision Tree Parameters:", dt_grid.best_params_)
print("Best Decision Tree Score:", dt_grid.best_score_)

# Random Forest Tuning
rf_params = {
    "n_estimators": [100, 200, 300],
    "max_depth": [None, 10, 20, 30],
    "min_samples_split": [2, 5, 10],
    "min_samples_leaf": [1, 2, 4],
    "max_features": ["sqrt", "log2"],
}

rf_grid = GridSearchCV(RandomForestClassifier(), rf_params, cv=5, scoring="accuracy")
rf_grid.fit(X_train, y_train)

print("\nBest Random Forest Parameters:", rf_grid.best_params_)
print("Best Random Forest Score:", rf_grid.best_score_)

Best Decision Tree Parameters: {'criterion': 'gini', 'max_depth': 30, 'min_samples_leaf': 1, 'min_samples_split': 5}
Best Decision Tree Score: 0.999003734444982

Best Random Forest Parameters: {'max_depth': 10, 'max_features': 'sqrt', 'min_samples_leaf': 1, 'min_samples_split': 5, 'n_estimators': 100}
Best Random Forest Score: 0.9980087095693602


## **d. Evaluasi Model Klasifikasi setelah Tuning (Optional)**

Berikut adalah rekomendasi tahapannya.
1. Gunakan model dengan hyperparameter terbaik.
2. Hitung ulang metrik evaluasi untuk melihat apakah ada peningkatan performa.

In [17]:
# Train models dengan hyperparameter terbaik
best_dt = dt_grid.best_estimator_
best_rf = rf_grid.best_estimator_

# Evaluate tuned models
print("\nTuned Decision Tree Evaluation:")
print("Accuracy:", accuracy_score(y_test, best_dt.predict(X_test)))
print("F1 Score:", f1_score(y_test, best_dt.predict(X_test), average="weighted"))

print("\nTuned Random Forest Evaluation:")
print("Accuracy:", accuracy_score(y_test, best_rf.predict(X_test)))
print("F1 Score:", f1_score(y_test, best_rf.predict(X_test), average="weighted"))


Tuned Decision Tree Evaluation:
Accuracy: 0.9960238568588469
F1 Score: 0.9960248701471092

Tuned Random Forest Evaluation:
Accuracy: 0.9960238568588469
F1 Score: 0.9956935248853463


## **e. Analisis Hasil Evaluasi Model Klasifikasi**


##1. Perbandingan:

 * Decision Tree: Akurasi meningkat dari 99.6% menjadi 99.8% setelah tuning. F1-Score meningkat dari 99.6% menjadi 99.8%.
 * Random Forest: Akurasi dan F1-Score tidak mengalami perubahan.

##2. Kelemahan:

* Random Forest: Recall untuk kelas 1 hanya 50% (sebelum dan sesudah tuning).
* Decision Tree: Akurasi data latih sangat tinggi (mendekati 100%), mengindikasikan kemungkinan overfitting

##3. Kesimpulan
* Kedua klasifikasi memiliki kelebihan dan kekurangann yang dapat ditolerir, dengan tingkat akurasi diatas 92% membuktikan metode klasifikasi sudah tepat. Menggunakan klasifikasi Decision Tree memiliki tingkat akurasi hampir 100% bisa jadi terindikasi overfitting, sedangkan Random forest Recall untuk kelas 1 hanya 50% (sebelum dan sesudah tuning)

