# **1. Import Library**

Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning.

In [18]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score
from sklearn.metrics import classification_report
from sklearn.model_selection import GridSearchCV

# **2. Memuat Dataset dari Hasil Clustering**

Memuat dataset hasil clustering dari file CSV ke dalam variabel DataFrame.

In [19]:
df = pd.read_csv('Dataset_inisiasi.csv')
df

Unnamed: 0,TransactionAmount,AgeGroup,CustomerOccupation,TransactionDuration,AccountBalance,Cluster
0,14.09,61-80,Doctor,81,5112.21,2
1,376.24,61-80,Doctor,141,13758.91,0
2,126.29,18-40,Student,56,1122.35,1
3,184.50,18-40,Student,25,8569.06,1
4,13.45,18-40,Student,198,7429.40,1
...,...,...,...,...,...,...
2507,856.21,18-40,Doctor,109,12690.79,0
2508,251.54,41-60,Doctor,177,254.75,2
2509,28.63,41-60,Retired,146,3382.91,2
2510,185.97,18-40,Student,19,1776.91,1


In [20]:
label_encoder = LabelEncoder()

categorical_columns = df.select_dtypes(include=['object']).columns

for col in categorical_columns:
    df[col] = label_encoder.fit_transform(df[col])

df

Unnamed: 0,TransactionAmount,AgeGroup,CustomerOccupation,TransactionDuration,AccountBalance,Cluster
0,14.09,2,0,81,5112.21,2
1,376.24,2,0,141,13758.91,0
2,126.29,0,3,56,1122.35,1
3,184.50,0,3,25,8569.06,1
4,13.45,0,3,198,7429.40,1
...,...,...,...,...,...,...
2507,856.21,0,0,109,12690.79,0
2508,251.54,1,0,177,254.75,2
2509,28.63,1,2,146,3382.91,2
2510,185.97,0,3,19,1776.91,1


# **3. Data Splitting**

Tahap Data Splitting bertujuan untuk memisahkan dataset menjadi dua bagian: data latih (training set) dan data uji (test set).

In [21]:
# Pisahkan fitur (X) dan target (y)
X = df.drop('Cluster', axis=1)
y = df['Cluster']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(f"Jumlah data latih: {X_train.shape[0]}")
print(f"Jumlah data uji: {X_test.shape[0]}")

Jumlah data latih: 2009
Jumlah data uji: 503


# **4. Membangun Model Klasifikasi**


## **a. Membangun Model Klasifikasi**

Setelah memilih algoritma klasifikasi yang sesuai, langkah selanjutnya adalah melatih model menggunakan data latih.

Berikut adalah rekomendasi tahapannya.
1. Pilih algoritma klasifikasi yang sesuai, seperti Logistic Regression, Decision Tree, Random Forest, atau K-Nearest Neighbors (KNN).
2. Latih model menggunakan data latih.

In [22]:
# Membuat model klasifikasi
lr = LogisticRegression(random_state=42 ,max_iter=1000).fit(X_train, y_train)
dt = DecisionTreeClassifier(random_state=42).fit(X_train, y_train)
rf = RandomForestClassifier(random_state=42).fit(X_train, y_train)
knn = KNeighborsClassifier().fit(X_train, y_train)

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


## **b. Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Lakukan prediksi menggunakan data uji.
2. Hitung metrik evaluasi seperti Accuracy dan F1-Score (Opsional: Precision dan Recall).
3. Buat confusion matrix untuk melihat detail prediksi benar dan salah.

In [23]:
# Evaluasi model Logistic Regression
y_pred = lr.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f"Akurasi Model: {accuracy}")
print("Laporan Klasifikasi:")
print(classification_report(y_test, y_pred))

Akurasi Model: 0.9960238568588469
Laporan Klasifikasi:
              precision    recall  f1-score   support

           0       0.99      1.00      0.99       168
           1       1.00      1.00      1.00       142
           2       1.00      0.99      0.99       193

    accuracy                           1.00       503
   macro avg       1.00      1.00      1.00       503
weighted avg       1.00      1.00      1.00       503



In [24]:
# Evaluasi model Decision Tree
y_pred = dt.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f"Akurasi Model: {accuracy}")
print("Laporan Klasifikasi:")
print(classification_report(y_test, y_pred))

Akurasi Model: 0.9900596421471173
Laporan Klasifikasi:
              precision    recall  f1-score   support

           0       0.98      0.99      0.99       168
           1       1.00      0.99      1.00       142
           2       0.99      0.99      0.99       193

    accuracy                           0.99       503
   macro avg       0.99      0.99      0.99       503
weighted avg       0.99      0.99      0.99       503



In [25]:
# Evaluasi model Random Forest
y_pred = rf.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f"Akurasi Model: {accuracy}")
print("Laporan Klasifikasi:")
print(classification_report(y_test, y_pred))

Akurasi Model: 0.9900596421471173
Laporan Klasifikasi:
              precision    recall  f1-score   support

           0       0.98      0.99      0.99       168
           1       1.00      0.99      1.00       142
           2       0.99      0.98      0.99       193

    accuracy                           0.99       503
   macro avg       0.99      0.99      0.99       503
weighted avg       0.99      0.99      0.99       503



In [26]:
# Evaluasi model K-Nearest Neighbors
y_pred = knn.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f"Akurasi Model: {accuracy}")
print("Laporan Klasifikasi:")
print(classification_report(y_test, y_pred))

Akurasi Model: 0.679920477137177
Laporan Klasifikasi:
              precision    recall  f1-score   support

           0       0.72      0.80      0.76       168
           1       0.69      0.71      0.70       142
           2       0.63      0.55      0.59       193

    accuracy                           0.68       503
   macro avg       0.68      0.69      0.68       503
weighted avg       0.68      0.68      0.68       503



Analisis Perbandingan Model
- Logistic Regression menunjukan akurasi tertinggi dan performa yang hampir sempurna di semua metrik.
- Decision Tree dan Random Forest juga memberikan hasil yang sangat baik, dengan sedikit penurunan akurasi dibandingkan dengan Logistic Regression, tetapi masih sangat stabil.
- K-Nearest Neighbors (KNN) memiliki performa yang buruk dibandingkan dengan model-model lain. Hal ini mungkin disebabkan oleh kurangnya kemampuan KNN dalam menangani data yang lebih kompleks atau kelas yang tidak seimbang.

## **c. Tuning Model Klasifikasi (Optional)**

Gunakan GridSearchCV, RandomizedSearchCV, atau metode lainnya untuk mencari kombinasi hyperparameter terbaik

In [27]:
# Definisikan parameter grid untuk tuning Logistic Regression
param_grid_lr = {
    'C': [0.1, 1, 10],
    'solver': ['liblinear', 'saga'],
    'max_iter': [100, 200, 300]
}

In [28]:
# Definisikan parameter grid untuk tuning Decision Tree
param_grid_dt = {
    'max_depth': [5, 10, 20, None],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]
}

In [29]:
# Definisikan parameter grid untuk tuning Random Forest
param_grid_rf = {
    'n_estimators': [50, 100, 200],
    'max_depth': [10, 20, None],
    'min_samples_split': [2, 5],
    'min_samples_leaf': [1, 2]
}

In [30]:
# Definisikan parameter grid untuk tuning K-Nearest Neighbors
param_grid_knn = {
    'n_neighbors': [3, 5, 7, 9],
    'weights': ['uniform', 'distance'],
    'metric': ['euclidean', 'manhattan']
}

## **d. Evaluasi Model Klasifikasi setelah Tuning (Optional)**

Berikut adalah rekomendasi tahapannya.
1. Gunakan model dengan hyperparameter terbaik.
2. Hitung ulang metrik evaluasi untuk melihat apakah ada peningkatan performa.

In [31]:
# Logistic Regression Tuning
lr = LogisticRegression()
grid_search_lr = GridSearchCV(lr, param_grid_lr, cv=5, n_jobs=-1)
grid_search_lr.fit(X_train, y_train)
print(f"Best parameters for Logistic Regression: {grid_search_lr.best_params_}")
y_pred_lr = grid_search_lr.best_estimator_.predict(X_test)
print(f"Akurasi Model: {accuracy_score(y_test, y_pred_lr)}")
print("Laporan Klasifikasi:")
print(classification_report(y_test, y_pred_lr))

Best parameters for Logistic Regression: {'C': 10, 'max_iter': 100, 'solver': 'liblinear'}
Akurasi Model: 0.9781312127236581
Laporan Klasifikasi:
              precision    recall  f1-score   support

           0       0.95      0.99      0.97       168
           1       1.00      0.98      0.99       142
           2       0.99      0.97      0.98       193

    accuracy                           0.98       503
   macro avg       0.98      0.98      0.98       503
weighted avg       0.98      0.98      0.98       503



In [32]:
# Decision Tree Tuning
dt = DecisionTreeClassifier()
grid_search_dt = GridSearchCV(dt, param_grid_dt, cv=5, n_jobs=-1)
grid_search_dt.fit(X_train, y_train)
print(f"Best parameters for Decision Tree: {grid_search_dt.best_params_}")
y_pred_dt = grid_search_dt.best_estimator_.predict(X_test)
print(f"Akurasi Model: {accuracy_score(y_test, y_pred_dt)}")
print("Laporan Klasifikasi:")
print(classification_report(y_test, y_pred_dt))

Best parameters for Decision Tree: {'max_depth': 10, 'min_samples_leaf': 1, 'min_samples_split': 2}
Akurasi Model: 0.9920477137176938
Laporan Klasifikasi:
              precision    recall  f1-score   support

           0       0.98      0.99      0.99       168
           1       1.00      0.99      1.00       142
           2       0.99      0.99      0.99       193

    accuracy                           0.99       503
   macro avg       0.99      0.99      0.99       503
weighted avg       0.99      0.99      0.99       503



In [16]:
# Random Forest Tuning
rf = RandomForestClassifier()
grid_search_rf = GridSearchCV(rf, param_grid_rf, cv=5, n_jobs=-1)
grid_search_rf.fit(X_train, y_train)
print(f"Best parameters for Random Forest: {grid_search_rf.best_params_}")
y_pred_rf = grid_search_rf.best_estimator_.predict(X_test)
print(f"Akurasi Model: {accuracy_score(y_test, y_pred_rf)}")
print("Laporan Klasifikasi:")
print(classification_report(y_test, y_pred_rf))

Best parameters for Random Forest: {'max_depth': 20, 'min_samples_leaf': 1, 'min_samples_split': 5, 'n_estimators': 50}
Akurasi Model: 0.9900596421471173
Laporan Klasifikasi:
              precision    recall  f1-score   support

           0       0.98      0.99      0.99       168
           1       1.00      0.99      1.00       142
           2       0.99      0.98      0.99       193

    accuracy                           0.99       503
   macro avg       0.99      0.99      0.99       503
weighted avg       0.99      0.99      0.99       503



In [17]:
# K-Nearest Neighbors Tuning
knn = KNeighborsClassifier()
grid_search_knn = GridSearchCV(knn, param_grid_knn, cv=5, n_jobs=-1)
grid_search_knn.fit(X_train, y_train)
print(f"Best parameters for KNN: {grid_search_knn.best_params_}")
y_pred_knn = grid_search_knn.best_estimator_.predict(X_test)
print(f"Akurasi Model: {accuracy_score(y_test, y_pred_knn)}")
print("Laporan Klasifikasi:")
print(classification_report(y_test, y_pred_knn))

Best parameters for KNN: {'metric': 'euclidean', 'n_neighbors': 9, 'weights': 'uniform'}
Akurasi Model: 0.6998011928429424
Laporan Klasifikasi:
              precision    recall  f1-score   support

           0       0.71      0.83      0.77       168
           1       0.71      0.77      0.74       142
           2       0.68      0.53      0.59       193

    accuracy                           0.70       503
   macro avg       0.70      0.71      0.70       503
weighted avg       0.70      0.70      0.69       503



## **e. Analisis Hasil Evaluasi Model Klasifikasi**

1. Logistic Regression
- Sebelum Tuning:
    - Akurasi: 99.60%
    - Precision, Recall, F1-Score: Semua metrik sangat tinggi, terutama untuk kelas 1 dan kelas 2, dengan precision dan recall mendekati 1.00.
- Setelah Tuning:
    - Akurasi: 97.81%
    - Precision, Recall, F1-Score: Penurunan terlihat pada kelas 0, dengan precision dan recall menurun menjadi sekitar 0.95 dan 0.99. Kelas 1 dan 2 tetap menunjukkan hasil yang sangat baik.
- Analisis: Setelah tuning, Akurasi Logistic Regression sedikit menurun. Meskipun ada penurunan performa, hasilnya masih cukup tinggi, terutama pada kelas 1 dan kelas 2. Penurunan mungkin disebabkan oleh parameter yang lebih disesuaikan untuk model yang lebih general, sehingga menyebabkan sedikit penurunan pada kelas tertentu (terutama kelas 0).

2. Decision Tree
- Sebelum Tuning:
    - Akurasi: 99.01%
    - Precision, Recall, F1-Score: Model menunjukkan performa yang sangat baik di semua kelas, meskipun kelas 2 memiliki sedikit penurunan pada recall (0.99).
- Setelah Tuning:
    - Akurasi: 99.20%
    - Precision, Recall, F1-Score: Tuning memperbaiki performa, terutama di kelas 0 dan 2, dengan nilai precision dan recall yang lebih baik. Kelas 1 tetap menunjukkan hasil yang sangat baik.
- Analisis: Tuning Decision Tree meningkatkan akurasi sedikit dan menjaga performa tinggi di semua kelas. Model ini sudah memberikan hasil yang baik tanpa penurunan signifikan, dan tuning lebih lanjut dapat meningkatkan kestabilan model.

3. Random Forest
- Sebelum Tuning:
    - Akurasi: 99.01%
    - Precision, Recall, F1-Score: Performanya sangat baik di semua kelas, mirip dengan Decision Tree.
- Setelah Tuning:
    - Akurasi: 99.01% (tidak ada perubahan)
    - Precision, Recall, F1-Score: Tidak ada perubahan signifikan dibandingkan dengan model sebelum tuning.
- Analisis: Tuning Random Forest tidak menunjukkan peningkatan yang signifikan pada metrik evaluasi, meskipun model sudah memiliki performa yang sangat baik sebelumnya. Hal ini menunjukkan bahwa model ini sudah optimal dengan parameter default yang dipilih.

4. K-Nearest Neighbors (KNN)
- Sebelum Tuning:
    - Akurasi: 67.99%
    - Precision, Recall, F1-Score: Precision dan recall cukup rendah, terutama untuk kelas 2, dengan f1-score yang lebih rendah di kelas 2.
- Setelah Tuning:
    - Akurasi: 69.98%
    - Precision, Recall, F1-Score: Hasil masih kurang memuaskan, meskipun ada sedikit peningkatan pada kelas 0 dan 1. Kelas 2 tetap menunjukkan performa rendah dengan recall yang hanya 0.53.
- Analisis: Tuning KNN sedikit memperbaiki hasil, tetapi akurasi masih jauh lebih rendah dibandingkan dengan model lainnya. KNN tampaknya tidak cukup baik untuk dataset ini, terutama karena model kesulitan dalam menangani kelas 2.