# **1. Import Library**

Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning.

In [63]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder, StandardScaler, MinMaxScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import confusion_matrix, accuracy_score, precision_score, recall_score, f1_score

# **2. Memuat Dataset dari Hasil Clustering**

Memuat dataset hasil clustering dari file CSV ke dalam variabel DataFrame.

In [64]:
df = pd.read_csv('clustered_data.csv')
df.head()

Unnamed: 0,TransactionAmount,TransactionType,Location,Channel,CustomerAge,CustomerOccupation,TransactionDuration,LoginAttempts,AccountBalance,Cluster
0,16.16,Debit,San Diego,ATM,70.0,Doctor,81.0,1.0,5112.21,1
1,376.24,Debit,Houston,ATM,68.0,Doctor,141.0,1.0,12904.66,1
2,126.29,Debit,Mesa,Online,20.0,Student,56.0,1.0,1122.35,3
3,184.5,Debit,Raleigh,Online,26.0,Student,25.0,1.0,8569.06,3
4,16.16,Credit,Atlanta,Online,26.0,Student,198.0,1.0,7429.4,0


In [65]:
# Daftar kolom kategori
categorical_columns = ['TransactionType', 'Location', 'Channel', 'CustomerOccupation']

# Dictionary untuk menyimpan encoder
label_encoders = {}

# Encoding setiap kolom dan menyimpan LabelEncoder
for column in categorical_columns:
    label_encoders[column] = LabelEncoder()
    df[column] = label_encoders[column].fit_transform(df[column])

# Menampilkan hasil encoding
df.head()

Unnamed: 0,TransactionAmount,TransactionType,Location,Channel,CustomerAge,CustomerOccupation,TransactionDuration,LoginAttempts,AccountBalance,Cluster
0,16.16,1,36,0,70.0,0,81.0,1.0,5112.21,1
1,376.24,1,15,0,68.0,0,141.0,1.0,12904.66,1
2,126.29,1,23,2,20.0,3,56.0,1.0,1122.35,3
3,184.5,1,33,2,26.0,3,25.0,1.0,8569.06,3
4,16.16,0,1,2,26.0,3,198.0,1.0,7429.4,0


# **3. Data Splitting**

Tahap Data Splitting bertujuan untuk memisahkan dataset menjadi dua bagian: data latih (training set) dan data uji (test set).

In [66]:
X = df.drop('Cluster', axis=1)
y = df['Cluster']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# **4. Membangun Model Klasifikasi**


## **a. Membangun Model Klasifikasi**

Setelah memilih algoritma klasifikasi yang sesuai, langkah selanjutnya adalah melatih model menggunakan data latih.

Berikut adalah rekomendasi tahapannya.
1. Pilih algoritma klasifikasi yang sesuai, seperti Logistic Regression, Decision Tree, Random Forest, atau K-Nearest Neighbors (KNN).
2. Latih model menggunakan data latih.

In [67]:
from sklearn.neighbors import KNeighborsRegressor # Import KNeighborsRegressor

dt = DecisionTreeClassifier().fit(X_train, y_train)
rf = RandomForestClassifier().fit(X_train, y_train)
nb = GaussianNB().fit(X_train, y_train)

print("Model training selesai.")

Model training selesai.


Tulis narasi atau penjelasan algoritma yang Anda gunakan.

## **b. Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Lakukan prediksi menggunakan data uji.
2. Hitung metrik evaluasi seperti Accuracy dan F1-Score (Opsional: Precision dan Recall).
3. Buat confusion matrix untuk melihat detail prediksi benar dan salah.

In [68]:
# Prediksi menggunakan data uji
y_pred_dt = dt.predict(X_test)
y_pred_rf = rf.predict(X_test)
y_pred_nb = nb.predict(X_test)

# Evaluasi model
def evaluate_model(y_true, y_pred, model_name):
    accuracy = accuracy_score(y_true, y_pred)
    f1 = f1_score(y_true, y_pred, average='weighted')  # Menggunakan 'weighted' untuk menangani kelas yang tidak seimbang
    precision = precision_score(y_true, y_pred, average='weighted')
    recall = recall_score(y_true, y_pred, average='weighted')
    print(f"Hasil Evaluasi Model {model_name}:")
    print(f"Accuracy: {accuracy}")
    print(f"F1-Score: {f1}")
    print(f"Precision: {precision}")
    print(f"Recall: {recall}")
    print("Confusion Matrix:")
    cm = confusion_matrix(y_true, y_pred)
    print(cm)
    print("-" * 30)

evaluate_model(y_test, y_pred_dt, "Decision Tree")
evaluate_model(y_test, y_pred_rf, "Random Forest")
evaluate_model(y_test, y_pred_nb, "Naive Bayes")


Hasil Evaluasi Model Decision Tree:
Accuracy: 1.0
F1-Score: 1.0
Precision: 1.0
Recall: 1.0
Confusion Matrix:
[[100   0   0   0]
 [  0 166   0   0]
 [  0   0 131   0]
 [  0   0   0 106]]
------------------------------
Hasil Evaluasi Model Random Forest:
Accuracy: 1.0
F1-Score: 1.0
Precision: 1.0
Recall: 1.0
Confusion Matrix:
[[100   0   0   0]
 [  0 166   0   0]
 [  0   0 131   0]
 [  0   0   0 106]]
------------------------------
Hasil Evaluasi Model Naive Bayes:
Accuracy: 1.0
F1-Score: 1.0
Precision: 1.0
Recall: 1.0
Confusion Matrix:
[[100   0   0   0]
 [  0 166   0   0]
 [  0   0 131   0]
 [  0   0   0 106]]
------------------------------


Tulis hasil evaluasi algoritma yang digunakan, jika Anda menggunakan 2 algoritma, maka bandingkan hasilnya.

## **c. Tuning Model Klasifikasi (Optional)**

Gunakan GridSearchCV, RandomizedSearchCV, atau metode lainnya untuk mencari kombinasi hyperparameter terbaik

In [None]:
from sklearn.model_selection import GridSearchCV, RandomizedSearchCV

# Tuning Decision Tree
param_grid_dt = {
    'criterion': ['gini', 'entropy'],
    'max_depth': [None, 10, 20, 30],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]
}

grid_search_dt = GridSearchCV(DecisionTreeClassifier(), param_grid_dt, cv=5, scoring='accuracy')
grid_search_dt.fit(X_train, y_train)

print("Best parameters for Decision Tree:", grid_search_dt.best_params_)
print("Best score for Decision Tree:", grid_search_dt.best_score_)

best_dt = grid_search_dt.best_estimator_
y_pred_dt_tuned = best_dt.predict(X_test)
evaluate_model(y_test, y_pred_dt_tuned, "Tuned Decision Tree")


# Tuning Random Forest
param_grid_rf = {
    'n_estimators': [50, 100, 200],
    'max_depth': [None, 10, 20],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]
}

random_search_rf = RandomizedSearchCV(RandomForestClassifier(), param_grid_rf, n_iter=10, cv=5, scoring='accuracy', random_state=42)
random_search_rf.fit(X_train, y_train)

print("Best parameters for Random Forest:", random_search_rf.best_params_)
print("Best score for Random Forest:", random_search_rf.best_score_)

best_rf = random_search_rf.best_estimator_
y_pred_rf_tuned = best_rf.predict(X_test)
evaluate_model(y_test, y_pred_rf_tuned, "Tuned Random Forest")


Best parameters for Decision Tree: {'criterion': 'gini', 'max_depth': None, 'min_samples_leaf': 1, 'min_samples_split': 2}
Best score for Decision Tree: 1.0
Hasil Evaluasi Model Tuned Decision Tree:
Accuracy: 1.0
F1-Score: 1.0
Precision: 1.0
Recall: 1.0
Confusion Matrix:
[[100   0   0   0]
 [  0 166   0   0]
 [  0   0 131   0]
 [  0   0   0 106]]
------------------------------


## **d. Evaluasi Model Klasifikasi setelah Tuning (Optional)**

Berikut adalah rekomendasi tahapannya.
1. Gunakan model dengan hyperparameter terbaik.
2. Hitung ulang metrik evaluasi untuk melihat apakah ada peningkatan performa.

In [None]:
dt = DecisionTreeClassifier(criterion='gini', max_depth=None, min_samples_leaf=1, min_samples_split=2).fit(X_train, y_train)
rf = RandomForestClassifier(n_estimators=100, max_depth=None, min_samples_leaf=1, min_samples_split=2).fit(X_train, y_train)

y_pred_dt_tuned = dt.predict(X_test)
y_pred_rf_tuned = rf.predict(X_test)

evaluate_model(y_test, y_pred_dt_tuned, "Tuned Decision Tree")
evaluate_model(y_test, y_pred_rf_tuned, "Tuned Random Forest")

## **e. Analisis Hasil Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Bandingkan hasil evaluasi sebelum dan setelah tuning (jika dilakukan).
2. Identifikasi kelemahan model, seperti:
  - Precision atau Recall rendah untuk kelas tertentu.
  - Apakah model mengalami overfitting atau underfitting?
3. Berikan rekomendasi tindakan lanjutan, seperti mengumpulkan data tambahan atau mencoba algoritma lain jika hasil belum memuaskan.


Analisis Hasil Evaluasi Model Klasifikasi

Perbandingan hasil evaluasi sebelum dan sesudah tuning
- Tidak terjadi perubahan dikarenakan hasilnya sudah sempurna

Menentukan Overfitting atau Underfitting:
Bandingkan akurasi pada data latih dan data uji.
- Jika akurasi pada data latih sangat tinggi tapi akurasi pada data uji rendah,
  model mengalami overfitting (terlalu spesifik pada data latih).
- Jika kedua akurasi rendah, model mengalami underfitting (tidak cukup mempelajari pola data).


Rekomendasi Tindakan Lanjutan
Berdasarkan hasil evaluasi dan identifikasi kelemahan:

1. Jika masih terdapat kelas dengan performa rendah:
   - Periksa data pada kelas tersebut, mungkin terdapat ketidakseimbangan data.
   - Gunakan teknik oversampling atau undersampling untuk mengatasi ketidakseimbangan.
   - Lakukan augmentasi data jika memungkinkan.

2. Jika model overfitting:
   - Gunakan teknik regularisasi (L1 atau L2).
   - Gunakan metode dropout.
   - Kurangi kompleksitas model (misalnya, kurangi kedalaman pohon pada Decision Tree).
   - Kumpulkan lebih banyak data.

3. Jika model underfitting:
   - Tingkatkan kompleksitas model (misalnya, tambahkan kedalaman pohon pada Decision Tree).
   - Gunakan algoritma yang lebih kompleks.
   - Kumpulkan lebih banyak data.

4. Jika hasil masih belum memuaskan:
   - Coba algoritma klasifikasi lain.
   - Lakukan teknik feature engineering untuk meningkatkan kualitas fitur.
   - Lakukan analisis lebih lanjut pada data, seperti eksplorasi data yang lebih mendalam.

Contoh Rekomendasi (ganti dengan kesimpulan dari analisis Anda):
"Berdasarkan hasil evaluasi, model Random Forest memiliki performa lebih baik daripada Decision Tree.
Meskipun demikian, masih terdapat kelas dengan precision rendah, yang menunjukkan bahwa model masih kesulitan
mengidentifikasi data positif pada kelas tertentu. Disarankan untuk memeriksa keseimbangan data untuk kelas tersebut
dan mempertimbangkan penggunaan teknik oversampling atau mencoba algoritma lain seperti SVM."
