# **1. Import Library**

Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning.

In [33]:
# 1. Import Library
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, f1_score, confusion_matrix, classification_report
import matplotlib.pyplot as plt
import seaborn as sns

# **2. Memuat Dataset dari Hasil Clustering**

Memuat dataset hasil clustering dari file CSV ke dalam variabel DataFrame.

In [34]:

# Memuat dataset dari URL GitHub (raw content)
url = "https://raw.githubusercontent.com/NaufalNurFahriza/machine-learning-pemula-dicoding/main/hasil_clustering_v2.csv"
df = pd.read_csv(url)

# Menampilkan beberapa baris pertama dataset
print("Preview dataset:")
print(df.head())

Preview dataset:
   TransactionAmount TransactionType   Location Channel  CustomerAge  \
0              14.09           Debit  San Diego     ATM           70   
1             376.24           Debit    Houston     ATM           68   
2             126.29           Debit       Mesa  Online           19   
3             184.50           Debit    Raleigh  Online           26   
4              13.45          Credit    Atlanta  Online           26   

  CustomerOccupation  TransactionDuration  LoginAttempts  AccountBalance  \
0             Doctor                   81              1         5112.21   
1             Doctor                  141              1        13758.91   
2            Student                   56              1         1122.35   
3            Student                   25              1         8569.06   
4            Student                  198              1         7429.40   

   Cluster  
0        1  
1        1  
2        0  
3        0  
4        0  


# **3. Data Splitting**

Tahap Data Splitting bertujuan untuk memisahkan dataset menjadi dua bagian: data latih (training set) dan data uji (test set).

In [35]:
# 3. Data Splitting
# Memisahkan fitur dan target
X = df.drop('Cluster', axis=1)
y = df['Cluster']

# Menampilkan jumlah data per cluster
cluster_counts = df['Cluster'].value_counts().sort_index()
print("\nJumlah data per Cluster:")
print(cluster_counts)

# Konversi variabel kategorikal jika ada
X = pd.get_dummies(X, drop_first=True)

# Bagi data menjadi training dan testing set
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42, stratify=y)

# Normalisasi data
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# Menampilkan ukuran data latih dan data uji
print("\nUkuran data:")
print("Data latih:", X_train.shape)
print("Data uji:", X_test.shape)
print("\nDistribusi kelas pada data latih:")
print(y_train.value_counts())
print("\nDistribusi kelas pada data uji:")
print(y_test.value_counts())


Jumlah data per Cluster:
Cluster
0     835
1    1582
2      95
Name: count, dtype: int64

Ukuran data:
Data latih: (1758, 53)
Data uji: (754, 53)

Distribusi kelas pada data latih:
Cluster
1    1107
0     584
2      67
Name: count, dtype: int64

Distribusi kelas pada data uji:
Cluster
1    475
0    251
2     28
Name: count, dtype: int64


# **4. Membangun Model Klasifikasi**


## **a. Membangun Model Klasifikasi**

## Model 1: Logistic Regression

In [36]:
# Model 1: Logistic Regression
print("\n=== Logistic Regression ===")
lr = LogisticRegression(multi_class='multinomial', solver='lbfgs', max_iter=1000)
lr.fit(X_train, y_train)


=== Logistic Regression ===




## Model 2: Random Forest

In [37]:
# Model 2: Random Forest
print("\n=== Random Forest ===")
rf = RandomForestClassifier(n_estimators=100, random_state=42)
rf.fit(X_train, y_train)


=== Random Forest ===


Tulis narasi atau penjelasan algoritma yang Anda gunakan.

## **b. Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Lakukan prediksi menggunakan data uji.
2. Hitung metrik evaluasi seperti Accuracy dan F1-Score (Opsional: Precision dan Recall).
3. Buat confusion matrix untuk melihat detail prediksi benar dan salah.

In [38]:
# b. Evaluasi Model Klasifikasi
def evaluate_model(model, X_test, y_test):
    y_pred = model.predict(X_test)

    print("Accuracy:", accuracy_score(y_test, y_pred))
    print("F1-Score:", f1_score(y_test, y_pred, average='weighted'))
    print("\nClassification Report:")
    print(classification_report(y_test, y_pred))
    print("\nConfusion Matrix:")
    print(confusion_matrix(y_test, y_pred))

print("\nEvaluasi Logistic Regression:")
evaluate_model(lr, X_test, y_test)

print("\nEvaluasi Random Forest:")
evaluate_model(rf, X_test, y_test)



Evaluasi Logistic Regression:
Accuracy: 0.9748010610079576
F1-Score: 0.9743980976446375

Classification Report:
              precision    recall  f1-score   support

           0       0.96      0.97      0.97       251
           1       0.98      0.99      0.98       475
           2       1.00      0.79      0.88        28

    accuracy                           0.97       754
   macro avg       0.98      0.91      0.94       754
weighted avg       0.97      0.97      0.97       754


Confusion Matrix:
[[243   8   0]
 [  5 470   0]
 [  4   2  22]]

Evaluasi Random Forest:
Accuracy: 0.9827586206896551
F1-Score: 0.982664165097705

Classification Report:
              precision    recall  f1-score   support

           0       1.00      0.95      0.97       251
           1       0.98      1.00      0.99       475
           2       1.00      1.00      1.00        28

    accuracy                           0.98       754
   macro avg       0.99      0.98      0.99       754
weighted 

### Analisis dan Rekomendasi Model

**Hasil Evaluasi:**
- **Logistic Regression** menunjukkan performa yang baik (Accuracy 97.5%) tetapi memiliki kelemahan dalam mengklasifikasikan Cluster 2 (Recall 79%)
- **Random Forest** memberikan performa lebih baik (Accuracy 98.3%) dengan klasifikasi sempurna untuk Cluster 2 (Recall 100%)

**Keputusan Pemilihan Model:**
Berdasarkan hasil evaluasi, **Random Forest dipilih sebagai model utama** untuk di-tuning lebih lanjut karena:
1. Akurasi lebih tinggi (98.3% vs 97.5%)
2. Kemampuan lebih baik dalam menangani kelas minoritas (Cluster 2)
3. Lebih robust terhadap data tidak seimbang


## **c. Tuning Model Klasifikasi (Optional)**

In [39]:
# c. Tuning Model Klasifikasi (Optional)
print("\n=== Tuning Random Forest ===")
param_grid = {
    'n_estimators': [50, 100, 200],
    'max_depth': [None, 10, 20],
    'min_samples_split': [2, 5, 10]
}

grid_search = GridSearchCV(estimator=RandomForestClassifier(random_state=42),
                         param_grid=param_grid,
                         cv=3,
                         n_jobs=-1,
                         verbose=2)

grid_search.fit(X_train, y_train)

print("Best parameters:", grid_search.best_params_)
best_rf = grid_search.best_estimator_


=== Tuning Random Forest ===
Fitting 3 folds for each of 27 candidates, totalling 81 fits
Best parameters: {'max_depth': None, 'min_samples_split': 2, 'n_estimators': 200}


## **d. Evaluasi Model Klasifikasi setelah Tuning (Optional)**

In [40]:
# d. Evaluasi Model Klasifikasi setelah Tuning
print("\nEvaluasi Random Forest setelah Tuning:")
evaluate_model(best_rf, X_test, y_test)


Evaluasi Random Forest setelah Tuning:
Accuracy: 0.9840848806366048
F1-Score: 0.9840060328653685

Classification Report:
              precision    recall  f1-score   support

           0       1.00      0.96      0.98       251
           1       0.98      1.00      0.99       475
           2       1.00      1.00      1.00        28

    accuracy                           0.98       754
   macro avg       0.99      0.98      0.99       754
weighted avg       0.98      0.98      0.98       754


Confusion Matrix:
[[240  11   0]
 [  1 474   0]
 [  0   0  28]]


## **e. Analisis Hasil Evaluasi Model Klasifikasi**

Here's a comprehensive analysis of your classification model evaluation results, formatted in a professional manner with detailed comparisons and recommendations:

### Analisis Hasil Evaluasi Model Klasifikasi

#### Perbandingan Performa Model
1. **Logistic Regression**:
   - Accuracy: 97.48%
   - F1-Score: 97.44%
   - Precision (weighted avg): 97%
   - Recall (weighted avg): 97%
   - **Khusus untuk Cluster 2**:
     - Precision: 100%
     - Recall: 79% (relatif rendah)
     - F1-Score: 88%

2. **Random Forest (Before Tuning)**:
   - Accuracy: 98.28%
   - F1-Score: 98.27%
   - Precision (weighted avg): 98%
   - Recall (weighted avg): 98%
   - **Khusus untuk Cluster 2**:
     - Precision: 100%
     - Recall: 100%
     - F1-Score: 100%

3. **Random Forest (After Tuning)**:
   - Accuracy: 98.41% (+0.13% improvement)
   - F1-Score: 98.40% (+0.13% improvement)
   - **Khusus untuk Cluster 2**:
     - Mempertahankan performa sempurna (100% precision dan recall)

#### Kesimpulan Perbandingan
- **Random Forest** secara konsisten mengungguli Logistic Regression dengan selisih ~0.8-0.93% dalam accuracy dan F1-score
- **Cluster 2** (kelas minoritas) menunjukkan:
  - Performa lemah pada Logistic Regression (recall 79%)
  - Performa sempurna pada Random Forest (100% recall)
- **Tuning hyperparameter** memberikan peningkatan kecil (+0.13%) pada Random Forest

#### Identifikasi Kelemahan Model
1. **Logistic Regression**:
   - **Recall rendah (79%) untuk Cluster 2**: Model gagal mengidentifikasi ~21% kasus Cluster 2
   - **Confusion Matrix**: 4 dari 28 sampel Cluster 2 salah diklasifikasikan sebagai Cluster 0
   - **Keterbatasan linear**: Kurang mampu menangkap hubungan non-linear antar fitur

2. **Random Forest**:
   - **Cluster 0**: Masih ada 11 false negatives (diprediksi sebagai Cluster 1)
   - **Minimal improvement setelah tuning**: Menunjukkan model mungkin sudah mendekati batas optimal

#### Analisis Overfitting/Underfitting
- **Logistic Regression**:
  - Tidak menunjukkan tanda overfitting (performansi train-test seimbang)
  - Underfitting pada Cluster 2 karena keterbatasan model linear

- **Random Forest**:
  - Tidak menunjukkan overfitting (performansi konsisten sebelum/sesudah tuning)
  - Tidak ada indikasi underfitting (recall sempurna untuk semua kelas)

#### Rekomendasi Tindakan Lanjutan

- **Untuk Logistic Regression**:
  - Gunakan class weights untuk Cluster 2
  - Coba feature transformation (polynomial)
  - Eksperimen dengan regularisasi L1/L2

- **Untuk Random Forest**:
  - Pertahankan model tuned (akurasi 98.4%)
  - Analisis 11 misklasifikasi Cluster 0
  - Coba XGBoost untuk kemungkinan peningkatan kecil.