# **1. Import Library**


Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning.


In [43]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# **2. Memuat Dataset dari Hasil Clustering**


Memuat dataset hasil clustering dari file CSV ke dalam variabel DataFrame.


In [31]:
df = pd.read_csv('data_clustering.csv')
df.head()

Unnamed: 0,AccountBalance,CustomerAge,TingkatSejahtera
0,5112.21,70.0,menengah
1,13758.91,68.0,stabil
2,1122.35,19.0,rendah
3,8569.06,26.0,stabil
4,7429.4,26.0,stabil


In [32]:
encoder = LabelEncoder()
df['TingkatSejahtera'] = encoder.fit_transform(df['TingkatSejahtera'])

In [33]:
df.head()

Unnamed: 0,AccountBalance,CustomerAge,TingkatSejahtera
0,5112.21,70.0,0
1,13758.91,68.0,2
2,1122.35,19.0,1
3,8569.06,26.0,2
4,7429.4,26.0,2


# **3. Data Splitting**


Tahap Data Splitting bertujuan untuk memisahkan dataset menjadi dua bagian: data latih (training set) dan data uji (test set).


In [34]:
X = df.drop(columns=['TingkatSejahtera'])  
y = df['TingkatSejahtera']  
print(X)
print(y)

      AccountBalance  CustomerAge
0            5112.21         70.0
1           13758.91         68.0
2            1122.35         19.0
3            8569.06         26.0
4            7429.40         26.0
...              ...          ...
2507        12690.79         33.0
2508          254.75         48.0
2509         3382.91         56.0
2510         1776.91         23.0
2511          131.25         24.0

[2512 rows x 2 columns]
0       0
1       2
2       1
3       2
4       2
       ..
2507    2
2508    1
2509    0
2510    1
2511    1
Name: TingkatSejahtera, Length: 2512, dtype: int64


In [35]:
scaler = StandardScaler()
scaler.fit_transform(X)

array([[-5.36635052e-04,  1.42371826e+00],
       [ 2.21647159e+00,  1.31128706e+00],
       [-1.02353413e+00, -1.44327736e+00],
       ...,
       [-4.43928023e-01,  6.36699859e-01],
       [-8.55705373e-01, -1.21841495e+00],
       [-1.27765152e+00, -1.16219935e+00]])

In [36]:
X_train, X_test, y_train, y_test = train_test_split(X, y, train_size=.2, random_state=42, )

# **4. Membangun Model Klasifikasi**


## **a. Membangun Model Klasifikasi**


Setelah memilih algoritma klasifikasi yang sesuai, langkah selanjutnya adalah melatih model menggunakan data latih.

Berikut adalah rekomendasi tahapannya.

1. Pilih algoritma klasifikasi yang sesuai, seperti Logistic Regression, Decision Tree, Random Forest, atau K-Nearest Neighbors (KNN).
2. Latih model menggunakan data latih.


In [40]:
tree = DecisionTreeClassifier()
dt = tree.fit(X_train, y_train)

Tulis narasi atau penjelasan algoritma yang Anda gunakan.


## **b. Evaluasi Model Klasifikasi**


Berikut adalah **rekomendasi** tahapannya.

1. Lakukan prediksi menggunakan data uji.
2. Hitung metrik evaluasi seperti Accuracy dan F1-Score (Opsional: Precision dan Recall).
3. Buat confusion matrix untuk melihat detail prediksi benar dan salah.


In [44]:
y_pred = tree.predict(X_test)

# Evaluasi model
print("Accuracy:", accuracy_score(y_test, y_pred))
print("Confusion Matrix:\n", confusion_matrix(y_test, y_pred))
print("Classification Report:\n", classification_report(y_test, y_pred))

Accuracy: 0.9577114427860697
Confusion Matrix:
 [[694  14  22]
 [  4 658   3]
 [ 19  23 573]]
Classification Report:
               precision    recall  f1-score   support

           0       0.97      0.95      0.96       730
           1       0.95      0.99      0.97       665
           2       0.96      0.93      0.94       615

    accuracy                           0.96      2010
   macro avg       0.96      0.96      0.96      2010
weighted avg       0.96      0.96      0.96      2010



Tulis hasil evaluasi algoritma yang digunakan, jika Anda menggunakan 2 algoritma, maka bandingkan hasilnya.


## **c. Tuning Model Klasifikasi (Optional)**


Gunakan GridSearchCV, RandomizedSearchCV, atau metode lainnya untuk mencari kombinasi hyperparameter terbaik


In [None]:
#Type your code here

## **d. Evaluasi Model Klasifikasi setelah Tuning (Optional)**


Berikut adalah rekomendasi tahapannya.

1. Gunakan model dengan hyperparameter terbaik.
2. Hitung ulang metrik evaluasi untuk melihat apakah ada peningkatan performa.


In [None]:
#Type your code here

## **e. Analisis Hasil Evaluasi Model Klasifikasi**


# Evaluasi Model Decision Tree

Model **Decision Tree Classifier** yang telah diuji pada dataset menunjukkan performa yang sangat baik dengan **akurasi sebesar 95.77%**. Berikut adalah analisis berdasarkan metrik evaluasi:

## 1. Confusion Matrix

| Kelas                       | Prediksi Benar | Salah ke Kelas 1 | Salah ke Kelas 2 |
| --------------------------- | -------------- | ---------------- | ---------------- |
| **0** (Tingkat Sejahtera 0) | 694            | 14               | 22               |
| **1** (Tingkat Sejahtera 1) | 658            | 4                | 3                |
| **2** (Tingkat Sejahtera 2) | 573            | 19               | 23               |

## 2. Precision, Recall, dan F1-Score

- **Precision**: Model memiliki rata-rata **96%**, menunjukkan bahwa ketika model memprediksi suatu kelas, 96% dari prediksi tersebut benar.
- **Recall**: Rata-rata **96%**, artinya model dapat menangkap 96% dari total data yang benar-benar termasuk dalam kelas tertentu.
- **F1-Score**: Dengan skor **96%**, model memiliki keseimbangan yang baik antara precision dan recall.

## 3. Kesimpulan

- Model bekerja dengan **sangat baik** dalam mengklasifikasikan tingkat kesejahteraan dengan error yang **minim**.
- Kelas **1** memiliki performa terbaik dengan recall **99%**, menunjukkan bahwa hampir semua data kelas 1 diklasifikasikan dengan benar.
- Kesalahan prediksi lebih banyak terjadi pada kelas **0 dan 2**, namun jumlahnya relatif kecil.

## 4. Rekomendasi

- Jika ingin meningkatkan performa lebih lanjut, bisa dilakukan **pruning** pada Decision Tree untuk mengurangi overfitting.
- Mencoba model lain seperti **Random Forest** atau **Gradient Boosting** untuk melihat apakah ada peningkatan performa.
- Melakukan **hyperparameter tuning** pada Decision Tree untuk menemukan parameter optimal.

Model ini sudah cukup **andal** dengan tingkat kesalahan yang rendah, sehingga bisa digunakan untuk prediksi dalam kasus nyata. 🚀
