# ðŸ“Œ Klasifikasi Credit Score dengan Decision Tree
Pada tugas ini, kita akan menggunakan **Credit Score Classification Dataset**. Dataset bisa diakses melalui link berikut:\
ðŸ”— https://www.kaggle.com/datasets/parisrohan/credit-score-classification/data

Tujuan utama dari tugas ini adalah membangun model **Decision Tree** untuk memprediksi kategori *Credit Score* (Good, Standard, Poor) berdasarkan fitur keuangan dan demografis.

Langkah-langkah yang harus dilakukan antara lain:
1. Persiapan Dataset & Eksplorasi Awal
- Memuat dataset, melihat struktur data, tipe fitur (numerik atau kategorikal), dan distribusi label.

2. Preprocessing
- Menangani missing value, encoding fitur kategorikal, dan normalisasi/standardisasi jika diperlukan.

3. Eksperimen Model
- Bangun model Decision Tree dan latih menggunakan data training.
- Eksperimen dapat dilakukan dengan pemilihan fitur atau tuning hyperparameter seperti `max_depth`, `min_samples_split`, dan lain sebagainya.

4. Evaluasi Model
- Hitung metrik evaluasi seperti Accuracy, Precision, Recall, F1-Score, serta visualisasikan Confusion Matrix.
- Visualisasikan struktur pohon keputusan.

5. Analisis & Kesimpulan
- Membandingkan performa antar eksperimen parameter maupun fitur.
- Menentukan kombinasi terbaik.
- Menarik kesimpulan mengenai pengaruh fitur terhadap prediksi Credit Score.

# 1. Import Library

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.tree import DecisionTreeClassifier, plot_tree
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
import warnings
warnings.filterwarnings('ignore')

# 2. Load Dataset

In [None]:
# Sesuaikan path dataset jika di local / kaggle
df = pd.read_csv("credit_score.csv")
df.head()

# 3. Eksplorasi Data

In [None]:
df.info()
df.describe(include='all')
df['Credit_Score'].value_counts().plot(kind='bar', title='Distribusi Label')

# 4. Data Cleaning & Preprocessing

In [None]:
# Cek missing values
df.isnull().sum()

# Isi/Drop missing values sesuai strategi
df = df.dropna()

# Encoding label target
label_encoder = LabelEncoder()
df['Credit_Score'] = label_encoder.fit_transform(df['Credit_Score'])

# Encoding fitur kategorikal
categorical_cols = df.select_dtypes(include=['object']).columns
df = pd.get_dummies(df, columns=categorical_cols)

df.head()

# 5. Feature Engineering & Selection

In [None]:
X = df.drop('Credit_Score', axis=1)
y = df['Credit_Score']

# Normalisasi opsional (Decision Tree tidak wajib normalisasi)
# scaler = StandardScaler()
# X = scaler.fit_transform(X)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)
X_train.shape, X_test.shape

# 6. Training

In [None]:
dt_model = DecisionTreeClassifier(max_depth=5, random_state=42)
dt_model.fit(X_train, y_train)

# 7. Evaluation

In [None]:
y_pred = dt_model.predict(X_test)

print("Accuracy:", accuracy_score(y_test, y_pred))
print("\nClassification Report:\n", classification_report(y_test, y_pred))

# Confusion Matrix
cm = confusion_matrix(y_test, y_pred)
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues')
plt.xlabel('Predicted')
plt.ylabel('Actual')
plt.title('Confusion Matrix')
plt.show()

# Visualisasi pohon keputusan
plt.figure(figsize=(20,10))
plot_tree(dt_model, filled=True, feature_names=X.columns, class_names=label_encoder.classes_)
plt.show()

# 8. Kesimpulan

- Analisis performa model berdasarkan metrik evaluasi.
- Bandingkan hasil dengan parameter berbeda (`max_depth`, `min_samples_split`, dll.).
- Tentukan fitur paling berpengaruh dari visualisasi Decision Tree.
- Tarik kesimpulan tentang seberapa baik Decision Tree memprediksi *Credit Score*.