Целта на овој проект е да изградиме модел кој ќе помогне при донесување одлука дали еден кредит треба да биде одобрен или одбиен, врз основа на историски податоци за претходни клиенти.

Моделот треба да научи од минатите случаи и да процени веројатност дека нов клиент ќе го врати кредитот. Врз основа на таа проценка ќе се одреди праг (threshold) кој ќе дефинира кога кредитот се одобрува, а кога не.

При изборот на финалниот модел нема да се фокусираме само на точноста, туку и на типот на грешки што моделот ги прави. Особено ќе внимаваме на случаи кога кредит би бил одобрен на клиент со висок ризик. Поради тоа, перформансите ќе ги анализираме преку конфузиона матрица и дефинирана cost-функција.

Како финален модел ќе користиме XGBoost, бидејќи во претходните експерименти покажа најдобри и најстабилни резултати во споредба со останатите модели.

In [1]:
import pandas as pd

df = pd.read_csv("loan_dataset_20000.csv") 
# monthly and yearly income carry the same info monhly = yearly / 12, deliquency_history and num_deliquencies are identical
df.drop(columns=["monthly_income", "delinquency_history"], inplace=True)


In [2]:
df.describe()

Unnamed: 0,age,annual_income,debt_to_income_ratio,credit_score,loan_amount,interest_rate,loan_term,installment,num_of_open_accounts,total_credit_limit,current_balance,public_records,num_of_delinquencies,loan_paid_back
count,20000.0,20000.0,20000.0,20000.0,20000.0,20000.0,20000.0,20000.0,20000.0,20000.0,20000.0,20000.0,20000.0,20000.0
mean,48.027,43549.637765,0.177019,679.25695,15129.300909,12.400627,43.2228,455.625794,5.0118,48649.824769,24333.394631,0.0618,2.48915,0.7999
std,15.829352,28668.579671,0.105059,69.63858,8605.405513,2.442729,11.00838,274.622125,2.244529,32423.378128,22313.845395,0.285105,1.631384,0.400085
min,21.0,6000.0,0.01,373.0,500.0,3.14,36.0,9.43,0.0,6157.8,496.35,0.0,0.0,0.0
25%,35.0,24260.7525,0.096,632.0,8852.695,10.74,36.0,253.91,3.0,27180.4925,9592.5725,0.0,1.0,1.0
50%,48.0,36585.26,0.16,680.0,14946.17,12.4,36.0,435.595,5.0,40241.615,18334.555,0.0,2.0,1.0
75%,62.0,54677.9175,0.241,727.0,20998.8675,14.0025,60.0,633.595,6.0,60361.2575,31743.3275,0.0,3.0,1.0
max,75.0,400000.0,0.667,850.0,49039.69,22.51,60.0,1685.4,15.0,454394.19,352177.9,2.0,11.0,1.0


In [3]:
cols = [
    "debt_to_income_ratio",
    "credit_score",
    "installment",
    "loan_amount",
    "annual_income",
    "num_of_delinquencies",
    "current_balance",
    "total_credit_limit"
]

df.groupby("loan_paid_back")[cols].agg(["mean", "median"])


Unnamed: 0_level_0,debt_to_income_ratio,debt_to_income_ratio,credit_score,credit_score,installment,installment,loan_amount,loan_amount,annual_income,annual_income,num_of_delinquencies,num_of_delinquencies,current_balance,current_balance,total_credit_limit,total_credit_limit
Unnamed: 0_level_1,mean,median,mean,median,mean,median,mean,median,mean,median,mean,median,mean,median,mean,median
loan_paid_back,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2
0,0.224034,0.21,651.433033,653.0,461.153786,445.035,15172.134793,15005.735,43374.390827,35910.92,2.72039,3.0,24545.24974,18739.735,48843.329373,40054.555
1,0.165258,0.148,686.217277,687.0,454.242932,432.79,15118.585744,14931.95,43593.476886,36732.605,2.431304,2.0,24280.397748,18217.935,48601.418379,40279.7


Во овој чекор беше направена униваријатна анализа со цел да се утврди кои нумерички карактеристики имаат најсилна врска со тоа дали кредитот е вратен или не.

За секоја од следните варијабли:

debt_to_income_ratio

credit_score

installment

loan_amount

num_of_delinquencies

беа пресметани просек и медијана по target, како и default rate по квартил (quantile bins). Наместо да се анализира само корелација, беше анализирано дали ризикот систематски се менува со зголемување или намалување на вредноста на варијаблата.

Овој пристап овозможува да се види дали постои јасен тренд (монотон раст или пад на ризик), што е посилен индикатор за предиктивна вредност отколку едноставна корелација.

In [4]:
df["DTI_bin"] = pd.qcut(df["debt_to_income_ratio"], q=4)
df.groupby("DTI_bin")["loan_paid_back"].apply(lambda x: 1 - x.mean())


  df.groupby("DTI_bin")["loan_paid_back"].apply(lambda x: 1 - x.mean())


DTI_bin
(0.009000000000000001, 0.096]    0.091986
(0.096, 0.16]                    0.163122
(0.16, 0.241]                    0.225171
(0.241, 0.667]                   0.322146
Name: loan_paid_back, dtype: float64

In [5]:
df["score_bin"] = pd.qcut(df["credit_score"], q=4)
df.groupby("score_bin")["loan_paid_back"].apply(lambda x: 1 - x.mean())


  df.groupby("score_bin")["loan_paid_back"].apply(lambda x: 1 - x.mean())


score_bin
(372.999, 632.0]    0.298981
(632.0, 680.0]      0.238339
(680.0, 727.0]      0.172199
(727.0, 850.0]      0.088646
Name: loan_paid_back, dtype: float64

In [6]:
df["installment_bin"] = pd.qcut(df["installment"], q=4)
df.groupby("installment_bin")["loan_paid_back"].apply(lambda x: 1 - x.mean())


  df.groupby("installment_bin")["loan_paid_back"].apply(lambda x: 1 - x.mean())


installment_bin
(9.429, 253.91]       0.195161
(253.91, 435.595]     0.194039
(435.595, 633.595]    0.206800
(633.595, 1685.4]     0.204400
Name: loan_paid_back, dtype: float64

In [7]:
df["loan_bin"] = pd.qcut(df["loan_amount"], q=4)
df.groupby("loan_bin")["loan_paid_back"].apply(lambda x: 1 - x.mean())


  df.groupby("loan_bin")["loan_paid_back"].apply(lambda x: 1 - x.mean())


loan_bin
(499.999, 8852.695]      0.1998
(8852.695, 14946.17]     0.1978
(14946.17, 20998.868]    0.2076
(20998.868, 49039.69]    0.1952
Name: loan_paid_back, dtype: float64

Резултатите покажаа дека debt_to_income_ratio и credit_score имаат најсилна и јасна врска со ризикот.

Кај debt_to_income_ratio се забележува јасен раст на default rate со зголемување на вредноста, што укажува дека повисоката задолженост во однос на приходот значително го зголемува ризикот.

Кај credit_score се забележува јасен опаѓачки тренд — повисок credit score е поврзан со значително понизок ризик од неплаќање.

Од друга страна, installment и loan_amount не покажаа силен униваријатен тренд, што укажува дека тие сами по себе не се доволни за објаснување на ризикот, но може да имаат значење во комбинација со други варијабли.

Оваа анализа покажува дека моделот најверојатно ќе се потпира најмногу на комбинацијата од кредитна историја (credit_score) и финансиска способност (debt_to_income_ratio), додека останатите варијабли ќе играат секундарна или интерактивна улога.

In [8]:
high_score_threshold = df["credit_score"].quantile(0.75)

high_score_defaults = df[
    (df["credit_score"] >= high_score_threshold) &
    (df["loan_paid_back"] == 0)
]

high_score_defaults.describe()

Unnamed: 0,age,annual_income,debt_to_income_ratio,credit_score,loan_amount,interest_rate,loan_term,installment,num_of_open_accounts,total_credit_limit,current_balance,public_records,num_of_delinquencies,loan_paid_back
count,451.0,451.0,451.0,451.0,451.0,451.0,451.0,451.0,451.0,451.0,451.0,451.0,451.0,451.0
mean,46.609756,45915.899867,0.283102,758.261641,14906.135322,10.74031,43.716186,433.862173,4.924612,50776.559135,23978.449601,0.070953,2.472284,0.0
std,15.791229,37582.672628,0.092974,26.528941,8381.255874,2.041212,11.221772,264.119597,2.180437,38185.04447,21569.27799,0.297133,1.582125,0.0
min,21.0,6000.0,0.115,727.0,500.0,4.46,36.0,10.38,0.0,7050.72,1318.16,0.0,0.0,0.0
25%,33.0,25296.28,0.2155,738.0,8877.055,9.455,36.0,236.285,3.0,27684.76,9296.515,0.0,1.0,0.0
50%,47.0,37490.0,0.269,751.0,14102.63,10.66,36.0,394.3,5.0,41369.79,18158.5,0.0,2.0,0.0
75%,60.0,52113.745,0.336,770.0,20983.135,12.105,60.0,614.92,6.0,61759.0,30405.3,0.0,3.0,0.0
max,75.0,400000.0,0.588,850.0,43362.06,15.93,60.0,1423.52,12.0,358422.01,150108.04,2.0,7.0,0.0


# Анализа на „исклучоци“: Висок кредитен скор, но сепак не го вратиле кредитот #

Во оваа анализа ги издвоивме клиентите кои имаат висок credit_score (во горниот квартил / top 25%), но сепак припаѓаат во класата loan_paid_back = 0 (кредитот не е вратен). Целта е да разбереме зошто постојат вакви случаи, бидејќи на прв поглед би очекувале дека висок кредитен скор значи низок ризик.

Што значи .describe() табелата?

Оваа табела е статистички опис на сите нумерички карактеристики за оваа група клиенти:

count – колку записи има во групата (овде 451 клиенти)

mean – просечна вредност

std – стандардна девијација (колку се „распрснати“ вредностите околу просекот)

min / max – најмала и најголема вредност

25% / 50% / 75% – квартилни точки:

25% значи дека 25% од клиентите имаат вредност помала или еднаква на тој број

50% е медијана (средна вредност по редослед)

75% значи дека 75% од клиентите имаат вредност помала или еднаква на тој број

Овие квартилни вредности се корисни бидејќи се поотпорни од просекот на екстремни вредности (outliers).

Клучни набљудувања од оваа група
### 1 credit_score е навистина висок — но не е доволен сам по себе

Оваа група има:

минимум ~727 и просек ~758
Тоа потврдува дека зборуваме за клиенти со реално висока кредитна оцена. Сепак, тие не го вратиле кредитот, што значи дека висок кредитен скор не гарантира безризично одобрување.

### 2 debt_to_income_ratio (DTI) е релативно висок

DTI претставува колкав дел од приходите оди на долгови/обврски. Кај оваа група:

просек ≈ 0.283

медијана ≈ 0.269

75% од клиентите се до ≈ 0.336

Ова е важен сигнал: иако клиентите имаат висок кредитен скор, многу од нив имаат високо финансиско оптоварување, што може да го објасни ризикот од неплаќање. Ова покажува дека ризикот најчесто се јавува од комбинација на фактори, а не од една варијабла.

### 3 num_of_delinquencies не е низок

Овде просекот е ≈ 2.47, со вредности до 7.
Тоа значи дека иако credit_score е висок, оваа група сепак има историја на доцнења, што може да биде сериозен ризичен индикатор.

### 4 annual_income има голема варијација

Просекот е ≈ 45,916, но опсегот е многу широк:

минимум 6,000

максимум 400,000

Ова значи дека „висок credit score“ не значи дека сите се со висок приход. Некои имаат многу низок приход, што може да ја намали нивната реална способност за отплата, особено ако имаат високи обврски (DTI).

### 5 Кредитните износи и ратите се „типични“, но не се главната причина сами по себе

loan_amount и installment имаат релативно нормални распределби за оваа група (не изгледаат како чиста грешка во податоци). Ова сугерира дека проблемот не е само „голем кредит“, туку повеќе комбинацијата на товар (DTI), историја на доцнења и финансиски профил.


## Овие случаи не изгледаат како „грешки“ во податоците, туку како реални, логични исклучоци. Тие покажуваат дека: ##

credit_score е важен, но не е доволен

ризикот се појавува кога висок credit score е комбиниран со:

повисок debt_to_income_ratio

присутни num_of_delinquencies

голема варијабилност во annual_income

Ова е една од причините зошто користиме модели како XGBoost: тие можат да научат нелинеарни правила и интеракции, на пример „висок score не значи низок ризик ако DTI е висок“.

In [9]:
low_dti_threshold = df["debt_to_income_ratio"].quantile(0.25)

low_dti_defaults = df[
    (df["debt_to_income_ratio"] <= low_dti_threshold) &
    (df["loan_paid_back"] == 0)
]

low_dti_defaults.describe()


Unnamed: 0,age,annual_income,debt_to_income_ratio,credit_score,loan_amount,interest_rate,loan_term,installment,num_of_open_accounts,total_credit_limit,current_balance,public_records,num_of_delinquencies,loan_paid_back
count,466.0,466.0,466.0,466.0,466.0,466.0,466.0,466.0,466.0,466.0,466.0,466.0,466.0,466.0
mean,47.798283,42112.244163,0.066895,621.484979,15865.902361,13.529077,42.901288,488.012747,5.004292,48153.999227,24193.273991,0.062232,2.201717,0.0
std,15.583217,27641.612469,0.022368,51.686616,8205.754517,2.115949,10.874599,266.152664,2.383632,32375.788505,23690.593442,0.275116,1.558217,0.0
min,21.0,7954.34,0.01,395.0,500.0,6.39,36.0,10.46,0.0,8924.01,747.25,0.0,0.0,0.0
25%,35.0,24055.9125,0.051,594.0,10681.41,12.0825,36.0,305.5525,3.0,28250.2375,10106.485,0.0,1.0,0.0
50%,47.5,34473.21,0.071,630.5,15885.765,13.42,36.0,479.13,5.0,39594.23,18668.36,0.0,2.0,0.0
75%,61.0,52148.8475,0.086,660.0,20963.0225,15.035,60.0,653.305,7.0,58051.675,30550.89,0.0,3.0,0.0
max,75.0,197994.07,0.096,708.0,47471.69,19.16,60.0,1603.17,13.0,284643.22,222540.27,2.0,9.0,0.0


# Анализа на исклучоци: Низок DTI, но сепак неплатен кредит

Во оваа анализа ги издвоивме клиентите кои припаѓаат во долниот квартил на debt_to_income_ratio (DTI) — односно имаат најниско финансиско оптоварување во однос на приходот — но сепак не го вратиле кредитот (loan_paid_back = 0).

Целта е да разбереме зошто постојат случаи каде клиентот има мала релативна задолженост, а сепак доаѓа до неплаќање.

Што значи низок DTI?

DTI претставува однос помеѓу долговите и приходот. Низок DTI значи:

клиентот троши мал дел од приходот на отплаќање долгови

теоретски има простор да ги сервисира обврските

Затоа, очекувано би било овие клиенти да имаат низок ризик.

Сепак, анализата покажува дека постојат 466 вакви случаи кои не го вратиле кредитот.

Клучни набљудувања од статистичкиот опис
-Debt-to-Income Ratio е навистина низок

Просек ≈ 0.066

Медијана ≈ 0.071

Максимум ≈ 0.096

Ова потврдува дека се работи за клиенти со реално ниско тековно финансиско оптоварување.

-Credit Score е релативно низок

Просек ≈ 621

Минимум ≈ 395

75% се под ≈ 660

Ова е значително пониско од групата со висок credit score што ја анализиравме претходно.
Овде ризикот не доаѓа од тековниот товар, туку од кредитната историја.

-Interest Rate е повисока

Просек ≈ 13.53

Максимум ≈ 19.16

Повисока каматна стапка често е индикатор дека клиентот веќе бил проценет како ризичен.
Ова дополнително потврдува дека историското однесување е фактор.

-Num_of_delinquencies не е занемарлив

Просек ≈ 2.20

Максимум ≈ 9

Иако DTI е низок, постои историја на доцнења.
Тоа значи дека клиентот можеби има финансиски капацитет, но нема стабилно кредитно однесување.

Главен заклучок

Оваа група покажува дека:

Низок debt_to_income_ratio не гарантира низок ризик.

Ризикот кај овие клиенти доаѓа од:

понизок credit score

историја на доцнења

повисока каматна стапка

### Ова укажува дека моделот мора да ја комбинира информацијата за тековната способност за плаќање (DTI) со историското однесување (credit score и delinquency).

Само една варијабла не е доволна за правилна проценка.

Оваа анализа дополнително ја оправдува употребата на модел кој може да научи сложени интеракции помеѓу повеќе фактори, наместо да се потпира на едноставни правила.

# Поделба на податоците

Пред изградба на моделот, податоците се делат на три независни подмножества: train, validation и test.

Train сетот се користи за тренирање на моделот.

Validation сетот се користи за избор на оптимален threshold според дефинираната cost-функција.

Test сетот се користи исклучиво за финална проценка на перформансите и не се користи при избор на праг или подесување на моделот.

Поделбата се прави со stratification според target варијаблата (loan_paid_back) со цел да се задржи истиот однос на класи во сите подмножества.

Овој пристап спречува data leakage и овозможува реална проценка на способноста на моделот да генерализира на нови податоци.

In [10]:
from sklearn.model_selection import train_test_split

X_raw = df.drop("loan_paid_back", axis=1)
y = df["loan_paid_back"]


X = X_raw.copy()
y = y.copy()

categorical_cols = X.select_dtypes(include='object').columns.tolist()
numeric_cols = X.select_dtypes(include=['int64', 'float64']).columns.tolist()



#  Прво делиме 80% train_val и 20% test
X_trainval, X_test, y_trainval, y_test = train_test_split(
    X,
    y,
    test_size=0.20,
    stratify=y,
    random_state=42
)

#  Од train_val правиме 75% train и 25% validation
# (75% од 80% = 60% од вкупното)
X_train, X_valid, y_train, y_valid = train_test_split(
    X_trainval,
    y_trainval,
    test_size=0.25,
    stratify=y_trainval,
    random_state=42
)

# Проверка на димензии
print("Train shape:", X_train.shape)
print("Validation shape:", X_valid.shape)
print("Test shape:", X_test.shape)

# Проверка на распределба на класите
print("\nClass distribution:")
print("Train:\n", y_train.value_counts(normalize=True))
print("\nValidation:\n", y_valid.value_counts(normalize=True))
print("\nTest:\n", y_test.value_counts(normalize=True))

Train shape: (12000, 23)
Validation shape: (4000, 23)
Test shape: (4000, 23)

Class distribution:
Train:
 loan_paid_back
1    0.799917
0    0.200083
Name: proportion, dtype: float64

Validation:
 loan_paid_back
1    0.79975
0    0.20025
Name: proportion, dtype: float64

Test:
 loan_paid_back
1    0.8
0    0.2
Name: proportion, dtype: float64


In [11]:
from xgboost import XGBClassifier
from sklearn.pipeline import Pipeline
from sklearn.utils.class_weight import compute_sample_weight
import numpy as np
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.metrics import confusion_matrix

COST_FP = 5
COST_FN = 1

preprocessor_tree = ColumnTransformer(
    transformers=[
        ('num', 'passthrough', numeric_cols),
        ('cat', OneHotEncoder(handle_unknown='ignore'), categorical_cols)
    ]
)

xgb_pipe = Pipeline(steps=[
    ("preprocess", preprocessor_tree),
    ("model", XGBClassifier(
        n_estimators=800,
        learning_rate=0.05,
        max_depth=4,
        subsample=0.9,
        colsample_bytree=0.9,
        reg_lambda=1.0,
        random_state=42,
        eval_metric="logloss",
        n_jobs=-1
    ))
])

# Поголема тежина за класата 0 (ризични клиенти)
sw = compute_sample_weight(class_weight={0: COST_FP, 1: 1}, y=y_train)

xgb_pipe.fit(X_train, y_train, model__sample_weight=sw)

# ----- Validation probabilities -----
p_valid = xgb_pipe.predict_proba(X_valid)[:, 1]

# ----- Cost-based threshold search -----
def best_threshold_by_cost(y_true, y_proba, cost_fp, cost_fn):
    thresholds = np.linspace(0.01, 0.99, 99)
    best = None
    
    for t in thresholds:
        y_pred = (y_proba >= t).astype(int)
        tn, fp, fn, tp = confusion_matrix(y_true, y_pred).ravel()
        cost = fp * cost_fp + fn * cost_fn
        
        if best is None or cost < best["cost"]:
            best = {
                "threshold": t,
                "cost": cost,
                "tn": tn,
                "fp": fp,
                "fn": fn,
                "tp": tp
            }
    return best

best_valid = best_threshold_by_cost(y_valid, p_valid, COST_FP, COST_FN)

print("Best threshold (validation):", best_valid["threshold"])
print("Validation cost:", best_valid["cost"])
print("Confusion matrix (validation):")
print(best_valid)


Best threshold (validation): 0.66
Validation cost: 1560
Confusion matrix (validation):
{'threshold': np.float64(0.66), 'cost': np.int64(1560), 'tn': np.int64(682), 'fp': np.int64(119), 'fn': np.int64(965), 'tp': np.int64(2234)}


In [12]:
p_test = xgb_pipe.predict_proba(X_test)[:, 1]

y_pred_test = (p_test >= best_valid["threshold"]).astype(int)

from sklearn.metrics import confusion_matrix

tn, fp, fn, tp = confusion_matrix(y_test, y_pred_test).ravel()

test_cost = fp * COST_FP + fn * COST_FN

print("Test confusion matrix:")
print("TN:", tn, "FP:", fp, "FN:", fn, "TP:", tp)
print("Test cost:", test_cost)

Test confusion matrix:
TN: 658 FP: 142 FN: 918 TP: 2282
Test cost: 1628


# Во оваа секција додаваме објаснивост (explainability) на финалниот XGBoost модел, за да разбереме кои карактеристики најмногу влијаат на одлуките.

Бидејќи моделот работи со preprocessing чекор (One-Hot Encoding за категоријални колони), директните важности што ги враќа моделот се поврзани со трансформираните feature-и. Затоа прво ги реконструираме вистинските имиња на сите трансформирани колони, па потоа ги прикажуваме најважните.

Ќе користиме две перспективи:

XGBoost feature importance (gain/weight): внатрешна важност според тоа колку моделот ги користи карактеристиките во дрвата.

Permutation importance (со cost функција): практично најкорисно за бизнис, бидејќи покажува колку се влошува реалната цел (cost) ако ја “расипеме” една карактеристика.

In [13]:
import pandas as pd
import numpy as np

# 1) Извлечи fitted preprocess и fitted model од pipeline
prep = xgb_pipe.named_steps["preprocess"]
model = xgb_pipe.named_steps["model"]

# 2) Направи листа на feature names после трансформација
# sklearn >= 1.0 обично поддржува get_feature_names_out
feature_names = prep.get_feature_names_out()

# 3) XGBoost враќа важности по "f0, f1, ..." индекс
#    build mapping: f{i} -> feature_names[i]
score_gain = model.get_booster().get_score(importance_type="gain")
score_weight = model.get_booster().get_score(importance_type="weight")

def score_dict_to_df(score_dict, feature_names):
    rows = []
    for k, v in score_dict.items():
        # k е "f123"
        idx = int(k[1:])
        rows.append((feature_names[idx], v))
    df_imp = pd.DataFrame(rows, columns=["feature", "importance"])
    df_imp = df_imp.sort_values("importance", ascending=False).reset_index(drop=True)
    return df_imp

imp_gain = score_dict_to_df(score_gain, feature_names)
imp_weight = score_dict_to_df(score_weight, feature_names)

print("Top 20 by GAIN (најважно):")
display(imp_gain.head(20))

print("\nTop 20 by WEIGHT (колку често се користи):")
display(imp_weight.head(20))


Top 20 by GAIN (најважно):


Unnamed: 0,feature,importance
0,cat__employment_status_Unemployed,240.500854
1,cat__employment_status_Student,94.190094
2,cat__employment_status_Retired,62.289349
3,cat__employment_status_Self-employed,47.349083
4,cat__employment_status_Employed,33.992977
5,num__debt_to_income_ratio,25.916937
6,num__credit_score,23.99386
7,cat__grade_subgrade_B2,12.690561
8,cat__grade_subgrade_B1,12.580366
9,cat__gender_Male,11.909177



Top 20 by WEIGHT (колку често се користи):


Unnamed: 0,feature,importance
0,num__debt_to_income_ratio,1326.0
1,num__credit_score,1324.0
2,num__current_balance,818.0
3,num__interest_rate,765.0
4,num__annual_income,732.0
5,num__total_credit_limit,701.0
6,num__installment,595.0
7,num__loan_amount,594.0
8,num__age,592.0
9,num__num_of_open_accounts,413.0


# Интерпретација на Feature Importance (XGBoost)

За објаснивост на моделот беа анализирани две мерки на важност:

GAIN – колку просечно придонесува една карактеристика во подобрување на разделувањето во дрвата. Ова е најинформативната мерка.

WEIGHT – колку пати една карактеристика е користена во split во дрвата (фреквенција, но не и јачина на ефект).

### Најважни карактеристики според GAIN

Според GAIN, најсилен придонес има:

employment_status_* (особено Unemployed)

debt_to_income_ratio

credit_score

grade_subgrade

gender

### Што значи ова?
#### Employment Status

employment_status_Unemployed има највисок gain.

Ова значи дека статусот на вработување има голема разделувачка моќ во моделот. Невработеноста веројатно е силен индикатор за ризик, што е логично од економски аспект.

Важно е да се забележи дека employment_status е категоријална варијабла, па секоја категорија се третира како посебен бинарен feature.

#### Debt-to-Income Ratio (DTI)

Ова е во топ 6 по gain и најкористена по weight.

Ова совршено се поклопува со EDA анализата:
DTI имаше јасен монотон тренд со default rate.

Моделот го препознава како еден од најсилните нумерички фактори.

#### Credit Score

И credit_score е во топ нумерички карактеристики.

Ова исто е конзистентно со претходната анализа:
повисок скор → помал ризик.

#### Grade_subgrade

Ова е интерна ризична категоризација и логично е да има значаен придонес.

### Што ни кажува WEIGHT?

Според WEIGHT (колку често се користи):

Најчесто користени карактеристики се:

debt_to_income_ratio

credit_score

current_balance

interest_rate

annual_income

total_credit_limit

installment

loan_amount

age

Ова покажува дека моделот често ги користи финансиските карактеристики но не сите од нив имаат голем gain
Некои карактеристики се користат често, но не секогаш носат голем информациски добивка.

# Клучни заклучоци

#### Моделот ја потврдува EDA анализата:

#### debt_to_income_ratio и credit_score се доминантни фактори.

#### Employment status се појавува како најсилен категоријален сигнал.

#### Финансиските показатели (income, balance, interest_rate, loan_amount) се користат често, што укажува дека моделот учи сложени интеракции помеѓу нив.

#### Ниту една варијабла не е единствено одговорна за одлуката — моделот комбинира повеќе фактори.