In [1]:
import pandas as pd 
from optbinning import OptimalBinning
from sklearn.impute import SimpleImputer
from sklearn.tree import DecisionTreeClassifier

In [2]:
df = pd.read_csv('gen_data.csv')

### Tính đầy đủ 

In [3]:
pd.set_option('display.max_rows', None)

Tỷ lệ missing theo cột

In [4]:
missing_col = pd.DataFrame({
    'missing_count': df.isna().sum(),
    'missing_pct': df.isna().mean() * 100
}).sort_values('missing_pct', ascending=False)

missing_col

Unnamed: 0,missing_count,missing_pct
SOCIF,0,0.0
HAS_MIDTERM_LOAN,0,0.0
CBAL_LONGTERM_LOAN,0,0.0
CBAL_MIDTERM_LOAN,0,0.0
CBAL_SHORTTERM_LOAN,0,0.0
IIP_GROWTH_12M,0,0.0
IIP,0,0.0
UR_GROWTH_12M,0,0.0
UR,0,0.0
CPI_GROWTH_12M,0,0.0


In [5]:
pd.set_option('display.max_rows', 20)

Tỷ lệ missing theo row

In [6]:
df['ROW_MISSING_PCT'] = df.isna().mean(axis=1) * 100

df['ROW_MISSING_PCT'].describe()


count    2400000.0
mean           0.0
std            0.0
min            0.0
25%            0.0
50%            0.0
75%            0.0
max            0.0
Name: ROW_MISSING_PCT, dtype: float64

In [7]:
df['FLAG_HIGH_MISSING'] = (df['ROW_MISSING_PCT'] > 40).astype(int)

### Tính duy nhất 

Trùng khóa logic (SOCIF – year)

In [8]:
dup_key = df.duplicated(subset=['SOCIF', 'year'], keep=False)

df.loc[dup_key].shape

(0, 77)

Trùng toàn bộ bản ghi (record duplicate)

In [9]:
dup_full = df.duplicated(keep=False)

dup_full.sum()


np.int64(0)

In [10]:
dup_rate = dup_full.mean() * 100
print(f"Tỷ lệ bản ghi trùng lặp: {dup_rate:.2f}%")


Tỷ lệ bản ghi trùng lặp: 0.00%


### Tính kịp thời 

Check dùng future information (leakage)

In [11]:
# BAD_NEXT_12M chỉ được missing ở năm cuối
leak_check = df[
    (df['year'] < df['year'].max()) &
    (df['BAD_NEXT_12M'].isna())
]

leak_check.shape


(0, 77)

Check continuity theo năm

In [12]:
year_count = df.groupby('year')['SOCIF'].nunique()
year_count


year
2018    400000
2019    400000
2020    400000
2021    400000
2022    400000
2023    400000
Name: SOCIF, dtype: int64

### Tính phù hợp 

In [13]:
rule_valid_age = (
    df['TUOI'].between(0, 120)
)

df.loc[~rule_valid_age].shape


(160, 77)

In [14]:
rule_valid_ltv = df['LTV'].between(0, 400)

df.loc[~rule_valid_ltv].shape


(30, 77)

In [15]:
rule_valid_duration = (
    (df['DURATION_MAX'] >= 0) &
    (df['REMAINING_DURATION_MAX'] >= 0)
)

df.loc[~rule_valid_duration].shape


(20, 77)

In [16]:
valid_gender = df['C_GIOITINH'].isin(['M', 'F', 'O'])
df.loc[~valid_gender].shape


(0, 77)

In [17]:
df['FLAG_INVALID'] = ~(
    rule_valid_age &
    rule_valid_ltv &
    rule_valid_duration &
    valid_gender
)


In [18]:
pd.set_option('display.max_columns', None)

In [19]:
df.describe()

Unnamed: 0,SOCIF,BASE_AGE,TRINHDO,SOHUUNHA,NHANVIENBIDV,INHERENT_RISK_SCORE,year,BASE_AUM,TUOI,INCOME,CBAL,CBALORG,CBAL_AVG,CBAL_MAX,CBAL_MIN,AFLIMT_MAX,AFLIMT_MIN,AFLIMT_AVG,COLLATERAL_VALUE,LTV,N_AVG_DEPOSIT_12M,N_AVG_DD_12M,N_AVG_CD_12M,FLAG_SALARY_ACC,DURATION_MAX,REMAINING_DURATION_MAX,TIME_TO_OP_MAX,RATE_AVG,MAX_DPD_12M,MAX_DPD_12M_OBS,MAX_NHOMNOCIC,AVG_OD_DPD_12M,SUM_ALL_OD_12M,XULYNO,N_AVG_OVERDUE_CBAL_12M,BAD,BAD_NEXT_12M,N_AVG_DEPOSIT_3M,N_AVG_DEPOSIT_6M,N_AVG_DEPOSIT_9M,FLAG_DEPOSIT,REAL_GDP,REAL_GDP_GROWTH_12M,CPI,CPI_GROWTH_12M,UR,UR_GROWTH_12M,IIP,IIP_GROWTH_12M,CBAL_SHORTTERM_LOAN,CBAL_MIDTERM_LOAN,CBAL_LONGTERM_LOAN,HAS_SHORTTERM_LOAN,HAS_MIDTERM_LOAN,HAS_LONGTERM_LOAN,MAX_LTV_MO,MIN_LTV_MO,AVG_LTV_MO,CBAL_TO_INC_12MON,CBAL_TO_INC_9MON,CBAL_TO_INC_6MON,CBAL_TO_INC_3MON,INTEREST_12M,INTEREST,PRINPICAL_PYMT_FRQ_ID_MAX,N_PAYMENT_GOC_LAI,PURCOD_MAX,PURCOD_MIN,CBALORG_MAX,CBALORG_MIN,CBALORG_AVG,ROW_MISSING_PCT,FLAG_HIGH_MISSING
count,2400000.0,2400000.0,2400000.0,2400000.0,2400000.0,2400000.0,2400000.0,2400000.0,2400000.0,2400000.0,2400000.0,2400000.0,2400000.0,2400000.0,2400000.0,2400000.0,2400000.0,2400000.0,2400000.0,2400000.0,2400000.0,2400000.0,2400000.0,2400000.0,2400000.0,2400000.0,2400000.0,2400000.0,2400000.0,2400000.0,2400000.0,2400000.0,2400000.0,2400000.0,2400000.0,2400000.0,2400000.0,2400000.0,2400000.0,2400000.0,2400000.0,2400000.0,2400000.0,2400000.0,2400000.0,2400000.0,2400000.0,2400000.0,2400000.0,2400000.0,2400000.0,2400000.0,2400000.0,2400000.0,2400000.0,2400000.0,2400000.0,2400000.0,2400000.0,2400000.0,2400000.0,2400000.0,2400000.0,2400000.0,2400000.0,2400000.0,2400000.0,2400000.0,2400000.0,2400000.0,2400000.0,2400000.0,2400000.0
mean,1200000.0,34.49828,1.855425,0.3375675,0.0102,-0.0004041076,2020.5,12468210.0,36.99782,22594950.0,55478220.0,61097160.0,55468750.0,72225980.0,38784680.0,183824800.0,165442400.0,174633600.0,687503200.0,82.9712,5774457.0,1732337.0,4042120.0,0.500195,32.98405,15.99313,16.99127,9.507676,34.85155,30.91566,1.557207,15.02981,55.90107,0.00907,25941700.0,0.04566167,0.0456125,5775815.0,5774690.0,5774537.0,0.492855,5.443333,5.443691,2.966667,2.966645,2.443333,2.443315,6.5,6.499777,18499030.0,18496630.0,18482570.0,0.8745337,0.8745337,0.8745337,87.11974,74.66695,80.89334,2.045332,2.045415,2.045427,2.04533,5272267.0,439355.2,1.349517,9.707726,5.198849,3.230792,61097160.0,54987440.0,58042300.0,0.0,0.0
std,115470.1,10.01233,0.7952914,0.4728803,0.1004787,0.9986586,1.707825,27960850.0,10.15738,9567950.0,69654220.0,76723160.0,70321080.0,92078990.0,50157590.0,111875400.0,100687800.0,106281600.0,1005835000.0,71.732,14793810.0,4438143.0,10355670.0,0.5000001,17.74346,12.39425,12.39581,1.978125,30.62356,27.63187,0.619411,14.54765,34.46064,0.09480369,42631530.0,0.2087503,0.2086433,14878440.0,14818320.0,14801140.0,0.4999491,2.104556,2.13155,0.5496263,0.5766827,0.3617858,0.3889085,2.629956,2.66033,28222750.0,28159870.0,28216870.0,0.3312469,0.3312469,0.3312469,75.37465,64.85327,70.01533,1.575752,1.57764,1.582839,1.59147,6916356.0,576362.9,1.150762,4.469618,1.964701,1.799335,76723160.0,69050840.0,72887000.0,0.0,0.0
min,1000000.0,-13.0,1.0,0.0,0.0,-4.648333,2018.0,4830.0,-13.0,7542231.0,0.0,30626.0,0.0,0.0,0.0,40266290.0,36239660.0,38252980.0,3653.0,0.0,957.5,287.0,670.5,0.0,-12.0,1.0,2.0,5.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,880.0,997.0,951.0,0.0,2.58,2.322,1.84,1.656002,2.17,1.953001,3.0,2.700001,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,1.0,1.0,30626.0,27563.0,29094.0,0.0,0.0
25%,1100000.0,28.0,1.0,0.0,0.0,-0.6735481,2019.0,2057170.0,30.0,16658020.0,16734940.0,18355570.0,16471140.0,21277590.0,11177790.0,120889300.0,108800300.0,114844800.0,2795682.0,1.880372,742994.2,222897.8,520096.5,0.0,12.0,7.0,8.0,8.150584,11.0,10.0,1.0,4.0,30.50129,0.0,0.0,0.0,0.0,736239.8,741209.2,742562.2,0.0,2.91,2.910417,2.79,2.788899,2.19,2.182374,4.0,4.001127,3338950.0,3344819.0,3344983.0,1.0,1.0,1.0,1.973754,1.688143,1.832039,0.8226265,0.8217833,0.8192992,0.8152043,1489046.0,124086.8,1.0,12.0,4.0,2.0,18355570.0,16520020.0,17437790.0,0.0,0.0
50%,1200000.0,35.0,2.0,0.0,0.0,-0.002338259,2020.5,5084800.0,37.0,20269490.0,36273960.0,39831860.0,35976710.0,46664760.0,24756760.0,156204700.0,140584200.0,148394400.0,10967740.0,150.0,2027300.0,608189.5,1419110.0,1.0,24.0,12.0,13.0,9.499357,29.0,25.0,1.0,11.0,50.27598,0.0,12975910.0,0.0,0.0,2014366.0,2023233.0,2027080.0,0.0,6.035,5.9365,3.19,3.102638,2.3,2.328479,6.5,6.350001,10129000.0,10127540.0,10119840.0,1.0,1.0,1.0,150.3628,120.9662,137.4323,1.687287,1.686422,1.684431,1.679484,3333046.0,277753.5,1.0,12.0,5.0,3.0,39831860.0,35848670.0,37840260.0,0.0,0.0
75%,1299999.0,41.0,2.0,1.0,0.0,0.6725234,2022.0,12569520.0,44.0,25191810.0,69997690.0,76952900.0,69861460.0,90855610.0,48625200.0,208725200.0,187852700.0,198288900.0,1533993000.0,150.0,5463805.0,1639141.0,3824664.0,1.0,36.0,22.0,23.0,10.84694,50.0,45.0,2.0,22.0,75.78963,0.0,32446870.0,0.0,0.0,5444836.0,5458751.0,5460692.0,1.0,7.08,7.346065,3.25,3.368333,2.48,2.5173,9.0,9.001703,22763040.0,22741340.0,22736580.0,1.0,1.0,1.0,157.6686,135.3655,146.4139,3.078389,3.078508,3.076696,3.07591,6594297.0,549524.5,1.0,12.0,7.0,5.0,76952900.0,69257610.0,73105250.0,0.0,0.0
max,1399999.0,81.0,4.0,1.0,1.0,4.913122,2023.0,3241747000.0,86.0,96028530.0,3259938000.0,3564453000.0,3018096000.0,3839150000.0,2541607000.0,5721166000.0,5149049000.0,5435107000.0,4916768000.0,500.0,2352762000.0,705828600.0,1646933000.0,1.0,60.0,53.0,54.0,19.35054,216.0,198.0,5.0,124.0,312.002,1.0,2486155000.0,1.0,1.0,2275895000.0,2245226000.0,2379030000.0,1.0,8.02,8.821986,3.54,3.893999,3.22,3.541997,10.0,11.0,1617870000.0,2021385000.0,1701822000.0,1.0,1.0,1.0,165.0,150.0,157.4906,5.0,5.25,5.499997,5.749984,375268200.0,31272350.0,6.0,12.0,9.0,9.0,3564453000.0,3208008000.0,3386231000.0,0.0,0.0


In [20]:
pd.set_option('display.max_columns', 20)

In [21]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2400000 entries, 0 to 2399999
Data columns (total 78 columns):
 #   Column                     Dtype  
---  ------                     -----  
 0   SOCIF                      int64  
 1   C_GIOITINH                 object 
 2   BASE_AGE                   int64  
 3   TRINHDO                    int64  
 4   TTHONNHAN                  object 
 5   SOHUUNHA                   int64  
 6   NHANVIENBIDV               int64  
 7   INHERENT_RISK_SCORE        float64
 8   year                       int64  
 9   BASE_AUM                   int64  
 10  final_CST_MKT_SEG          object 
 11  TUOI                       int64  
 12  INCOME                     int64  
 13  CBAL                       int64  
 14  CBALORG                    int64  
 15  CBAL_AVG                   int64  
 16  CBAL_MAX                   int64  
 17  CBAL_MIN                   int64  
 18  AFLIMT_MAX                 int64  
 19  AFLIMT_MIN                 int64  
 20  AF

In [22]:
cat_cols = df.select_dtypes(include=['object', 'category']).columns

for col in cat_cols:
    print(f"\n{'='*20} {col} {'='*20}")
    vc = df[col].value_counts(dropna=False)
    pct = df[col].value_counts(normalize=True, dropna=False) * 100
    print(pd.concat([vc, pct.rename('pct_%')], axis=1))


              count     pct_%
C_GIOITINH                   
F           1176654  49.02725
M           1175634  48.98475
O             47712   1.98800

             count     pct_%
TTHONNHAN                   
Single     1307310  54.47125
Married    1092690  45.52875

                     count    pct_%
final_CST_MKT_SEG                  
Mass               2368812  98.7005
Upper                31092   1.2955
Private                 96   0.0040

               count      pct_%
SAMPLE_TYPE                    
TRAIN        1600000  66.666667
OOS           400000  16.666667
OOT           400000  16.666667


### Tính chính xác

Tuổi khách hàng

In [23]:
rule_acc_age = df['TUOI'] >= 15

LTV thực tế

In [24]:
rule_acc_ltv = df['LTV'] < 400

Hạn mức – dư nợ

In [25]:
rule_acc_limit = df['AFLIMT_MAX'] >= df['CBAL']

Thu nhập – dư nợ

In [26]:
rule_acc_dti = df['CBAL'] <= df['INCOME'] * 20

CIC – DPD

In [27]:
rule_acc_cic = ~(
    (df['MAX_DPD_12M_OBS'] < 30) & (df['MAX_NHOMNOCIC'] > 1)
) & ~(
    (df['MAX_DPD_12M_OBS'] >= 90) & (df['MAX_NHOMNOCIC'] < 3)
)

Flag & tỷ lệ chính xác

In [28]:
df['FLAG_INACCURATE'] = ~(
    rule_acc_age &
    rule_acc_ltv &
    rule_acc_limit &
    rule_acc_dti &
    rule_acc_cic
)

accuracy_rate = 1 - df['FLAG_INACCURATE'].mean()
accuracy_rate

np.float64(0.92909625)

In [29]:
rule_acc_age.sum()

np.int64(2367780)

In [30]:
rule_acc_ltv.sum()

np.int64(2399970)

In [31]:
rule_acc_dti.sum()

np.int64(2395873)

In [32]:
rule_acc_cic.sum()

np.int64(2264087)

### Tính đồng nhất

CBAL vs cấu trúc kỳ hạn

In [33]:
rule_cons_balance = (
    df['CBAL'] ==
    df['CBAL_SHORTTERM_LOAN']
    + df['CBAL_MIDTERM_LOAN']
    + df['CBAL_LONGTERM_LOAN']
)

df.loc[~rule_cons_balance].shape

(0, 79)

Deposit breakdown

In [34]:
rule_cons_deposit = (
    abs(
        df['N_AVG_DEPOSIT_12M'] -
        (df['N_AVG_DD_12M'] + df['N_AVG_CD_12M'])
    ) <= 1
)
df.loc[~rule_cons_deposit].shape

(0, 79)

DPD logic

In [35]:
rule_cons_dpd = df['MAX_DPD_12M_OBS'] <= df['MAX_DPD_12M']

df.loc[~rule_cons_dpd].shape


(0, 79)

Flag tổng hợp consistency

In [36]:
df['FLAG_INCONSISTENT'] = ~(
    rule_cons_balance &
    rule_cons_deposit &
    rule_cons_dpd
)

BẢNG TỔNG HỢP (RẤT NÊN CÓ)

In [37]:
quality_summary = pd.DataFrame({
    'Metric': [
        'Completeness',
        'Uniqueness',
        'Timeliness',
        'Validity',
        'Accuracy',
        'Consistency'
    ],
    'Issue_Rate_%': [
        df['FLAG_HIGH_MISSING'].mean() * 100,
        dup_full.mean() * 100,
        leak_check.shape[0] / len(df) * 100,
        df['FLAG_INVALID'].mean() * 100,
        df['FLAG_INACCURATE'].mean() * 100,
        df['FLAG_INCONSISTENT'].mean() * 100
    ]
})

quality_summary

Unnamed: 0,Metric,Issue_Rate_%
0,Completeness,0.0
1,Uniqueness,0.0
2,Timeliness,0.0
3,Validity,0.00875
4,Accuracy,7.090375
5,Consistency,0.0


In [38]:
df['FLAG_AGE_INVALID'] = (~rule_acc_age).astype(int)
df['FLAG_LTV_HIGH']    = (~rule_acc_ltv).astype(int)
df['FLAG_DTI_HIGH']    = (~rule_acc_dti).astype(int)
df['FLAG_CIC_LOW']     = (~rule_acc_cic).astype(int)
# df['FLAG_INCONSISTENT_DEPOSIT'] = (~rule_cons_deposit).astype(int)

In [39]:
import numpy as np

In [40]:
flag_cols = [c for c in df.columns if c.startswith('FLAG_')]

dq_flag_impact = []

for c in flag_cols:
    tmp = df.groupby(c)['BAD_NEXT_12M'].mean()
    dq_flag_impact.append({
        'FLAG': c,
        'BAD_RATE_0': tmp.get(0, np.nan),
        'BAD_RATE_1': tmp.get(1, np.nan),
        'LIFT': tmp.get(1, np.nan) / tmp.get(0, np.nan)
    })

dq_flag_impact = pd.DataFrame(dq_flag_impact).sort_values('LIFT', ascending=False)
dq_flag_impact


  'BAD_RATE_0': tmp.get(0, np.nan),
  'BAD_RATE_1': tmp.get(1, np.nan),
  'LIFT': tmp.get(1, np.nan) / tmp.get(0, np.nan)


Unnamed: 0,FLAG,BAD_RATE_0,BAD_RATE_1,LIFT
3,FLAG_INVALID,0.04561,0.071429,1.566064
7,FLAG_LTV_HIGH,0.045612,0.066667,1.461596
6,FLAG_AGE_INVALID,0.045514,0.052855,1.161301
0,FLAG_SALARY_ACC,0.045492,0.045733,1.0053
1,FLAG_DEPOSIT,0.055172,0.035776,0.648454
8,FLAG_DTI_HIGH,0.045652,0.022535,0.493613
4,FLAG_INACCURATE,0.047706,0.018176,0.380999
9,FLAG_CIC_LOW,0.047771,0.009653,0.202073
2,FLAG_HIGH_MISSING,0.045613,,
5,FLAG_INCONSISTENT,0.045613,,


In [41]:
for f in ['FLAG_HIGH_MISSING', 'FLAG_INCONSISTENT']:
    print(f, df[f].value_counts(dropna=False))


FLAG_HIGH_MISSING FLAG_HIGH_MISSING
0    2400000
Name: count, dtype: int64
FLAG_INCONSISTENT FLAG_INCONSISTENT
False    2400000
Name: count, dtype: int64


In [42]:
df.shape

(2400000, 84)

In [43]:
df.drop(['FLAG_SALARY_ACC', 'FLAG_DTI_HIGH', 'FLAG_INACCURATE', 'FLAG_CIC_LOW', 'FLAG_HIGH_MISSING', 'FLAG_INCONSISTENT', 'ROW_MISSING_PCT'], axis=1, inplace=True)

In [44]:
df.columns

Index(['SOCIF', 'C_GIOITINH', 'BASE_AGE', 'TRINHDO', 'TTHONNHAN', 'SOHUUNHA',
       'NHANVIENBIDV', 'INHERENT_RISK_SCORE', 'year', 'BASE_AUM',
       'final_CST_MKT_SEG', 'TUOI', 'INCOME', 'CBAL', 'CBALORG', 'CBAL_AVG',
       'CBAL_MAX', 'CBAL_MIN', 'AFLIMT_MAX', 'AFLIMT_MIN', 'AFLIMT_AVG',
       'COLLATERAL_VALUE', 'LTV', 'N_AVG_DEPOSIT_12M', 'N_AVG_DD_12M',
       'N_AVG_CD_12M', 'DURATION_MAX', 'REMAINING_DURATION_MAX',
       'TIME_TO_OP_MAX', 'RATE_AVG', 'MAX_DPD_12M', 'MAX_DPD_12M_OBS',
       'MAX_NHOMNOCIC', 'AVG_OD_DPD_12M', 'SUM_ALL_OD_12M', 'XULYNO',
       'N_AVG_OVERDUE_CBAL_12M', 'BAD', 'BAD_NEXT_12M', 'N_AVG_DEPOSIT_3M',
       'N_AVG_DEPOSIT_6M', 'N_AVG_DEPOSIT_9M', 'FLAG_DEPOSIT', 'REAL_GDP',
       'REAL_GDP_GROWTH_12M', 'CPI', 'CPI_GROWTH_12M', 'UR', 'UR_GROWTH_12M',
       'IIP', 'IIP_GROWTH_12M', 'CBAL_SHORTTERM_LOAN', 'CBAL_MIDTERM_LOAN',
       'CBAL_LONGTERM_LOAN', 'HAS_SHORTTERM_LOAN', 'HAS_MIDTERM_LOAN',
       'HAS_LONGTERM_LOAN', 'MAX_LTV_MO', 'MIN_LTV_MO

In [45]:
df.drop('BAD', axis=1, inplace=True)

In [46]:
df_train = df[df['SAMPLE_TYPE'] == 'TRAIN']
df_train_y = df_train['BAD_NEXT_12M']
df_OOS = df[df['SAMPLE_TYPE'] == 'OOS']
df_OOS_y = df_OOS['BAD_NEXT_12M']
df_OOT = df[df['SAMPLE_TYPE'] == 'OOT']
df_OOT_y = df_OOT['BAD_NEXT_12M']

In [47]:
df_train.drop(['SAMPLE_TYPE','BAD_NEXT_12M'], axis=1, inplace=True)
df_OOS.drop(['SAMPLE_TYPE', 'BAD_NEXT_12M'], axis=1, inplace=True)
df_OOT.drop(['SAMPLE_TYPE', 'BAD_NEXT_12M'], axis=1, inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_train.drop(['SAMPLE_TYPE','BAD_NEXT_12M'], axis=1, inplace=True)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_OOS.drop(['SAMPLE_TYPE', 'BAD_NEXT_12M'], axis=1, inplace=True)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_OOT.drop(['SAMPLE_TYPE', 'BAD_NEXT_12M'], axis=1, inplace=True)


In [48]:
df_train.columns

Index(['SOCIF', 'C_GIOITINH', 'BASE_AGE', 'TRINHDO', 'TTHONNHAN', 'SOHUUNHA',
       'NHANVIENBIDV', 'INHERENT_RISK_SCORE', 'year', 'BASE_AUM',
       'final_CST_MKT_SEG', 'TUOI', 'INCOME', 'CBAL', 'CBALORG', 'CBAL_AVG',
       'CBAL_MAX', 'CBAL_MIN', 'AFLIMT_MAX', 'AFLIMT_MIN', 'AFLIMT_AVG',
       'COLLATERAL_VALUE', 'LTV', 'N_AVG_DEPOSIT_12M', 'N_AVG_DD_12M',
       'N_AVG_CD_12M', 'DURATION_MAX', 'REMAINING_DURATION_MAX',
       'TIME_TO_OP_MAX', 'RATE_AVG', 'MAX_DPD_12M', 'MAX_DPD_12M_OBS',
       'MAX_NHOMNOCIC', 'AVG_OD_DPD_12M', 'SUM_ALL_OD_12M', 'XULYNO',
       'N_AVG_OVERDUE_CBAL_12M', 'N_AVG_DEPOSIT_3M', 'N_AVG_DEPOSIT_6M',
       'N_AVG_DEPOSIT_9M', 'FLAG_DEPOSIT', 'REAL_GDP', 'REAL_GDP_GROWTH_12M',
       'CPI', 'CPI_GROWTH_12M', 'UR', 'UR_GROWTH_12M', 'IIP', 'IIP_GROWTH_12M',
       'CBAL_SHORTTERM_LOAN', 'CBAL_MIDTERM_LOAN', 'CBAL_LONGTERM_LOAN',
       'HAS_SHORTTERM_LOAN', 'HAS_MIDTERM_LOAN', 'HAS_LONGTERM_LOAN',
       'MAX_LTV_MO', 'MIN_LTV_MO', 'AVG_LTV_MO', 'CBAL_

In [49]:
# df_train.to_csv('train.csv', index=False)
# df_OOS.to_csv('oos.csv', index=False)
# df_OOT.to_csv('oot.csv', index=False)

kiểm tra có leakage ko, nếu dùng toàn bộ data để phân khúc kh

In [None]:
vars_finance = [
    'N_AVG_DEPOSIT_12M', 'N_AVG_DEPOSIT_3M', 'N_AVG_DEPOSIT_6M', 
    'N_AVG_DEPOSIT_9M', 'FLAG_DEPOSIT'
]

# Nhóm 2: Thông tin dư nợ (Khoản vay)
vars_loan = [
    'CBAL', 'CBAL_AVG', 'CBAL_MAX', 'CBAL_MIN', 
    'CBAL_SHORTTERM_LOAN', 'CBAL_MIDTERM_LOAN', 'CBAL_LONGTERM_LOAN',
    'TOTAL_DEBT' # Nếu có biến tổng dư nợ
]

# (Lưu ý: Chỉ chọn các biến có trong file dữ liệu của bạn, nếu biến nào không có thì xóa khỏi list trên)
# Để demo mình sẽ chạy chung tất cả các biến bạn đã liệt kê ở câu trước mà có tính chất số học
all_features = [
    'N_AVG_DEPOSIT_12M', 'N_AVG_DEPOSIT_3M', 'N_AVG_DEPOSIT_6M', 'N_AVG_DEPOSIT_9M',
    'CBAL', 'CBAL_AVG', 'CBAL_MAX', 'CBAL_MIN', 
    'AFLIMT_MAX', 'AFLIMT_AVG', 'COLLATERAL_VALUE'
]

# Kiểm tra xem biến nào thực sự tồn tại trong dataframe
valid_features = [col for col in all_features if col in df.columns]
target = 'BAD_NEXT_12M'

# 3. Xử lý dữ liệu (Cây quyết định của Sklearn không chịu được Null/NaN)
X = df[valid_features].copy()
y = df[target]

# Điền giá trị 0 vào các ô trống (hoặc dùng trung bình tùy nghiệp vụ)
imputer = SimpleImputer(strategy='constant', fill_value=0)                       # ko có null

X_filled = imputer.fit_transform(X)

# 4. Cấu hình Cây quyết định (Theo đúng Báo cáo BIDV)
# criterion='gini', class_weight='balanced'
dt_model = DecisionTreeClassifier(
    criterion='gini',
    splitter='best',
    class_weight='balanced',
    random_state=42,
    max_depth=5  # Giới hạn độ sâu để tránh overfitting khi tính độ quan trọng
)

# Huấn luyện mô hình
dt_model.fit(X_filled, y)

# 5. Trích xuất Feature Importance
importance_df = pd.DataFrame({
    'Tên Biến': valid_features,
    'Độ Quan Trọng (Feature Importance)': dt_model.feature_importances_
})

# Sắp xếp từ cao xuống thấp
importance_df = importance_df.sort_values(by='Độ Quan Trọng (Feature Importance)', ascending=False)

print("--- KẾT QUẢ XẾP HẠNG ĐỘ QUAN TRỌNG CỦA BIẾN ---")
print(importance_df)

In [None]:
import pandas as pd
from optbinning import OptimalBinning

# --- BƯỚC 1: CHUẨN BỊ DỮ LIỆU ---
# (Đảm bảo biến 'df' của bạn đã có sẵn dữ liệu và cột 'BAD_NEXT_12M')
# Lưu ý: Optbinning cần xử lý giá trị Null, ta tạm thời điền 0 nếu có Null
df_clean = df.copy()
df_clean['N_AVG_DEPOSIT_12M'] = df_clean['N_AVG_DEPOSIT_12M'].fillna(0)
df_clean['CBAL'] = df_clean['CBAL'].fillna(0)

# --- BƯỚC 2: TÌM ĐIỂM CẮT CHO TIỀN GỬI (N_AVG_DEPOSIT_12M) ---
print(">>> ĐANG TÍNH TOÁN NGƯỠNG CẮT CHO: TIỀN GỬI 12 THÁNG...")

# Cấu hình: max_n_bins=2 (Chia làm 2 nhóm: Thấp/Cao)
opt_deposit = OptimalBinning(name="N_AVG_DEPOSIT_12M", dtype="numerical", solver="cp",
                             max_n_bins=2, min_bin_size=0.1)

opt_deposit.fit(df_clean['N_AVG_DEPOSIT_12M'], df_clean['BAD_NEXT_12M'])

print(f"Trạng thái: {opt_deposit.status}")
print(f"Điểm cắt gợi ý (VNĐ): {opt_deposit.splits}")

# Xem bảng chi tiết (IV, WoE)
print("\n--- BẢNG THỐNG KÊ PHÂN KHÚC TIỀN GỬI ---")
display(opt_deposit.binning_table.build()[['Bin', 'Count', 'Event', 'WoE', 'IV']])


# --- BƯỚC 3: TÌM ĐIỂM CẮT CHO DƯ NỢ (CBAL) ---
print("\n\n>>> ĐANG TÍNH TOÁN NGƯỠNG CẮT CHO: DƯ NỢ HIỆN TẠI (CBAL)...")

opt_loan = OptimalBinning(name="CBAL", dtype="numerical", solver="cp",
                          max_n_bins=2, min_bin_size=0.1)

opt_loan.fit(df_clean['CBAL'], df_clean['BAD_NEXT_12M'])

print(f"Trạng thái: {opt_loan.status}")
print(f"Điểm cắt gợi ý (VNĐ): {opt_loan.splits}")

# Xem bảng chi tiết
print("\n--- BẢNG THỐNG KÊ PHÂN KHÚC DƯ NỢ ---")
display(opt_loan.binning_table.build()[['Bin', 'Count', 'Event', 'WoE', 'IV']])

In [None]:
import numpy as np

# 1. Đặt ngưỡng làm tròn (Business Rule)
CUTOFF_DEPOSIT = 1500000  # 1.5 Triệu
CUTOFF_LOAN = 40000000    # 40 Triệu

# 2. Hàm định nghĩa phân khúc
def define_segment(row):
    # Logic: Nếu Tiền gửi thấp
    if row['N_AVG_DEPOSIT_12M'] < CUTOFF_DEPOSIT:
        if row['CBAL'] < CUTOFF_LOAN:
            return 'SEG1_LowDep_LowLoan'
        else:
            return 'SEG2_LowDep_HighLoan'
    # Logic: Nếu Tiền gửi cao
    else:
        if row['CBAL'] < CUTOFF_LOAN:
            return 'SEG3_HighDep_LowLoan'
        else:
            return 'SEG4_HighDep_HighLoan'

# 3. Áp dụng vào Dataframe
# Giả sử df là dataframe của bạn
df['FINAL_SEGMENT'] = df.apply(define_segment, axis=1)

# 4. Kiểm tra số lượng và tỷ lệ nợ xấu từng phân khúc
summary = df.groupby('FINAL_SEGMENT').agg(
    So_Luong=('BAD_NEXT_12M', 'count'),
    So_Bad=('BAD_NEXT_12M', 'sum')
).reset_index()

summary['Bad_Rate'] = (summary['So_Bad'] / summary['So_Luong']) * 100

print("--- KẾT QUẢ PHÂN KHÚC CUỐI CÙNG ---")
print(summary)

In [None]:
# 1. Lưu kết quả phân khúc vào file để dùng lâu dài
# df.to_csv('Dulieu_DaPhanKhuc.csv', index=False)

# 2. Tách dữ liệu để xây dựng mô hình cho SEGMENT 1 (Rủi ro cao nhất)
print("--- CHUẨN BỊ DỮ LIỆU CHO SEGMENT 1 ---")

# Lọc lấy riêng SEG1
df_seg1 = df[df['FINAL_SEGMENT'] == 'SEG1_LowDep_LowLoan'].copy()

print(f"Dữ liệu Segment 1: {df_seg1.shape}")
print(f"Tỷ lệ Bad: {(df_seg1['BAD_NEXT_12M'].sum() / len(df_seg1))*100:.2f}%")

# 3. Chia tập Train/Test (OOS) cho riêng Segment 1
from sklearn.model_selection import train_test_split

X_seg1 = df_seg1.drop(columns=['BAD_NEXT_12M', 'FINAL_SEGMENT']) # Bỏ cột target và nhãn phân khúc
y_seg1 = df_seg1['BAD_NEXT_12M']

# Chia 70% Train - 30% Test
X_train, X_test, y_train, y_test = train_test_split(X_seg1, y_seg1, test_size=0.3, random_state=42, stratify=y_seg1)

print(f"Số lượng tập Train: {len(X_train)}")
print(f"Số lượng tập Test: {len(X_test)}")

# --- TỪ ĐÂY BẮT ĐẦU BƯỚC BINNING (WOE/IV) CHO SEGMENT 1 ---
# Bạn sẽ lặp lại quy trình OptBinning cho các biến trong X_train để tìm các biến tốt nhất cho nhóm này.

In [None]:
import pandas as pd
import numpy as np
from optbinning import OptimalBinning
import warnings

# Tắt các cảnh báo "FutureWarning" cho đỡ rối mắt
warnings.filterwarnings("ignore")

# 1. Danh sách loại bỏ (giữ nguyên logic của bạn)
drop_list = [
    'BAD_NEXT_12M', 'BAD', 'XULYNO', 'MAX_NHOMNOCIC', 'INHERENT_RISK_SCORE', # Target & Leakage
    'SOCIF', 'year', 'SAMPLE_TYPE', 'final_CST_MKT_SEG', 'SEGMENT_DEPOSIT', 'SEGMENT_LOAN', # ID & Admin
    'REAL_GDP', 'REAL_GDP_GROWTH_12M', 'CPI', 'CPI_GROWTH_12M', 
    'UR', 'UR_GROWTH_12M', 'IIP', 'IIP_GROWTH_12M', # Macro
    'TUOI', 'CIF_ID', 'DATE', 'REPORT_DATE' # Trùng lặp & ID khác
]

# Lọc danh sách biến thực tế có trong X_train
final_features = [col for col in X_train.columns if col not in drop_list]

print(f"Tổng số biến sẽ chạy IV: {len(final_features)}")

# 2. Chuẩn bị DataFrame lưu kết quả
iv_summary = []

print("--- ĐANG TÍNH IV (Sử dụng Solver='ls' để ổn định hơn) ---")

for col in final_features:
    try:
        # --- BƯỚC XỬ LÝ QUAN TRỌNG ---
        # 1. Kiểm tra biến hằng số (chỉ có 1 giá trị) -> Bỏ qua vì không tính được IV
        if X_train[col].nunique() <= 1:
            print(f"  -> Bỏ qua {col}: Chỉ có 1 giá trị duy nhất.")
            continue

        # 2. Xác định kiểu dữ liệu chuẩn xác
        if pd.api.types.is_numeric_dtype(X_train[col]):
            col_type = "numerical"
            # Chuyển về dạng số thực, thay thế vô cùng (inf) bằng NaN rồi điền 0 hoặc trung vị
            x_data = X_train[col].replace([np.inf, -np.inf], np.nan).fillna(0)
        else:
            col_type = "categorical"
            # Chuyển hết về dạng chuỗi để tránh lỗi object lẫn lộn
            x_data = X_train[col].astype(str).fillna("MISSING")

        # 3. Chạy OptBinning với solver="ls"
        optb = OptimalBinning(
            name=col, 
            dtype=col_type, 
            solver="ls",  # <--- THAY ĐỔI QUAN TRỌNG: Dùng Local Search thay vì CP
            max_n_bins=5, 
            min_bin_size=0.05
        )
        
        optb.fit(x_data, y_train)
        
        # 4. Lưu kết quả nếu chạy thành công
        if optb.status in ["OPTIMAL", "FEASIBLE"]:
            iv_value = optb.binning_table.iv
            iv_summary.append({
                'Variable': col,
                'IV': iv_value,
                'Type': col_type,
                'Status': optb.status
            })
        else:
            print(f"  -> {col}: Không tìm được điểm cắt tối ưu (Status: {optb.status})")

    except Exception as e:
        # In lỗi gọn gàng hơn
        print(f"  [!] Lỗi biến {col}: {str(e)}")

# 3. Tổng hợp và Hiển thị kết quả
if len(iv_summary) > 0:
    df_iv = pd.DataFrame(iv_summary)
    df_iv = df_iv.sort_values(by='IV', ascending=False).reset_index(drop=True)

    # Phân loại sức mạnh
    def classify_iv(iv):
        if iv < 0.02: return 'Yếu (Loại)'
        elif iv < 0.1: return 'Trung bình'
        elif iv < 0.3: return 'Khá'
        elif iv < 0.5: return 'Mạnh'
        else: return 'Rất mạnh (Check Leakage)'

    df_iv['Strength'] = df_iv['IV'].apply(classify_iv)

    print("\n" + "="*50)
    print("TOP 20 BIẾN CÓ IV CAO NHẤT")
    print("="*50)
    display(df_iv.head(20))
    
    # Xuất ra list biến đạt chuẩn để dùng tiếp
    selected_vars = df_iv[df_iv['IV'] >= 0.02]['Variable'].tolist()
    print(f"\n>> Số lượng biến đạt chuẩn (IV >= 0.02): {len(selected_vars)} biến.")
else:
    print("\nKhông tính được IV cho biến nào cả. Hãy kiểm tra lại dữ liệu đầu vào!")

In [None]:
import pandas as pd
import numpy as np
import warnings

warnings.filterwarnings("ignore")

# --- HÀM TÍNH IV THỦ CÔNG ---
def calculate_iv_manual(df, feature, target):
    lst = []
    df[feature] = df[feature].fillna("MISSING")
    
    # 1. Xử lý chia nhóm (Binning)
    try:
        if pd.api.types.is_numeric_dtype(df[feature]):
            # Nếu là số: Chia thành 10 phần bằng nhau (Deciles) hoặc ít hơn nếu dữ liệu ít
            # duplicates='drop' để gộp các nhóm trùng nhau (ví dụ quá nhiều số 0)
            df['bin'] = pd.qcut(df[feature], q=10, duplicates='drop').astype(str)
        else:
            # Nếu là chữ: Giữ nguyên nhóm, nếu quá nhiều nhóm nhỏ thì gộp vào 'OTHER'
            # Ở đây ta làm đơn giản là giữ nguyên
            df['bin'] = df[feature].astype(str)
    except Exception as e:
        # Nếu lỗi qcut (ví dụ biến chỉ có 1 giá trị), coi như 1 bin
        df['bin'] = "Single_Bin"

    # 2. Tính toán Good/Bad
    # Tổng số Bad và Good toàn tập
    total_bad = df[target].sum()
    total_good = df[target].count() - total_bad
    
    # Group by theo bin
    grouped = df.groupby('bin', as_index=False).agg({target: ['count', 'sum']})
    grouped.columns = ['Bin', 'Total', 'Bad']
    grouped['Good'] = grouped['Total'] - grouped['Bad']
    
    # 3. Tính WOE và IV
    # Thêm 0.5 vào để tránh lỗi chia cho 0 (Laplace smoothing)
    grouped['Dist_Bad'] = (grouped['Bad'] + 0.5) / (total_bad + 0.5)
    grouped['Dist_Good'] = (grouped['Good'] + 0.5) / (total_good + 0.5)
    
    grouped['WoE'] = np.log(grouped['Dist_Good'] / grouped['Dist_Bad'])
    grouped['IV_Component'] = (grouped['Dist_Good'] - grouped['Dist_Bad']) * grouped['WoE']
    
    # Tổng IV của biến
    iv_sum = grouped['IV_Component'].sum()
    
    return iv_sum

# --- CHẠY VÒNG LẶP CHO DANH SÁCH BIẾN CỦA BẠN ---

# 1. Chuẩn bị danh sách biến (Lấy từ code trước của bạn)
drop_list = [
    'BAD_NEXT_12M', 'BAD', 'XULYNO', 'MAX_NHOMNOCIC', 'INHERENT_RISK_SCORE',
    'SOCIF', 'year', 'SAMPLE_TYPE', 'final_CST_MKT_SEG', 'SEGMENT_DEPOSIT', 'SEGMENT_LOAN',
    'REAL_GDP', 'REAL_GDP_GROWTH_12M', 'CPI', 'CPI_GROWTH_12M', 
    'UR', 'UR_GROWTH_12M', 'IIP', 'IIP_GROWTH_12M',
    'TUOI', 'CIF_ID', 'DATE', 'REPORT_DATE'
]

# Lọc biến có trong X_train
final_features = [col for col in X_train.columns if col not in drop_list]

print(f"--- BẮT ĐẦU TÍNH IV CHO {len(final_features)} BIẾN (PHƯƠNG PHÁP PANDAS) ---")

iv_results = []

# Sử dụng copy để không ảnh hưởng dữ liệu gốc
df_calc = X_train[final_features].copy()
df_calc['target'] = y_train.values # Gắn target vào để tính

for col in final_features:
    try:
        # Bỏ qua biến chỉ có 1 giá trị
        if df_calc[col].nunique() <= 1:
            continue
            
        iv = calculate_iv_manual(df_calc, col, 'target')
        
        iv_results.append({
            'Variable': col,
            'IV': iv
        })
    except Exception as e:
        print(f"Lỗi biến {col}: {e}")

# --- HIỂN THỊ KẾT QUẢ ---
if len(iv_results) > 0:
    df_iv = pd.DataFrame(iv_results)
    df_iv = df_iv.sort_values(by='IV', ascending=False).reset_index(drop=True)

    def classify_iv(iv):
        if iv < 0.02: return 'Yếu (Loại)'
        elif iv < 0.1: return 'Trung bình'
        elif iv < 0.3: return 'Khá'
        elif iv < 0.5: return 'Mạnh'
        else: return 'Rất mạnh (Check Leakage)'

    df_iv['Strength'] = df_iv['IV'].apply(classify_iv)

    print("\n" + "="*50)
    print("TOP 20 BIẾN CÓ IV CAO NHẤT (Ranking)")
    print("="*50)
    display(df_iv.head(20))
    
    # Lấy danh sách biến tốt
    selected_vars = df_iv[df_iv['IV'] >= 0.02]['Variable'].tolist()
    print(f"\n>> Số lượng biến đạt chuẩn (IV >= 0.02): {len(selected_vars)} biến.")
else:
    print("Không tính được IV nào.")

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# 1. Lọc lấy danh sách các biến có IV >= 0.02
high_iv_vars = df_iv[df_iv['IV'] >= 0.02]['Variable'].tolist()

print(f"Số biến đạt chuẩn IV (>= 0.02): {len(high_iv_vars)}")
print(f"Danh sách: {high_iv_vars}")

# 2. Tính ma trận tương quan trên tập Train
# Chỉ lấy các biến số (Numerical) để tính correlation
numeric_cols = X_train[high_iv_vars].select_dtypes(include=[np.number]).columns.tolist()
corr_matrix = X_train[numeric_cols].corr().abs()

# 3. Vẽ Heatmap để bạn dễ nhìn (Optional)
plt.figure(figsize=(12, 10))
sns.heatmap(corr_matrix, annot=False, cmap='coolwarm')
plt.title("Ma trận tương quan giữa các biến đạt chuẩn")
plt.show()

# 4. Thuật toán tự động loại bỏ biến tương quan cao (> 0.7)
# Giữ lại biến có IV cao hơn
upper = corr_matrix.where(np.triu(np.ones(corr_matrix.shape), k=1).astype(bool))
to_drop = []

print("\n--- PHÂN TÍCH LOẠI BỎ BIẾN TƯƠNG QUAN CAO (> 0.7) ---")

for column in upper.columns:
    if any(upper[column] > 0.7): # Ngưỡng cắt correlation là 0.7
        # Tìm các biến có tương quan với cột này
        correlated_vars = upper.index[upper[column] > 0.7].tolist()
        
        for var in correlated_vars:
            # So sánh IV để quyết định giữ biến nào
            iv_col = df_iv.loc[df_iv['Variable'] == column, 'IV'].values[0]
            iv_var = df_iv.loc[df_iv['Variable'] == var, 'IV'].values[0]
            
            if iv_col < iv_var:
                mark_drop = column
                keep = var
            else:
                mark_drop = var
                keep = column
            
            if mark_drop not in to_drop:
                to_drop.append(mark_drop)
                print(f"  > Phát hiện cặp ({column}, {var}) tương quan cao.")
                print(f"    -> Giữ lại: {keep} (IV={max(iv_col, iv_var):.4f})")
                print(f"    -> Loại bỏ: {mark_drop} (IV={min(iv_col, iv_var):.4f})")

# 5. Chốt danh sách cuối cùng
final_vars_for_model = [x for x in high_iv_vars if x not in to_drop]

print("\n" + "="*50)
print(f"DANH SÁCH BIẾN CUỐI CÙNG ĐỂ CHẠY MÔ HÌNH ({len(final_vars_for_model)} biến)")
print("="*50)
print(final_vars_for_model)

In [None]:
import pandas as pd
import numpy as np
import statsmodels.api as sm
from sklearn.metrics import roc_auc_score
import matplotlib.pyplot as plt
import warnings

warnings.filterwarnings("ignore")

# 1. Danh sách 5 biến vàng đã chọn
final_vars = ['MAX_DPD_12M', 'BASE_AUM', 'N_AVG_OVERDUE_CBAL_12M', 'COLLATERAL_VALUE', 'N_AVG_DEPOSIT_6M']

# 2. Hàm tự tính WoE (ĐÃ SỬA LỖI)
def manual_woe_transform(feature_data, target_data):
    """
    feature_data: Series chứa dữ liệu biến cần biến đổi
    target_data: Series chứa dữ liệu target (0/1)
    """
    # Tạo dataframe tạm để xử lý
    temp_df = pd.DataFrame()
    temp_df['val'] = feature_data.values
    temp_df['target'] = target_data.values
    
    # Xử lý binning (Chia nhóm)
    try:
        if pd.api.types.is_numeric_dtype(feature_data):
            # Xử lý vô cùng và NaN
            col_clean = temp_df['val'].replace([np.inf, -np.inf], np.nan).fillna(0)
            
            # Nếu biến có quá ít giá trị unique (< 10), coi như là biến phân loại (categorical)
            if col_clean.nunique() < 10:
                 temp_df['bin'] = col_clean.astype(str)
            else:
                # Chia thành 5 nhóm (Quintiles)
                # Dùng duplicates='drop' để gộp các nhóm trùng nhau (ví dụ quá nhiều số 0)
                temp_df['bin'] = pd.qcut(col_clean, q=5, duplicates='drop').astype(str)
        else:
            temp_df['bin'] = temp_df['val'].astype(str).fillna("MISSING")
    except Exception as e:
        # Fallback nếu lỗi qcut: gom hết vào 1 nhóm (không khuyến khích nhưng để code chạy thông)
        temp_df['bin'] = "Single_Bin"

    # Tính toán WoE
    # Tổng Bad/Good toàn mẫu
    total_bad = temp_df['target'].sum()
    total_good = temp_df['target'].count() - total_bad
    
    # Group by bin
    grouped = temp_df.groupby('bin', as_index=False).agg({'target': ['count', 'sum']})
    grouped.columns = ['bin', 'total', 'bad']
    grouped['good'] = grouped['total'] - grouped['bad']
    
    # Tính tỷ lệ phân phối & WoE
    # Thêm 0.5 (Laplace Smoothing) để tránh lỗi chia cho 0
    grouped['dist_bad'] = (grouped['bad'] + 0.5) / (total_bad + 0.5)
    grouped['dist_good'] = (grouped['good'] + 0.5) / (total_good + 0.5)
    grouped['WoE'] = np.log(grouped['dist_good'] / grouped['dist_bad'])
    
    # Tạo từ điển mapping
    woe_map = dict(zip(grouped['bin'], grouped['WoE']))
    
    # Map giá trị WoE trả lại
    return temp_df['bin'].map(woe_map).values

# 3. Thực hiện biến đổi dữ liệu sang WoE
print("--- ĐANG BIẾN ĐỔI DỮ LIỆU SANG WOE ---")

X_train_woe = pd.DataFrame()

# Copy index từ y_train để đảm bảo khớp dòng
X_train_woe.index = y_train.index 

for col in final_vars:
    try:
        # Truyền trực tiếp Series X và Series y vào hàm
        X_train_woe[col] = manual_woe_transform(X_train[col], y_train)
        print(f"  > Đã biến đổi xong: {col}")
    except Exception as e:
        print(f"  [!] Lỗi biến {col}: {str(e)}")

# 4. Chạy Hồi quy Logistic (Scorecard Model)
print("\n--- KẾT QUẢ MÔ HÌNH LOGISTIC REGRESSION ---")

# Thêm cột hằng số (Intercept)
X_log = sm.add_constant(X_train_woe)
y_log = y_train.values

# Huấn luyện mô hình
try:
    model = sm.Logit(y_log, X_log).fit(disp=0)
    
    # Hiển thị bảng thống kê
    print(model.summary())
    
    # 5. Đánh giá Gini
    y_pred_prob = model.predict(X_log)
    auc = roc_auc_score(y_log, y_pred_prob)
    gini = 2 * auc - 1
    print(f"\n>> GINI TRÊN TẬP TRAIN: {gini:.2%} (Thang đo 0-100%)")
    
    # 6. Chuyển đổi sang điểm số (Score Scaling)
    pdo = 20
    base_score = 600
    base_odds = 50
    factor = pdo / np.log(2)
    offset = base_score - (factor * np.log(base_odds))
    
    df_results = pd.DataFrame()
    df_results['Log_Odds'] = model.predict(X_log, transform=False)
    
    # Công thức tính điểm: Score = Offset + Factor * (-Log_Odds)
    # Lưu ý: WoE càng cao -> Rủi ro càng thấp -> Log_Odds (p/1-p) càng thấp
    df_results['Score'] = offset - (factor * df_results['Log_Odds'])
    df_results['Score'] = df_results['Score'].clip(300, 850).astype(int)
    
    # Xem phân phối điểm
    plt.figure(figsize=(10, 6))
    plt.hist(df_results[y_log==0]['Score'], bins=30, alpha=0.5, label='Good', color='green')
    plt.hist(df_results[y_log==1]['Score'], bins=30, alpha=0.5, label='Bad', color='red')
    plt.title(f"Phân phối điểm tín dụng (Gini = {gini:.1%})")
    plt.xlabel("Điểm")
    plt.ylabel("Số lượng KH")
    plt.legend()
    plt.show()
    
except Exception as e:
    print(f"Lỗi khi chạy mô hình: {str(e)}")

In [None]:
# 1. Cập nhật danh sách biến (Loại bỏ COLLATERAL_VALUE)
final_vars_clean = ['MAX_DPD_12M', 'BASE_AUM', 'N_AVG_OVERDUE_CBAL_12M', 'N_AVG_DEPOSIT_6M']

print(f"--- CHẠY MÔ HÌNH LẦN CUỐI VỚI {len(final_vars_clean)} BIẾN ---")

# 2. Chuẩn bị dữ liệu WoE cho các biến đã chọn
# (Lưu ý: Tận dụng lại hàm manual_woe_transform ở bước trước)
X_train_final = pd.DataFrame()
# Copy index để đảm bảo khớp
X_train_final.index = y_train.index 

for col in final_vars_clean:
    X_train_final[col] = manual_woe_transform(X_train[col], y_train)

# 3. Chạy Hồi quy Logistic
X_log_final = sm.add_constant(X_train_final)
y_log = y_train.values

model_final = sm.Logit(y_log, X_log_final).fit(disp=0)

# 4. Kiểm tra lại P-value và Gini
print(model_final.summary())

y_pred_final = model_final.predict(X_log_final)
auc_final = roc_auc_score(y_log, y_pred_final)
gini_final = 2 * auc_final - 1

print(f"\n>> GINI CUỐI CÙNG: {gini_final:.2%}")

# 5. Xuất Thẻ điểm (Scorecard Table)
# Đây là bảng quan trọng nhất để đưa vào hệ thống code
print("\n--- BẢNG THẺ ĐIỂM (SCORECARD) ---")

scorecard_df = pd.DataFrame()
pdo = 20
base_score = 600
base_odds = 50
factor = pdo / np.log(2)
offset = base_score - (factor * np.log(base_odds))

# Lấy hệ số (Beta) từ mô hình
intercept = model_final.params['const']
features_beta = model_final.params.drop('const')

# Tính điểm cơ bản (Base Score) phân bổ cho Intercept
# Công thức: (Intercept/n_features * Factor) + (Offset/n_features)
# Tuy nhiên để đơn giản, ta thường cộng hết vào 1 dòng Base Score hoặc chia đều.
# Cách hiển thị chuẩn:
print(f"Intercept (A0): {intercept:.4f}")
print(f"Factor: {factor:.4f}")
print(f"Offset: {offset:.4f}")

print("\nCông thức tính điểm từng biến:")
for col in final_vars_clean:
    beta = features_beta[col]
    print(f"  Biến {col}: Score = ({beta:.4f} * WoE) * {-factor:.4f}")

# 6. Biểu đồ phân phối điểm cuối cùng
df_final_score = pd.DataFrame()
df_final_score['Score'] = offset - factor * (intercept + np.dot(X_train_final.values, features_beta.values))
df_final_score['Score'] = df_final_score['Score'].clip(300, 850).astype(int)

plt.figure(figsize=(10, 6))
sns.kdeplot(df_final_score[y_log==0]['Score'], label='Good', shade=True, color='green')
sns.kdeplot(df_final_score[y_log==1]['Score'], label='Bad', shade=True, color='red')
plt.title(f'Phân phối điểm (Gini Final = {gini_final:.1%})')
plt.xlabel('Credit Score')
plt.legend()
plt.show()

In [None]:
import pandas as pd
import numpy as np

# --- CẤU HÌNH THAM SỐ TỪ KẾT QUẢ MÔ HÌNH CỦA BẠN ---
final_vars_clean = ['MAX_DPD_12M', 'BASE_AUM', 'N_AVG_OVERDUE_CBAL_12M', 'N_AVG_DEPOSIT_6M']
coef_dict = {
    'MAX_DPD_12M': -0.9892,
    'BASE_AUM': -0.1850,
    'N_AVG_OVERDUE_CBAL_12M': -0.0633,
    'N_AVG_DEPOSIT_6M': -0.2119
}
intercept = -2.7135
factor = 28.8539
offset = 487.1229

# Tính điểm cơ sở (Base Score) từ hằng số
# Điểm này sẽ được cộng thẳng cho mọi khách hàng
intercept_points = offset - (factor * intercept)
print(f"--- ĐIỂM CƠ SỞ (BASE POINTS): {int(intercept_points)} ---")

# --- HÀM TẠO BẢNG ĐIỂM CHI TIẾT ---
scorecard_rows = []

print("\n--- ĐANG TẠO BẢNG TRA ĐIỂM... ---")

for feature in final_vars_clean:
    # Lấy lại dữ liệu gốc và target
    temp_df = pd.DataFrame()
    temp_df['val'] = X_train[feature].replace([np.inf, -np.inf], np.nan).fillna(0)
    temp_df['target'] = y_train.values
    
    # Binning lại (Logic giống hệt lúc train)
    if pd.api.types.is_numeric_dtype(temp_df['val']) and temp_df['val'].nunique() >= 10:
        temp_df['bin'] = pd.qcut(temp_df['val'], q=5, duplicates='drop').astype(str)
    else:
        temp_df['bin'] = temp_df['val'].astype(str).fillna("MISSING")
    
    # Tính WoE từng bin
    total_bad = temp_df['target'].sum()
    total_good = temp_df['target'].count() - total_bad
    
    grouped = temp_df.groupby('bin', as_index=False).agg({'target': ['count', 'sum']})
    grouped.columns = ['Bin_Range', 'Total', 'Bad']
    grouped['Good'] = grouped['Total'] - grouped['Bad']
    
    # Tính WoE
    grouped['Dist_Bad'] = (grouped['Bad'] + 0.5) / (total_bad + 0.5)
    grouped['Dist_Good'] = (grouped['Good'] + 0.5) / (total_good + 0.5)
    grouped['WoE'] = np.log(grouped['Dist_Good'] / grouped['Dist_Bad'])
    
    # TÍNH ĐIỂM (POINT) CHO TỪNG BIN
    # Point = WoE * Coef * (-Factor)
    beta = coef_dict[feature]
    grouped['Points'] = grouped['WoE'] * beta * (-factor)
    grouped['Points'] = grouped['Points'].round(0).astype(int) # Làm tròn điểm
    
    # Thêm thông tin vào list tổng
    for _, row in grouped.iterrows():
        scorecard_rows.append({
            'Variable': feature,
            'Bin_Range': row['Bin_Range'],
            'Count': row['Total'],
            'Bad_Rate': f"{(row['Bad']/row['Total'])*100:.2f}%",
            'WoE': round(row['WoE'], 4),
            'Coefficients': beta,
            'Score_Points': row['Points']
        })

# --- HIỂN THỊ VÀ XUẤT FILE ---
final_card = pd.DataFrame(scorecard_rows)

# Sắp xếp cho đẹp
final_card = final_card[['Variable', 'Bin_Range', 'Count', 'Bad_Rate', 'WoE', 'Coefficients', 'Score_Points']]

print("\n=== KẾT QUẢ THẺ ĐIỂM (MẪU) ===")
display(final_card)

# Lưu ra Excel để báo cáo sếp
# final_card.to_excel("Final_Scorecard_Model.xlsx", index=False)
# print("\nĐã xuất file Excel thành công!")

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# --- CẤU HÌNH LẠI THAM SỐ (Lấy từ kết quả mô hình đã chạy) ---
# Đảm bảo các biến model_final, X_log_final, y_train vẫn còn trong bộ nhớ
# Nếu mất, bạn cần chạy lại bước Hồi quy Logistic bên trên.

pdo = 20
base_score = 600
base_odds = 50
factor = pdo / np.log(2)
offset = base_score - (factor * np.log(base_odds))

print("--- ĐANG TÍNH TOÁN LẠI BẢNG ĐIỂM VÀ XẾP HẠNG ---")

# 1. Tạo lại DataFrame kết quả từ đầu (Fix lỗi thiếu cột)
df_results = pd.DataFrame()

# Lấy giá trị Log-odds dự báo từ mô hình
df_results['Log_Odds'] = model_final.predict(X_log_final, transform=False)

# Tính điểm Score
df_results['Score'] = offset - (factor * df_results['Log_Odds'])
df_results['Score'] = df_results['Score'].clip(300, 850).astype(int) # Làm tròn và chặn trần/sàn

# QUAN TRỌNG: Gán lại cột Target (Biến y_train) để fix lỗi KeyError
df_results['Target'] = y_train.values 

# 2. Phân hạng tín dụng (Rating)
# Dùng cut (chia đều điểm) thay vì qcut để tránh lỗi trùng điểm
# Chia dải điểm thành 10 hạng
df_results['Rating_Class'] = pd.cut(df_results['Score'], bins=10, labels=False)

# Đảo ngược nhãn: Hạng 9 (điểm cao nhất) -> AAA, Hạng 0 -> D
# Vì pd.cut đánh số 0 cho bin điểm thấp nhất -> Đúng logic 0=D, 9=AAA
rating_map = {
    0: 'D (Rủi ro cao nhất)', 
    1: 'C', 2: 'CC', 3: 'CCC', 
    4: 'B', 5: 'BB', 6: 'BBB', 
    7: 'A', 8: 'AA', 
    9: 'AAA (Tốt nhất)'
}

# Nếu số lượng bin tạo ra ít hơn 10 (do dữ liệu tập trung), code sẽ tự xử lý
df_results['Rating_Label'] = df_results['Rating_Class'].map(rating_map)
# Fill những hạng không có tên (nếu có lỗi map) bằng "Unrated"
df_results['Rating_Label'] = df_results['Rating_Label'].fillna('Unrated')

# 3. Tổng hợp bảng Master Scale
master_scale = df_results.groupby('Rating_Label').agg(
    Min_Score=('Score', 'min'),
    Max_Score=('Score', 'max'),
    Total_Count=('Target', 'count'),
    Bad_Count=('Target', 'sum')
).reset_index()

# Tính PD thực tế (Observed PD)
master_scale['Observed_PD'] = master_scale['Bad_Count'] / master_scale['Total_Count']

# Sắp xếp bảng theo Điểm tăng dần (Từ D lên AAA)
master_scale = master_scale.sort_values(by='Min_Score', ascending=True)

# Format lại số liệu cho đẹp
master_scale_display = master_scale.copy()
master_scale_display['Observed_PD'] = master_scale_display['Observed_PD'].apply(lambda x: f"{x:.2%}")

print("\n=== MASTER SCALE (BẢNG XẾP HẠNG TÍN DỤNG NỘI BỘ) ===")
display(master_scale_display[['Rating_Label', 'Min_Score', 'Max_Score', 'Total_Count', 'Observed_PD']])

# 4. Vẽ biểu đồ quan hệ giữa Hạng và Rủi ro (PD)
plt.figure(figsize=(12, 6))
# Vẽ cột số lượng khách hàng
ax1 = sns.barplot(data=master_scale, x='Rating_Label', y='Total_Count', color='lightblue', alpha=0.6)
ax1.set_ylabel('Số lượng Khách hàng', color='blue')
ax1.tick_params(axis='y', labelcolor='blue')

# Vẽ đường PD
ax2 = ax1.twinx()
sns.lineplot(data=master_scale, x='Rating_Label', y='Observed_PD', color='red', marker='o', linewidth=2, ax=ax2)
ax2.set_ylabel('Tỷ lệ nợ xấu (PD)', color='red')
ax2.tick_params(axis='y', labelcolor='red')

plt.title('Phân phối Khách hàng và Tỷ lệ Vỡ nợ theo Hạng tín dụng')
plt.grid(False)
plt.show()

In [None]:
df.shape 

In [None]:
df.columns