In [1]:
import pandas as pd
import numpy as np
import random
from datetime import datetime, timedelta

# ==========================================
# 1. CẤU HÌNH & KHỞI TẠO
# ==========================================
NUM_CUSTOMERS = 400000
YEARS = [2018, 2019, 2020, 2021, 2022, 2023] # Dữ liệu 6 năm
np.random.seed(42)

print("1. Đang tạo hồ sơ tĩnh (Static Profile)...")
gender_array = np.random.choice(['M', 'F', 'O'], NUM_CUSTOMERS, p=[0.49, 0.49, 0.02])
age_array = np.random.normal(35, 10, NUM_CUSTOMERS).astype(int).clip(18, 70)

# Tạo Risk Score nội tại (Ẩn) - Quyết định "Số phận" khách hàng
# Dùng Gamma distribution để mô phỏng thực tế: Nhiều người tốt, ít người rất xấu
inherent_risk = np.random.gamma(shape=2, scale=1.0, size=NUM_CUSTOMERS) 
inherent_risk = (inherent_risk - inherent_risk.mean()) / inherent_risk.std() # Chuẩn hóa Z-score

# Trình độ & Hôn nhân
cond_edu = [age_array < 22, age_array <= 25]
choice_edu = [np.random.choice([1, 2], NUM_CUSTOMERS, p=[0.9, 0.1]), np.random.choice([1, 2, 3], NUM_CUSTOMERS, p=[0.3, 0.6, 0.1])]
default_edu = np.random.choice([1, 2, 3, 4], NUM_CUSTOMERS, p=[0.3, 0.5, 0.15, 0.05])
edu_array = np.select(cond_edu, choice_edu, default=default_edu)

prob_married = np.clip(((age_array - 22) / 30) + np.where(gender_array == 'F', 0.05, 0), 0.05, 0.98)
marital_status = np.where(np.random.rand(NUM_CUSTOMERS) < prob_married, 'Married', 'Single')

# Tạo AUM Gốc (Tài sản ban đầu)
# Logic: Tuổi cao, học vấn cao, rủi ro thấp -> Tài sản cao
log_aum = 14 + 0.03 * age_array + 0.4 * (edu_array >= 3) + 0.5 * (marital_status == 'Married') - 0.2 * inherent_risk + np.random.normal(0, 1.0, NUM_CUSTOMERS)
base_aum_init = np.exp(log_aum).astype(np.int64)

house_ownership = (np.random.rand(NUM_CUSTOMERS) < np.clip((age_array - 18) / 50, 0.05, 0.95)).astype(int)

ref_month = np.random.randint(1, 13, NUM_CUSTOMERS)
ref_day = np.random.randint(1, 29, NUM_CUSTOMERS)

customers = pd.DataFrame({
    'SOCIF': np.arange(1000000, 1000000 + NUM_CUSTOMERS),
    'C_GIOITINH': gender_array,
    'BASE_AGE': age_array,
    'TRINHDO': edu_array,
    'INITIAL_AUM': base_aum_init,
    'TTHONNHAN': marital_status,
    'SOHUUNHA': house_ownership,
    'NHANVIENBIDV': np.random.choice([0, 1], NUM_CUSTOMERS, p=[0.99, 0.01]),
    'INHERENT_RISK': inherent_risk,
    'REF_MONTH': ref_month, # <--- Cột mới: Tháng tham chiếu
    'REF_DAY': ref_day
})

# ==========================================
# 2. MỞ RỘNG DỮ LIỆU THEO NĂM
# ==========================================
print("2. Expand dữ liệu theo năm...")
growth_matrix = np.random.normal(1.08, 0.15, (NUM_CUSTOMERS, len(YEARS)))
growth_matrix[:, 2] -= 0.15 # 2020 Covid giảm
cum_growth_matrix = np.cumprod(growth_matrix, axis=1)

df_list = []
for i, year in enumerate(YEARS):
    temp_df = customers.copy()
    temp_df['year'] = year
    temp_df['BASE_AUM'] = (temp_df['INITIAL_AUM'] * cum_growth_matrix[:, i]).astype(np.int64).clip(0)
    
    # Biến động Risk theo vĩ mô (Năm xấu -> Risk nội tại tăng lên)
    macro_risk_adj = 0.5 if year in [2020, 2021] else 0
    temp_df['CURRENT_RISK'] = temp_df['INHERENT_RISK'] + np.random.normal(0, 0.5, NUM_CUSTOMERS) + macro_risk_adj
    
    df_list.append(temp_df)

df = pd.concat(df_list, ignore_index=True)
df = df.sort_values(by=['SOCIF', 'year'])
df['TUOI'] = df['BASE_AGE'] + (df['year'] - 2018)
df.drop(columns=['INITIAL_AUM', 'BASE_AGE'], inplace=True)

# ==========================================
# [MỚI - SỬA LẠI] 2.5 SINH SNAPSHOT_DATE CỐ ĐỊNH THEO MÙA
# ==========================================
print("2.5. Sinh ngày quan sát (Snapshot Date) theo chu kỳ cố định...")

# Logic: Kết hợp Năm hiện tại + Tháng cố định + Ngày cố định
# Sử dụng pd.to_datetime với dictionary để tạo ngày cực nhanh và chuẩn xác
df['SNAPSHOT_DATE'] = pd.to_datetime({
    'year': df['year'],
    'month': df['REF_MONTH'],
    'day': df['REF_DAY']
})

# Kiểm tra logic
print("   -> Kiểm tra tính nhất quán ngày tháng cho 1 khách hàng ngẫu nhiên:")
sample_cust = df['SOCIF'].iloc[0]
print(df[df['SOCIF'] == sample_cust][['SOCIF', 'year', 'SNAPSHOT_DATE']])

print(f"   -> Min Date: {df['SNAPSHOT_DATE'].min()}")
print(f"   -> Max Date: {df['SNAPSHOT_DATE'].max()}")

# ==========================================
# 3. SINH BIẾN TÀI CHÍNH & CẤU TRÚC NỢ
# ==========================================
print("3. Sinh biến tài chính & Cấu trúc nợ...")
N = len(df)

# --- 3.1 INCOME & CBAL ---
base_income = np.log1p(df['BASE_AUM']) * 1_200_000 * df['TRINHDO'].map({1:0.8, 2:1.0, 3:1.5, 4:2.5})
df['INCOME'] = (base_income * np.random.uniform(0.8, 1.5, N)).astype(int).clip(5_000_000)

# Loan Balance: Risk cao vay nhiều (Leverage cao)
leverage_factor = np.random.lognormal(0, 0.3, N) * np.exp(df['CURRENT_RISK'] * 0.1)
df['CBAL'] = (df['INCOME'] * 12 * leverage_factor * np.random.uniform(0.5, 2.0, N)).astype(int)

# Gán Zero Balance (25% khách hàng không vay hoặc đã tất toán)
mask_zero_debt = (df['INCOME'] < df['INCOME'].median()) & (np.random.rand(N) < 0.25)
df.loc[mask_zero_debt, 'CBAL'] = 0

# Limit & Org
df['CBALORG'] = (df['CBAL'] * np.random.uniform(1.0, 1.2, N)).astype(int)
df['AFLIMT_MAX'] = (np.maximum(df['CBALORG'], df['INCOME']*24) * np.random.uniform(1.0, 1.5, N)).astype(int)
df['AFLIMT_MIN'] = (df['AFLIMT_MAX'] * 0.9).astype(int)
df['AFLIMT_AVG'] = (df['AFLIMT_MAX'] + df['AFLIMT_MIN']) // 2

# Max/Min/Avg
df['CBAL_AVG'] = (df['CBAL'] * np.random.uniform(0.8, 1.2, N)).astype(int)
df['CBAL_MAX'] = np.maximum.reduce([(df['CBAL_AVG']*1.2).astype(int), df['CBAL'], df['CBAL_AVG']])
df['CBAL_MIN'] = np.minimum.reduce([(df['CBAL_AVG']*0.8).astype(int), df['CBAL'], df['CBAL_AVG']])

# --- 3.2 COLLATERAL & LTV ---
df['COLLATERAL_VALUE'] = (df['BASE_AUM'] * 0.8 + df['SOHUUNHA'] * 2e9).astype(int)
df['LTV'] = np.where(df['COLLATERAL_VALUE'] > 0, (df['CBAL'] / (df['COLLATERAL_VALUE'] + 1)) * 100, 100)
df['LTV'] = df['LTV'].clip(0, 200)

# --- 3.3 DEPOSIT (Thanh khoản) ---
# Risk cao -> Ít tiền gửi tích lũy
df['N_AVG_DEPOSIT_12M'] = (df['BASE_AUM'] * np.random.uniform(0.05, 0.5, N) / np.exp(df['CURRENT_RISK']*0.5)).astype(int)
df['N_AVG_DEPOSIT_6M'] = df['N_AVG_DEPOSIT_12M']
df['N_AVG_DD_12M'] = (df['N_AVG_DEPOSIT_12M'] * 0.2).astype(int)
df['N_AVG_CD_12M'] = df['N_AVG_DEPOSIT_12M'] - df['N_AVG_DD_12M']
df['FLAG_SALARY_ACC'] = np.where(df['INCOME'] > 15_000_000, 1, 0)
df['FLAG_DEPOSIT'] = np.where(df['N_AVG_DEPOSIT_12M'] > 1_000_000, 1, 0)

df['UTILIZATION_RATE'] = (df['CBAL'] / (df['AFLIMT_MAX'] + 1)).clip(0, 1.5)
df['CNT_CREDIT_CARDS'] = np.random.poisson(1.5, N).clip(0, 5)
prob_cash_adv = 1 / (1 + np.exp(-(df['CURRENT_RISK'] - 2))) 
df['AMT_CASH_ADVANCE_12M'] = np.where(np.random.rand(N) < prob_cash_adv, 
                                      df['AFLIMT_MAX'] * np.random.uniform(0.1, 0.8, N), 0).astype(int)
df['FLAG_CASH_ADVANCE'] = np.where(df['AMT_CASH_ADVANCE_12M'] > 0, 1, 0)

# --- GROUP 2: PAYMENT BEHAVIOR (Hành vi trả nợ) ---
# PCT_PAYMENT: Tỷ lệ trả nợ so với số dư sao kê. 
# < 1.0 (trả thiếu) là xấu. = 1.0 (trả đủ) là tốt.
base_pay_ratio = np.random.normal(1.1, 0.3, N) - (df['CURRENT_RISK'] * 0.2)
df['PCT_PAYMENT_TO_BALANCE'] = base_pay_ratio.clip(0.05, 5.0)

# Số lần chỉ trả tối thiểu (Min Pay) trong 6 tháng qua
df['CNT_MIN_PAY_6M'] = np.random.poisson(df['CURRENT_RISK'].clip(0) * 2).astype(int).clip(0, 6)

# Số ngày trễ hạn trung bình (Days Past Due Average)
df['AVG_DAYS_PAST_DUE'] = (np.random.exponential(df['CURRENT_RISK'].clip(0)) * 5).astype(int)

# --- GROUP 3: DEBT BURDEN (Gánh nặng nợ) ---
# DTI (Debt to Income): Tổng nợ / Thu nhập -> Biến kinh điển
df['DTI_RATIO'] = (df['CBAL'] / (df['INCOME'] * 12 + 1)).clip(0, 20)

# PTI (Payment to Income): Số tiền phải trả hàng tháng / Thu nhập tháng
monthly_payment = (df['CBAL'] * 0.05) + (df['AMT_CASH_ADVANCE_12M'] / 12)
df['PTI_RATIO'] = (monthly_payment / (df['INCOME'] + 1)).clip(0, 2.0) # > 0.7 là rất nguy hiểm

# --- GROUP 4: RELATIONSHIP (Quan hệ khách hàng) ---
# MOB (Months on Book): Thời gian quan hệ với ngân hàng (tháng)
df['MOB'] = np.random.randint(6, 120, N)

# Số lượng sản phẩm khác đang dùng (Bảo hiểm, tiết kiệm...)
df['CNT_OTHER_PRODUCTS'] = np.random.choice([0, 1, 2, 3], N, p=[0.6, 0.25, 0.1, 0.05])

# Kênh giao dịch chính (Digital vs Branch)
# df['IS_DIGITAL_USER'] = np.where(df['BASE_AGE'] < 40, 1, 0)

# --- GROUP 5: DERIVED RATIOS (Biến phái sinh) ---
# Tỷ lệ hạn mức trên thu nhập
df['LIMIT_TO_INCOME'] = df['AFLIMT_MAX'] / (df['INCOME'] + 1)
# Biến động chi tiêu (Variance)
df['AMT_VAR_6M'] = np.random.normal(0, 0.2, N)
# --- 3.4 CẤU TRÚC KỲ HẠN NỢ (SHORT/LONG TERM) ---
# [QUAN TRỌNG] Phải tính cái này trước khi tính Duration
w_short = np.random.uniform(0, 1, N)
df['CBAL_SHORTTERM_LOAN'] = (df['CBAL'] * w_short).astype(int)
df['CBAL_LONGTERM_LOAN'] = df['CBAL'] - df['CBAL_SHORTTERM_LOAN']
df['HAS_SHORTTERM_LOAN'] = np.where(df['CBAL_SHORTTERM_LOAN'] > 0, 1, 0)
df['HAS_LONGTERM_LOAN'] = np.where(df['CBAL_LONGTERM_LOAN'] > 0, 1, 0)

# --- Thêm biến về Utilization (Tỷ lệ sử dụng hạn mức) ---
df['UTILIZATION_RATE'] = (df['CBAL'] / (df['AFLIMT_MAX'] + 1)).clip(0, 1.2)

# --- Thêm biến về biến động số dư (Hành vi) ---
df['AMT_VAR_6M'] = np.random.normal(0, 0.2, N) # Biến động chi tiêu

# --- Thêm biến về số lần quá hạn trong quá khứ (không chỉ là DPD max) ---
df['CNT_DPD_30PLUS_6M'] = np.random.poisson(df['CURRENT_RISK'].clip(0) * 0.5).astype(int)

# --- Thêm biến nhân khẩu học dạng Category số ---
df['OCCUPATION_TYPE'] = np.random.choice([1, 2, 3, 4], N, p=[0.4, 0.3, 0.2, 0.1]) # 1: Công chức, 2: Tư nhân...

# ==========================================
# 4. SINH BIẾN DURATION & CÁC BIẾN KHÁC
# ==========================================
print("4. Sinh biến kỳ hạn (Duration) & Lãi suất...")

# Logic: Random cơ bản (6-24 tháng cho vay ngắn hạn)
df['DURATION_MAX'] = np.random.choice([6, 9, 12, 18, 24], N, p=[0.1, 0.1, 0.4, 0.2, 0.2])

# Logic Override: Nếu có dư nợ dài hạn -> Kỳ hạn phải dài (3-20 năm)
mask_long = (df['CBAL_LONGTERM_LOAN'] > 10_000_000)
num_long = mask_long.sum()
if num_long > 0:
    df.loc[mask_long, 'DURATION_MAX'] = np.random.choice(
        [36, 60, 120, 180, 240], num_long, p=[0.3, 0.3, 0.2, 0.1, 0.1]
    )

# Tính thời gian còn lại & thời gian đã qua
df['REMAINING_DURATION_MAX'] = (df['DURATION_MAX'] * np.random.uniform(0.1, 0.95, N)).astype(int)
df['TIME_TO_OP_MAX'] = df['DURATION_MAX'] - df['REMAINING_DURATION_MAX']

# Lãi suất (Risk cao -> Lãi cao)
df['RATE_AVG'] = np.random.normal(9.0, 1.5, N) + (df['CURRENT_RISK'] * 2.0)
df['RATE_AVG'] = df['RATE_AVG'].clip(5, 25)

# Purpose Code (Mục đích vay)
df['PURCOD_MAX'] = np.random.choice([1, 2, 3, 6, 9], N, p=[0.2, 0.1, 0.1, 0.5, 0.1])
df['PURCOD_MIN'] = df['PURCOD_MAX']

# ==========================================
# 5. SINH BIẾN HÀNH VI (HISTORICAL BEHAVIOR)
# ==========================================
print("5. Sinh biến hành vi (DPD, Overdue)...")

# Base DPD sinh ra từ Risk Score & Áp lực tài chính (LTV)
lambda_dpd = np.exp(df['CURRENT_RISK'] - 3.5) # Risk cao -> Lambda cao
raw_dpd = np.random.exponential(scale=lambda_dpd) * 5

stress_factor = (df['LTV'] / 80) + (1e8 / (df['N_AVG_DEPOSIT_12M'] + 1))
df['MAX_DPD_12M'] = (raw_dpd * stress_factor).astype(int).clip(0, 900)

# Observed DPD (Thêm nhiễu)
df['MAX_DPD_12M_OBS'] = df['MAX_DPD_12M'] 
df['AVG_OD_DPD_12M'] = (df['MAX_DPD_12M_OBS'] * np.random.uniform(0.1, 0.5, N)).astype(int)
df['SUM_ALL_OD_12M'] = (df['MAX_DPD_12M_OBS'] * np.random.uniform(1, 3, N)).astype(int)

# Trạng thái HIỆN TẠI (Dùng để lọc)
df['BAD_CURRENT'] = np.where(df['MAX_DPD_12M_OBS'] >= 90, 1, 0)
df['XULYNO'] = np.where((df['MAX_DPD_12M_OBS'] >= 180) & (np.random.rand(N) < 0.6), 1, 0)

# Nhóm nợ CIC (Logic chuẩn)
conditions = [
    df['MAX_DPD_12M_OBS'] >= 360,
    df['MAX_DPD_12M_OBS'] >= 180,
    df['MAX_DPD_12M_OBS'] >= 90,
    df['MAX_DPD_12M_OBS'] >= 10
]
choices = [5, 4, 3, 2]
df['MAX_NHOMNOCIC'] = np.select(conditions, choices, default=1)

df['N_AVG_OVERDUE_CBAL_12M'] = np.where(df['MAX_DPD_12M_OBS'] > 0, df['CBAL']*0.5, 0).astype(int)
df['CBAL_TO_INC_12MON'] = df['CBAL'] / (df['INCOME'] + 1)

# Biến Macro
macro_data = {2018: 7.08, 2019: 7.02, 2020: 2.91, 2021: 2.58, 2022: 8.02, 2023: 5.05}
df['REAL_GDP_GROWTH_12M'] = df['year'].map(macro_data)

# ==========================================
# 6. SINH TARGET (TUNED FOR MODELING)
# ==========================================
print("6. Sinh Target tương lai (Probability Model)...")

# Công thức xác suất (Nhân quả: Behavior + Financial -> Target)
# Trọng số đã được tinh chỉnh để Correlation > 0.3
score_behavior = (
    0.6 * np.log1p(df['MAX_DPD_12M_OBS']) +      # DPD vẫn quan trọng nhất
    1.2 * (df['MAX_NHOMNOCIC'] >= 2)             # Đã nhóm 2 là rất xấu
)
risk_ltv = np.where(df['LTV'] > 70, (df['LTV'] - 70) * 0.05, 0)
risk_dti = 0.5 * df['DTI_RATIO']
benefit_deposit = -0.3 * np.log1p(df['N_AVG_DEPOSIT_12M'] / 1_000_000)
score_financial = risk_ltv + risk_dti + benefit_deposit

score_protection = (
    -1.5 * df['SOHUUNHA'] +                 # Có nhà -> Rủi ro giảm mạnh (dù nợ cao)
    -0.8 * (df['MOB'] > 48) +               # Khách hàng lâu năm (>4 năm) -> Uy tín
    -0.5 * (df['TRINHDO'] >= 3)             # Trình độ Đại học trở lên -> Ổn định
)

# --- 4. TƯƠNG TÁC PHỨC TẠP (INTERACTIONS - BUFF EBM) ---
# EBM tự động bắt được các tương tác này, LogReg thường bỏ sót
# "Bẫy thu nhập thấp": Thu nhập < 15tr VÀ DTI > 1.0 -> Rủi ro nhân đôi (Stress Test)
interaction_stress = np.where((df['INCOME'] < 15_000_000) & (df['DTI_RATIO'] > 1.0), 1.5, 0)

# "Tuổi trẻ bồng bột": Dưới 25 tuổi VÀ dùng full hạn mức -> Rủi ro cao
interaction_youth = np.where((df['TUOI'] < 25) & (df['UTILIZATION_RATE'] > 0.8), 1.2, 0)

# U-Shape Age: Rủi ro cao ở 2 đầu (Rất trẻ hoặc Rất già)
risk_age = 0.01 * (df['TUOI'] - 45)**2 / 10  # Parabol đáy ở 45 tuổi

# --- 5. TỔNG HỢP LOGIT ---
# Intercept điều chỉnh để Bad Rate chung khoảng 5-8%
intercept = -5.5 

# Random Noise (Quan trọng):
# Tăng noise ở Seg 1 để giảm Gini ảo (người giàu vỡ nợ do lý do ngẫu nhiên/gian lận)
random_shock = np.random.normal(0, 0.8, len(df))

logit_p = (intercept + 
           score_behavior + 
           score_financial + 
           score_protection + 
           interaction_stress + 
           interaction_youth + 
           risk_age + 
           random_shock)

prob_default = 1 / (1 + np.exp(-logit_p))
df['BAD_NEXT_12M'] = (np.random.rand(N) < prob_default).astype(int)

print(f"   -> Mean Logit Score: {logit_p.mean():.2f} (Kỳ vọng khoảng -2.5 đến -3.0)")

# ==============================================================================
# [CHÈN VÀO ĐÂY] 6.5. INJECT MISSING VALUES (TẠO DỮ LIỆU KHUYẾT THIẾU)
# ==============================================================================
print("6.5. Inject Missing Data để kiểm tra tính Completeness...")

# 1. Missing Completely At Random (MCAR) - Mất ngẫu nhiên
# Ví dụ: 5% khách hàng bị thiếu thông tin Thu nhập (INCOME) do lỗi hệ thống hoặc không khai báo
idx_missing_inc = np.random.choice(df.index, size=int(len(df) * 0.05), replace=False)
df.loc[idx_missing_inc, 'INCOME'] = np.nan

# Ví dụ: 3% khách hàng thiếu thông tin Trình độ (TRINHDO)
idx_missing_edu = np.random.choice(df.index, size=int(len(df) * 0.03), replace=False)
df.loc[idx_missing_edu, 'TRINHDO'] = np.nan

# 2. Missing Not At Random (MNAR) - Mất có quy luật
# Ví dụ: Khách hàng không có TSBĐ (COLLATERAL_VALUE = 0) thường bị để trống (NULL) thay vì số 0
# Hoặc nhân viên lười nhập định giá
mask_missing_collat = (df['COLLATERAL_VALUE'] < 500_000_000) & (np.random.rand(len(df)) < 0.3)
df.loc[mask_missing_collat, 'COLLATERAL_VALUE'] = np.nan

# 3. Missing Structural - Mất do logic sản phẩm
# Ví dụ: Khách hàng mới (MOB < 3 tháng) chưa có biến động số dư 6 tháng (AMT_VAR_6M)
df.loc[df['MOB'] < 3, 'AMT_VAR_6M'] = np.nan

# ==========================================
# 7. LỌC THỬ DỮ LIỆU (CLEANING)
# ==========================================
print("7. Lọc bỏ hồ sơ rác & Đã xấu (Population Filter)...")

print("\n=== PHÂN TÍCH TỶ LỆ LOẠI BỎ DỮ LIỆU (WATERFALL) ===")
total_rows = len(df)
print(f"Tổng số hồ sơ gốc: {total_rows:,}")

# Định nghĩa các điều kiện lọc riêng biệt
# Lưu ý: Các điều kiện này có thể chồng lấn nhau (1 người có thể dính nhiều lỗi)
cond_dict = {
    "1. Đang nợ xấu (Bad Current)": (df['BAD_CURRENT'] == 1),
    "2. Nợ xấu CIC (Group >= 3)":   (df['MAX_NHOMNOCIC'] >= 3),
    "3. Đã xử lý nợ (Write-off)":   (df['XULYNO'] == 1),
    "4. Tuổi < 18":                 (df['TUOI'] < 18),
    "5. Dư nợ quá nhỏ (Inactive)":  (df['CBAL'] <= 100000), # Khả năng cao là cái này
    "6. Thu nhập <= 0":             (df['INCOME'] <= 0)
}

# 1. Kiểm tra số lượng vi phạm từng điều kiện (độc lập)
print("\n--- Thống kê độc lập (Independent Check) ---")
for reason, condition in cond_dict.items():
    n_drop = condition.sum()
    pct_drop = (n_drop / total_rows) * 100
    print(f"- {reason}: {n_drop:,} dòng ({pct_drop:.2f}%)")

# 2. Kiểm tra dòng chảy (Sequential Check - Lọc lần lượt)
print("\n--- Thống kê dòng chảy (Sequential Filter) ---")
current_df = df.copy()
remaining_rows = total_rows

for reason, condition in cond_dict.items():
    # Áp dụng điều kiện trên tập dữ liệu CÒN LẠI
    # Lưu ý: condition phải map theo index hoặc tính lại trên current_df
    # Để đơn giản, ta tính lại condition trên current_df
    
    if reason == "1. Đang nợ xấu (Bad Current)":
        mask = current_df['BAD_CURRENT'] == 1
    elif reason == "2. Nợ xấu CIC (Group >= 3)":
        mask = current_df['MAX_NHOMNOCIC'] >= 3
    elif reason == "3. Đã xử lý nợ (Write-off)":
        mask = current_df['XULYNO'] == 1
    elif reason == "4. Tuổi < 18":
        mask = current_df['TUOI'] < 18
    elif reason == "5. Dư nợ quá nhỏ (Inactive)":
        mask = current_df['CBAL'] <= 100000
    elif reason == "6. Thu nhập <= 0":
        mask = current_df['INCOME'] <= 0
        
    n_remove = mask.sum()
    current_df = current_df[~mask]
    new_remaining = len(current_df)
    
    print(f"Loại bỏ do [{reason}]: {n_remove:,} dòng. Còn lại: {new_remaining:,}")

print(f"\n=> Tổng kết: Giữ lại {len(current_df):,} dòng ({len(current_df)/total_rows:.1%})")
cond_remove = (
    (df['BAD_CURRENT'] == 1) |      # Loại người đang Bad
    (df['MAX_NHOMNOCIC'] >= 3) |    # Loại nhóm nợ xấu
    (df['XULYNO'] == 1) |           # Loại đã xử lý nợ
    (df['TUOI'] < 18) |             # Loại trẻ em
    (df['CBAL'] <= 100000) |             # Loại không có dư nợ (Inactive)
    (df['INCOME'] <= 0)
)

df_clean = df[~cond_remove].copy()

# Gán nhãn Sample (Train/OOS/OOT)
def assign_sample(year):
    if year <= 2021: return 'TRAIN'
    if year == 2022: return 'OOS'
    return 'OOT' # 2023

df['SAMPLE_TYPE'] = df['year'].apply(assign_sample)
df_clean['SAMPLE_TYPE'] = df_clean['year'].apply(assign_sample)

# ==========================================
# 8. KIỂM TRA KẾT QUẢ
# ==========================================
print("=" * 40)
print(f"Kích thước gốc: {df.shape}")
print(f"Kích thước sau lọc (Sạch): {df_clean.shape}")
print("-" * 30)
print("Tỷ lệ Bad Rate (Target) trên tập sạch:")
print(df_clean.groupby('SAMPLE_TYPE')['BAD_NEXT_12M'].mean())
print("-" * 30)
print("Check Correlation (Kỳ vọng: DPD > 0.3, LTV > 0.1):")
cols_check = ['MAX_DPD_12M_OBS', 'LTV', 'N_AVG_DEPOSIT_12M', 'BASE_AUM', 'BAD_NEXT_12M']
print(df_clean[cols_check].corr()['BAD_NEXT_12M'])
print("=" * 40)

# Lưu lại DataFrame cuối cùng
# df = df_clean.copy()

1. Đang tạo hồ sơ tĩnh (Static Profile)...
2. Expand dữ liệu theo năm...
2.5. Sinh ngày quan sát (Snapshot Date) theo chu kỳ cố định...
   -> Kiểm tra tính nhất quán ngày tháng cho 1 khách hàng ngẫu nhiên:
           SOCIF  year SNAPSHOT_DATE
0        1000000  2018    2018-07-08
400000   1000000  2019    2019-07-08
800000   1000000  2020    2020-07-08
1200000  1000000  2021    2021-07-08
1600000  1000000  2022    2022-07-08
2000000  1000000  2023    2023-07-08
   -> Min Date: 2018-01-01 00:00:00
   -> Max Date: 2023-12-28 00:00:00
3. Sinh biến tài chính & Cấu trúc nợ...
4. Sinh biến kỳ hạn (Duration) & Lãi suất...
5. Sinh biến hành vi (DPD, Overdue)...
6. Sinh Target tương lai (Probability Model)...
   -> Mean Logit Score: -3.50 (Kỳ vọng khoảng -2.5 đến -3.0)
6.5. Inject Missing Data để kiểm tra tính Completeness...
7. Lọc bỏ hồ sơ rác & Đã xấu (Population Filter)...

=== PHÂN TÍCH TỶ LỆ LOẠI BỎ DỮ LIỆU (WATERFALL) ===
Tổng số hồ sơ gốc: 2,400,000

--- Thống kê độc lập (Independent Che

In [2]:
df.to_parquet('gen_data.parquet', index=False)

In [3]:
df.shape

(2400000, 68)

In [4]:
df

Unnamed: 0,SOCIF,C_GIOITINH,TRINHDO,TTHONNHAN,SOHUUNHA,NHANVIENBIDV,INHERENT_RISK,REF_MONTH,REF_DAY,year,...,AVG_OD_DPD_12M,SUM_ALL_OD_12M,BAD_CURRENT,XULYNO,MAX_NHOMNOCIC,N_AVG_OVERDUE_CBAL_12M,CBAL_TO_INC_12MON,REAL_GDP_GROWTH_12M,BAD_NEXT_12M,SAMPLE_TYPE
0,1000000,M,1.0,Single,0,0,-0.374654,7,8,2018,...,0,1,0,0,1,124783927,12.187122,7.08,0,TRAIN
400000,1000000,M,1.0,Single,0,0,-0.374654,7,8,2019,...,0,68,0,0,2,188400439,18.867998,7.02,1,TRAIN
800000,1000000,M,1.0,Single,0,0,-0.374654,7,8,2020,...,0,43,0,0,2,85010664,9.631203,2.91,0,TRAIN
1200000,1000000,M,1.0,Single,0,0,-0.374654,7,8,2021,...,0,5,0,0,1,201306351,31.585131,2.58,0,TRAIN
1600000,1000000,M,1.0,Single,0,0,-0.374654,7,8,2022,...,0,27,0,0,2,134978687,13.773558,8.02,0,OOS
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
799999,1399999,F,1.0,Single,0,0,-0.232078,2,27,2019,...,0,41,0,0,2,279830893,27.726922,7.02,0,TRAIN
1199999,1399999,F,1.0,Single,0,0,-0.232078,2,27,2020,...,0,2,0,0,1,135356001,15.553561,2.91,0,TRAIN
1599999,1399999,F,1.0,Single,0,0,-0.232078,2,27,2021,...,0,2,0,0,1,185281452,16.565353,2.58,0,TRAIN
1999999,1399999,F,1.0,Single,0,0,-0.232078,2,27,2022,...,0,5,0,0,1,0,0.000000,8.02,0,OOS


In [5]:
df.columns

Index(['SOCIF', 'C_GIOITINH', 'TRINHDO', 'TTHONNHAN', 'SOHUUNHA',
       'NHANVIENBIDV', 'INHERENT_RISK', 'REF_MONTH', 'REF_DAY', 'year',
       'BASE_AUM', 'CURRENT_RISK', 'TUOI', 'SNAPSHOT_DATE', 'INCOME', 'CBAL',
       'CBALORG', 'AFLIMT_MAX', 'AFLIMT_MIN', 'AFLIMT_AVG', 'CBAL_AVG',
       'CBAL_MAX', 'CBAL_MIN', 'COLLATERAL_VALUE', 'LTV', 'N_AVG_DEPOSIT_12M',
       'N_AVG_DEPOSIT_6M', 'N_AVG_DD_12M', 'N_AVG_CD_12M', 'FLAG_SALARY_ACC',
       'FLAG_DEPOSIT', 'UTILIZATION_RATE', 'CNT_CREDIT_CARDS',
       'AMT_CASH_ADVANCE_12M', 'FLAG_CASH_ADVANCE', 'PCT_PAYMENT_TO_BALANCE',
       'CNT_MIN_PAY_6M', 'AVG_DAYS_PAST_DUE', 'DTI_RATIO', 'PTI_RATIO', 'MOB',
       'CNT_OTHER_PRODUCTS', 'LIMIT_TO_INCOME', 'AMT_VAR_6M',
       'CBAL_SHORTTERM_LOAN', 'CBAL_LONGTERM_LOAN', 'HAS_SHORTTERM_LOAN',
       'HAS_LONGTERM_LOAN', 'CNT_DPD_30PLUS_6M', 'OCCUPATION_TYPE',
       'DURATION_MAX', 'REMAINING_DURATION_MAX', 'TIME_TO_OP_MAX', 'RATE_AVG',
       'PURCOD_MAX', 'PURCOD_MIN', 'MAX_DPD_12M', 'M