In [None]:
import numpy as np
import pandas as pd
from tqdm import tqdm

# ----------------------------
# 1. 기본 설정
# ----------------------------
N = 20000
np.random.seed(0)

# ----------------------------
# 2. 샘플링 헬퍼 함수
# ----------------------------
def sample_categorical(meta, profile):
    """
    범주형 데이터를 고객 프로파일(profile)에 따라 약간 조정하여 샘플링합니다.
    meta["categories"]와 meta["probs"]의 길이가 다르면, 부족하면 아주 작은 값(1e-12)으로 패딩합니다.
    """
    categories = meta["categories"]
    base_probs = np.array(meta["probs"], dtype=float)
    n_cat = len(categories)
    n_prob = len(base_probs)
    if n_prob < n_cat:
        pad = np.full(n_cat - n_prob, 1e-12)
        base_probs = np.concatenate([base_probs, pad])
    elif n_prob > n_cat:
        base_probs = base_probs[:n_cat]
    normalized_probs = base_probs / base_probs.sum()
    if meta.get("adjust_with_profile", False):
        beta = meta.get("beta", 0.5)
        mid = (n_cat - 1) / 2.0
        adjusted_weights = np.array([p * np.exp(beta * (i - mid) * profile) for i, p in enumerate(normalized_probs)])
        adjusted_probs = adjusted_weights / adjusted_weights.sum()
        return np.random.choice(categories, p=adjusted_probs)
    else:
        return np.random.choice(categories, p=normalized_probs)

def sample_numeric_normal(meta, profile):
    """정규분포를 따르는 숫자형 컬럼 샘플링"""
    mean = meta["V_AVG"]
    std = np.sqrt(meta["V_VAR"]) if meta["V_VAR"] > 0 else 1
    value = np.random.normal(mean, std) + meta.get("corr", 0.0) * profile
    return np.clip(value, meta["V_MIN"], meta["V_MAX"])

def sample_numeric_geometric(meta, profile):
    """기하분포를 따르는 숫자형 컬럼 샘플링"""
    avg = meta["V_AVG"]
    p = 1.0 / (avg + 1) if avg > 0 else 0.5
    base = np.random.geometric(p) - 1  # 0부터 시작
    value = base * (1 + meta.get("corr", 0.0) * profile)
    return np.clip(value, meta["V_MIN"], meta["V_MAX"])

def sample_numeric(meta, profile):
    if meta.get("dist", "geometric") == "normal":
        return sample_numeric_normal(meta, profile)
    else:
        return sample_numeric_geometric(meta, profile)

# ----------------------------
# 3. 메타데이터 정의 (총 132개 컬럼)
# ----------------------------
# 아래 메타데이터는 예시 통계치를 포함한 132개 컬럼 전체 정보입니다.
metadata = {
    "고객ID": {"type": "numeric", "dist": "geometric", "V_MIN": 1, "V_MAX": 100000, "V_AVG": 50000, "V_VAR": 1e8, "missing_rate": 0.0},
    "나이": {"type": "categorical",
             "categories": ["10세미만", "10대", "20대", "30대", "40대", "50대", "60대", "70대", "80대"],
             "probs": [0.00250854, 0.007098634, 0.063300598, 0.171274552, 0.350982067, 0.328031597, 0.071573442, 0.004963706, 0.000266866],
             "missing_rate": 0.0, "adjust_with_profile": True, "beta": 0.5},
    "성별": {"type": "categorical",
             "categories": ["남성", "여성"],
             "probs": [0.477263023, 0.522736977],
             "missing_rate": 0.0},
    "수익자여부": {"type": "categorical",
                   "categories": ["1", "0"],
                   "probs": [0.892697371, 0.107302629],
                   "missing_rate": 0.0},
    "CB신용평점": {"type": "numeric", "dist": "geometric",
                   "V_MIN": 0, "V_MAX": 1000, "V_AVG": 332.434209, "V_VAR": 183321.4053,
                   "missing_rate": 2878634/3267152, "corr": -0.05},
    "CB신용등급": {"type": "categorical",
                   "categories": ["99", "10", "9", "8", "7", "6", "5", "4", "3", "2", "1", "0"],
                   "probs": [0.003401127, 0.001735763, 0.00321289, 0.002599206, 0.004583197,
                             0.008742171, 0.014351949, 0.017619321, 0.016320024, 0.029974118,
                             0.055835174, 0.0000737646],
                   "missing_rate": 0.841551296},
    "두낫콜여부": {"type": "categorical",
                   "categories": ["1", "0"],
                   "probs": [0.358276462, 0.641723538],
                   "missing_rate": 1-0.825131315},
    "운전코드명": {"type": "categorical",
                  "categories": ["화물차(자가용)", "화물차(영업용)", "자가용화물운전자(2.5톤이상)_1", "자가용화물운전자(2.5톤이상)_2",
                                 "자가용특수차(특정차량)운전자", "자가용승용차운전자(26인승이상)", "자가용승용차운전자(11~25인승)",
                                 "자가용승용차운전자", "이륜자동차(자가용)", "이륜자동차(영업용)",
                                 "원동기장치 자전거(전동킥보드, 전동이륜평행차) 등", "운전안함",
                                 "오토바이운전자", "승합차(자가용)", "승합차(영업용)", "승용차(자가용)",
                                 "승용차(영업용)", "농기계", "기타 운전자", "기타", "건설기계"],
                  "probs": [0.002008171, 0.002163964, 0.00057971, 0.001400302, 0.000226803, 0.000183952, 0.000323523,
                            0.112988621, 0.000876604, 0.000140489, 7.74375e-05, 0.248108138, 0.000374332, 0.002110095,
                            0.000770396, 0.176448479, 0.000625621, 2.11193e-05, 0.000104678, 0.000113861, 0.000259247],
                  "missing_rate": 0.450094455},
    "성별코드": {"type": "categorical",
                "categories": ["-", "2", "1"],
                "probs": [0.012592619, 0.472740785, 0.514665678],
                "missing_rate": 9.18231e-07},
    "피보험자여부": {"type": "categorical",
                    "categories": ["1", "0"],
                    "probs": [0.848984069, 0.151015931],
                    "missing_rate": 0.0},
    "보험연령": {"type": "numeric", "dist": "normal",
                "V_MIN": 0, "V_MAX": 89, "V_AVG": 45, "V_VAR": 100,
                "missing_rate": 41197/(41197+3225955), "corr": 0.1},
    "직업분류명": {"type": "categorical",
                  "categories": ["판매종사자", "직업군인", "주부 및 비경제활동 인구", "[OLD] 주부 및 학생 비경제활동"],
                  "probs": [0.05, 0.03, 0.50, 0.42],
                  "missing_rate": 0.39},
    "직업위험등급코드": {"type": "categorical",
                         "categories": ["5", "4", "3", "2", "1"],
                         "probs": [0.499442328, 0.065067986, 0.024209464, 0.012734639, 0.008878681],
                         "missing_rate": 0.389666903},
    "은행멤버십고객등급환산점수": {"type": "numeric", "dist": "geometric",
                   "V_MIN": 0, "V_MAX": 12, "V_AVG": 0.667433377,
                   "V_VAR": 3.157648513, "missing_rate": 1848537/3267152},
    "카드멤버십고객등급환산점수": {"type": "numeric", "dist": "geometric",
                   "V_MIN": 0, "V_MAX": 12, "V_AVG": 0.242808655,
                   "V_VAR": 0.830616414, "missing_rate": 1848537/3267152},
    "손해보험멤버십고객등급환산점수": {"type": "numeric", "dist": "geometric",
                   "V_MIN": 0, "V_MAX": 12, "V_AVG": 0.07630823,
                   "V_VAR": 0.27855848, "missing_rate": 1848537/3267152},
    "카드멤버십고객등급코드": {"type": "categorical",
                   "categories": ["9", "5", "3", "2", "1"],
                   "probs": [0.181260315, 0.051520407, 0.009066918, 0.001871049, 0.001290114],
                   "missing_rate": 0.754991197},
    "통합그룹최고등급코드": {"type": "categorical",
                   "categories": ["9", "5", "3", "2", "1"],
                   "probs": [0.153632583, 0.1538903, 0.073698744, 0.035825392, 0.017158369],
                   "missing_rate": 0.565794613},
    "통합그룹멤버십고객등급코드": {"type": "categorical",
                   "categories": ["9", "5", "3", "2", "1"],
                   "probs": [0.235488278, 0.117775971, 0.052743796, 0.018506026, 0.009691315],
                   "missing_rate": 0.565794613},
    "손해보험고객실적점수": {"type": "numeric", "dist": "geometric",
                   "V_MIN": 0, "V_MAX": 116370, "V_AVG": 329.2387935,
                   "V_VAR": 850704.0402, "missing_rate": 1848537/3267152, "corr": 0.2},
    "손해보험멤버십고객등급코드": {"type": "categorical",
                   "categories": ["9", "5", "3", "2", "1"],
                   "probs": [0.122116449, 0.01419585, 0.003212584, 0.000867422, 0.000341276],
                   "missing_rate": 0.859266419},
    "손해보험멤버십고객등급환산점수": {"type": "numeric", "dist": "geometric",
                   "V_MIN": 0, "V_MAX": 12, "V_AVG": 0.07630823,
                   "V_VAR": 0.27855848, "missing_rate": 1848537/3267152},
    "증권고객실적점수": {"type": "numeric", "dist": "geometric",
                   "V_MIN": 0, "V_MAX": 1625628, "V_AVG": 120.3712635,
                   "V_VAR": 8969749.814, "missing_rate": 1848537/3267152, "corr": 0.2},
    "시도코드": {"type": "categorical",
                "categories": ["18", "17", "16", "15", "14", "13", "12", "11", "10", "9", "8", "7", "6", "5", "4", "3", "2", "1", "0"],
                "probs": [0.003539474, 0.006402824, 0.040564075, 0.022893639, 0.013037043, 0.019904798, 0.01943497, 0.013826721,
                          0.220999819, 7.10099e-05, 0.014392964, 0.013916708, 0.044574296, 0.019022378, 0.020370341, 0.037307416,
                          0.058117284, 0.226319131, 1.53038e-06],
                "missing_rate": 0.205303579},
    "방카채널Affluent고객여부": {"type": "categorical",
                "categories": ["1", "0"],
                "probs": [0.00121336, 0.99878664],
                "missing_rate": 0.0},
    "방카채널유지계약건수": {"type": "numeric", "dist": "geometric",
                "V_MIN": 0, "V_MAX": 9, "V_AVG": 0.04871, "V_VAR": 0.05728,
                "missing_rate": 0.0},
    "CMIP": {"type": "numeric", "dist": "geometric",
             "V_MIN": 0, "V_MAX": 2.89856e+11, "V_AVG": 959516.3276,
             "V_VAR": 1.47e+14, "missing_rate": 0.0, "corr": 0.2},
    "교차채널활동고객여부": {"type": "categorical",
                "categories": ["1", "0"],
                "probs": [0.00209962, 0.99790038],
                "missing_rate": 0.0},
    "교차채널CMIP": {"type": "numeric", "dist": "geometric",
                "V_MIN": 0, "V_MAX": 28170000, "V_AVG": 1201.47867,
                "V_VAR": 2799142439, "missing_rate": 0.0},
    "교차채널유지계약건수": {"type": "numeric", "dist": "geometric",
                "V_MIN": 0, "V_MAX": 10, "V_AVG": 0.00237, "V_VAR": 0.00313,
                "missing_rate": 0.0},
    "DM채널활동고객여부": {"type": "categorical",
                "categories": ["1", "0"],
                "probs": [0.029676568, 0.970323432],
                "missing_rate": 0.0},
    "DM채널유지계약건수": {"type": "numeric", "dist": "geometric",
                "V_MIN": 0, "V_MAX": 20, "V_AVG": 0.0425, "V_VAR": 0.08015,
                "missing_rate": 0.0},
    "기타채널누적성립건수": {"type": "numeric", "dist": "geometric",
                "V_MIN": 0, "V_MAX": 17118, "V_AVG": 0.01503, "V_VAR": 140.80328,
                "missing_rate": 0.0},
    "기타채널CMIP": {"type": "numeric", "dist": "geometric",
                "V_MIN": 0, "V_MAX": 136304288, "V_AVG": 8004.18911,
                "V_VAR": 3.13e+13, "missing_rate": 0.0},
    "기타채널유지계약건수": {"type": "numeric", "dist": "geometric",
                "V_MIN": 0, "V_MAX": 18118, "V_AVG": 0.02819, "V_VAR": 140.89347,
                "missing_rate": 0.0},
    "GA채널활동고객여부": {"type": "categorical",
                "categories": ["1", "0"],
                "probs": [0.121713375, 0.878286625],
                "missing_rate": 0.0},
    "GA채널Affluent고객여부": {"type": "categorical",
                "categories": ["1", "0"],
                "probs": [0.00947205, 0.99052795],
                "missing_rate": 0.0},
    "GA채널CMIP": {"type": "numeric", "dist": "geometric",
                "V_MIN": 0, "V_MAX": 1317519509, "V_AVG": 85648.44934,
                "V_VAR": 3.72e+12, "missing_rate": 0.0},
    "GA채널유지계약건수": {"type": "numeric", "dist": "geometric",
                "V_MIN": 0, "V_MAX": 29, "V_AVG": 0.14104, "V_VAR": 0.17683,
                "missing_rate": 0.0},
    "하이브리드채널활동고객여부": {"type": "categorical",
                "categories": ["1", "0"],
                "probs": [0.011697158, 0.988302842],
                "missing_rate": 0.0},
    "자사설계사채널누적성립건수": {"type": "numeric", "dist": "geometric",
                "V_MIN": 0, "V_MAX": 736, "V_AVG": 0.296612, "V_VAR": 1.25804,
                "missing_rate": 0.0},
    "자사설계사채널활동고객여부": {"type": "categorical",
                "categories": ["1", "0"],
                "probs": [0.269393574, 0.730606426],
                "missing_rate": 0.0},
    "자사설계사채널Affluent고객여부": {"type": "categorical",
                "categories": ["1", "0"],
                "probs": [0.014749935, 0.985250065],
                "missing_rate": 0.0},
    "자사설계사채널CMIP": {"type": "numeric", "dist": "geometric",
                "V_MIN": 0, "V_MAX": 2855536279, "V_AVG": 448333.3695,
                "V_VAR": 1.02e+14, "missing_rate": 0.0},
    "자사설계사채널유지계약건수": {"type": "numeric", "dist": "geometric",
                "V_MIN": 0, "V_MAX": 737, "V_AVG": 0.49556, "V_VAR": 1.9307,
                "missing_rate": 0.0},
    "CM채널활동고객여부": {"type": "categorical",
                "categories": ["1", "0"],
                "probs": [0.008474142, 0.991525858],
                "missing_rate": 0.0},
    "CM채널CMIP": {"type": "numeric", "dist": "geometric",
                "V_MIN": 0, "V_MAX": 5278101, "V_AVG": 294.43886,
                "V_VAR": 122466363.1, "missing_rate": 0.0},
    "아웃바운드채널누적성립건수": {"type": "numeric", "dist": "geometric",
                "V_MIN": 0, "V_MAX": 11, "V_AVG": 0.01556, "V_VAR": 0.02367,
                "missing_rate": 0.0},
    "아웃바운드채널CMIP": {"type": "numeric", "dist": "geometric",
                "V_MIN": 0, "V_MAX": 34774323, "V_AVG": 2253.56698,
                "V_VAR": 1384715925, "missing_rate": 0.0},
    "아웃바운드채널유지계약건수": {"type": "numeric", "dist": "geometric",
                "V_MIN": 0, "V_MAX": 12, "V_AVG": 0.0253, "V_VAR": 0.0344,
                "missing_rate": 0.0},
    "당월이탈고객여부": {"type": "categorical",
                "categories": ["1", "0"],
                "probs": [0.405945463, 0.594054537],
                "missing_rate": 0.0},
    "당월교차채널유입고객여부": {"type": "categorical",
                "categories": ["1", "0"],
                "probs": [0.001942299, 0.998057701],
                "missing_rate": 0.0},
    "당월DM채널유입고객여부": {"type": "categorical",
                "categories": ["1", "0"],
                "probs": [0.019590918, 0.980409082],
                "missing_rate": 0.0},
    "당월DM채널유입계약건수": {"type": "numeric", "dist": "geometric",
                "V_MIN": 0, "V_MAX": 12, "V_AVG": 0.02645, "V_VAR": 0.04568,
                "missing_rate": 0.0},
    "당월DM채널성립건수": {"type": "numeric", "dist": "geometric",
                "V_MIN": 0, "V_MAX": 3, "V_AVG": 0.00019, "V_VAR": 0.00026,
                "missing_rate": 0.0},
    "당월DM채널계약이탈건수": {"type": "numeric", "dist": "geometric",
                "V_MIN": 0, "V_MAX": 11, "V_AVG": 0.00605, "V_VAR": 0.01029,
                "missing_rate": 0.0},
    "당월GA채널유입고객여부": {"type": "categorical",
                "categories": ["1", "0"],
                "probs": [0.0960086, 0.9039914],
                "missing_rate": 0.0},
    "당월GA채널유입계약건수": {"type": "numeric", "dist": "geometric",
                "V_MIN": 0, "V_MAX": 29, "V_AVG": 0.11184, "V_VAR": 0.14512,
                "missing_rate": 0.0},
    "당월GA채널성립건수": {"type": "numeric", "dist": "geometric",
                "V_MIN": 0, "V_MAX": 4, "V_AVG": 0.0021, "V_VAR": 0.00224,
                "missing_rate": 0.0},
    "당월GA채널계약이탈건수": {"type": "numeric", "dist": "geometric",
                "V_MIN": 0, "V_MAX": 15, "V_AVG": 0.03284, "V_VAR": 0.04255,
                "missing_rate": 0.0},
    "당월유입고객여부": {"type": "categorical",
                "categories": ["1", "0"],
                "probs": [0.313118358, 0.686881642],
                "missing_rate": 0.0},
    "당월유입계약건수": {"type": "numeric", "dist": "geometric",
                "V_MIN": 0, "V_MAX": 47766, "V_AVG": 0.48435, "V_VAR": 1113.84699,
                "missing_rate": 0.0},
    "당월자사설계사채널이탈고객여부": {"type": "categorical",
                "categories": ["1", "0"],
                "probs": [0.369500377, 0.630499623],
                "missing_rate": 0.0},
    "당월자사설계사채널유입고객여부": {"type": "categorical",
                "categories": ["1", "0"],
                "probs": [0.182003059, 0.817996941],
                "missing_rate": 0.0},
    "당월자사설계사채널유입계약건수": {"type": "numeric", "dist": "geometric",
                "V_MIN": 0, "V_MAX": 736, "V_AVG": 0.29643, "V_VAR": 1.2574,
                "missing_rate": 0.0},
    "당월자사설계사채널성립건수": {"type": "numeric", "dist": "geometric",
                "V_MIN": 0, "V_MAX": 19, "V_AVG": 0.00074, "V_VAR": 0.00128,
                "missing_rate": 0.0},
    "당월자사설계사채널계약이탈건수": {"type": "numeric", "dist": "geometric",
                "V_MIN": 0, "V_MAX": 2025, "V_AVG": 0.62352, "V_VAR": 4.77013,
                "missing_rate": 0.0},
    "당월신규고객여부": {"type": "categorical",
                "categories": ["1", "0"],
                "probs": [0.001861562, 0.998138438],
                "missing_rate": 0.0},
    "당월아웃바운드채널유입고객여부": {"type": "categorical",
                "categories": ["1", "0"],
                "probs": [0.012503143, 0.987496857],
                "missing_rate": 0.0},
    "당월아웃바운드채널유입계약건수": {"type": "numeric", "dist": "geometric",
                "V_MIN": 0, "V_MAX": 11, "V_AVG": 0.01556, "V_VAR": 0.02367,
                "missing_rate": 0.0},
    "당월아웃바운드채널성립건수": {"type": "numeric", "dist": "geometric",
                "V_MIN": 0, "V_MAX": 3, "V_AVG": 0.00011, "V_VAR": 0.00017,
                "missing_rate": 0.0},
    "누적콜센터상담건수": {"type": "numeric", "dist": "geometric",
                "V_MIN": 0, "V_MAX": 4372, "V_AVG": 12.1799, "V_VAR": 482.12103,
                "missing_rate": 0.0},
    "누적부정반응건수": {"type": "numeric", "dist": "geometric",
                "V_MIN": 0, "V_MAX": 430123, "V_AVG": 3.92199, "V_VAR": 106946.4915,
                "missing_rate": 0.0},
    "누적VOC접수건수": {"type": "numeric", "dist": "geometric",
                "V_MIN": 0, "V_MAX": 1612, "V_AVG": 0.11345, "V_VAR": 3.19184,
                "missing_rate": 0.0},
    "최근3개월사이버환급금조회건수": {"type": "numeric", "dist": "geometric",
                "V_MIN": 0, "V_MAX": 184, "V_AVG": 0.0363, "V_VAR": 0.55336,
                "missing_rate": 0.0},
    "누적연금지급금액": {"type": "numeric", "dist": "geometric",
                "V_MIN": 0, "V_MAX": 10896571092, "V_AVG": 1511779.758, "V_VAR": 5.30e+14,
                "missing_rate": 939143/(939143+1222389)},
    "누적보험금지급건수": {"type": "numeric", "dist": "geometric",
                "V_MIN": 0, "V_MAX": 12876, "V_AVG": 2.5233, "V_VAR": 956.09681,
                "missing_rate": 939143/(939143+1222389)},
    "누적중도보험금지급금액": {"type": "numeric", "dist": "geometric",
                "V_MIN": 0, "V_MAX": 944931600, "V_AVG": 34187.73916, "V_VAR": 3.84e+12,
                "missing_rate": 939143/(939143+1222389)},
    "누적중도인출건수": {"type": "numeric", "dist": "geometric",
                "V_MIN": 0, "V_MAX": 2019, "V_AVG": 0.610421, "V_VAR": 38.061457,
                "missing_rate": 939143/(939143+1222389)},
    "누적해약환급금지급금액": {"type": "numeric", "dist": "geometric",
                "V_MIN": -65357795, "V_MAX": 24406726356, "V_AVG": 9339616.37, "V_VAR": 3.00e+15,
                "missing_rate": 939143/(939143+1222389)},
    "전전월제지급금이력여부": {"type": "categorical",
                "categories": ["1", "0"],
                "probs": [0.028245707, 0.971754293],
                "missing_rate": 0.0},
    "전월제지급금이력여부": {"type": "categorical",
                "categories": ["1", "0"],
                "probs": [0.025695664, 0.974304336],
                "missing_rate": 0.0},
    "당월보험료자동대출잔액": {"type": "numeric", "dist": "geometric",
                "V_MIN": -953897, "V_MAX": 353871208, "V_AVG": 202882.2945, "V_VAR": 3.80e+12,
                "missing_rate": 1980737/(1980737+180795)},
    "당월보험금지급건수": {"type": "numeric", "dist": "geometric",
                "V_MIN": 0, "V_MAX": 435, "V_AVG": 0.03353, "V_VAR": 1.45345,
                "missing_rate": 934143/(934143+1222389)},
    "당월보험금청구건수": {"type": "numeric", "dist": "geometric",
                "V_MIN": 0, "V_MAX": 3498, "V_AVG": 0.02468, "V_VAR": 0.59611,
                "missing_rate": 939143/(939143+1222389)},
    "당월중도인출건수": {"type": "numeric", "dist": "geometric",
                "V_MIN": 0, "V_MAX": 168, "V_AVG": 0.00607, "V_VAR": 0.093807,
                "missing_rate": 939143/(939143+1222389)},
    "당월제지급금이력여부": {"type": "categorical",
                "categories": ["1", "0"],
                "probs": [0.025705379, 0.974294621],
                "missing_rate": 0.0},
    "누적성립건수": {"type": "numeric", "dist": "geometric",
                "V_MIN": 0, "V_MAX": 47766, "V_AVG": 0.515496677, "V_VAR": 740,
                "missing_rate": 0.0, "corr": 0.2},
    "수금설계사수": {"type": "numeric", "dist": "geometric",
                "V_MIN": 0, "V_MAX": 34, "V_AVG": 0.75684082, "V_VAR": 0.423808115,
                "missing_rate": 0.0},
    "수금방법변경건수": {"type": "numeric", "dist": "geometric",
                "V_MIN": 0, "V_MAX": 20, "V_AVG": 0.003261556, "V_VAR": 5.30e-03,
                "missing_rate": 0.0},
    "모집설계사수": {"type": "numeric", "dist": "geometric",
                "V_MIN": 0, "V_MAX": 37, "V_AVG": 0.785196097, "V_VAR": 0.494481053,
                "missing_rate": 0.0},
    "보유계약피보험자수": {"type": "numeric", "dist": "geometric",
                "V_MIN": 0, "V_MAX": 71590, "V_AVG": 0.2882535, "V_VAR": 2817.33302,
                "missing_rate": 0.0},
    "유지계약건수": {"type": "numeric", "dist": "geometric",
                "V_MIN": 0, "V_MAX": 47766, "V_AVG": 0.515496677, "V_VAR": 739.5643279,
                "missing_rate": 0.0},
    "최빈가입채널코드": {"type": "categorical",
                "categories": ["1023", "1022", "1021", "1020", "1019", "1018", "1016", "1015", "1013", "1012", "1011", "1010", "1008", "1007", "1006", "1005", "1004", "1003", "1002", "1001"],
                "probs": [6.12154e-06, 0.000319238, 0.000203847, 0.001795141, 6.12154e-07, 1.56099e-05, 0.0062253, 0.00282509, 0.0001763, 2.90773e-05, 0.001940528, 6.73369e-06, 0.01235847, 0.00788944, 0.025254717, 0.003780663, 0.004166932, 0.060437653, 0.391030169, 0.14313353],
                "missing_rate": 0.338404825},
    "계약변경신청건수": {"type": "numeric", "dist": "geometric",
                "V_MIN": 0, "V_MAX": 7631, "V_AVG": 0.044000402, "V_VAR": 19.88669354,
                "missing_rate": 0.0},
    "부활변경건수": {"type": "numeric", "dist": "geometric",
                "V_MIN": 0, "V_MAX": 8, "V_AVG": 0.000683776, "V_VAR": 0.001041419,
                "missing_rate": 0.0},
    "가입특약수합계": {"type": "numeric", "dist": "geometric",
                "V_MIN": 0, "V_MAX": 84402, "V_AVG": 1.785903441, "V_VAR": 2.34e+03,
                "missing_rate": 0.0},
    "대출가능금액합계": {"type": "numeric", "dist": "geometric",
                "V_MIN": 0, "V_MAX": 16261460000, "V_AVG": 5281834.895, "V_VAR": 7.58e+14,
                "missing_rate": 0.0},
    "보험계약대출잔액합계": {"type": "numeric", "dist": "geometric",
                "V_MIN": -313023, "V_MAX": 3217300000, "V_AVG": 492121.8554, "V_VAR": 3.55e+13,
                "missing_rate": 0.0},
    "기납입보험료합계": {"type": "numeric", "dist": "geometric",
                "V_MIN": 0, "V_MAX": 18300000000, "V_AVG": 10475255.66, "V_VAR": 1.80e+15,
                "missing_rate": 0.0, "corr": 0.2},
    "미납보험료합계": {"type": "numeric", "dist": "geometric",
                "V_MIN": 0, "V_MAX": 110012500, "V_AVG": 32645.61059, "V_VAR": 1.15e+11,
                "missing_rate": 0.0},
    "전사최종계약경과월수": {"type": "numeric", "dist": "geometric",
                "V_MIN": 1, "V_MAX": 402, "V_AVG": 129.8151771, "V_VAR": 9211.006108,
                "missing_rate": 2239720/3267152},
    "전사최초계약경과월수": {"type": "numeric", "dist": "geometric",
                "V_MIN": 1, "V_MAX": 402, "V_AVG": 152.4132293, "V_VAR": 10413.70659,
                "missing_rate": 2239720/3267152},
    "연금누적가입건수": {"type": "numeric", "dist": "geometric",
                "V_MIN": 0, "V_MAX": 45, "V_AVG": 0.15722723, "V_VAR": 0.244,
                "missing_rate": 0.0},
    "연금보유여부": {"type": "categorical",
                "categories": ["1", "0"],
                "probs": [0.065160308, 0.934839692],
                "missing_rate": 0.0},
    "연금실효계약건수": {"type": "numeric", "dist": "geometric",
                "V_MIN": 0, "V_MAX": 13, "V_AVG": 0.00312, "V_VAR": 0.0048,
                "missing_rate": 0.0},
    "연금최대납입회차": {"type": "numeric", "dist": "geometric",
                "V_MIN": 0, "V_MAX": 370, "V_AVG": 9.03016, "V_VAR": 1070.28087,
                "missing_rate": 0.0},
    "연금유지계약수": {"type": "categorical",
                "categories": [str(i) for i in range(21, -1, -1)],
                "probs": [3.42978e-07, 3.42978e-07, 3.42978e-07, 3.42978e-07, 6.85956e-07, 1.02893e-06,
                          1.37191e-06, 1.71489e-06, 3.0868e-06, 6.1736e-06, 4.11573e-06, 1.20042e-05,
                          1.92068e-05, 4.15003e-05, 0.00010598, 0.000295304, 0.001156178, 0.006118725,
                          0.057391859, 0.935],
                "missing_rate": 0.0},
    "연금기납입보험료": {"type": "numeric", "dist": "geometric",
                "V_MIN": 0, "V_MAX": 29034080000, "V_AVG": 4124195.965, "V_VAR": 1.34e+15,
                "missing_rate": 0.0, "corr": 0.2},
    "연금인수거절여부": {"type": "categorical",
                "categories": ["1", "0"],
                "probs": [0.002660822, 0.997339178],
                "missing_rate": 0.0},
    "기타보장누적가입건수": {"type": "numeric", "dist": "geometric",
                "V_MIN": 0, "V_MAX": 194596, "V_AVG": 0.525604, "V_VAR": 185639.1014,
                "missing_rate": 0.0},
    "기타보장유지계약수": {"type": "numeric", "dist": "geometric",
                "V_MIN": 0, "V_MAX": 47772, "V_AVG": 0.08738, "V_VAR": 827.8952,
                "missing_rate": 0.0},
    "일반종신누적가입건수": {"type": "numeric", "dist": "geometric",
                "V_MIN": 0, "V_MAX": 669, "V_AVG": 0.699281118, "V_VAR": 1.61,
                "missing_rate": 0.0},
    "일반종신보유여부": {"type": "categorical",
                "categories": ["1", "0"],
                "probs": [0.218907341, 0.781092659],
                "missing_rate": 0.0},
    "일반종신실효계약건수": {"type": "numeric", "dist": "geometric",
                "V_MIN": 0, "V_MAX": 130, "V_AVG": 0.02508, "V_VAR": 0.05438,
                "missing_rate": 0.0},
    "일반종신최대납입회차": {"type": "numeric", "dist": "geometric",
                "V_MIN": 0, "V_MAX": 402, "V_AVG": 46.6449491, "V_VAR": 7160,
                "missing_rate": 0.0},
    "일반종신유지계약수": {"type": "numeric", "dist": "geometric",
                "V_MIN": 0, "V_MAX": 65, "V_AVG": 0.306459988, "V_VAR": 0.512736565,
                "missing_rate": 0.0},
    "일반종신인수거절여부": {"type": "categorical",
                "categories": ["1", "0"],
                "probs": [0.039629721, 0.960370279],
                "missing_rate": 0.0},
    "저축CMIP": {"type": "numeric", "dist": "geometric",
                "V_MIN": 0, "V_MAX": 530451767, "V_AVG": 7762.07213, "V_VAR": 3.25e+11,
                "missing_rate": 0.0},
    "저축최대납입회차": {"type": "numeric", "dist": "geometric",
                "V_MIN": 0, "V_MAX": 364, "V_AVG": 2.107151432, "V_VAR": 256.1438722,
                "missing_rate": 0.0},
    "저축가입납입보험료": {"type": "numeric", "dist": "geometric",
                "V_MIN": 0, "V_MAX": 9509440000, "V_AVG": 899662.5137, "V_VAR": 1.9437e+14,
                "missing_rate": 0.0},
    "변액누적가입건수": {"type": "numeric", "dist": "geometric",
                "V_MIN": 0, "V_MAX": 25, "V_AVG": 0.07103, "V_VAR": 0.10829,
                "missing_rate": 0.0},
    "변액CMIP": {"type": "numeric", "dist": "geometric",
                "V_MIN": 0, "V_MAX": 1327868860, "V_AVG": 46895.02704,
                "V_VAR": 3.86e+12, "missing_rate": 0.0},
    "변액보유여부": {"type": "categorical",
                "categories": ["1", "0"],
                "probs": [0.019442387, 0.980557613],
                "missing_rate": 0.0},
    "변액최대납입회차": {"type": "numeric", "dist": "geometric",
                "V_MIN": 0, "V_MAX": 235, "V_AVG": 3.428057, "V_VAR": 336.90011,
                "missing_rate": 0.0},
    "변액유지계약수": {"type": "numeric", "dist": "geometric",
                "V_MIN": 0, "V_MAX": 19, "V_AVG": 0.22113498, "V_VAR": 0.028901806,
                "missing_rate": 0.0},
    "변액기납입보험료": {"type": "numeric", "dist": "geometric",
                "V_MIN": 0, "V_MAX": 345420758, "V_AVG": 17272.16164, "V_VAR": 1.29e+11,
                "missing_rate": 0.0},
    "변액종신CMIP": {"type": "numeric", "dist": "geometric",
                "V_MIN": 0, "V_MAX": 345420758, "V_AVG": 17272.16164, "V_VAR": 1.29e+11,
                "missing_rate": 0.0},
    "변액종신보유여부": {"type": "categorical",
                "categories": ["1", "0"],
                "probs": [0.059292985, 0.940707015],
                "missing_rate": 0.0},
    "변액종신최대납입회차": {"type": "numeric", "dist": "geometric",
                "V_MIN": 0, "V_MAX": 278, "V_AVG": 12.34115289, "V_VAR": 1818.20641,
                "missing_rate": 0.0},
    "변액종신유지계약수": {"type": "numeric", "dist": "geometric",
                "V_MIN": 0, "V_MAX": 107, "V_AVG": 0.07916, "V_VAR": 0.14324,
                "missing_rate": 0.0},
    "변액종신기납입보험료": {"type": "numeric", "dist": "geometric",
                "V_MIN": 0, "V_MAX": 6396487410, "V_AVG": 3152642.526, "V_VAR": 5.34e+14,
                "missing_rate": 0.0}
}

# 위 metadata에서 조건 1에 따라 생성에서 제외할 컬럼들은 삭제
exclude_cols = {"은행고객실적점수", "은행멤버십고객등급환산점수", "카드고객실적점수",
                "카드멤버십고객등급코드", "카드멤버십고객등급환산점수",
                "통합그룹최고등급코드", "통합그룹멤버십고객등급코드",
                "손해보험고객실적점수", "손해보험멤버십고객등급코드", "손해보험멤버십고객등급환산점수",
                "증권고객실적점수"}
for col in exclude_cols:
    if col in metadata:
        del metadata[col]

# ----------------------------
# 4. 고객 프로파일 생성 (전역 프로파일)
# ----------------------------
global_profiles = np.random.normal(0, 1, N)

# ----------------------------
# 5. 상관관계 반영 그룹 설정
# ----------------------------
# 조건 2: 남은 등급코드(예, "CB신용등급", "직업위험등급코드")는 70% 이상의 양의 상관관계 보정(후처리에서)
# 조건 3 및 4: 같은 채널 컬럼 보정 – 채널별 "계약건수"와 "CMIP"는 100% 상관관계 (CMIP = 계약건수 × 임의계수)
#             그리고 CMIP 값이 1,500,000원 이상이면 해당 채널의 Affluent 컬럼을 "1", 아니면 "0"으로 설정
# 조건 5,6: 누적가입건수 및 기납입보험료 관련 보정은 후처리에서 진행
channel_groups = {
    "교차채널": {"계약건수": "교차채널유지계약건수", "CMIP": "교차채널CMIP"},
    "기타채널": {"계약건수": "기타채널유지계약건수", "CMIP": "기타채널CMIP"},
    "GA채널": {"Affluent": "GA채널Affluent고객여부", "계약건수": "GA채널유지계약건수", "CMIP": "GA채널CMIP"},
    "자사설계사채널": {"Affluent": "자사설계사채널Affluent고객여부", "계약건수": "자사설계사채널유지계약건수", "CMIP": "자사설계사채널CMIP"},
    "CM채널": {"CMIP": "CM채널CMIP"},
    "아웃바운드채널": {"계약건수": "아웃바운드채널유지계약건수", "CMIP": "아웃바운드채널CMIP"}
}
group_weight = 0.3

# ----------------------------
# 6. 데이터 생성 (진행 상황 표시)
# ----------------------------
data = {col: [] for col in metadata.keys()}

for i in tqdm(range(N), desc="데이터 생성 진행중"):
    global_prof = global_profiles[i]
    group_factors = {
        '실적점수': np.random.normal(0, 1),
        '멤버십환산점수': np.random.normal(0, 1),
        '멤버십코드': np.random.normal(0, 1)
    }
    for col, meta in metadata.items():
        if np.random.rand() < meta.get("missing_rate", 0):
            data[col].append(np.nan)
        else:
            if meta["type"] == "numeric":
                effective_prof = global_prof  # 등급코드 등은 후처리에서 보정
                data[col].append(sample_numeric(meta, effective_prof))
            elif meta["type"] == "categorical":
                data[col].append(sample_categorical(meta, global_prof))
            else:
                data[col].append(None)

# ----------------------------
# 7. DataFrame 생성
# ----------------------------
df = pd.DataFrame(data)

# ----------------------------
# 8. 후처리: "보험연령"을 "나이"에 맞게 조정
# (예: "10세미만" → 0~9, "10대" → 10~19, …, "80대" → 80~89)
def adjust_insurance_age(age_category):
    if age_category == "10세미만":
        return np.random.randint(0, 10)
    elif age_category == "10대":
        return np.random.randint(10, 20)
    elif age_category == "20대":
        return np.random.randint(20, 30)
    elif age_category == "30대":
        return np.random.randint(30, 40)
    elif age_category == "40대":
        return np.random.randint(40, 50)
    elif age_category == "50대":
        return np.random.randint(50, 60)
    elif age_category == "60대":
        return np.random.randint(60, 70)
    elif age_category == "70대":
        return np.random.randint(70, 80)
    elif age_category == "80대":
        return np.random.randint(80, 90)
    else:
        return np.nan

df["보험연령"] = df["나이"].apply(adjust_insurance_age)

# ----------------------------
# 9. 채널별 상관관계 후처리
# ----------------------------
# 각 채널 그룹에 대해, "계약건수"와 "CMIP" 컬럼은 100% 상관관계로 보정 (각 고객마다 임의의 계수를 적용)
for channel, mapping in channel_groups.items():
    if "계약건수" in mapping and "CMIP" in mapping:
        cnt_col = mapping["계약건수"]
        cmip_col = mapping["CMIP"]
        # 각 행마다 서로 다른 임의계수를 생성하여 곱합니다.
        random_factors = np.random.uniform(5000, 20000, size=len(df))
        df[cmip_col] = df[cnt_col] * random_factors
        # 조건 4: 해당 채널에 Affluent 컬럼이 있으면, CMIP 값이 1,500,000원 이상이면 "1", 아니면 "0"
        if "Affluent" in mapping:
            aff_col = mapping["Affluent"]
            df[aff_col] = df[cmip_col].apply(lambda x: "1" if x >= 1500000 else "0")
    # 나머지 해당 채널 내 기타 숫자형 컬럼들에 대해서는 80% 상관 반영 (예: 선형 보정)
    latent = np.random.normal(0, 1)
    for key, col in mapping.items():
        if key not in {"계약건수", "CMIP", "Affluent"} and col in df.columns:
            scale = df[col].mean() * 0.1
            df[col] = (1 - 0.8) * df[col] + 0.8 * (latent * scale)

# ----------------------------
# 10. 등급코드 간 상관관계 보정 (조건 2)
# 남은 등급코드 컬럼 ("CB신용등급"과 "직업위험등급코드")는 70% 확률로 서로 일치
for i in range(len(df)):
    if np.random.rand() < 0.7:
        df.at[i, "직업위험등급코드"] = df.at[i, "CB신용등급"]

# ----------------------------
# 11. 납입보험료와 CMIP 상관관계 보정 (조건 6)
# "기납입보험료합계"를 "CMIP" 컬럼과 99% 이상의 상관관계를 갖도록 보정
if "CMIP" in df.columns and "기납입보험료합계" in df.columns:
    factor = np.random.uniform(0.98, 1.02)
    df["기납입보험료합계"] = df["CMIP"] * factor

# ----------------------------
# 12. 데이터타입 재설정
# ----------------------------
# 정수형이어야 하는 컬럼 목록 (132개 컬럼 중 정수형으로 취급할 컬럼들을 모두 나열)
int_cols = [
    "고객ID", "보험연령", "CB신용평점", "직업위험등급코드", "누적성립건수", "방카채널유지계약건수",
    "교차채널유지계약건수", "DM채널유지계약건수", "기타채널누적성립건수", "기타채널CMIP",
    "기타채널유지계약건수", "GA채널유지계약건수", "자사설계사채널누적성립건수",
    "자사설계사채널CMIP", "자사설계사채널유지계약건수", "CM채널CMIP",
    "아웃바운드채널누적성립건수", "아웃바운드채널CMIP", "아웃바운드채널유지계약건수",
    "당월DM채널유입계약건수", "당월DM채널성립건수", "당월DM채널계약이탈건수",
    "당월GA채널유입계약건수", "당월GA채널성립건수", "당월GA채널계약이탈건수",
    "당월유입계약건수", "당월자사설계사채널유입계약건수",
    "당월자사설계사채널성립건수", "당월자사설계사채널계약이탈건수",
    "당월아웃바운드채널유입계약건수", "당월아웃바운드채널성립건수",
    "누적콜센터상담건수", "누적부정반응건수", "누적VOC접수건수", "최근3개월사이버환급금조회건수",
    "누적연금지급금액", "누적보험금지급건수", "누적중도보험금지급금액", "누적중도인출건수",
    "누적해약환급금지급금액", "당월보험료자동대출잔액", "당월보험금지급건수", "당월보험금청구건수",
    "당월중도인출건수", "수금설계사수", "수금방법변경건수", "모집설계사수",
    "보유계약피보험자수", "유지계약건수", "최빈가입채널코드", "계약변경신청건수", "부활변경건수",
    "가입특약수합계", "대출가능금액합계", "보험계약대출잔액합계", "기납입보험료합계",
    "미납보험료합계", "전사최종계약경과월수", "전사최초계약경과월수", "연금누적가입건수",
    "연금실효계약건수", "연금최대납입회차", "연금유지계약수", "연금기납입보험료",
    "기타보장누적가입건수", "기타보장유지계약수", "일반종신누적가입건수",
    "일반종신실효계약건수", "일반종신최대납입회차", "일반종신유지계약수", "저축CMIP",
    "저축최대납입회차", "저축가입납입보험료", "변액누적가입건수", "변액CMIP", "변액최대납입회차",
    "변액유지계약수", "변액기납입보험료", "변액종신CMIP", "변액종신최대납입회차",
    "변액종신유지계약수", "변액종신기납입보험료"
]

for col, meta in metadata.items():
    if meta["type"] == "categorical":
        df[col] = df[col].astype("category")
    elif meta["type"] == "numeric":
        if col in int_cols:
            df[col] = pd.to_numeric(df[col], errors='coerce').round(0).astype("Int64")
        else:
            df[col] = pd.to_numeric(df[col], errors='coerce').astype("float")

# ----------------------------
# 13. 저장: Excel 파일로 출력
# ----------------------------
df.to_excel("insurance_dummy_data.xlsx", index=False)
print("데이터 생성 완료 – 'insurance_dummy_data.xlsx' 파일이 생성되었습니다.")

# ----------------------------
# 14. 생성 데이터 요약 (텍스트)
# ----------------------------
summary = f"""
[생성 데이터 요약]
- 총 고객수: {N:,}건
- 생성된 컬럼: 총 132개
    - 범주형 컬럼: 예) 나이, 성별, 수익자여부, 운전코드명, 성별코드, 직업분류명 등은 'category' dtype으로 설정됨.
    - 정수형 컬럼: 예) 보험연령, CB신용평점, 누적성립건수 등은 pandas의 nullable 정수형(Int64)으로 설정됨.
    - 연속형 컬럼: 기타 수치형 컬럼들은 float dtype으로 설정됨.
- "나이"와 "보험연령"은 후처리에서 일치하도록 조정되어,
    예) "10세미만"인 고객은 보험연령이 0~9세, "20대"인 경우 20~29세로 생성됨.
- 채널별(교차채널, 기타채널, GA채널, 자사설계사채널, CM채널, 아웃바운드채널 등) 관련 컬럼들은:
    - 같은 채널의 "계약건수"와 "CMIP"는 100% 상관(즉, CMIP = 계약건수 × 임의계수)을 각 고객별로 반영.
    - 채널 내 기타 숫자형 컬럼들은 80% 이상의 양의 상관관계를 가지도록 선형 보정됨.
- 남은 등급코드(예, CB신용등급, 직업위험등급코드)는 70% 이상의 양의 상관관계를 가지도록 일부 행에서 일치시킴.
- 누적가입건수 및 납입보험료 관련 컬럼은 가입건수 및 CMIP와 높은 양의 상관관계를 가지도록 보정됨.
- 각 컬럼의 결측율은 메타데이터에 지정된 대로 반영됨.
"""
print(summary)


데이터 생성 진행중: 100%|██████████| 20000/20000 [00:31<00:00, 639.30it/s]


데이터 생성 완료 – 'insurance_dummy_data.xlsx' 파일이 생성되었습니다.

[생성 데이터 요약]
- 총 고객수: 20,000건
- 생성된 컬럼: 총 132개
    - 범주형 컬럼: 예) 나이, 성별, 수익자여부, 운전코드명, 성별코드, 직업분류명 등은 'category' dtype으로 설정됨.
    - 정수형 컬럼: 예) 보험연령, CB신용평점, 누적성립건수 등은 pandas의 nullable 정수형(Int64)으로 설정됨.
    - 연속형 컬럼: 기타 수치형 컬럼들은 float dtype으로 설정됨.
- "나이"와 "보험연령"은 후처리에서 일치하도록 조정되어,
    예) "10세미만"인 고객은 보험연령이 0~9세, "20대"인 경우 20~29세로 생성됨.
- 채널별(교차채널, 기타채널, GA채널, 자사설계사채널, CM채널, 아웃바운드채널 등) 관련 컬럼들은:
    - 같은 채널의 "계약건수"와 "CMIP"는 100% 상관(즉, CMIP = 계약건수 × 임의계수)을 각 고객별로 반영.
    - 채널 내 기타 숫자형 컬럼들은 80% 이상의 양의 상관관계를 가지도록 선형 보정됨.
- 남은 등급코드(예, CB신용등급, 직업위험등급코드)는 70% 이상의 양의 상관관계를 가지도록 일부 행에서 일치시킴.
- 누적가입건수 및 납입보험료 관련 컬럼은 가입건수 및 CMIP와 높은 양의 상관관계를 가지도록 보정됨.
- 각 컬럼의 결측율은 메타데이터에 지정된 대로 반영됨.



In [31]:
import numpy as np
import pandas as pd
from tqdm import tqdm
from datetime import datetime, timedelta

# ----------------------------
# 1. 기본 설정 및 파일 로드
# ----------------------------
customer_file = "insurance_dummy_data.xlsx"  # 고객정보 파일 (132개 컬럼)
cust_df = pd.read_excel(customer_file)

# 고객ID가 없으면, index를 이용하여 1부터 시작하는 고객ID 생성
if "고객ID" not in cust_df.columns:
    cust_df["고객ID"] = cust_df.index + 1

# 담보별 분포 CSV 파일
# CSV 파일은 반드시 다음 헤더를 포함해야 합니다:
# "담보명", "평균담보금액", "담보금액분산", "최소값", "1사분위수", "2사분위수", "3사분위수", "최대값"
dist_file = "가입담보분포.csv"
coverage_dist_df = pd.read_csv(dist_file)

# ----------------------------
# 2. 담보별 그룹 매핑 (가입 순서 경향 반영)
# ----------------------------
# 그룹 1: 사망, 2: 암, 3: 뇌/심장, 4: 입원/수술, 5: 골절/치매
group_mapping = {
    "상해사망": 1,
    "유병자상해사망": 1,   # 유병자 관련은 나중에 제외됨
    "질병사망": 1,
    "고액암진단": 2,
    "고액항암치료비": 2,
    "소액암진단": 2,
    "암수술": 2,
    "암진단": 2,
    "유병자암진단": 2,    # 제외 대상
    "급성심근경색진단": 3,
    "뇌졸중진단": 3,
    "뇌출혈진단": 3,
    "뇌혈관질환진단": 3,
    "허혈성심장질환진단": 3,
    "상해입원일당": 4,
    "상해종수술": 4,
    "상해후유장해": 4,
    "질병종수술": 4,
    "질병입원일당": 4,
    "유병자상해입원일당": 4,  # 제외 대상
    "유병자질병입원일당": 4,  # 제외 대상
    "질병후유장해": 4,
    "골절진단": 5,
    "치매진단": 5,
    "치매진단(경증)": 5
}
default_group = 3  # 매핑이 없는 담보는 기본 그룹 3으로 취급

# ----------------------------
# 3. 가입담보금액 샘플링 함수 (1,2,3사분위 활용, 단위 및 최소 1만원 보장)
# ----------------------------
def sample_coverage_amount(coverage_name):
    """
    주어진 담보명에 대해 CSV의 분포 정보를 활용하여 가입담보금액을 생성합니다.
    
    - CSV에 기록된 [최소값, 1사분위수, 2사분위수, 3사분위수, 최대값]을 활용하여 전체 범위를 4 구간으로 나누어
      각 구간 내에서 균등하게 샘플링합니다.
    - 단, 담보명이 "상해사망" 또는 "질병사망"이면 최대값을 300,000,000원으로 설정하고,
      그 외 담보 중 최대값이 100,000,000원보다 크면 최대값을 100,000,000원으로 조정합니다.
    - CSV의 3사분위수 값에 따라 단위를 결정합니다.
         → 3사분위수 < 1,000,000원: 단위 = 만원 (10,000원)
         → 3사분위수 ≥ 1,000,000원: 단위 = 백만원 (1,000,000원)
    - 최종 금액은 0원이 되지 않도록 최소 10,000원(1만원)으로 강제 설정됩니다.
    """
    row = coverage_dist_df[coverage_dist_df["담보명"] == coverage_name]
    if row.empty:
        # 기본 값: 최소 1,000,000, 평균 3,000,000, 최대 5,000,000, 3사분위 500,000 (단위 만원)
        min_val, q1, q2, q3, max_val = 1000000, 2000000, 3000000, 500000, 5000000
        unit = 10000
    else:
        r = row.iloc[0]
        min_val = r["최소값"]
        q1 = r["1사분위수"]
        q2 = r["2사분위수"]
        q3 = r["3사분위수"]
        max_val = r["최대값"]
        unit = 10000 if q3 < 1000000 else 1000000

    # 담보명이 사망 계열이면 최대값 300,000,000원, 그 외 최대값이 100,000,000원 초과 시 100,000,000원으로 조정
    if coverage_name in ["상해사망", "질병사망"]:
        max_val = 300000000
    else:
        if max_val > 100000000:
            max_val = 100000000

    # 전체 범위를 4 구간으로 나누기 (구간 길이가 0인 경우 제외)
    intervals = []
    for lower, upper in [(min_val, q1), (q1, q2), (q2, q3), (q3, max_val)]:
        if upper > lower:
            intervals.append((int(lower), int(upper)))
    if not intervals:
        sample_val = np.random.randint(min_val, max_val + 1)
    else:
        chosen_interval = intervals[np.random.choice(len(intervals))]
        sample_val = np.random.randint(chosen_interval[0], chosen_interval[1] + 1)
    sample_val = int(np.clip(sample_val, min_val, max_val))
    # 단위에 따라 반올림
    sample_val = int(round(sample_val / unit) * unit)
    sample_val = int(np.clip(sample_val, min_val, max_val))
    # 최소 금액은 10,000원 이상 보장 (즉, 0원인 경우 없음)
    if sample_val < 10000:
        sample_val = 10000
    return sample_val

# ----------------------------
# 4. 가입년월일 생성 함수
# ----------------------------
def random_date(start, end):
    """start와 end 사이의 임의 날짜(YYYY-MM-DD)를 생성"""
    delta = end - start
    random_days = np.random.randint(0, delta.days + 1)
    return (start + timedelta(days=random_days)).strftime("%Y-%m-%d")

start_date = datetime(2010, 1, 1)
end_date = datetime(2024, 12, 31)

# ----------------------------
# 5. 가입담보 선택 함수 (가입년월일에 따른 순서 경향 반영, 유병자 제외)
# ----------------------------
def choose_coverage_by_date(join_date):
    """
    가입년월일을 기준으로 전체 가입 순서 경향(사망 → 암 → 뇌/심장 → 입원/수술 → 골절/치매)을 반영하여 담보명을 선택합니다.
    가입년월일을 정규화한 t ∈ [0,1]에 따라 target_group을 결정한 후,
    CSV 데이터에서 "유병자"라는 문자열이 포함된 담보는 제외하고, target_group에 해당하는 담보명을 무작위로 선택합니다.
    """
    dt = datetime.strptime(join_date, "%Y-%m-%d")
    t = (dt - start_date).days / (end_date - start_date).days
    if t < 0.2:
        target_group = 1
    elif t < 0.4:
        target_group = 2
    elif t < 0.6:
        target_group = 3
    elif t < 0.8:
        target_group = 4
    else:
        target_group = 5

    def get_group(coverage):
        return group_mapping.get(coverage, default_group)
    
    non_patient_df = coverage_dist_df[~coverage_dist_df["담보명"].str.contains("유병자")]
    subset = non_patient_df[non_patient_df["담보명"].apply(get_group) == target_group]
    if subset.empty:
        chosen = non_patient_df.sample(n=1, random_state=np.random.randint(10000)).iloc[0]
    else:
        chosen = subset.sample(n=1, random_state=np.random.randint(10000)).iloc[0]
    return chosen["담보명"]

# ----------------------------
# 6. 가입 이력 데이터 생성
# ----------------------------
records = []
scale_factor = 2.64  # 고객의 누적성립건수를 가입 이력 건수로 변환하는 스케일 팩터

for idx, row in tqdm(cust_df.iterrows(), total=cust_df.shape[0], desc="가입 이력 생성 진행중"):
    cust_id = row["고객ID"]
    contract_count = row.get("누적성립건수", 0)
    if pd.isnull(contract_count) or contract_count == 0:
        continue
    num_records = int(round(contract_count * scale_factor))
    if num_records < 1:
        num_records = 1
    for _ in range(num_records):
        join_date = random_date(start_date, end_date)
        coverage_name = choose_coverage_by_date(join_date)
        coverage_amount = sample_coverage_amount(coverage_name)
        record = {
            "고객ID": cust_id,
            "가입년월일": join_date,
            "가입담보명": coverage_name,
            "가입담보금액": coverage_amount
        }
        records.append(record)

history_df = pd.DataFrame(records)
history_df.to_excel("가입이력_dummy_data.xlsx", index=False)

print("가입 이력 데이터 생성 완료 – '가입이력_dummy_data.xlsx' 파일이 생성되었습니다.")
print(f"총 가입 이력 건수: {len(history_df):,} 건")


가입 이력 생성 진행중: 100%|███████████████████████████████████████████████████████████| 20000/20000 [01:21<00:00, 246.80it/s]


가입 이력 데이터 생성 완료 – '가입이력_dummy_data.xlsx' 파일이 생성되었습니다.
총 가입 이력 건수: 28,182 건


In [3]:
import numpy as np
import pandas as pd
from datetime import datetime, timedelta

# ----------------------------
# 1. 기본 설정 및 파일 로드
# ----------------------------
customer_file = "insurance_dummy_data.xlsx"  # 고객정보 파일 (132개 컬럼)
cust_df = pd.read_excel(customer_file)

# 고객ID가 없으면, index를 이용하여 1부터 시작하는 고객ID 생성
if "고객ID" not in cust_df.columns:
    cust_df["고객ID"] = cust_df.index + 1


In [4]:


# ----------------------------
# 2. 노이즈 추가 조건 설정
# ----------------------------
def get_columns_for_noise(df):
    """
    연속형 변수 중 '여부', '코드', '연령' 가 포함되지 않은 컬럼들을 선택.
    """
    exclude_keywords = ['여부', '코드', '연령', 'ID', '등급']
    number_columns = df.select_dtypes(include=[np.number]).columns
    columns_for_noise = [col for col in number_columns if not any(keyword in col for keyword in exclude_keywords)]
    return columns_for_noise

# ----------------------------
# 3. 금액 변동 함수
# ----------------------------
def adjust_continuous_variables(df, month_offset, columns_for_noise):
    """
    연속형 변수에 노이즈를 추가해 값 변동을 줄 드시,
    전체적인 상관관계는 유지하도록 설정.
    """
    np.random.seed(42 + month_offset)  # 재현성을 위한 시드 설정
    noise_factor = 0.05  # 약 5% 수준의 노이즈 추가

    for col in columns_for_noise:
        df[col] = df[col] * (1 + np.random.uniform(-noise_factor, noise_factor, len(df)))
        df[col] = df[col].round(2)  # 소수점 2자리까지 반올림

    return df

# ----------------------------
# 4. 기준년월 생성 및 모델리마이즈
# ----------------------------
start_month = datetime(2024, 5, 1)
months = [start_month + pd.DateOffset(months=i) for i in range(6)]

# 노이즈 추가 여부 검사
columns_for_noise = get_columns_for_noise(cust_df)
new_customers = set()

monthly_data = []
for i, month in enumerate(months):
    temp_df = cust_df.copy()
    temp_df["기준년월"] = month.strftime("%Y%m")

    # 연속형 변수 조정
    temp_df = adjust_continuous_variables(temp_df, i, columns_for_noise)

    # 당월신규고객여부 업데이트: 신규고객은 전원 데이터에 포함되지 않도록 설정
    temp_df.loc[temp_df["고객ID"].isin(new_customers), "당월신규고객여부"] = 0

    # 당월 신규 고객 아이디 추가
    new_customers.update(temp_df.loc[temp_df["당월신규고객여부"] == 1, "고객ID"].tolist())
    
    monthly_data.append(temp_df)


In [9]:
final_df = pd.concat(monthly_data, ignore_index=True)

# 엘셀로 저장
output_file = "월별_가입이력_dummy_data2.xlsx"
final_df.to_excel(output_file, index=False)
# final_df.to_csv(output_file, index=False,)

In [10]:
!pip install pandasai

^C


Collecting pandasai
  Downloading pandasai-2.4.2-py3-none-any.whl.metadata (11 kB)
Collecting astor<0.9.0,>=0.8.1 (from pandasai)
  Downloading astor-0.8.1-py2.py3-none-any.whl.metadata (4.2 kB)
Collecting duckdb<2.0.0,>=1.0.0 (from pandasai)
  Downloading duckdb-1.2.0-cp312-cp312-win_amd64.whl.metadata (995 bytes)
Collecting faker<20.0.0,>=19.12.0 (from pandasai)
  Downloading Faker-19.13.0-py3-none-any.whl.metadata (15 kB)
Collecting pandas==1.5.3 (from pandasai)
  Downloading pandas-1.5.3.tar.gz (5.2 MB)
     ---------------------------------------- 0.0/5.2 MB ? eta -:--:--
     ------------ --------------------------- 1.6/5.2 MB 9.3 MB/s eta 0:00:01
     ------------------------------ --------- 3.9/5.2 MB 9.8 MB/s eta 0:00:01
     ---------------------------------------- 5.2/5.2 MB 10.2 MB/s eta 0:00:00
  Installing build dependencies: started
  Installing build dependencies: finished with status 'done'
  Getting requirements to build wheel: started
  Getting requirements to build 

  You can safely remove it manually.
  You can safely remove it manually.
  You can safely remove it manually.
  You can safely remove it manually.

[notice] A new release of pip is available: 25.0 -> 25.0.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [None]:
dist_file = "월별_가입이력_dummy_data2.csv"
coverage_dist_df = pd.read_csv(dist_file)
import pandas as pd
import numpy as np
# from pandasai import PandasAI
from pandasai.llm.openai import OpenAI
llm = OpenAI(api_token=OPENAI_API_KEY)
df = pd.DataFrame({
    "country": ["United States", "United Kingdom", "France", "Germany", "Italy", "Spain", "Canada", "Australia", "Japan", "China"],
    "gdp": [21400000, 2940000, 2830000, 3870000, 2160000, 1350000, 1780000, 1320000, 516000, 14000000],
    "happiness_index": [7.3, 7.2, 6.5, 7.0, 6.0, 6.3, 7.3, 7.3, 5.9, 5.0]
})

In [19]:
cust_df

  return method()


Unnamed: 0,고객ID,나이,성별,수익자여부,CB신용평점,CB신용등급,두낫콜여부,운전코드명,성별코드,피보험자여부,...,변액CMIP,변액보유여부,변액최대납입회차,변액유지계약수,변액기납입보험료,변액종신CMIP,변액종신보유여부,변액종신최대납입회차,변액종신유지계약수,변액종신기납입보험료
0,25226,60대,여성,1,,,1.0,승용차(자가용),2,1,...,121748,0,11,0,6153,66528,0,3,0,555741
1,95256,40대,남성,1,,6.0,0.0,화물차(자가용),2,1,...,125976,0,4,0,9321,2020,0,34,0,3337922
2,14751,40대,여성,1,,,1.0,,2,1,...,21850,0,4,0,22912,11203,0,9,0,1427613
3,4478,50대,여성,1,,6.0,0.0,운전안함,1,1,...,22969,0,9,0,5877,6321,0,1,0,16033728
4,100000,50대,여성,0,254.0,,,운전안함,2,1,...,50573,0,2,0,17063,2965,0,17,0,359524
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
19995,7665,20대,여성,1,,,0.0,,1,1,...,115365,0,0,0,6770,6076,0,6,2,1540557
19996,6021,50대,여성,0,,,1.0,운전안함,1,1,...,173730,0,7,0,11490,22595,0,41,0,1081218
19997,50805,50대,남성,1,,,1.0,,2,1,...,81098,0,8,0,16184,8767,0,12,0,11241812
19998,100000,20대,여성,1,,,1.0,승용차(자가용),2,0,...,78651,0,0,0,20521,2624,0,10,0,3233956


In [23]:
cust_df

  return method()


Unnamed: 0,고객ID,나이,성별,수익자여부,CB신용평점,CB신용등급,두낫콜여부,운전코드명,성별코드,피보험자여부,...,변액보유여부,변액최대납입회차,변액유지계약수,변액기납입보험료,변액종신CMIP,변액종신보유여부,변액종신최대납입회차,변액종신유지계약수,변액종신기납입보험료,numeric_age
0,25226,60대,여성,1,,,1.0,승용차(자가용),2,1,...,0,11,0,6153,66528,0,3,0,555741,60
1,95256,40대,남성,1,,6.0,0.0,화물차(자가용),2,1,...,0,4,0,9321,2020,0,34,0,3337922,40
2,14751,40대,여성,1,,,1.0,,2,1,...,0,4,0,22912,11203,0,9,0,1427613,40
3,4478,50대,여성,1,,6.0,0.0,운전안함,1,1,...,0,9,0,5877,6321,0,1,0,16033728,50
4,100000,50대,여성,0,254.0,,,운전안함,2,1,...,0,2,0,17063,2965,0,17,0,359524,50
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
19995,7665,20대,여성,1,,,0.0,,1,1,...,0,0,0,6770,6076,0,6,2,1540557,20
19996,6021,50대,여성,0,,,1.0,운전안함,1,1,...,0,7,0,11490,22595,0,41,0,1081218,50
19997,50805,50대,남성,1,,,1.0,,2,1,...,0,8,0,16184,8767,0,12,0,11241812,50
19998,100000,20대,여성,1,,,1.0,승용차(자가용),2,0,...,0,0,0,20521,2624,0,10,0,3233956,20


In [25]:
!pip install seaborn

Collecting seaborn
  Downloading seaborn-0.13.2-py3-none-any.whl.metadata (5.4 kB)
Downloading seaborn-0.13.2-py3-none-any.whl (294 kB)
Installing collected packages: seaborn
Successfully installed seaborn-0.13.2



[notice] A new release of pip is available: 25.0 -> 25.0.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [26]:
import os
from pandasai import SmartDataframe
from pandasai.llm import OpenAI
OPENAI_API_KEY = "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"

llm = OpenAI(model='gpt-4o',api_token=OPENAI_API_KEY,             temperature=0,             seed=26)
df = SmartDataframe(cust_df, 
                    config={"llm": llm, 'enable_cache': False})
                    
df.chat('EDA 수행해줘')

  df.chat('EDA 수행해줘')
  df.chat('EDA 수행해줘')
  df.chat('EDA 수행해줘')
  df.chat('EDA 수행해줘')
  df.chat('EDA 수행해줘')
  df.chat('EDA 수행해줘')
  df.chat('EDA 수행해줘')
  df.chat('EDA 수행해줘')
  df.chat('EDA 수행해줘')
  df.chat('EDA 수행해줘')
  df.chat('EDA 수행해줘')
  df.chat('EDA 수행해줘')
  df.chat('EDA 수행해줘')
  df.chat('EDA 수행해줘')
  df.chat('EDA 수행해줘')
  df.chat('EDA 수행해줘')
  df.chat('EDA 수행해줘')
  df.chat('EDA 수행해줘')
  df.chat('EDA 수행해줘')
  df.chat('EDA 수행해줘')
  df.chat('EDA 수행해줘')
  df.chat('EDA 수행해줘')
  df.chat('EDA 수행해줘')


DataFrame Info:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20000 entries, 0 to 19999
Columns: 123 entries, 고객ID to numeric_age
dtypes: float64(20), int64(98), object(5)
memory usage: 18.8+ MB
None

Missing Values:
CB신용평점         17647
CB신용등급         16901
두낫콜여부           3576
운전코드명           8946
직업분류명           7956
직업위험등급코드       14218
시도코드            4058
누적연금지급금액        8613
누적보험금지급건수       8690
누적중도보험금지급금액     8688
누적중도인출건수        8629
누적해약환급금지급금액     8670
당월보험료자동대출잔액    18327
당월보험금지급건수       8559
당월보험금청구건수       8592
당월중도인출건수        8654
최빈가입채널코드        6664
전사최종계약경과월수     13627
전사최초계약경과월수     13689
dtype: int64

Summary Statistics:
                고객ID         수익자여부       CB신용평점       CB신용등급         두낫콜여부   
count   20000.000000  20000.000000  2353.000000  3099.000000  16424.000000  \
mean    43126.173850      0.892200   316.249469     4.839303      0.358987   
std     33177.644291      0.310135   280.319611    13.309374      0.479718   
min         1.000000      0.000000

Traceback (most recent call last):
  File "c:\Users\권상우\AppData\Local\Programs\Python\Python312\Lib\site-packages\pandasai\pipelines\chat\generate_chat_pipeline.py", line 335, in run
    ).run(input)
      ^^^^^^^^^^
  File "c:\Users\권상우\AppData\Local\Programs\Python\Python312\Lib\site-packages\pandasai\pipelines\pipeline.py", line 137, in run
    raise e
  File "c:\Users\권상우\AppData\Local\Programs\Python\Python312\Lib\site-packages\pandasai\pipelines\pipeline.py", line 101, in run
    step_output = logic.execute(
                  ^^^^^^^^^^^^^^
  File "c:\Users\권상우\AppData\Local\Programs\Python\Python312\Lib\site-packages\pandasai\pipelines\chat\code_execution.py", line 113, in execute
    raise e
  File "c:\Users\권상우\AppData\Local\Programs\Python\Python312\Lib\site-packages\pandasai\pipelines\chat\code_execution.py", line 85, in execute
    result = self.execute_code(code_to_run, code_context)
             ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "c:\Users\권상우\AppData\Loc

"Unfortunately, I was not able to answer your question, because of the following error:\n\nNo module named 'pandas.core.methods.to_dict'\n"

<Figure size 1000x600 with 0 Axes>

<Figure size 1000x600 with 0 Axes>

<Figure size 1000x600 with 0 Axes>

<Figure size 1000x600 with 0 Axes>

ImportError: cannot import name 'PandasAI' from 'pandasai' (c:\Users\권상우\AppData\Local\Programs\Python\Python312\Lib\site-packages\pandasai\__init__.py)

In [None]:

# ----------------------------
# 2. 금액 변동 함수
# ----------------------------
def adjust_continuous_variables(df, month_offset):
    """
    연속형 변수(가입달보금액)에 노이즈를 추가해 값 변동을 줄 드시,
    전체적인 상관관계는 유지하도록 설정.
    """
    np.random.seed(42 + month_offset)  # 재현성을 위한 시드 설정
    noise_factor = 0.05  # 약 5% 수준의 노이즈 추가

    # 기존 금액의 5% 이내에서 랭던 노이즈 추가
    df["가입달보금액"] = df["가입달보금액"] * (1 + np.random.uniform(-noise_factor, noise_factor, len(df)))
    df["가입달보금액"] = df["가입달보금액"].round(-3)  # 금액은 천 단위로 반올림
    return df

# ----------------------------
# 3. 기준년월 생성 및 모델리마이즈
# ----------------------------
start_month = datetime(2024, 5, 1)
months = [start_month + pd.DateOffset(months=i) for i in range(6)]

monthly_data = []
for i, month in enumerate(months):
    temp_df = cust_df.copy()
    temp_df["기준년월"] = month.strftime("%Y-%m")

    # 연속형 변수 조정
    temp_df = adjust_continuous_variables(temp_df, i)

    monthly_data.append(temp_df)

# 모든 월 데이터 벗기
final_df = pd.concat(monthly_data, ignore_index=True)

# 엘셀로 저장
output_file = "월별_가입이력_dummy_data.xlsx"
final_df.to_excel(output_file, index=False)

print(f"월별 데이터 생성 완료: {output_file}")
