### 구직인증관련 데이터

In [1]:
import pandas as pd
code_info = pd.read_excel('./data/code_info.xlsx')

In [2]:
code_info.shape

(85, 3)

In [12]:
import numpy as np
import pandas as pd

RNG = np.random.default_rng(2025)

def gen_series_by_example(example, n: int, value_kinds=None):
    """
    example: '변수예시' 문자열 (nan 가능)
    value_kinds: '값 종류' 컬럼 (nan 가능, 콤마로 구분된 값 리스트)
    n: 생성할 데이터 개수
    """
    # 우선 값 종류가 있으면 그것을 최우선으로 사용
    if value_kinds is not None and str(value_kinds).strip() not in ["", "nan", "NaN"]:
        cats = [v.strip() for v in str(value_kinds).split(",") if v.strip() != ""]
        # 모두 숫자처럼 보이더라도 문자열로 처리 (범주형)
        return RNG.choice(cats, size=n).astype(str)

    # 그 외에는 변수예시 기준으로 처리
    ex = str(example).strip() if example is not None else ""

    # 정수, 비율, 코드, 일수 처리
    if "정수" in ex:
        return RNG.integers(0, 101, size=n)
    if "비율" in ex:
        return RNG.random(size=n).round(3) 
    
    if "5자리" in ex:
        return RNG.integers(10000, 100000, size=n).astype(str)  # 10000~99999
    if "4자리" in ex:
        return RNG.integers(1000, 10000, size=n).astype(str)
    if "3자리" in ex:
        return RNG.integers(100, 1000, size=n).astype(str)
    if "코드" in ex:
        return RNG.integers(100, 1000, size=n).astype(str)   # 3자리 코드 임의 생성
    
    if "일수" in ex:
        return RNG.integers(0, 366, size=n)
    if "점수" in ex:
        return RNG.integers(0, 101, size=n)
    if "번호" in ex:
        return RNG.integers(100000, 1000000, size=n).astype(str)  # 6자리 번호 임의 생성
    if "13자리" in ex:
        return RNG.integers(10**12, 10**13, size=n).astype(str)
    if "17자리" in ex:
        return RNG.integers(10**16, 10**17, size=n).astype(str)
    
    if "여부" in ex:
        return RNG.choice([1, 0], size=n)
    if ex in ["예, 아니요", "1(6개월 내 취업), 0(미취업)", "1(일치), 0(미일치)"]:
        return RNG.choice([1, 0], size=n)

    # 그 외에는 임의 정수 생성 -- 전처리 완료되었다 가정
    return RNG.integers(0, 101, size=n)


In [13]:
N = 100
data_dict = {}

for idx, row in code_info.iterrows():
    var = str(row["변수명"]).strip()
    example = row.get("변수예시", "")
    value_kinds = row.get("종류", None)   # 새 컬럼
    data_dict[var] = gen_series_by_example(example, N, value_kinds=value_kinds)

example_df = pd.DataFrame(data_dict)

In [14]:
example_df_nonnull = example_df.dropna(axis=1, how='all')
example_df_nonnull

Unnamed: 0,CLOS_YM,JHNT_MBN,JHNT_CTN,JHCR_DE,JHNT_CLOS_DE,FRFT_AFTR_JHNT_REQR_DYCT,JHNT_RQUT_CHNL_SECD,INFO_OTPB_GRAD_CD,MDTN_HOPE_GRD_CD,IDIF_AOFR_YN,...,ETL_DT,MAKE_DT,ACQ_180_YN,ACQ_DT,MATCH_L_YN,MATCH_M_YN,MATCH_S_YN,LAST_JSCD,EMPN_DE,LAST_FRFT_DE
0,45,497459,121204,83,95,48,온라인,1,필요,1,...,11,47,0,16,1,0,1,736,57,71
1,100,302908,193204,68,42,49,오프라인,0,필요,0,...,35,79,0,78,1,0,1,581,43,31
2,100,529071,220399,46,6,39,고용24,1,불필요,0,...,49,32,0,35,0,1,1,761,28,30
3,38,910176,315822,81,32,94,고용24,0,불필요,0,...,44,80,0,38,1,1,0,614,75,27
4,96,322722,900252,9,91,20,온라인,0,필요,0,...,51,41,0,88,1,1,0,867,78,45
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
95,99,597329,962576,11,29,75,고용24,1,필요,1,...,18,48,1,75,0,1,0,782,88,16
96,14,542829,155280,5,94,54,오프라인,0,필요,1,...,54,92,1,72,1,1,0,499,60,92
97,55,212541,948248,13,6,11,고용24,0,불필요,0,...,46,83,0,35,1,0,1,521,65,65
98,46,472226,105986,56,40,57,온라인,1,필요,1,...,31,89,0,35,1,0,0,235,59,23


In [15]:
example_df_nonnull.dtypes

CLOS_YM          int64
JHNT_MBN        object
JHNT_CTN        object
JHCR_DE          int64
JHNT_CLOS_DE     int64
                 ...  
MATCH_M_YN       int32
MATCH_S_YN       int32
LAST_JSCD       object
EMPN_DE          int64
LAST_FRFT_DE     int64
Length: 85, dtype: object

In [None]:
example_df_nonnull.to_csv('./data/synthetic_data.csv', index=False)

In [17]:
# raw type
import pandas as pd
code_info_raw = pd.read_excel('./data/code_info.xlsx', sheet_name='구직인증_raw')

In [18]:
code_info_raw.shape

(85, 3)

In [49]:
import numpy as np
import pandas as pd

RNG = np.random.default_rng(2025)

def gen_series_by_example_raw(
    example,
    n: int,
    value_kinds=None,
    var_name: str | None = None,
    start: str = "2020-01-01",
    end: str | None = None,
    day_freq: str = "D",
    randomize: bool = True,           # ← 범위 내 무작위 샘플링
    replace: bool = True,             # ← True: 중복 허용, False: 중복 금지(범위>=n 필요)
    sort_chronologically: bool = False,  # ← 무작위 후 시간순 정렬 여부
):
    # 0) 값 종류 우선
    if value_kinds is not None and str(value_kinds).strip() not in ["", "nan", "NaN"]:
        cats = [v.strip() for v in str(value_kinds).split(",") if v.strip()]
        return RNG.choice(cats, size=n).astype(str)

    # 범위 계산 (미래 방지: end를 오늘로 clamp)
    start_ts = pd.to_datetime(start)
    today = pd.Timestamp.today().normalize()
    end_ts = pd.to_datetime(end) if end is not None else today
    if end_ts > today:
        end_ts = today

    def _sample_from_range(dr: pd.DatetimeIndex, *, fmt: str, add_time: bool = False):
        if len(dr) == 0:
            return np.full(n, np.nan, dtype=object)
        if randomize:
            if replace or len(dr) < n:
                idx = RNG.integers(0, len(dr), size=n)         # 복원추출
            else:
                idx = RNG.choice(len(dr), size=n, replace=False)  # 비복원
            sel = dr[idx]
            if sort_chronologically:
                sel = np.sort(sel)
        else:
            # 랜덤 아님: 앞에서부터 n개, 부족하면 반복 채우기
            reps = (n + len(dr) - 1) // len(dr)
            sel = np.tile(dr, reps)[:n]
        if add_time:
            add_sec = RNG.integers(0, 24 * 3600, size=n)
            sel = pd.to_datetime(sel) + pd.to_timedelta(add_sec, unit="s")
        return pd.to_datetime(sel).strftime(fmt).to_numpy()

    # 1) 접미사 규칙(YM/DE/DT)
    if var_name is not None:
        vn = str(var_name).strip()

        if vn.endswith("YM"):
            months = pd.date_range(start=start_ts, end=end_ts, freq="MS")
            return _sample_from_range(months, fmt="%Y-%m")

        if vn.endswith("DE"):
            days = pd.date_range(start=start_ts, end=end_ts, freq=day_freq)
            return pd.to_datetime(_sample_from_range(days, fmt="%Y-%m-%d"))

        if vn.endswith("DT"):
            days = pd.date_range(start=start_ts, end=end_ts, freq=day_freq)
            return pd.to_datetime(_sample_from_range(days, fmt="%Y-%m-%d %H:%M:%S", add_time=True))

    # 2) 예시 텍스트 힌트
    ex = str(example).strip() if example is not None else ""
    if "정수" in ex:
        return RNG.integers(0, 101, size=n)
    if "비율" in ex:
        return RNG.random(size=n).round(3)
    if "13자리" in ex:
        return RNG.integers(10**12, 10**13, size=n).astype(str)
    if "17자리" in ex:
        return RNG.integers(10**16, 10**17, size=n).astype(str)
    if "5자리" in ex:
        return RNG.integers(10000, 100000, size=n).astype(str)
    if "4자리" in ex:
        return RNG.integers(1000, 10000, size=n).astype(str)
    if "3자리" in ex:
        return RNG.integers(100, 1000, size=n).astype(str)
    if "코드" in ex:
        return RNG.integers(100, 1000, size=n).astype(str)
    if "일수" in ex:
        return RNG.integers(0, 366, size=n)
    if "점수" in ex:
        return RNG.integers(0, 101, size=n)
    if "번호" in ex:
        return RNG.integers(100000, 1000000, size=n).astype(str)
    if "여부" in ex:
        return RNG.choice([1, 0], size=n)

    # if "날짜" in ex:
    #     days = pd.date_range(start=start_ts, end=end_ts, freq=day_freq)
    #     return _sample_from_range(days, fmt="%Y-%m-%d")

    # 3) 매칭 실패 → NaN
    return np.full(n, np.nan, dtype=object)


In [50]:
N = 100
data_dict_raw = {}

for idx, row in code_info_raw.iterrows():
    var = str(row["변수명"]).strip()
    example = row.get("변수예시", "")
    value_kinds = row.get("종류", None)   # 새 컬럼
    data_dict_raw[var] = gen_series_by_example_raw(example, N, value_kinds=value_kinds, var_name=var)

example_df_raw = pd.DataFrame(data_dict_raw)

In [51]:
example_df_raw.head()

Unnamed: 0,CLOS_YM,JHNT_MBN,JHNT_CTN,JHCR_DE,JHNT_CLOS_DE,FRFT_AFTR_JHNT_REQR_DYCT,JHNT_RQUT_CHNL_SECD,INFO_OTPB_GRAD_CD,MDTN_HOPE_GRD_CD,IDIF_AOFR_YN,...,ETL_DT,MAKE_DT,ACQ_180_YN,ACQ_DT,MATCH_L_YN,MATCH_M_YN,MATCH_S_YN,LAST_JSCD,EMPN_DE,LAST_FRFT_DE
0,2022-07,3029086502262,7067002474198,2022-10-06,2022-10-07,9,온라인,예,필요,예,...,2025-02-20 03:50:05,2021-02-20 13:51:58,1,2024-01-16 13:33:26,0,1,0,916,2025-01-29,2020-02-24
1,2025-09,9101760495288,8286707432733,2022-10-18,2021-01-27,68,온라인,아니요,필요,아니요,...,2024-04-19 18:39:54,2022-09-17 14:31:23,1,2023-01-21 10:18:23,1,0,0,808,2025-09-07,2020-03-13
2,2025-09,3905225049524,5835541269706,2022-03-24,2025-02-25,47,온라인,아니요,불필요,아니요,...,2023-01-06 08:20:10,2024-03-14 07:24:16,1,2024-03-12 06:44:54,1,0,0,495,2024-08-03,2021-02-07
3,2022-03,3966103307650,7171580824320,2025-05-09,2024-01-26,84,고용24,아니요,불필요,예,...,2023-03-14 09:04:07,2022-01-22 06:09:27,0,2023-04-07 17:50:55,1,1,1,857,2024-05-11,2021-03-24
4,2025-06,7418294557610,1901091971474,2021-03-01,2022-05-23,87,오프라인,아니요,불필요,예,...,2022-12-05 20:55:27,2022-06-23 01:56:44,0,2024-11-14 18:35:38,1,1,1,235,2025-08-29,2024-05-13


In [52]:
example_df_raw.LAST_FRFT_DE

0    2020-02-24
1    2020-03-13
2    2021-02-07
3    2021-03-24
4    2024-05-13
        ...    
95   2022-11-02
96   2025-04-15
97   2021-11-26
98   2020-07-11
99   2024-06-22
Name: LAST_FRFT_DE, Length: 100, dtype: datetime64[ns]

In [53]:
example_df_raw.dtypes

CLOS_YM                 object
JHNT_MBN                object
JHNT_CTN                object
JHCR_DE         datetime64[ns]
JHNT_CLOS_DE    datetime64[ns]
                     ...      
MATCH_M_YN              object
MATCH_S_YN              object
LAST_JSCD               object
EMPN_DE         datetime64[ns]
LAST_FRFT_DE    datetime64[ns]
Length: 85, dtype: object

In [54]:
example_df_raw.to_csv('./data/synthetic_data_raw.csv', index=False)

### Synthetic json

#### 이력서

In [57]:
# ver1
import pandas as pd
import json
import random
from pathlib import Path
from datetime import date, timedelta, datetime

# 재현 가능성 위해 시드 고정
random.seed(2025)

# 입력 CSV 경로
csv_path = Path("./data/synthetic_data_raw.csv")
# 출력 폴더 경로
outdir = Path("./data/RESUME_JSON/ver1")
outdir.mkdir(parents=True, exist_ok=True)

# CSV 읽기 (문자형으로 읽어 선행 0 보존)
df = pd.read_csv(csv_path, dtype=str)

# 필수 컬럼 체크
if "JHNT_MBN" not in df.columns:
    raise ValueError("필수 컬럼 'JHNT_MBN' 이(가) 없습니다.")

# 고유 ID 추출 (결측/공백 제거)
ids = pd.unique(df["JHNT_MBN"].dropna().astype(str).str.strip())

# ----------------------------
# 기본 매핑/풀
# ----------------------------
RESUME_ITEM_CLCD_POOL = ["1", "10", "11", "12", "2", "3", "4", "5", "6", "7", "8", "9"]
DS_RESUME_ITEM_CLCD_MAP = {
    "1":  "자격면허",
    "10": "봉사활동",
    "11": "직업훈련",
    "12": "참여프로젝트",
    "2":  "훈련",
    "3":  "논문",
    "4":  "개인경력",
    "5":  "해외연수",
    "6":  "수상경력",
    "7":  "전산능력",
    "8":  "외국어능력",
    "9":  "학력",
}

# 빈 값으로 먼저 채울 추가 키들
EXTRA_KEYS = [
    "RESUME_ITEM_1_CD", "DS_RESUME_ITEM_1_CD",
    "RESUME_ITEM_2_CD", "DS_RESUME_ITEM_2_CD",
    "RESUME_ITEM_3_CD", "DS_RESUME_ITEM_3_CD",
    "RESUME_ITEM_4_CD", "DS_RESUME_ITEM_4_CD",
    "RESUME_ITEM_1_NM", "RESUME_ITEM_2_NM", "RESUME_ITEM_3_NM",
    "RESUME_ITEM_1_VAL",
    "HIST_STDT", "HIST_ENDT",
    "HIST_ITEM_GRDCD", "DS_HIST_ITEM_GRDCD",
    "ETC_ITEM_CONT", "CAREER_MMCNT",
    "RESUME_ITEM_5_CD", "RESUME_ITEM_5_NM",
    "RESUME_ITEM_6_CD", "RESUME_ITEM_6_NM",
    "COMP_NM_OPEN_YN", "JSCD", "SLRY_AMT", "EMMD_OCCP_CL_YEAR"
]

# ----------------------------
# 규칙용 사전(라벨→코드) 준비
# ----------------------------
LICENSE_LABELS = ["운전면허", "컴퓨터자격증", "직무관련자격증"]
LICENSE_CODE7 = {lbl: f"{random.randint(0,9_999_999):07d}" for lbl in LICENSE_LABELS}

IT_SKILL_LABELS = ["문서작성", "MS OFFICE 사용", "고급프로그램활용", "영상편집"]
IT_SKILL_CODE1 = {lbl: d for lbl, d in zip(IT_SKILL_LABELS, random.sample(list("123456789"), k=len(IT_SKILL_LABELS)))}

LANG_LABELS_12 = [
    "영어","중국어","일본어","프랑스어","독일어","스페인어",
    "러시아어","이탈리아어","베트남어","인도네시아어","태국어","포르투갈어"
]
twodigs = [f"{i:02d}" for i in range(1, 13)]
random.shuffle(twodigs)
LANG_CODE2 = {lbl: cd for lbl, cd in zip(LANG_LABELS_12, twodigs)}

EDU_LEVEL_LABELS = ["고등학교", "대학교(4년제)", "전문대학원", "대학원"]
EDU_LEVEL_CODE1 = {lbl: d for lbl, d in zip(EDU_LEVEL_LABELS, random.sample(list("123456789"), k=len(EDU_LEVEL_LABELS)))}

OVERSEAS_TYPES = ["해외연수", "워킹홀리데이", "교환학생", "해외인턴"]
OVERSEAS_CODE2 = {lbl: f"{n:02d}" for lbl, n in zip(OVERSEAS_TYPES, random.sample(range(1, 100), k=len(OVERSEAS_TYPES)))}

LANG_TESTS = ["TOEIC", "OPIC", "TEPS", "IELTS", "TOEFL", "JLPT", "HSK", "DELF", "DELE", "TestDaF"]
digits0_9 = list("0123456789"); random.shuffle(digits0_9)
LANG_TEST_CODE1 = {lbl: digits0_9[i] for i, lbl in enumerate(LANG_TESTS)}

MAJORS = ["경영학","통계학","컴퓨터공학","전기전자공학","기계공학","산업공학","경제학","디자인","심리학","국문학"]
MAJOR_CODE6 = {lbl: f"{random.randint(0,999_999):06d}" for lbl in MAJORS}

STATUS_LABELS = ["재학","휴학","졸업예정","졸업"]
STATUS_CODE2 = {lbl: f"{n:02d}" for lbl, n in zip(STATUS_LABELS, random.sample(range(1, 100), k=len(STATUS_LABELS)))}

# -------- 이름/값/날짜 후보 --------
HOST_ORGS_LIC = ["한국산업인력공단", "도로교통공단", "대한상공회의소"]
TRAIN_ORGS    = ["직업전문학교", "폴리텍대학", "민간훈련기관"]
THESIS_TITLES = ["재직자 직무스트레스와 성과의 관계", "중소기업 디지털전환 사례연구", "머신러닝 기반 수요예측"]
COMPANY_NAMES = ["OO회사", "OO기업", "OO테크"]
AWARD_TITLES  = ["성적우수상", "공모전 수상", "모범상"]
SCHOOLS       = ["OO고등학교", "OO대학교", "OO전문대", "OO대학원"]
VOL_ACTS      = ["지역방범 및 순찰", "환경정화 활동", "노인복지관 봉사"]
PROJECT_TITLES= ["플랫폼 구축 및 실증", "데이터 파이프라인 구축", "모바일 앱 개발"]

TRAIN_MAIN    = ["캐드 기초 과정 수료", "ERP 실습", "응용SW 실무 프로젝트"]
THESIS_ORGS   = ["OO대학교", "OO연구원", "OO대학원"]
CAREER_TASKS  = ["생산관리", "품질관리", "고객지원", "검사/포장"]
OVERSEAS_ACTS = ["어학습득", "현지업무보조", "문화교류 프로그램 참여"]
AWARD_ORGS    = ["OO기관", "OO학회", "OO협회"]
MINOR_LIST    = MAJORS[:]
VOL_ORGS      = ["OO파출소", "OO복지관", "OO재단"]
PROJ_DUTIES   = ["PM", "데이터 수집/정제", "백엔드 개발", "프론트엔드 개발", "테스트/품질관리"]

THESIS_CONTENTS = ["재직자의 특성 분석 관련 내용", "자동화 도입 효과 분석", "딥러닝 이미지 분류 비교"]
CAREER_POSITIONS= ["인턴", "사원", "주임", "대리"]
COUNTRIES       = ["일본", "미국", "영국", "호주", "독일", "캐나다"]
DOUBLE_MAJOR    = MAJORS[:]
VOL_TYPES       = ["자원봉사", "동아리/교내활동", "인턴"]
CLIENTS         = ["고용노동부", "지방자치단체", "민간기업", "공공기관"]

LANG_LEVEL_VALS = ["1급", "2급", "3급", "4급", "5급"]
GRADE_MAP = {"1": "상", "2": "중", "3": "하"}

def rand_date_str(start=date(2015,1,1), end=date(2025,12,31)) -> str:
    delta = (end - start).days
    d = start + timedelta(days=random.randint(0, delta))
    return d.strftime("%Y%m%d")

def rand_date_after_str(start_str: str, min_days=1, max_days=365) -> str:
    try:
        sd = datetime.strptime(start_str, "%Y%m%d").date()
    except Exception:
        sd = date(2015,1,1)
    ed = sd + timedelta(days=random.randint(min_days, max_days))
    if ed > date(2025,12,31):
        ed = date(2025,12,31)
    return ed.strftime("%Y%m%d")

# ----------------------------
# JSON 생성 (1명당 1파일)
# ----------------------------
for seek_id in ids:
    # 이력서 개수: 1~3 랜덤
    n_resumes = random.randint(1, 3)

    contents = []
    for tmpl_seq in range(1, n_resumes + 1):
        # RESUME_CONTENTS: 3~7개, 코드 중복 없이 샘플링
        n_items = random.randint(3, 7)
        picked_codes = random.sample(RESUME_ITEM_CLCD_POOL, n_items)

        resume_contents = []
        for seqno, clcd in enumerate(picked_codes, start=1):
            item = {
                "RESUME_ITEM_CLCD": clcd,
                "DS_RESUME_ITEM_CLCD": DS_RESUME_ITEM_CLCD_MAP[clcd],
                "SEQNO": seqno
            }
            # 기본 확장 키들은 빈 문자열로 초기화
            for k in EXTRA_KEYS:
                item[k] = ""

            # ---------- (기존) 코드/명/등급/날짜 로직 ----------
            if clcd == "1":
                ds1 = random.choice(LICENSE_LABELS)
                item["DS_RESUME_ITEM_1_CD"] = ds1
                item["RESUME_ITEM_1_CD"]   = LICENSE_CODE7[ds1]
            elif clcd == "7":
                ds1 = random.choice(IT_SKILL_LABELS)
                item["DS_RESUME_ITEM_1_CD"] = ds1
                item["RESUME_ITEM_1_CD"]    = IT_SKILL_CODE1[ds1]
            elif clcd == "8":
                ds1 = random.choice(LANG_LABELS_12)
                item["DS_RESUME_ITEM_1_CD"] = ds1
                item["RESUME_ITEM_1_CD"]    = LANG_CODE2[ds1]
            elif clcd == "9":
                ds1 = random.choice(EDU_LEVEL_LABELS)
                item["DS_RESUME_ITEM_1_CD"] = ds1
                item["RESUME_ITEM_1_CD"]    = EDU_LEVEL_CODE1[ds1]
            elif clcd in {"2","3","4","5","6","10","12"}:
                item["RESUME_ITEM_1_CD"] = "00000000"

            if clcd == "2":
                item["RESUME_ITEM_2_CD"] = random.choice(["Y","N"])
            elif clcd == "3":
                item["RESUME_ITEM_2_CD"] = random.choice(["1","2","3"])
            elif clcd == "4":
                item["RESUME_ITEM_2_CD"] = random.choice(["Y","N"])
            elif clcd == "5":
                ds2 = random.choice(OVERSEAS_TYPES)
                item["DS_RESUME_ITEM_2_CD"] = ds2
                item["RESUME_ITEM_2_CD"]    = OVERSEAS_CODE2[ds2]
            elif clcd == "6":
                item["RESUME_ITEM_2_CD"] = random.choice(["1","2","3"])
            elif clcd == "8":
                ds2 = random.choice(LANG_TESTS)
                item["DS_RESUME_ITEM_2_CD"] = ds2
                item["RESUME_ITEM_2_CD"]    = LANG_TEST_CODE1[ds2]
            elif clcd == "9":
                ds2 = random.choice(MAJORS)
                item["DS_RESUME_ITEM_2_CD"] = ds2
                item["RESUME_ITEM_2_CD"]    = MAJOR_CODE6[ds2]

            if clcd == "9":
                used_major = item.get("DS_RESUME_ITEM_2_CD", "")
                candidates = [m for m in MAJORS if m != used_major] if used_major else MAJORS[:]
                ds3 = random.choice(candidates)
                item["DS_RESUME_ITEM_3_CD"] = ds3
                item["RESUME_ITEM_3_CD"]    = MAJOR_CODE6[ds3]

            if clcd == "4":
                item["RESUME_ITEM_4_CD"] = random.choice(["Y","N"])
            elif clcd == "9":
                ds4 = random.choice(STATUS_LABELS)
                item["DS_RESUME_ITEM_4_CD"] = ds4
                item["RESUME_ITEM_4_CD"]    = STATUS_CODE2[ds4]

            if clcd == "1":
                item["RESUME_ITEM_1_NM"] = random.choice(HOST_ORGS_LIC)
            elif clcd == "2":
                item["RESUME_ITEM_1_NM"] = random.choice(TRAIN_ORGS)
            elif clcd == "3":
                item["RESUME_ITEM_1_NM"] = random.choice(THESIS_TITLES)
            elif clcd == "4":
                item["RESUME_ITEM_1_NM"] = random.choice(COMPANY_NAMES)
            elif clcd == "5":
                item["RESUME_ITEM_1_NM"] = random.choice(["워킹홀리데이","해외연수","교환학생","해외인턴"])
            elif clcd == "6":
                item["RESUME_ITEM_1_NM"] = random.choice(AWARD_TITLES)
            elif clcd == "9":
                item["RESUME_ITEM_1_NM"] = random.choice(SCHOOLS)
            elif clcd == "10":
                item["RESUME_ITEM_1_NM"] = random.choice(VOL_ACTS)
            elif clcd == "12":
                item["RESUME_ITEM_1_NM"] = random.choice(PROJECT_TITLES)

            if clcd == "2":
                item["RESUME_ITEM_2_NM"] = random.choice(TRAIN_MAIN)
            elif clcd == "3":
                item["RESUME_ITEM_2_NM"] = random.choice(THESIS_ORGS)
            elif clcd == "4":
                item["RESUME_ITEM_2_NM"] = random.choice(CAREER_TASKS)
            elif clcd == "5":
                item["RESUME_ITEM_2_NM"] = random.choice(OVERSEAS_ACTS)
            elif clcd == "6":
                item["RESUME_ITEM_2_NM"] = random.choice(AWARD_ORGS)
            elif clcd == "9":
                item["RESUME_ITEM_2_NM"] = random.choice(MINOR_LIST)
            elif clcd == "10":
                item["RESUME_ITEM_2_NM"] = random.choice(VOL_ORGS)
            elif clcd == "12":
                item["RESUME_ITEM_2_NM"] = random.choice(PROJ_DUTIES)

            if clcd == "3":
                item["RESUME_ITEM_3_NM"] = random.choice(THESIS_CONTENTS)
            elif clcd == "4":
                item["RESUME_ITEM_3_NM"] = random.choice(CAREER_POSITIONS)
            elif clcd == "5":
                item["RESUME_ITEM_3_NM"] = random.choice(COUNTRIES)
            elif clcd == "9":
                item["RESUME_ITEM_3_NM"] = random.choice(DOUBLE_MAJOR)
            elif clcd == "10":
                item["RESUME_ITEM_3_NM"] = random.choice(VOL_TYPES)
            elif clcd == "12":
                item["RESUME_ITEM_3_NM"] = random.choice(CLIENTS)

            if clcd == "8":
                item["RESUME_ITEM_1_VAL"] = random.choice(LANG_LEVEL_VALS)

            if clcd in {"1","3","4","5","6","8","9","10","12"}:
                item["HIST_STDT"] = rand_date_str()
            if clcd in {"4","5","9","10","12"}:
                start_used = item.get("HIST_STDT") or rand_date_str()
                item["HIST_ENDT"] = rand_date_after_str(start_used, min_days=30, max_days=365)

            if clcd == "8":
                grd = random.choice(["1","2","3"])
                item["HIST_ITEM_GRDCD"] = grd
                item["DS_HIST_ITEM_GRDCD"] = GRADE_MAP[grd]

            # ---------- (신규) ETC/CAREER/5_NM/회사공개/직종/급여/년도 ----------
            # ETC_ITEM_CONT
            if clcd == "1":
                item["ETC_ITEM_CONT"] = "자격증명"
            elif clcd == "4":
                item["ETC_ITEM_CONT"] = "기타사항"
            elif clcd == "5":
                item["ETC_ITEM_CONT"] = "기타내용"
            elif clcd == "6":
                item["ETC_ITEM_CONT"] = "주요활동"
            elif clcd == "7":
                item["ETC_ITEM_CONT"] = "기타 컴퓨터 활용능력"
            elif clcd == "9":
                item["ETC_ITEM_CONT"] = "학점 / 총점"
            elif clcd == "12":
                item["ETC_ITEM_CONT"] = "주요 업무 및 성과"

            # CAREER_MMCNT (개인경력)
            if clcd == "4":
                item["CAREER_MMCNT"] = str(random.randint(1, 12))

            # RESUME_ITEM_5_NM
            if clcd == "2":
                item["RESUME_ITEM_5_NM"] = "훈련과정"
            elif clcd == "10":
                item["RESUME_ITEM_5_NM"] = "주요활동"

            # 기업명 공개 여부 / 직종코드 / 급여 / 직업분류년도 (개인경력)
            if clcd == "4":
                item["COMP_NM_OPEN_YN"]   = random.choice(["Y", "N"])
                item["JSCD"]              = f"{random.randint(0, 999999):06d}"   # 6자리
                item["SLRY_AMT"]          = str(random.choice([100,200,300,400,500,600,700]))
                item["EMMD_OCCP_CL_YEAR"] = str(random.choice([2023, 2024, 2025]))

            resume_contents.append(item)

        contents.append({
            "TMPL_SEQNO": tmpl_seq,
            "RESUME_TITLE": "OOO님의 이력서입니다.",
            "BASIC_RESUME_YN": "Y" if tmpl_seq == 1 else "N",
            "RESUME_CONTENTS": resume_contents
        })

    record = {
        "SEEK_CUST_NO": seek_id,
        "CONTENTS": contents
    }

    outpath = outdir / f"resume_ver1_{seek_id}.json"
    with outpath.open("w", encoding="utf-8") as f:
        json.dump(record, f, ensure_ascii=False, indent=2)

print(f"생성 완료: {len(ids)}개 → {outdir.resolve()}")


생성 완료: 100개 → C:\Users\dlehdwna\OneDrive\바탕 화면\학교\석사 2학기\KUBIG\25_1_고용정보원\dowhy_initial_test\kubig_experiments\data\RESUME_JSON\ver1


In [58]:
# ver 3
import json
from pathlib import Path

# 입력/출력 폴더
in_dir  = Path("./data/RESUME_JSON/ver1")
out_dir = Path("./data/RESUME_JSON/ver3")
out_dir.mkdir(parents=True, exist_ok=True)

def drop_empty_strings(obj):
    """값이 빈 문자열("")인 키를 재귀적으로 제거."""
    if isinstance(obj, dict):
        new_d = {}
        for k, v in obj.items():
            if v == "":            # 정확히 빈 문자열만 드롭
                continue
            new_d[k] = drop_empty_strings(v)
        return new_d
    elif isinstance(obj, list):
        return [drop_empty_strings(x) for x in obj]
    else:
        return obj

files = sorted(in_dir.glob("*.json"))
if not files:
    print(f"[INFO] 입력 파일이 없습니다: {in_dir.resolve()}")

changed = 0
for fp in files:
    with fp.open("r", encoding="utf-8") as f:
        data = json.load(f)

    cleaned = drop_empty_strings(data)

    # 파일명: 'ver1' -> 'ver3' 치환, 없으면 앞에 'ver3_' 접두사
    new_name = fp.name.replace("ver1", "ver3") if "ver1" in fp.name else f"ver3_{fp.name}"
    outpath = out_dir / new_name

    with outpath.open("w", encoding="utf-8") as f:
        json.dump(cleaned, f, ensure_ascii=False, indent=2)
    changed += 1

print(f"[DONE] 총 {len(files)}개 중 {changed}개 변환 완료 → {out_dir.resolve()}")


[DONE] 총 100개 중 100개 변환 완료 → C:\Users\dlehdwna\OneDrive\바탕 화면\학교\석사 2학기\KUBIG\25_1_고용정보원\dowhy_initial_test\kubig_experiments\data\RESUME_JSON\ver3


In [59]:
# ver 2
import json
from pathlib import Path

# 입력/출력 폴더
in_dir  = Path("./data/RESUME_JSON/ver3")
out_dir = Path("./data/RESUME_JSON/ver2")
out_dir.mkdir(parents=True, exist_ok=True)

files = sorted(in_dir.glob("*.json"))
if not files:
    print(f"[INFO] 입력 파일이 없습니다: {in_dir.resolve()}")

converted = 0
skipped = 0

for fp in files:
    with fp.open("r", encoding="utf-8") as f:
        doc = json.load(f)

    seek_id = doc.get("SEEK_CUST_NO", "")
    contents = doc.get("CONTENTS", [])

    # ver2의 CONTENTS: 각 이력서 항목(RESUME_CONTENTS의 원소)마다 1개 dict로 평탄화
    new_contents = []
    for block in contents:
        # 블록 메타 (TMPL_SEQNO, RESUME_TITLE, BASIC_RESUME_YN 등) 복사
        meta = {k: v for k, v in block.items() if k != "RESUME_CONTENTS"}
        items = block.get("RESUME_CONTENTS", [])
        if not isinstance(items, list) or not items:
            continue

        for it in items:
            merged = dict(meta)   # 블록 메타
            merged.update(it)     # 항목 필드 병합
            new_contents.append(merged)

    if not new_contents:
        skipped += 1
        # 비어있어도 파일은 생성(원하면 continue로 건너뛰기)
        # continue

    out_doc = {
        "SEEK_CUST_NO": seek_id,
        "CONTENTS": new_contents
    }

    # 파일명: 'ver3' -> 'ver2'로 치환, 없으면 접두사
    new_name = fp.name.replace("ver3", "ver2") if "ver3" in fp.name else f"ver2_{fp.name}"
    outpath = out_dir / new_name

    with outpath.open("w", encoding="utf-8") as f:
        json.dump(out_doc, f, ensure_ascii=False, indent=2)

    converted += 1

print(f"[DONE] 변환 완료: {converted}개 파일 → {out_dir.resolve()} (빈 항목으로 스킵 {skipped}개 포함)")


[DONE] 변환 완료: 100개 파일 → C:\Users\dlehdwna\OneDrive\바탕 화면\학교\석사 2학기\KUBIG\25_1_고용정보원\dowhy_initial_test\kubig_experiments\data\RESUME_JSON\ver2 (빈 항목으로 스킵 0개 포함)


#### 자기소개서

In [23]:
# coverletter ver1
import pandas as pd
import json
import random
from pathlib import Path

# 랜덤 시드 고정
random.seed(2025)

# 입력 CSV 경로
csv_path = Path("./data/synthetic_data_raw.csv")
# 출력 폴더 경로
outdir = Path("./data/COVERLETTERS_JSON/ver1")
outdir.mkdir(parents=True, exist_ok=True)

# CSV 읽기
df = pd.read_csv(csv_path)
# # TEST 용 (10개만)
# df = df.head(10)

# JHNT_MBN 컬럼 값들 가져오기 (중복 제거)
ids = df["JHNT_MBN"].dropna().unique()

# SFID_IEM_SECD 매핑
iem_map = {
    "01": "나의가족",
    "02": "학창생활",
    "03": "주요활동",
    "04": "해외경험",
    "05": "훈련자격",
    "06": "경력 및 업무경험",
    "07": "나의 특장점",
    "08": "성격의 장단점",
    "09": "지원동기",
    "10": "입사 후 포부",
    "11": "성장과정",
    "12": "가치관",
    "99": "기타"
}
iem_candidates = list(iem_map.keys())

# 순차적으로 JSON 생성
for idx, seek_id in enumerate(ids, start=1):
    # CONTENTS 개수 (1~5 랜덤)
    n_contents = random.randint(1, 5)

    contents = []
    for i in range(1, n_contents + 1):
        # COVERLETER_CONTENTS 개수 (3~4 랜덤)
        n_coverletters = random.randint(3, 4)

        coverletter_list = []
        for j in range(n_coverletters):
            secd = random.choice(iem_candidates)
            coverletter_item = {
                "SFID_IEM_SN": j,
                "SFID_SJNM": "OOO님의 자기소개서 입니다." if j == 0 else "",
                "SFID_IEM_SECD": secd,
                "DS_SFID_IEM_SECD": iem_map[secd],
                "SFID_IEM_SJNM": "",
                "SELF_INTRO_CONT": ""
            }
            coverletter_list.append(coverletter_item)

        item = {
            "SFID_NO": i,
            "BASS_SFID_YN": "Y" if i == 1 else "N",
            "COVERLETER_CONTENTS": coverletter_list
        }
        contents.append(item)

    record = {
        "SEEK_CUST_NO": str(seek_id),
        "CONTENTS": contents
    }

    outpath = outdir / f"coverletter_ver1_{seek_id}.json"
    with outpath.open("w", encoding="utf-8") as f:
        json.dump(record, f, ensure_ascii=False, indent=2)

print(f"총 {len(ids)} 개의 JSON 파일 생성 완료 → {outdir.resolve()}")


총 100 개의 JSON 파일 생성 완료 → C:\Users\dlehdwna\OneDrive\바탕 화면\학교\석사 2학기\KUBIG\25_1_고용정보원\dowhy_initial_test\kubig_experiments\data\COVERLETTERS_JSON\ver1


In [24]:
import os
import json
import time
from pathlib import Path
from typing import Dict, Tuple

from dotenv import load_dotenv
from openai import OpenAI

# ========= 설정 =========
IN_DIR = Path("./data/COVERLETTERS_JSON/ver1")   # 입력 폴더 (ver1 파일들)
MODEL = "gpt-4o-mini"
TEMPERATURE_BODY = 0.5
TEMPERATURE_TITLE = 0.3
MAX_RETRIES = 3
RETRY_BACKOFF_BASE = 2  # 지수 백오프

MAX_TITLE_CHARS = 50
MAX_BODY_CHARS  = 500

# ========= 준비 =========
load_dotenv()               # .env 에서 OPENAI_API_KEY 로드
client = OpenAI()

# (코드→라벨) 페일세이프 매핑: DS가 비어있을 때만 보완용
IEM_MAP = {
    "01": "나의가족",
    "02": "학창생활",
    "03": "주요활동",
    "04": "해외경험",
    "05": "훈련자격",
    "06": "경력 및 업무경험",
    "07": "나의 특장점",
    "08": "성격의 장단점",
    "09": "지원동기",
    "10": "입사 후 포부",
    "11": "성장과정",
    "12": "가치관",
    "99": "기타",
}

# 캐시
BODY_CACHE: Dict[Tuple[str, str], str] = {}            # (code, name) -> body
TITLE_CACHE: Dict[str, str] = {}                       # body -> title


def _retry_sleep(attempt: int):
    time.sleep(RETRY_BACKOFF_BASE ** attempt)


def call_llm_body(iem_code: str, iem_name: str) -> str:
    """
    주제 코드/이름으로 500자 이내 본문 생성. (캐시+재시도)
    """
    key = (iem_code, iem_name)
    if key in BODY_CACHE:
        return BODY_CACHE[key]

    system_msg = (
        "당신은 한국어 이력서 자기소개서 항목을 간결하고 자연스럽게 작성하는 어시스턴트입니다. "
        "지시 사항을 정확히 따르세요."
    )
    user_msg = f"""
다음 정보를 바탕으로 자기소개서 '항목 내용'을 작성하세요.

[주제 코드] {iem_code}
[주제명] {iem_name or IEM_MAP.get(iem_code, "")}

요구:
- 1개의 단락으로 작성
- 500자 이내 (간결하고 핵심 위주)
- 인삿말/마무리 문구/실명/회사명/민감정보 금지
- 팀워크·문제해결·성장·책임감 등은 주제에 맞게 자연스럽게 반영
- 결과만 출력 (불릿/번호 금지)

반환(JSON):
{{"content": "..."}}  # content 필드에 본문만 넣기
""".strip()

    last_err = None
    for attempt in range(1, MAX_RETRIES + 1):
        try:
            resp = client.chat.completions.create(
                model=MODEL,
                temperature=TEMPERATURE_BODY,
                messages=[
                    {"role": "system", "content": system_msg},
                    {"role": "user", "content": user_msg},
                ],
                response_format={"type": "json_object"},
            )
            data = json.loads(resp.choices[0].message.content)
            body = (data.get("content") or "").strip()
            if len(body) > MAX_BODY_CHARS:
                body = body[:MAX_BODY_CHARS].rstrip()
            if not body:
                body = f"{iem_name or IEM_MAP.get(iem_code, '자기소개')}에 대한 간단 소개입니다."
            BODY_CACHE[key] = body
            return body
        except Exception as e:
            last_err = e
            _retry_sleep(attempt)

    # 최종 실패 기본값
    print(f"[WARN] 본문 생성 실패: code={iem_code}, name={iem_name} | err={last_err}")
    body = f"{iem_name or IEM_MAP.get(iem_code, '자기소개')}에 대한 간단 소개입니다."
    BODY_CACHE[key] = body
    return body


def call_llm_title_from_body(body: str) -> str:
    """
    본문을 입력으로 받아 한 문장 제목 생성. (캐시+재시도)
    """
    if body in TITLE_CACHE:
        return TITLE_CACHE[body]

    system_msg = (
        "당신은 자기소개서 내용으로부터 매력적인 제목을 생성하는 전문가입니다."
        "다음의 요구사항을 반드시 지키며 **문장형**의 1문장 제목을 만들어야 합니다."
    )
    user_msg = f"""
다음 본문에서 의미를 대표하는 '한 문장 제목'을 만들어라.

[본문]
{body}

요구:
- 한 문장, 50자 이내
- 자연스러운 평서형(예: "~했습니다", "~입니다")
- 채용담당자의 관심을 끌 수 있도록 매력적으로 작성
- 따옴표·이모지·특수문자 금지
- 내용으로부터 핵심 메시지 반영
- 결과만 출력

예시:
- "다양한 프로젝트 경험을 통해 팀워크의 중요성을 배웠습니다."
- "문제 해결을 위해 끊임없이 도전하는 자세를 갖추고 있습니다."

반환(JSON):
{{"title": "..."}}  # title 필드에 제목만 넣기
""".strip()

    last_err = None
    for attempt in range(1, MAX_RETRIES + 1):
        try:
            resp = client.chat.completions.create(
                model=MODEL,
                temperature=TEMPERATURE_TITLE,
                messages=[
                    {"role": "system", "content": system_msg},
                    {"role": "user", "content": user_msg},
                ],
                response_format={"type": "json_object"},
            )
            data = json.loads(resp.choices[0].message.content)
            title = (data.get("title") or "").strip()
            if len(title) > MAX_TITLE_CHARS:
                title = title[:MAX_TITLE_CHARS].rstrip()
            if not title:
                # 간단한 폴백: 본문 첫 문장/절에서 잘라냄
                title = body.split("다.")[0]
                if not title:
                    title = body[:MAX_TITLE_CHARS]
            TITLE_CACHE[body] = title
            return title
        except Exception as e:
            last_err = e
            _retry_sleep(attempt)

    # 최종 실패 기본값
    print(f"[WARN] 제목 생성 실패: err={last_err}")
    title = body[:MAX_TITLE_CHARS].rstrip()
    TITLE_CACHE[body] = title
    return title


def fill_item_inplace(cl: dict):
    """
    단일 COVERLETER_CONTENTS 항목(cl)을 채워 넣음.
    - SELF_INTRO_CONT(본문) 없으면 생성
    - 본문을 바탕으로 SFID_IEM_SJNM(제목) 생성
    """
    code = str(cl.get("SFID_IEM_SECD", "")).zfill(2)
    name = cl.get("DS_SFID_IEM_SECD") or IEM_MAP.get(code, "")

    body_existing = (cl.get("SELF_INTRO_CONT") or "").strip()
    if body_existing:
        body = body_existing[:MAX_BODY_CHARS]
    else:
        body = call_llm_body(code, name)
        cl["SELF_INTRO_CONT"] = body

    # 제목 생성은 항상 본문 기반
    title_existing = (cl.get("SFID_IEM_SJNM") or "").strip()
    if title_existing:
        # 기존 제목이 있는데 개선을 원하면 아래 주석 해제하여 덮어쓰기
        # pass
        return True
    else:
        title = call_llm_title_from_body(body)
        cl["SFID_IEM_SJNM"] = title
        return True


def process_file_inplace(path: Path) -> bool:
    with path.open("r", encoding="utf-8") as f:
        doc = json.load(f)

    changed = False
    for content in doc.get("CONTENTS", []):
        for cl in content.get("COVERLETER_CONTENTS", []):
            updated = fill_item_inplace(cl)
            changed = changed or updated

    if changed:
        with path.open("w", encoding="utf-8") as f:
            json.dump(doc, f, ensure_ascii=False, indent=2)
    return changed


def main():
    files = sorted(IN_DIR.glob("coverletter_ver1_*.json"))
    if not files:
        print(f"[INFO] 대상 파일 없음: {IN_DIR.resolve()}")
        return

    filled = 0
    for fp in files:
        if process_file_inplace(fp):
            filled += 1

    print(f"[DONE] 총 {len(files)}개 파일 처리, 갱신 파일 {filled}개")
    print(f"저장 위치: {IN_DIR.resolve()}")


if __name__ == "__main__":
    main()


[DONE] 총 100개 파일 처리, 갱신 파일 100개
저장 위치: C:\Users\dlehdwna\OneDrive\바탕 화면\학교\석사 2학기\KUBIG\25_1_고용정보원\dowhy_initial_test\kubig_experiments\data\COVERLETTERS_JSON\ver1


In [25]:
import json
from pathlib import Path

# 경로 설정
in_dir = Path("./data/COVERLETTERS_JSON/ver1")
out_dir = Path("./data/COVERLETTERS_JSON/ver2")
out_dir.mkdir(parents=True, exist_ok=True)

# (옵션) 코드-라벨 매핑: DS_SFID_IEM_SECD가 비어있을 때만 보완용으로 사용
iem_map = {
    "01": "나의가족",
    "02": "학창생활",
    "03": "주요활동",
    "04": "해외경험",
    "05": "훈련자격",
    "06": "경력 및 업무경험",
    "07": "나의 특장점",
    "08": "성격의 장단점",
    "09": "지원동기",
    "10": "입사 후 포부",
    "11": "성장과정",
    "12": "가치관",
    "99": "기타",
}

# ver1 파일들 순회
for fp in sorted(in_dir.glob("coverletter_ver1_*.json")):
    with fp.open("r", encoding="utf-8") as f:
        src = json.load(f)

    seek_id = str(src.get("SEEK_CUST_NO", "")).strip()
    ver2_contents = []

    for content in src.get("CONTENTS", []):
        sfid_no = content.get("SFID_NO")
        bass = content.get("BASS_SFID_YN", "")

        # 각 COVERLETER_CONTENTS 항목을 평탄화하여 CONTENTS 리스트에 넣기
        for cl in content.get("COVERLETER_CONTENTS", []):
            secd = cl.get("SFID_IEM_SECD", "")
            ds_secd = cl.get("DS_SFID_IEM_SECD") or iem_map.get(secd, "")

            ver2_contents.append({
                "SFID_NO": sfid_no,
                "BASS_SFID_YN": bass,
                "SFID_IEM_SN": cl.get("SFID_IEM_SN"),
                "SFID_SJNM": cl.get("SFID_SJNM", ""),
                "SFID_IEM_SECD": secd,
                "DS_SFID_IEM_SECD": ds_secd,
                "SFID_IEM_SJNM": cl.get("SFID_IEM_SJNM", ""),
                "SELF_INTRO_CONT": cl.get("SELF_INTRO_CONT", "")
            })

    dst = {
        "SEEK_CUST_NO": seek_id,
        "CONTENTS": ver2_contents
    }

    # 출력 파일명: id 기반
    out_fp = out_dir / f"coverletter_ver2_{seek_id}.json"
    with out_fp.open("w", encoding="utf-8") as f:
        json.dump(dst, f, ensure_ascii=False, indent=2)

print(f"변환 완료: {len(list(out_dir.glob('coverletter_ver2_*.json')))}개 파일 → {out_dir.resolve()}")


변환 완료: 100개 파일 → C:\Users\dlehdwna\OneDrive\바탕 화면\학교\석사 2학기\KUBIG\25_1_고용정보원\dowhy_initial_test\kubig_experiments\data\COVERLETTERS_JSON\ver2


#### 직업훈련

In [26]:
import pandas as pd
import json
from pathlib import Path

# 입력 CSV 경로
csv_path = Path("./data/synthetic_data_raw.csv")
# 출력 폴더 경로
outdir = Path("./data/TRAININGS_JSON/output")
outdir.mkdir(parents=True, exist_ok=True)

# CSV 읽기 (문자형으로 읽어 안전하게 처리)
df = pd.read_csv(csv_path, dtype=str)

# 필수 컬럼 체크
required = {"CLOS_YM", "JHNT_CTN", "JHCR_DE"}
missing = required - set(df.columns)
if missing:
    raise ValueError(f"필수 컬럼 누락: {sorted(missing)}")

# JHNT_CTN 값들 (결측 제거, 공백 제거, 등장 순서대로 고유)
ids = pd.unique(df["JHNT_CTN"].dropna().astype(str).str.strip())

def first_non_null(series: pd.Series) -> str:
    s = series.dropna().astype(str).str.strip()
    return s.iloc[0] if not s.empty else ""

# 순차적으로 JSON 생성
for idx, jhnt_ctn in enumerate(ids, start=1):
    sub = df[df["JHNT_CTN"].astype(str).str.strip() == jhnt_ctn]

    record = {
        "CLOS_YM":  first_non_null(sub["CLOS_YM"]),
        "JHNT_CTN": jhnt_ctn,
        "JHCR_DE":  first_non_null(sub["JHCR_DE"]),
    }

    # 순번 파일명 (예전 방식)
    outpath = outdir / f"training_{idx:03d}.json"
    # 만약 ID 기반 파일명을 원하면 아래로 교체:
    # outpath = outdir / f"training_{jhnt_ctn}.json"

    with outpath.open("w", encoding="utf-8") as f:
        json.dump(record, f, ensure_ascii=False, indent=2)

print(f"총 {len(ids)}개 JSON 파일 생성 → {outdir.resolve()}")


총 100개 JSON 파일 생성 → C:\Users\dlehdwna\OneDrive\바탕 화면\학교\석사 2학기\KUBIG\25_1_고용정보원\dowhy_initial_test\kubig_experiments\data\TRAININGS_JSON\output


In [55]:
import pandas as pd 
import json
import random
import hashlib
from datetime import date, timedelta
from pathlib import Path

# --- 랜덤 시드(원하면 변경/삭제 가능) ---
random.seed(2025)

# 입력 CSV 경로
csv_path = Path("./data/synthetic_data_raw.csv")
# 출력 폴더 경로
outdir = Path("./data/TRAININGS_JSON/output")
outdir.mkdir(parents=True, exist_ok=True)

# CSV 읽기 (문자형으로 읽어 안전하게 처리)
df = pd.read_csv(csv_path, dtype=str)

# 필수 컬럼 체크 (ETL_DT 포함)
required = {"CLOS_YM", "JHNT_CTN", "JHCR_DE", "ETL_DT"}
missing = required - set(df.columns)
if missing:
    raise ValueError(f"필수 컬럼 누락: {sorted(missing)}")

# JHNT_CTN 값들 (결측 제거, 공백 제거, 등장 순서대로 고유)
ids = pd.unique(df["JHNT_CTN"].dropna().astype(str).str.strip())

def first_non_null(series: pd.Series) -> str:
    s = series.dropna().astype(str).str.strip()
    return s.iloc[0] if not s.empty else ""

def rand_date_pair(max_months=6) -> tuple[str, str]:
    """YYYYMMDD 시작/종료 랜덤쌍 생성. 종료는 시작 이후이며 최대 6개월(≈180일) 이내."""
    start_range = date(2018, 1, 1)
    end_range   = date(2025, 12, 31)
    max_days = 30 * max_months  # 대략치(6개월=180일)
    total_days = (end_range - start_range).days
    start_window = max(1, total_days - max_days - 1)
    start_offset = random.randint(0, start_window)
    start_dt = start_range + timedelta(days=start_offset)
    dur_days = random.randint(1, max_days)
    end_dt = start_dt + timedelta(days=dur_days)
    if end_dt > end_range:
        end_dt = end_range
        if end_dt <= start_dt:  # 안전장치
            start_dt = end_dt - timedelta(days=1)
    to_str = lambda d: d.strftime("%Y%m%d")
    return to_str(start_dt), to_str(end_dt)

def rand_digits(n: int) -> str:
    return "".join(random.choices("0123456789", k=n))

# ---- 직업훈련명 풀 ----
TRAINING_TITLES = [
    "일반경비원 신임교육", "[경비지도사] 1차", "시설경비 실무", "기중기 운전(이동식크레인)",
    "건축도장 기능사 취득과정", "응용SW엔지니어링 실무", "전산회계 실무",
    "웹디자인(포토샵·일러스트)", "빅데이터 분석 입문", "전기기능사 필기·실기",
    "지게차 운전 기능교육", "바리스타 2급 자격과정", "평생교육 프로그램 운영",
    "요양보호사 이론·실습", "파이썬 데이터분석", "CNC 선반 가공 실습"
]

# ---- TRNG_CRSN(훈련명) → CRSE_ID(17자리) 사전 매핑 ----
def id17_from_title(title: str) -> str:
    """훈련명으로부터 안정적인 17자리 숫자 ID 생성 (SHA1 해시 기반)"""
    h = hashlib.sha1(title.encode("utf-8")).hexdigest()
    return str(int(h, 16) % 10**17).zfill(17)

CRSE_ID_MAP = {title: id17_from_title(title) for title in TRAINING_TITLES}

# (선택) 충돌 방지 체크: 서로 다른 제목인데 같은 ID가 나오면 소량 가드
_seen = set()
for t, cid in list(CRSE_ID_MAP.items()):
    if cid in _seen:
        # 매우 희박하지만 충돌 시 뒤 2자리만 새로 랜덤 교체
        CRSE_ID_MAP[t] = cid[:-2] + rand_digits(2)
    _seen.add(CRSE_ID_MAP[t])

# 순차적으로 JSON 생성
for idx, jhnt_ctn in enumerate(ids, start=1):
    sub = df[df["JHNT_CTN"].astype(str).str.strip() == jhnt_ctn]

    record = {
        "CLOS_YM":  first_non_null(sub["CLOS_YM"]),
        "JHNT_CTN": jhnt_ctn,
        "JHCR_DE":  first_non_null(sub["JHCR_DE"]),
    }

    # ----- CONTENTS 생성 -----
    n_contents = random.randint(3, 7)  # 3~7개
    contents = []
    for sn in range(1, n_contents + 1):
        # 해당 CONTENTS의 기준 행 하나 선택 (ETL_DT 채우기용)
        if len(sub) > 0:
            row = sub.sample(1).iloc[0]
            etl_dt = (row.get("ETL_DT") or "").strip()
        else:
            etl_dt = ""

        bg, ed = rand_date_pair(max_months=6)
        title = random.choice(TRAINING_TITLES)
        crse_id = CRSE_ID_MAP[title]  # ← 훈련명에 대응하는 17자리 고정 ID

        contents.append({
            "CRSE_ID":   crse_id,                 # 매핑된 17자리 ID
            "TGCR_TME":  random.randint(1, 9),    # 1~9
            "TRNG_CRSN": title,                   # 직업훈련명
            "TRNG_BGDE": bg,                      # YYYYMMDD
            "TRNG_ENDE": ed,                      # YYYYMMDD (BGDE 이후, 6개월 이내)
            "TRNG_JSCD": rand_digits(7),          # 7자리
            "KECO_CD":   rand_digits(4),          # 4자리
            "SORTN_SN":  sn,                      # 1..n
            "ETL_DT":    etl_dt                   # 행에서 가져옴
        })

    record["CONTENTS"] = contents

    # 파일 저장 (ID 기반 파일명)
    outpath = outdir / f"training_{jhnt_ctn}.json"

    with outpath.open("w", encoding="utf-8") as f:
        json.dump(record, f, ensure_ascii=False, indent=2)

print(f"총 {len(ids)}개 JSON 파일 생성 → {outdir.resolve()}")


총 100개 JSON 파일 생성 → C:\Users\dlehdwna\OneDrive\바탕 화면\학교\석사 2학기\KUBIG\25_1_고용정보원\dowhy_initial_test\kubig_experiments\data\TRAININGS_JSON\output


#### 자격증

In [60]:
import pandas as pd
import json
import random
import hashlib
from pathlib import Path

# 재현 가능성 위해 시드 고정 (원하면 수정/삭제)
random.seed(2025)

# 입력/출력 경로
csv_path = Path("./data/synthetic_data_raw.csv")
outdir = Path("./data/LICENSES_JSON/output")
outdir.mkdir(parents=True, exist_ok=True)

# CSV 읽기 (문자형으로 안전하게)
df = pd.read_csv(csv_path, dtype=str)

# 필수 컬럼 체크 (ETL_DT 포함)
required = {"CLOS_YM", "JHNT_CTN", "ETL_DT"}
missing = required - set(df.columns)
if missing:
    raise ValueError(f"필수 컬럼 누락: {sorted(missing)}")

# 고유 JHNT_CTN 목록 (결측/공백 제거)
ids = pd.unique(df["JHNT_CTN"].dropna().astype(str).str.strip())

def first_non_null(series: pd.Series) -> str:
    s = series.dropna().astype(str).str.strip()
    return s.iloc[0] if not s.empty else ""

# ---- 자격증 풀(10종) + 대분류 매핑 ----
LICENSE_TITLES = [
    "정보처리기사",
    "전기기사",
    "산업안전기사",
    "건축기사",
    "기계설계산업기사",
    "컴퓨터활용능력 1급",
    "전산회계 1급",
    "전산세무 2급",
    "바리스타 2급",
    "지게차운전기능사",
]

# 자격증 대분류(예시) → QULF_LCNS_LCFN
LICENSE_MAJOR_MAP = {
    "정보처리기사": "정보처리/소프트웨어",
    "전기기사": "전기/전자",
    "산업안전기사": "안전관리",
    "건축기사": "건설/건축",
    "기계설계산업기사": "기계",
    "컴퓨터활용능력 1급": "사무자동화",
    "전산회계 1급": "회계/세무",
    "전산세무 2급": "회계/세무",
    "바리스타 2급": "외식/식음료",
    "지게차운전기능사": "물류/운전",
}

def code7_from_title(title: str) -> str:
    """자격증명으로부터 안정적인 7자리 코드 생성 (SHA1 기반)"""
    h = hashlib.sha1(title.encode("utf-8")).hexdigest()
    return str(int(h, 16) % 10_000_000).zfill(7)

LICENSE_CODE_MAP = {t: code7_from_title(t) for t in LICENSE_TITLES}

# (희박하지만) 충돌 시 뒤 2자리만 새로 랜덤 부여
_seen = set()
for t, cd in list(LICENSE_CODE_MAP.items()):
    if cd in _seen:
        LICENSE_CODE_MAP[t] = cd[:-2] + f"{random.randint(0,99):02d}"
    _seen.add(LICENSE_CODE_MAP[t])

# JSON 생성
for jhnt_ctn in ids:
    sub = df[df["JHNT_CTN"].astype(str).str.strip() == jhnt_ctn]

    record = {
        "CLOS_YM":  first_non_null(sub["CLOS_YM"]),
        "JHNT_CTN": jhnt_ctn,
    }

    # CONTENTS: 자격증 N개(2~5개) 무작위 선택
    n_items = random.randint(2, 5)
    picked = random.sample(LICENSE_TITLES, n_items)

    contents = []
    # ETL_DT는 해당 JHNT_CTN 하위 행에서 가져옴(여러 행이면 첫 결측 아닌 값 사용)
    etl_dt_value = first_non_null(sub["ETL_DT"])

    for title in picked:
        contents.append({
            "CRQF_CD":         LICENSE_CODE_MAP[title],          # 7자리 코드
            "QULF_ITNM":       title,                            # 자격증명
            "QULF_LCNS_LCFN":  LICENSE_MAJOR_MAP.get(title, "기타"),  # 자격증 대분류
            "ETL_DT":          etl_dt_value                      # 해당 행(집합)에서 가져온 값
        })

    record["CONTENTS"] = contents

    outpath = outdir / f"license_{jhnt_ctn}.json"
    with outpath.open("w", encoding="utf-8") as f:
        json.dump(record, f, ensure_ascii=False, indent=2)

print(f"총 {len(ids)}개 JSON 파일 생성 → {outdir.resolve()}")


총 100개 JSON 파일 생성 → C:\Users\dlehdwna\OneDrive\바탕 화면\학교\석사 2학기\KUBIG\25_1_고용정보원\dowhy_initial_test\kubig_experiments\data\LICENSES_JSON\output
