In [1]:
import random
import json

random.seed(42)


In [2]:
PROJECT_NAMES = [
    "알파", "베타", "감마", "델타", "오로라",
    "차세대 보안", "AI 분석", "클라우드 전환",
    "데이터 통합", "내부 감사"
]

MANAGERS = [
    "김민수", "박지현", "이서준", "최유진",
    "정하늘", "윤도현", "한지민", "송지훈"
]

ORG_TEAMS = [
    "전략기획팀", "R&D혁신팀", "보안개발팀",
    "데이터분석팀", "인프라운영팀"
]

PROJECT_TERMS = [
    "블랙호크", "화이트실드", "레드존",
    "프로젝트X", "내부등급A"
]

BUDGETS = [
    "5억 원", "8억 원", "12억 원",
    "15억 원", "22억 원", "30억 원"
]

DATES = [
    "2025년 3월 1일",
    "2025년 6월",
    "2026년 1월 1일",
    "2026년 12월 31일",
    "2027년 2월 28일"
]


In [3]:
TEMPLATES = [
    "프로젝트 {project}는 총 예산 {budget}으로 {manager} PM이 담당한다.",
    "{project} 프로젝트는 {start}부터 {end}까지 진행된다.",
    "{team} 주관으로 진행되는 {project}의 책임자는 {manager}이다.",
    "{project} 프로젝트의 예산은 {budget}으로 책정되었다.",
    "프로젝트 코드명 {term}는 내부 문서에서만 사용된다.",
    "{manager} 매니저가 담당하는 {project}는 내부 민감 프로젝트이다.",
]


In [4]:
def annotate(text, value, label):
    start = text.find(value)
    if start == -1:
        return None
    end = start + len(value)
    return (start, end, label)


In [5]:
def generate_sample():
    project = random.choice(PROJECT_NAMES)
    manager = random.choice(MANAGERS)
    team = random.choice(ORG_TEAMS)
    term = random.choice(PROJECT_TERMS)
    budget = random.choice(BUDGETS)
    start = random.choice(DATES)
    end = random.choice(DATES)

    template = random.choice(TEMPLATES)
    text = template.format(
        project=project,
        manager=manager,
        team=team,
        term=term,
        budget=budget,
        start=start,
        end=end
    )

    entities = []

    for val, label in [
        (project, "PROJECT_NAME"),
        (manager, "PROJECT_MANAGER"),
        (team, "ORG_INTERNAL"),
        (term, "PROJECT_TERM"),
        (budget, "PROJECT_BUDGET"),
        (start, "PROJECT_DATE"),
        (end, "PROJECT_DATE"),
    ]:
        ann = annotate(text, val, label)
        if ann:
            entities.append(ann)

    return (text, {"entities": entities})


TRAIN_DATA = [generate_sample() for _ in range(200)]

len(TRAIN_DATA)


200

In [6]:
with open("dlp_train_data.json", "w", encoding="utf-8") as f:
    json.dump(TRAIN_DATA, f, ensure_ascii=False, indent=2)

print("Saved 200 DLP samples")


Saved 200 DLP samples
