In [5]:
import pandas as pd
import random
from itertools import product

def clean_pattern(pattern):
    return pattern.replace("이 ", " ").replace("이", "")

def generate_sentences_safe(intent_id, base_terms, patterns, target_count):
    # 가능한 모든 조합 생성
    all_combinations = list(set(
        clean_pattern(pattern).format(term=term)
        for term, pattern in product(base_terms, patterns)
    ))

    if len(all_combinations) < target_count:
        multiplier = (target_count // len(all_combinations)) + 1
        all_combinations *= multiplier

    random.shuffle(all_combinations)
    selected = all_combinations[:target_count]

    return [{"text": sentence, "intent": intent_id} for sentence in selected]

# 의도별 구성
intent_config = {
    0: {
        "terms": ["주민등록등본", "등본", "주민등본"],
        "patterns": [
            "{term} 발급해줘", "{term} 뽑아줘", "{term} 출력해줘", "{term} 출력하고 싶어요", "{term} 필요해요",
            "{term} 신청할게요", "{term} 좀 받을 수 있을까요", "{term}이 필요합니다", "{term} 받으러 왔어요", "{term} 좀 뽑아줘",
            "{term} 발급해주세요", "{term} 필요한데", "{term} 어디서 뽑아요", "{term} 필요해", "{term} 뽑아주세요",
            "{term} 발급하려고 하는데", "{term} 발급하려고요"
        ]
    },
    1: {
        "terms": ["전입신고", "전출신고", "주소변경"],
        "patterns": [
            "{term} 하려고요", "{term} 하러 왔어요", "{term} 하겠습니다", "{term} 도와주세요", "{term} 신청하고 싶어요",
            "{term} 하려면 어떻게 해요", "{term} 하려고 왔어요", "{term} 하러 왔습니다", "{term} 할게요", "{term} 좀 부탁드려요",
            "{term} 어디서 해요", "{term} 하려는데", "{term} 하려고", "{term} 때문에 왔어요"
        ]
    },
    2: {
        "terms": ["여권"],
        "patterns": [
            "{term} 발급하고 싶어요", "{term} 만들고 싶어요", "{term} 신청하러 왔어요", "{term} 받으러 왔어요", "{term} 만들어 줘요",
            "{term} 필요해요", "{term} 발급해주세요", "{term} 신청하고 싶습니다", "{term} 좀 해주세요", "{term} 만들려고요",
            "{term} 만들어 줘", "{term} 필요해", "{term} 어디서 만들어", "{term} 발급", "{term} 만들러 왔어요", "{term} 만드려고"
        ]
    },
    3: {
        "terms": ["직원", "사람"],
        "patterns": [
            "{term} 좀 불러줘요", "{term} 불러주세요", "{term} 있나요", "{term} 호출해줘요", "{term} 좀 도와줘요",
            "{term} 도와주세요", "{term} 부탁해요", "{term} 좀 와주세요", "{term} 불러 주시겠어요?", "{term} 계신가요",
            "{term} 어디있어", "{term} 불러", "{term} 불러줘"
        ]
    },
    4: {
        "terms": ["처음", "시작화면", "첫 화면", "맨 처음"],
        "patterns": [
            "{term}으로 가줘", "{term}으로 돌아가줘", "{term}으로 가고 싶어요", "{term} 화면으로 이동", "{term}으로 부탁해요",
            "{term}으로 가겠습니다", "{term}로 가자", "{term}으로 돌려줘", "{term}부터 다시 시작", "{term}으로 바꿔줘",
            "다시", "{term}부터 다시"
        ]
    }
}

# 데이터 생성
all_data = []
for intent_id, config in intent_config.items():
    entries = generate_sentences_safe(intent_id, config["terms"], config["patterns"], 150)
    all_data.extend(entries)

# 데이터프레임 생성
df = pd.DataFrame(all_data)

In [9]:
# 데이터셋 csv로 저장
#df.to_csv("intent_dataset.csv", index=False, encoding="utf-8-sig")

<h3>0 - 증명서 발급: 주민등록등본</h3>
<h3>1 - 주소 변경: 전입신고, 전출신고</h3>
<h3>2 - 여권 발급: 여권 발급하기</h3>
<h3>3 - 직원 호출: 직원 부르기</h3>
<h3>4 - 시작화면: 처음으로 돌아가기</h3>