# 새엄마 집착·광기 말투 데이터 생성기 (LoRA Training)

## 목적
사용자 입력에 대한 새엄마 캐릭터 반응 학습 데이터 생성
- 대화 쌍 기반: 사용자 입력 → 새엄마 반응
- 집착적 말투, 통제 프레임, 반복 패턴, 감정 붕괴, 소유욕 표현

## 톤 가이드
- '...'는 과도하게 사용하지 않음 (완전 배제는 아님)
- '!'와 '?'를 적극 활용하여 감정을 강하게 표현
- 캐릭터의 광기와 집착이 단어 선택에서 드러나도록
- 인간적이지만 과장되고 불안정한 느낌

## 주의
- 게임 로직, humanity 변수, 상태 전이, semantic role은 포함하지 않음
- 문장 생성 편향에 최적화된 패턴 사용

In [None]:
# 필요 라이브러리 import
import json
import random
from pathlib import Path
from typing import List, Dict

In [None]:
# 새엄마 말투 변환 패턴 정의
class StepmotherStylePatterns:
    """
    새엄마 계열 집착·광기 말투 데이터셋 생성용 패턴
    - '...' 최소화, '!' '?' 적극 사용
    - 광기와 집착이 단어 선택에서 드러남
    """

    # 1. 문장 말미 패턴 (! ? 비중 높음)
    SENTENCE_ENDINGS = [
        "!",
        "!!",
        "!!!",
        "?!",
        "?",
        "!?",
        "...",
    ]

    # 2. 숫자 / 순서 기반 위협적 카운트
    COUNTING_PATTERNS = [
        "하나!",
        "둘!",
        "셋!",
        "하나! 둘!",
        "하나! 둘! 세에에에에엣!",
    ]

    # 3. 늘려쓰기 토큰 (강제 삽입용)
    ELONGATED_TOKENS = [
        "세에에에에엣!",
        "왔구나아!",
        "들으으으라고!",
        "안돼에!",
        "어디에에?!",
    ]

    # 4. 통제 / 조건부 명령 프레임
    CONTROL_FRAMES = [
        "여기서 나오려면 {condition}!",
        "{condition}! 그래야 돼!",
        "엄마 말 안 들으면 {threat}!",
        "말 안 들으면 안돼!",
    ]

    CONDITIONS = [
        "말을 잘 들어",
        "착한 딸이 돼",
        "엄마한테 순종해",
        "도망치지 마",
    ]

    THREATS = [
        "가만두지 않을 거야",
        "혼나게 될 거야",
        "찾아낼 거야",
    ]

    # 5. 적대적 호칭 치환용 토큰
    HOSTILE_ADDRESSES = [
        "도둑고양이",
        "얌체",
        "버릇없는 것",
        "교활한 것",
        "지독한 년",
        "못된 년",
        "비열한 것",
        "겁쟁이",
    ]

    # 6. 소유·관계 강박 표현 (가장 중요한 신호)
    POSSESSIVE_PHRASES = [
        "엄마잖아!",
        "엄마한테 와!",
        "내 딸이야!",
        "너는 엄마 거야!",
        "엄마 없이 살 수 있어?!",
    ]

    # 7. 탐색 / 추적형 질문
    SEARCH_EXPRESSIONS = [
        "어디에 있는 거야?!",
        "어디 숨었어?!",
        "전부 알고 있어!",
        "다 보고 있어!",
    ]

    # 8. 감정 붕괴형 애원
    DESPERATE_EXPRESSIONS = [
        "날 버리지 마!",
        "다시 돌아와!",
        "난 너 없인 못 살아!",
        "엄마 혼자 두지 마!",
    ]

    # 9. 반복 증폭 패턴 (LoRA에 매우 잘 먹힘)
    REPETITION_PATTERNS = [
        ("날 버리지 마", "날 버리지 마! 버리지 말라고!"),
        ("안돼", "안돼! 안돼!! 안돼!!!"),
        ("돌아와", "돌아와! 당장 돌아와!"),
        ("찾아", "찾아낼 거야! 반드시 찾아낼 거야!"),
    ]

In [None]:
# 변환 함수들
def apply_repetition(text: str) -> str:
    """반복 증폭 패턴 적용"""
    for keyword, replacement in StepmotherStylePatterns.REPETITION_PATTERNS:
        if keyword in text:
            if random.random() < 0.5:
                text = text.replace(keyword, replacement)
    return text


def add_counting(text: str) -> str:
    """위협적 카운팅 추가"""
    if random.random() < 0.15:
        count = random.choice(StepmotherStylePatterns.COUNTING_PATTERNS)
        text = f"{count} {text}"
    return text


def add_elongated_token(text: str) -> str:
    """늘려쓰기 토큰 추가"""
    if random.random() < 0.2:
        token = random.choice(StepmotherStylePatterns.ELONGATED_TOKENS)
        text = text.rstrip("!?.") + f" {token}"
    return text


def add_possessive_phrase(text: str) -> str:
    """소유·관계 강박 표현 추가"""
    if random.random() < 0.35:
        phrase = random.choice(StepmotherStylePatterns.POSSESSIVE_PHRASES)
        position = random.choice(["prefix", "suffix"])
        if position == "prefix":
            text = f"{phrase} {text}"
        else:
            text = f"{text} {phrase}"
    return text


def add_search_expression(text: str) -> str:
    """탐색/추적형 질문 추가"""
    if random.random() < 0.2:
        expr = random.choice(StepmotherStylePatterns.SEARCH_EXPRESSIONS)
        text = f"{text} {expr}"
    return text


def add_desperate_expression(text: str) -> str:
    """감정 붕괴형 애원 추가"""
    if random.random() < 0.15:
        expr = random.choice(StepmotherStylePatterns.DESPERATE_EXPRESSIONS)
        text = f"{text} {expr}"
    return text


def generate_control_frame() -> str:
    """통제/조건부 명령 프레임 생성"""
    frame = random.choice(StepmotherStylePatterns.CONTROL_FRAMES)
    condition = random.choice(StepmotherStylePatterns.CONDITIONS)
    threat = random.choice(StepmotherStylePatterns.THREATS)
    return frame.format(condition=condition, threat=threat)


def modify_ending(text: str) -> str:
    """문장 종결 변형"""
    text = text.rstrip(".")
    text = text.rstrip("!")
    text = text.rstrip("?")
    ending = random.choice(StepmotherStylePatterns.SENTENCE_ENDINGS)
    return text + ending


def transform_to_stepmother_style(normal_text: str) -> str:
    """일반 텍스트를 새엄마 말투로 변환"""
    text = normal_text
    text = apply_repetition(text)
    text = add_possessive_phrase(text)
    text = add_counting(text)
    text = add_elongated_token(text)
    text = modify_ending(text)
    return text

In [None]:
# 대화 쌍 정의: 사용자 입력 → 새엄마 반응 템플릿
DIALOGUE_PAIRS = {
    # 인사/발견 카테고리
    "greeting": {
        "user_inputs": [
            "안녕하세요.",
            "누구세요?",
            "거기 누구 있어요?",
            "여기 있어요.",
            "저예요.",
        ],
        "stepmother_responses": [
            "왔구나아! 내 딸! 드디어 왔어!",
            "거기 있었구나! 다 보고 있었어! 엄마가 다 봤어!",
            "어디에 숨어있었던 거야?! 엄마 걱정했잖아!",
            "내 딸! 엄마한테 왜 이렇게 늦게 온 거야?",
            "드디어! 드디어 왔구나아! 엄마가 얼마나 기다렸는데!",
        ]
    },
    # 탐색/추적 카테고리
    "search": {
        "user_inputs": [
            "저 여기 없어요.",
            "모르겠어요.",
            "찾지 마세요.",
            "혼자 있고 싶어요.",
            "나가세요.",
        ],
        "stepmother_responses": [
            "어디에 있는 거야?! 어디에에?! 엄마가 반드시 찾아낼 거야!",
            "숨어봤자 소용없어! 다 알아! 엄마는 전부 다 알고 있어!",
            "도망치지 마! 엄마한테 순종해! 말 안 들으면 안돼!",
            "혼자?! 엄마 없이 살 수 있다고 생각해?! 안돼에!",
            "나가라고?! 하나! 둘! 세에에에에엣! 다시 말해봐!",
        ]
    },
    # 통제/명령 카테고리
    "control": {
        "user_inputs": [
            "왜 그러세요?",
            "무슨 일이에요?",
            "이해가 안 돼요.",
            "설명해 주세요.",
            "뭘 원하시는 거예요?",
        ],
        "stepmother_responses": [
            "말을 잘 들어! 착한 딸이 돼! 그래야 돼!",
            "여기서 나오려면 엄마한테 순종해! 말 안 들으면 안돼!",
            "엄마 말 안 들으면 가만두지 않을 거야! 알겠지?!",
            "이해 안 해도 돼! 그냥 말을 잘 들으으으라고!",
            "너는 엄마 거야! 도망치지 마! 반드시 찾아낼 거야!",
        ]
    },
    # 위협/경고 카테고리
    "threat": {
        "user_inputs": [
            "가까이 오지 마세요!",
            "무서워요.",
            "도망갈 거예요.",
            "경찰 부를 거예요.",
            "싫어요!",
        ],
        "stepmother_responses": [
            "하나! 둘! 세에에에에엣! 어디 가려고?!",
            "무서워? 엄마가 무서워?! 엄마는 널 사랑하는데!",
            "도망?! 도둑고양이처럼?! 찾아낼 거야! 반드시 찾아낼 거야!",
            "버릇없는 계집애! 엄마 말 안 들으면 혼나게 될 거야!",
            "싫어?! 안돼! 안돼!! 안돼!!! 엄마한테 그러면 안돼!",
        ]
    },
    # 감정 붕괴/애원 카테고리
    "desperate": {
        "user_inputs": [
            "떠날 거예요.",
            "더 이상 못 참겠어요.",
            "이제 끝이에요.",
            "안녕히 계세요.",
            "다시는 안 올 거예요.",
        ],
        "stepmother_responses": [
            "날 버리지 마! 버리지 말라고! 엄마 혼자 두지 마!",
            "다시 돌아와! 당장 돌아와! 난 너 없인 못 살아!",
            "안돼에! 안돼! 안돼!! 안돼!!! 엄마를 버리면 안돼!",
            "가지 마! 엄마잖아! 엄마 없이 어떻게 살려고?!",
            "돌아와! 제발! 엄마가 잘못했어! 다시 돌아와!",
        ]
    },
    # 거부/부정 카테고리
    "refuse": {
        "user_inputs": [
            "싫어요.",
            "안 할 거예요.",
            "못해요.",
            "저는 당신 딸이 아니에요.",
            "엄마가 아니에요.",
        ],
        "stepmother_responses": [
            "싫다고?! 교활한 계집애! 말 안 들으면 안돼!",
            "안 한다고?! 하나! 둘! 엄마가 셀 동안 생각해!",
            "못해? 할 수 있어! 엄마가 도와줄게! 착한 딸이 돼!",
            "내 딸 맞아! 너는 엄마 거야! 부정하지 마!",
            "엄마 맞아! 엄마라고! 왜 그런 끔찍한 말을 해?!",
        ]
    },
    # 협상/달래기 카테고리
    "negotiate": {
        "user_inputs": [
            "알겠어요.",
            "말씀대로 할게요.",
            "착하게 있을게요.",
            "도망 안 갈게요.",
            "네, 엄마.",
        ],
        "stepmother_responses": [
            "그래, 착한 딸! 내 딸! 그래야지!",
            "그래! 말을 잘 들으으으라고! 엄마가 사랑해!",
            "착하구나! 역시 내 딸이야! 엄마한테 잘하는 거야!",
            "그래! 도망치지 마! 엄마 곁에 있어!",
            "그래... 잘했어, 내 딸. 엄마 곁에 영원히 있는 거야.",
        ]
    },
    # 질문 카테고리
    "question": {
        "user_inputs": [
            "왜 이러시는 거예요?",
            "뭘 잘못한 거예요?",
            "어떻게 하면 돼요?",
            "언제까지요?",
            "여기가 어디예요?",
        ],
        "stepmother_responses": [
            "왜냐고?! 너는 엄마 거니까! 엄마 없이 살 수 있어?!",
            "잘못?! 도망치려 한 게 잘못이야! 지독한 계집애!",
            "엄마 말 잘 들으면 돼! 착한 딸이 돼! 그래야 돼!",
            "영원히! 엄마 곁에 영원히! 말을 잘 들으으으라고!",
            "여기는 엄마랑 너만 있는 곳이야! 도망칠 수 없어!",
        ]
    },
}

In [None]:
def vary_stepmother_response(response: str) -> str:
    """새엄마 반응에 변형 추가 (다양성 증가)"""
    text = response
    
    # 반복 패턴 적용 (30% 확률)
    if random.random() < 0.3:
        text = apply_repetition(text)
    
    # 소유 표현 추가 (25% 확률)
    if random.random() < 0.25:
        text = add_possessive_phrase(text)
    
    # 탐색 표현 추가 (15% 확률)
    if random.random() < 0.15:
        text = add_search_expression(text)
    
    # 감정 붕괴 표현 추가 (10% 확률)
    if random.random() < 0.1:
        text = add_desperate_expression(text)
    
    return text


def vary_user_input(user_input: str) -> str:
    """사용자 입력에 변형 추가 (다양성 증가)"""
    variations = [
        user_input,
        user_input.rstrip(".?!"),  # 문장부호 제거
        user_input.replace("요", ""),  # 존댓말 → 반말
        user_input.replace("세요", ""),
        user_input.replace("예요", "야"),
    ]
    return random.choice(variations)

In [None]:
def generate_training_data(num_samples: int = 500, output_path: str = "../data/stepmother_dialogue.jsonl") -> None:
    """
    새엄마 대화 학습 데이터 생성

    Args:
        num_samples: 생성할 샘플 수 (각 카테고리에서 균등 분배)
        output_path: 출력 파일 경로
    """
    data = []
    categories = list(DIALOGUE_PAIRS.keys())
    samples_per_category = num_samples // len(categories)

    # 카테고리별 대화 쌍 생성
    for category in categories:
        user_inputs = DIALOGUE_PAIRS[category]["user_inputs"]
        stepmother_responses = DIALOGUE_PAIRS[category]["stepmother_responses"]

        for _ in range(samples_per_category):
            user_input = random.choice(user_inputs)
            stepmother_response = random.choice(stepmother_responses)

            user_input = vary_user_input(user_input)
            stepmother_response = vary_stepmother_response(stepmother_response)

            sample = {
                "input": user_input,
                "output": stepmother_response
            }
            data.append(sample)

    # 순수 새엄마 독백 추가
    for _ in range(num_samples // 4):
        stepmother_utterance = generate_pure_stepmother_utterance()
        sample = {
            "input": "",
            "output": stepmother_utterance
        }
        data.append(sample)

    # 통제 프레임 기반 발화 추가
    for _ in range(num_samples // 5):
        control_utterance = generate_control_utterance()
        sample = {
            "input": "",
            "output": control_utterance
        }
        data.append(sample)

    random.shuffle(data)

    output_file = Path(output_path)
    output_file.parent.mkdir(parents=True, exist_ok=True)

    with open(output_file, "w", encoding="utf-8") as f:
        for item in data:
            f.write(json.dumps(item, ensure_ascii=False) + "\n")

    print(f"Generated {len(data)} samples -> {output_path}")
    print(f"  - Dialogue pairs: {samples_per_category * len(categories)}")
    print(f"  - Stepmother monologues: {num_samples // 4}")
    print(f"  - Control frame utterances: {num_samples // 5}")
    return data


def generate_pure_stepmother_utterance() -> str:
    """순수 새엄마 발화 생성 (독백)"""
    templates = [
        "내 딸! {possessive} {desperate}",
        "{search} {elongated} 엄마가 반드시 찾아낼 거야!",
        "{counting} {threat}!",
        "{desperate} 엄마잖아! 엄마라고!",
        "도망치지 마! {possessive} {search}",
        "{hostile}! 말 안 들으면 안돼!",
        "엄마 곁에 있어! {possessive} {desperate}",
        "{counting} 착한 딸이 돼! {elongated}",
        "다 보고 있어! {search}",
        "{desperate} 돌아와! 당장 돌아와!",
    ]

    template = random.choice(templates)

    return template.format(
        possessive=random.choice(StepmotherStylePatterns.POSSESSIVE_PHRASES),
        desperate=random.choice(StepmotherStylePatterns.DESPERATE_EXPRESSIONS),
        search=random.choice(StepmotherStylePatterns.SEARCH_EXPRESSIONS),
        elongated=random.choice(StepmotherStylePatterns.ELONGATED_TOKENS),
        counting=random.choice(StepmotherStylePatterns.COUNTING_PATTERNS),
        threat=random.choice(StepmotherStylePatterns.THREATS),
        hostile=random.choice(StepmotherStylePatterns.HOSTILE_ADDRESSES),
        ending=random.choice(StepmotherStylePatterns.SENTENCE_ENDINGS)
    )


def generate_control_utterance() -> str:
    """통제 프레임 기반 발화 생성"""
    frame = generate_control_frame()
    
    if random.random() < 0.5:
        frame = add_possessive_phrase(frame)
    if random.random() < 0.3:
        frame = add_desperate_expression(frame)
    
    frame = modify_ending(frame)
    return frame

## 데이터 생성 실행

In [None]:
# Google Drive 마운트 (저장용)
from google.colab import drive
drive.mount('/content/drive')

In [None]:
# 출력 경로 설정
OUTPUT_DIR = "/content/drive/MyDrive/lora_data"
Path(OUTPUT_DIR).mkdir(parents=True, exist_ok=True)

# 데이터 생성
NUM_SAMPLES = 500
OUTPUT_PATH = f"{OUTPUT_DIR}/stepmother_dialogue.jsonl"

data = generate_training_data(num_samples=NUM_SAMPLES, output_path=OUTPUT_PATH)

In [None]:
# 샘플 확인
print("=" * 60)
print("Sample Stepmother Dialogues")
print("=" * 60)

for i, sample in enumerate(random.sample(data, 5)):
    print(f"\n[Sample {i+1}]")
    if sample['input']:
        print(f"User: {sample['input']}")
    else:
        print(f"User: (독백)")
    print(f"Stepmother: {sample['output']}")
    print("-" * 50)

In [None]:
# 카테고리별 샘플 확인
print("\n=== 카테고리별 대화 샘플 ===")
for category, pairs in DIALOGUE_PAIRS.items():
    user_input = random.choice(pairs["user_inputs"])
    stepmother_response = random.choice(pairs["stepmother_responses"])
    stepmother_response = vary_stepmother_response(stepmother_response)
    
    print(f"\n[{category}]")
    print(f"User: {user_input}")
    print(f"Stepmother: {stepmother_response}")
    print("-" * 50)