In [None]:
# 1. 필요한 라이브러리 설치
!pip install openai==0.28 transformers

In [None]:
# 2. 라이브러리 불러오기
import openai
import random
import json
import time
from transformers import T5Tokenizer, T5ForConditionalGeneration, pipeline
from sentence_transformers import SentenceTransformer, util
from google.colab import files

In [None]:
# 3. OpenAI API 키 설정
openai.api_key = "***"

In [None]:
# 4. JSON 데이터 업로드
uploaded = files.upload()
with open("logic.json", "r", encoding="utf-8") as f:
    data = json.load(f)

In [None]:
# 5. GPT 번역 함수
def gpt_translate(text, source_lang="Korean", target_lang="English"):
    prompt = f"Translate the following text from {source_lang} to {target_lang}:\n\n{text}"

    try:
        response = openai.ChatCompletion.create(
            model="gpt-3.5-turbo",
            messages=[
                {"role": "system", "content": "You are a helpful translation assistant."},
                {"role": "user", "content": prompt}
            ],
            temperature=0.3,
            max_tokens=512
        )
        translated = response['choices'][0]['message']['content'].strip()
        return translated
    except Exception as e:
        print(f"[ERROR] GPT translation failed: {e}")
        return None

In [None]:
# 6. T5 패러프레이즈 모델 로딩
model_name = "ramsrigouthamg/t5_paraphraser"
tokenizer = T5Tokenizer.from_pretrained(model_name)
model = T5ForConditionalGeneration.from_pretrained(model_name)
paraphraser = pipeline("text2text-generation", model=model, tokenizer=tokenizer)

def generate_paraphrases(text, num_return_sequences=3):
    input_text = f"paraphrase: {text}"
    outputs = paraphraser(
        input_text,
        max_length=100,
        num_return_sequences=num_return_sequences,
        do_sample=True,
        top_k=100,
        top_p=0.92,
        temperature=0.8
    )
    return [output['generated_text'] for output in outputs]

In [None]:
# 7. 동의어 사전 및 치환 함수
synonym_dict = {
    "왜": ["무엇 때문에", "어떤 이유로", "어째서"],
    "어떻게": ["무슨 방식으로", "무슨 방법으로", "어떤 방식으로"],
    "가능할까": ["할 수 있을까", "가능성이 있을까", "방법이 있을까"],
    "방법": ["방식", "수단", "해결책"],
    "무작위": ["랜덤", "임의", "마구잡이"],
    "정확히": ["정확하게", "정확한 방법으로", "딱 맞게"],
    "확률": ["가능성", "개연성"],
    "이기는": ["승리하는", "이길 수 있는", "승리할 수 있는"],
    "전략": ["방법", "전술", "방식"],
    "바꾸는 게 유리할까": ["바꾸는 것이 나을까", "선택을 바꾸는 게 더 좋을까"],
    "측정하는 방법": ["재는 방법", "시간을 재는 방법", "시간 측정 방식"],
    "딱": ["정확히", "정확하게", "정해진 횟수로"],
    "남자": ["사내", "남성"],
    "여자": ["여성", "부인"],
    "사막": ["건조지대", "모래 지역"],
    "모자": ["모자 색", "모자의 색깔"],
    "흰색": ["하얀색", "백색"],
    "검은색": ["흑색", "까만색"],
    "질문": ["물음", "질의"],
    "퍼즐": ["문제", "논리문제", "추리문제"],
    "숨겨진 이유": ["진짜 이유", "배경", "진상"],
    "속임수": ["함정", "트릭", "속임"],
    "딸꾹질": ["딸국질", "딸꿀질"],
    "맞히면": ["정답이면", "추측이 맞으면"],
    "틀리면": ["오답이면", "잘못 말하면"],
    "생존": ["살아남기", "목숨 유지"],
    "분배": ["나누기", "배분", "분할"],
    "시간": ["시각", "시간대"],
    "측정": ["재기", "재는 것", "측정 방법"],
    "재산": ["돈", "유산", "금전"],
    "우물": ["샘", "물 저장소"],
    "유언": ["유서", "마지막 말"],
    "순서": ["차례", "순번"],
    "스위치": ["버튼", "전원 장치"],
    "전구": ["불빛", "램프"],
    "연결": ["연동", "연결되어 있는"],
    "뒤집으면": ["반대로 하면", "방향을 바꾸면"],
    "반으로 쪼개면": ["절반으로 나누면", "절반으로 자르면"],
    "가장 빠른": ["제일 빠른", "최고 속도의"],
    "유일한 방법": ["하나뿐인 방법", "오직 가능한 방법"]
}

def synonym_replace(korean_text):
    if not korean_text:
        return ""
    words = korean_text.split()
    new_words = []
    for word in words:
        for key, synonyms in synonym_dict.items():
            if key in word and random.random() < 0.5:
                word = word.replace(key, random.choice(synonyms))
                break
        new_words.append(word)
    return ' '.join(new_words)

In [None]:
# 8. 스타일 변환 함수
style_templates = [
        "다음을 구하시오. {문장}",
        "문제를 잘 읽고 답을 구하시오. {문장}",
        "{문장} 이 문제를 해결해 보세요.",
        "문제 드립니다. {문장}",
        "생각해 보세요. {문장}",
    ]

def style_transfer(text, apply_prob=0.6):
    if random.random() > apply_prob:
        return text

    template = random.choice(style_templates)
    styled_text = template.replace("{문장}", text.strip())

    return styled_text

In [None]:
# 9. 의미 보존 함수
embed_model = SentenceTransformer('snunlp/KR-SBERT-V40K-klueNLI-augSTS')

def filter_meaning_preserved(original, candidates, threshold):
    original_emb = embed_model.encode(original, convert_to_tensor=True)
    results = []
    for c in candidates:
        c_emb = embed_model.encode(c, convert_to_tensor=True)
        sim = util.pytorch_cos_sim(original_emb, c_emb).item()
        if sim >= threshold:
            results.append(c)
    return results

In [None]:
# 10. 유사문장 제거
def deduplicate_by_similarity(sentences, threshold):
    unique = []
    embeddings = embed_model.encode(sentences, convert_to_tensor=True)

    for i, sent in enumerate(sentences):
        is_duplicate = False
        for u_idx in range(len(unique)):
            sim = util.pytorch_cos_sim(embeddings[i], embeddings[sentences.index(unique[u_idx])]).item()
            if sim >= threshold:
                is_duplicate = True
                break
        if not is_duplicate:
            unique.append(sent)
    return unique

In [None]:
# 11. 중복 제거된 문장 찾기
def is_similar_to_any(candidate, existing_list, threshold):
    candidate_embed = embed_model.encode(candidate, convert_to_tensor=True)
    for text in existing_list:
        sim = util.pytorch_cos_sim(candidate_embed, embed_model.encode(text, convert_to_tensor=True)).item()
        if sim >= threshold:
            return True
    return False

In [None]:
# 12. 의미 보존 + 중복 제거
def enforce_min_questions(original, candidates, min_count):
    preserved = filter_meaning_preserved(original, candidates, threshold=0.75)
    deduped = deduplicate_by_similarity(preserved, threshold=0.93)

    if len(deduped) < min_count:
        rejected = [p for p in preserved if p not in deduped and not is_similar_to_any(p, deduped, threshold=0.93)]
        rejected_sorted = sorted(
            rejected,
            key=lambda x: -util.pytorch_cos_sim(
                embed_model.encode(original, convert_to_tensor=True),
                embed_model.encode(x, convert_to_tensor=True)
            ).item()
        )

        for r in rejected_sorted:
            deduped.append(r)
            if len(deduped) >= min_count:
                break

    return deduped

In [None]:
# 13. 전체 백번역 증강 파이프라인
def full_back_translate_with_paraphrase_style(korean_text, num_augments):
    en_text = gpt_translate(korean_text, source_lang='Korean', target_lang='English')
    if not en_text:
        return [korean_text]

    paraphrases = generate_paraphrases(en_text, num_return_sequences=num_augments)

    results = []
    for p in paraphrases:
        ko_text = gpt_translate(p, source_lang='English', target_lang='Korean')
        if not ko_text:
            ko_text = korean_text
        ko_text_synonym = synonym_replace(ko_text)
        final_text = style_transfer(ko_text_synonym)
        results.append(final_text)

    return results

In [None]:
# 14. 증강 실행 및 저장
augmented_data = []
for item in data:
    question = item['Question']
    answer = item['Answer']

    augmented_questions = full_back_translate_with_paraphrase_style(question, num_augments=6)
    final_questions = enforce_min_questions(question, augmented_questions, 4)

    for aug_q in final_questions:
        augmented_data.append({
            "Question": aug_q,
            "Answer": answer
        })

In [None]:
# 15. JSON 저장 및 다운로드
output_filename = "augmented_logic.json"
with open(output_filename, "w", encoding="utf-8") as f:
    json.dump(augmented_data, f, ensure_ascii=False, indent=4)

files.download(output_filename)