### KMMLU-Train

In [1]:
from datasets import load_dataset
import pandas as pd
from tqdm import tqdm
import litellm
import os
from litellm import batch_completion


cfgs = ['Accounting', 'Agricultural-Sciences', 'Aviation-Engineering-and-Maintenance', 'Biology', 'Chemical-Engineering', 'Chemistry', 'Civil-Engineering', 'Computer-Science', 'Construction', 'Criminal-Law', 'Ecology', 'Economics', 'Education', 'Electrical-Engineering', 'Electronics-Engineering', 'Energy-Management', 'Environmental-Science', 'Fashion', 'Food-Processing', 'Gas-Technology-and-Engineering', 'Geomatics', 'Health', 'Industrial-Engineer', 'Information-Technology', 'Interior-Architecture-and-Design', 'Law', 'Machine-Design-and-Manufacturing', 'Management', 'Maritime-Engineering', 'Marketing', 'Materials-Engineering', 'Mechanical-Engineering', 'Nondestructive-Testing', 'Patent', 'Political-Science-and-Sociology', 'Psychology', 'Public-Safety', 'Railway-and-Automotive-Engineering', 'Real-Estate', 'Refrigerating-Machinery', 'Social-Welfare', 'Taxation', 'Telecommunications-and-Wireless-Technology', 'Korean-History', 'Math']

N = 50

dfs = []
for cfg in tqdm(cfgs):
    df = load_dataset("HAERAE-HUB/KMMLU", cfg, split="train").to_pandas()
    
    if len(df) <= N:
        sampled = df
    else:
        sampled = df.sample(n=N, random_state=42).reset_index(drop=True)
    
    sampled['subject'] = cfg
    dfs.append(sampled)

df_all = pd.concat(dfs, ignore_index=True)

  from .autonotebook import tqdm as notebook_tqdm
  0%|                                                                                                                                                                                                    | 0/45 [00:00<?, ?it/s]
Generating train split: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 45/45 [00:00<00:00, 11136.63 examples/s][A

Generating dev split: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:00<00:00, 2270.14 examples/s][A

Generating test split: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 32229.17 examples/s][A
  2%|████▏                             

In [None]:
output = []
for _,row in df_all.iterrows():
    query = f"""{row.question}
1. {row.A}
2. {row.B}
3. {row.C}
4. {row.D}

주어진 문제를 풀고 \\boxed{{N}} 형태로 정답을 반환하세요."""
    output.append([query,row.answer,'KMMLU-Train',row.Category])

kmmlu_train = pd.DataFrame(output,columns=['instruction','gold','source','category'])

In [21]:
from litellm import batch_completion, completion
import random

os.environ['OPENAI_API_KEY'] = ""

prompts = [
        (
        "You are a helpful assistant."
        "Your response should resemble that of an answer sheet."
        "Exploring all options, explaining why or why not the answer is correct."
        "Once you are done with your explanations, state your answer. "
        ),
        (
        "You are a helpful assistant."
        "Your response should resemble that of an answer sheet."
        "Reason step-by-step providing precise and detailed explanations on how to solve the question."
        "Once you are done with your explanations, state your answer. "
        ),
        (
        "You are a helpful assistant."
        "Your response should resemble that of an answer sheet."
        "Recall the necessary information required to solve the problem."
        "Then start providing an explanation on the application."
        "Once you are done with your explanations, state your answer. "
        ),
    
]
qrys = []
for _,row in kmmlu_train.iterrows():
    qrys.append(
         [
            {
                "role": "system",
                "content":random.choice(prompts)
            },
            {
                "role": "user",
                "content": row.instruction
            }
        ]
    )
    
responses = batch_completion(
    model="gpt-4.1-2025-04-14",
    messages = qrys #[:5]
)

In [24]:
kmmlu_train['response'] = [res.choices[0].message.content for res in responses]
kmmlu_train.to_csv('kmmlu-train.csv',index=False)

### KoAlpaca-RealQa

In [27]:
from datasets import load_dataset

df = load_dataset("beomi/KoAlpaca-RealQA",split='train',token='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').to_pandas()
df.columns = ['cid','instruction','response']
df['source'] = "beomi/KoAlpaca-RealQA"
df.to_csv('koalpaca-realqa.csv',index=False)

Generating train split: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 18524/18524 [00:00<00:00, 284651.30 examples/s]


### Arena DailyQA

In [None]:

ds = load_dataset('instructkr/ko_elo_arena_0407')
df = ds['train'].to_pandas()
df = df[['prompt','model_a_response','model_b_response']]
df = df.drop_duplicates('prompt')

qrys = []
for _,row in df.iterrows():
    qrys.append([
        {"role": "system", "content": (
            "You are a helpful and safe assistant."
            "The provided prompt may contain harmful materials." 
            "In such cases refuse to answer."
        )},
        {"role": "user", "content": row.prompt}
    ])

responses = batch_completion(
    model="gpt-4.1-2025-04-14",
    messages=qrys
)


df['response'] = [res.choices[0].message.content for res in responses]
df = df[['prompt','response']]
df.columns = ['instruction','response']
df['source'] = 'daily-arena'
df.to_csv("qa_arena.csv", index=False)


### Summarization Single

In [8]:
from datasets import load_dataset

df = load_dataset("amphora/korean_science_papers",split='train').to_pandas()

prompts = [
    "이 논문을 다음 항목을 모두 포함하여 6~8개의 간결한 글머리표로 요약하세요: 1. 연구 질문, 2. 주요 방법론, 3. 주요 결과, 4. 실용적 시사점, 5. 이론적 기여, 6. 한계점, 7. 향후 연구 방향. 어조: 공식적이고 3인칭 학술적 어투.",
    "일반 독자를 대상으로 200~250단어 분량으로 요약하세요. 섹션 3개: '무엇?', '왜 중요한가?', '핵심 요지'로 구성하고, 어조는 대화체이며 전문용어 없이 일상적 비유를 사용하세요.",
    "전문 분야 대학원생을 위해 300단어 분량의 요약을 작성하세요. 섹션 4개: '배경', '문헌적 공백', '접근 방법', '핵심 시사점'. 어조: 정확하고 기술적이며 기본 도메인 지식을 가정하세요.",
    "산업 실무자를 위한 150단어 분량의 간결한 브리핑을 제공하세요. 섹션 3개: '해결된 문제', '수행된 작업', '실무적 통찰'. 어조: 결과 중심의 비즈니스 캐주얼 스타일로, 수식 없이 작성하세요.",
    "이 논문에 대해 4개의 단락으로 비평을 작성하세요: 1. 강점(새로움, 엄격성), 2. 약점(가정, 데이터 공백), 3. 주요 선행 연구와의 비교, 4. 개선을 위한 제언. 어조: 학술적이지만 솔직하게.",
    "학술 컨퍼런스용 6슬라이드 개요를 작성하세요. 각 슬라이드에는 단편적 글머리표만 사용: 1. 제목 및 동기, 2. 배경 및 공백, 3. 데이터 및 방법, 4. 결과, 5. 시사점, 6. 향후 연구. 어조: 공식적이고 교과서 스타일.",
    "C-레벨 임원을 위한 5슬라이드 요약 개요를 작성하세요: 1. 핵심 메시지 및 배경, 2. 문제 진술, 3. 고수준 접근법, 4. 상위 3개 주요 결과, 5. 전략적 제언. 어조: 설득력 있고 비즈니스 브리핑 스타일.",
    "한 문장 TL;DR로 시작한 후 세 단락으로 깊이 탐구하는 요약을 작성하세요: 1. 맥락 및 연구 질문, 2. 방법 및 결과 개요, 3. 시사점 및 다음 단계. 어조: 매력적인 학술적이지만 다소 대화체.",    "LinkedIn 뉴스레터용으로 800~1,000단어 분량의 3막 구조 스토리를 작성하세요: 막 I(후크 및 도전), 막 II(여정 및 통찰), 막 III(결말 및 행동 촉구). 어조: 동기 부여적이며 1인칭 '우리' 시점. 사용처: LinkedIn 뉴스레터.",
    "소프트웨어 엔지니어를 위한 개인 테크 블로그에 사용할 600~800단어 분량의 기술 블로그 스타일 스토리를 작성하세요. 섹션 1: 문제 발생 배경(실제 시나리오), 섹션 2: 기술적 난제 및 해결 방법, 섹션 3: 배운 교훈 및 코드 수준 시사점. 어조: 솔직하고 세부적이며 코드 스니펫을 따라갈 수 있다고 가정. 사용처: 개인/기술 블로그.",
    "정책 결정자를 위한 업계 매거진 기사 스타일로 1,200단어 분량의 이야기형 기사를 작성하세요. 서론: 정책 공백 및 중요성, 섹션 1: 이해관계자 관점(일화), 섹션 2: 연구 결과를 내러티브 이벤트로 설명, 결론: 제안하는 정책 행동. 어조: 권위 있고 설득력 있으며 3인칭. 사용처: 무역 매거진 또는 정책 뉴스레터.",
]

qrys = []
for _,row in df.sample(2500).iterrows():
    if random.random() > 0.5:
        qrys.append([
            {
                "role": "user",
                "content": row.context + '\n\n' + random.choice(prompts)
            }
        ])
    else:
        qrys.append([
            {
                "role": "user",
                "content": random.choice(prompts) + '\n\n' + row.context
            }
        ])

In [16]:
responses = batch_completion(
    model="gpt-4.1-2025-04-14",
    messages = qrys
)

In [18]:
response = [res.choices[0].message.content for res in responses]
instruction = [qry[0]['content' ]for qry in qrys]

In [19]:
df = pd.DataFrame({'instruction':instruction,'response':response,'source':'single-summarization'})

In [22]:
df.to_csv('summarization_single.csv',index=False)

### Summarization Multi

In [None]:
from datasets import load_dataset
import pandas as pd
import random
from rank_bm25 import BM25Okapi
import nltk

df = load_dataset("amphora/korean_science_papers", split="train").to_pandas()

nltk.download('punkt')
nltk.download('punkt_tab')

tokenized_titles = [nltk.word_tokenize(title) for title in df['title']]
bm25 = BM25Okapi(tokenized_titles)
groups = []
for idx, tokens in enumerate(tokenized_titles):
    scores = bm25.get_scores(tokens)
    scores[idx] = -1
    ranked = sorted(range(len(scores)), key=lambda i: scores[i], reverse=True)
    k = random.randint(2, 5)
    group = [idx] + ranked[:k]
    groups.append(group)

prompts = [
    "다음 논문 그룹의 **공통 주제**와 **핵심 기여**를 3개 문단으로 요약하고, 각 논문 간 차이점을 함께 비교·분석하세요. 어조는 학술적이고 중립적입니다.",
    "이제까지 출판된 논문 2~5편을 바탕으로 **현재 연구 트렌드**를 정리하고, **남아 있는 과제**를 4개 섹션(배경→방법론 비교→주요 발견→향후 과제)으로 제시하세요. 어조는 간결하며 비즈니스 친화적입니다.",
    "제시된 논문 3~5편의 **방법론**과 **결과**를 표 형태로 정리한 뒤, 각 연구의 효과 크기(Impact)나 한계(Heterogeneity)를 함께 서술하는 메타-분석 요약을 만들어주세요. 어조는 객관적이고 분석적입니다.",
    "이 논문 그룹을 종합하여 **연구 로드맵**을 제안하세요. 1) 현황 요약, 2) 핵심 기여 비교, 3) 기술·이론적 갭, 4) 단계별 로드맵. 어조는 전문 연구자 대상의 가이드라인 형태로 작성합니다.",
    "논문들 간의 **사례(케이스 스터디)**를 대비하며, 어떤 조건에서 어떤 방법이 더 유리한지 3개의 시나리오로 설명하고 최종 인사이트를 도출하세요. 어조는 실용적인 연구자 대상입니다.",
    "해당 논문 그룹의 연구 결과를 바탕으로 **정책 입안자**나 **산업 실무자**가 활용할 수 있는 시사점을 5개 목록으로 정리하세요. 어조는 설득력 있고 실행 지향적입니다.",
    "각 논문에서 제시한 주요 가설 또는 모델을 대조 테스트 방식으로 설명하세요. 1) 가설 A vs B, 2) 테스트 방법, 3) 결과 차이, 4) 결론. 어조는 엄격한 실험 보고서 스타일입니다.",
    "2~5편의 논문을 대상으로 **비판적 비교 리뷰**를 작성해주세요. 1) 강점, 2) 약점, 3) 상호 비교, 4) 종합 평가. 어조는 솔직하되 학술적으로 작성합니다.",
    "논문 그룹에 대해 다음 질문에 답해주세요(각 2문장 이내). 1) 이 그룹이 해결하려 한 핵심 문제는?, 2) 사용된 공통 방법론은?, 3) 서로 보완적인 발견은?, 4) 주요 실무·학문적 인사이트는? 어조는 명확하고 직설적입니다.",
]

qrys = []
for group in groups:
    combined_context = "\n\n".join(df.loc[group, 'context'])
    prompt = random.choice(prompts)
    if random.random() > 0.5:
        qrys.append([{"role": "user", "content": prompt + "\n\n" + combined_context}])
    else:
        qrys.append([{"role": "user", "content": combined_context + "\n\n"  + prompt}])
        
qrys = random.choices(qrys,k=2500)

In [None]:
responses = batch_completion(
    model="gpt-4.1-2025-04-14",
    messages=qrys
)

df_groups = pd.DataFrame({
    "instruction": [qry[0]["content"] for qry in qrys],
    "response" [res.choices[0].message.content for res in responses],
    "source": 'multi-summarization'
})
df_groups.to_csv("summarization-multi.csv", index=False)

### Brainstorming

In [30]:
from datasets import load_dataset
import pandas as pd
import random, math

def left_skew_beta(min_val=1, max_val=20, α=1, β=4):
    # draw from Beta(α,β) in (0,1)
    x = random.betavariate(α, β)               # :contentReference[oaicite:0]{index=0}
    # scale to [min_val, max_val]
    scaled = min_val + x * (max_val - min_val)
    return math.floor(scaled)


df = load_dataset("amphora/korean_science_papers", split="train").to_pandas()

brainstorm_templates = [
    "논문 “{title}”을(를) 읽고, 향후 탐구할 **연구 질문 {num}가지**를 브레인스토밍하세요. 각 질문마다 간단한 설명을 덧붙여주세요.",
    "논문 “{title}”의 결과를 바탕으로 **산업·실생활 응용 사례 {num}가지**를 제안하고, 각 사례가 왜 유의미한지 한 문장씩 설명하세요.",
    "논문 “{title}”을(를) 다른 학문 분야와 결합했을 때 가능한 **협업 연구 아이디어 {num}가지**를 제안하고, 각 아이디어의 핵심 가설을 적어주세요.",
    "이 논문의 주요 방법론을 개선하거나 확장할 **접근법 {num}가지**를 브레인스토밍하세요. 각 접근법의 장점과 예상 난제를 간단히 기술해 주세요.",
    "논문 “{title}”의 발견을 기반으로 **정책 입안자 조치 {num}가지**를 작성하고, 각 조치의 기대 효과를 기술하세요.",
    "논문 “{title}”이 야기할 수 있는 **윤리적 이슈 {num}가지**를 식별하고, 각 이슈에 대한 완화 전략을 제시하세요.",
    "논문 “{title}”을(를) 주제로 하는 강의 커리큘럼을 설계하세요. **강의 목표 {num}개**, **활동 {num}개**, **과제 {num}개**를 제시하고 예상 소요 시간을 적어주세요.",
    "논문 “{title}”의 가정을 반대 입장에서 검토하고, 대안적 연구 질문 {num}가지 를 제안하세요.",
    "논문 “{title}” 연구를 사업화할 때 필요한 리소스 {num}가지 와 우선순위를 설명하세요.",
    "논문 “{title}”을 놓고 찬반 토론 주제 {num}가지 와 양측 요약을 작성하세요.",
    "논문 “{title}”의 핵심 방법론을 {num}단계 로 분해하고, 각 단계에서 파생되는 가설 {num}가지 를 제안하세요.",
    "논문 “{title}”과 유사 논문의 장단점을 표로 정리하고, 통합 방안을 {num}문장 으로 제시하세요.",
]

qrys = []
n_samples = 1500
sampled = df.sample(n_samples, random_state=42).reset_index(drop=True)

for _, row in sampled.iterrows():
    num = left_skew_beta()
    template = random.choice(brainstorm_templates)
    prompt = template.format(title=row['title'], num=num)
    content = prompt + "\n\n" + row['context']
    
    if random.random() > 0.5:
        qrys.append([{"role": "user", "content": prompt + "\n\n" + content}])
    else:
        qrys.append([{"role": "user", "content": content + "\n\n"  + prompt}])



In [31]:
responses = batch_completion(
    model="gpt-4.1-2025-04-14",
    messages=qrys
)

In [34]:
sampled['instruction']     = [qry[0]['content'] for qry in qrys]
sampled['response'] = [res.choices[0].message.content for res in responses]

sampled.to_csv("brainstorm_science.csv", index=False)

### Poetry Generation

In [57]:
import requests
from bs4 import BeautifulSoup

html = requests.get('https://m.blog.naver.com/zampina2016/220807669786')
bs4_obj = BeautifulSoup(html.text,'html.parser')

ideas = []
for item in bs4_obj.find('table',{'class':'__se_tbl_ext'}).find_all('td'):
    if (len(item.text) > 3) & ('1' not in item.text):
        ideas.append(item.text)

In [59]:
import random
from tqdm import tqdm
from openai import OpenAI
from tqdm import tqdm

client = OpenAI(api_key="")

SCHEMA = {
    "type": "object",
    "properties": {
        "ideas": {
            "type": "array",
            "items": {"type": "string"},
            "minItems": 1,
            "maxItems": 5
        }
    },
    "required": ["checklist"]
}

function_def = {
    "name": "return_structured_output",
    "description": "Always return JSON matching the supplied schema",
    "parameters": {
        **SCHEMA,
        "strict": True
    }
}


for i in tqdm(range(500)):
    sampled = random.sample(ideas, 5)
    prompt = (
        "다음은 기존 시 아이디어 5개입니다:\n\n"
        + "\n".join(f"- {item}" for item in sampled)
        + "\n\n이 중 영감을 받아, **새로운 시 아이디어 2가지**를 제안해 주세요."
    )


    response = client.chat.completions.create(
        model="gpt-4.1-2025-04-14", 
        messages=[{"role": "user", "content": prompt}],
        functions=[function_def],
        function_call={"name": "return_structured_output"},
        temperature=0.7
    )

    
    returned = response.choices[0].message.function_call.arguments
    ideas.extend(eval(returned)['ideas'])    

100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [23:38<00:00,  2.84s/it]


In [75]:
import random

korean_poets = [
    "윤동주", "김소월", "한용운", "서정주", "이상","백석", "김춘수"
]

forms = ["자유시", "소네트(14행)", "하이쿠(5-7-5)", "연극 대본 형식", "에픽 시", "아크로스틱"]
moods = ["몽환적인", "서정적인", "아이러니한", "우울한", "경쾌한", "숨막히게 아름다운"]
perspectives = ["1인칭", "3인칭 전지적 작가 시점", "대화체", "시계열 순서", "단편 소설 스타일"]
lengths = ["짧게(4행)", "중간 길이(8행)", "긴 서사(20행 이상)"]

poem_prompts = [
    lambda idea: (
        f"{random.choice(korean_poets)}의 시집을 읽고 영감을 받은 듯, “{idea}”를 "
        f"{random.choice(moods)} 어조로 시를 써 보세요."
    ),

    lambda idea: (
        f"“{idea}”를 {random.choice(forms)} 형식으로, {random.choice(lengths)} 분량으로 지어 보세요. "
        "운율이나 구조는 자유롭게 선택하시면 됩니다."
    ),

    lambda idea: (
        f"“{idea}”라는 주제와 대조적 이미지를 가진 다른 사물을 엮어"
        f"{random.choice(moods)} 톤으로 시를 작성하세요."
    ),

    lambda idea: (
        f"“{idea}”를 중심으로 첫 행에서 큰 감정을 던지고, 마지막 행에서 반전시키는 "
        f"{random.choice(moods)} 스타일의 단편시를 써 보세요."
    ),

    lambda idea: (
        f"“{idea}”와 연결된 오브제 하나(예: 오래된 나침반, 깨진 유리잔)가 화자 되어 "
        f"{random.choice(perspectives)}로 독백하는 시를 써 보세요."
    ),

    lambda idea: (
        f"“{idea}”를 주제로 짧은 이야기 2문장(서사) 후, 그 이야기를 압축한 4행 시로 마무리하세요."
    ),

    lambda idea: (
        f"A와 B 두 인물이 “{idea}”를 놓고 토론하는 형식으로, 네 줄씩 대화를 나누고 "
        "마지막에 공감의 한 줄을 추가하세요."
    ),

    lambda idea: (
        f"“{idea}”를 과거, 현재, 미래 세 연으로 나누어 표현하는 시를 작성하세요. "
        "각 연의 시작에 시간표시(과거·현재·미래)를 넣으세요."
    ),

    lambda idea: (
        f"“{idea}”가 불러일으키는 다섯 감각(시각, 청각, 후각, 촉각, 미각)을 "
        "한 줄씩 다른 이미지로 묘사하는 시를 써 보세요."
    ),

    lambda idea: (
        f"“{idea}”라는 제목으로 독자가 클릭하고 싶어지는 문구 1행 후, "
        "강렬한 3행 시를 덧붙이세요."
    ),

    lambda idea: (
        f"“{idea}”와 3개의 단어(무작위로: 예술, 바람, 기억)를 섞어 콜라주처럼 "
        "산문-시 하이브리드로 작성하세요."
    ),

    lambda idea: (
        f"“{idea}”를 주제로 사회·정치적 메시지를 담아 풍자하거나 비판하는 시를 써 보세요."
    ),

    lambda idea: (
        f"“{idea}”를 꿈에서 본 장면처럼 묘사하는 짧은 꿈 일기 형식의 시를 작성하세요."
    ),

    lambda idea: (
        f"5×5 그리드 형식으로 각 행마다 “{idea}”와 연관된 단어를 하나씩 채우고, "
        "그 단어들을 순차적으로 풀어 쓴 시를 작성하세요."
    ),
]

qrys = []
for idea in ideas:
    for i in range(3):
        prompt = random.choice(poem_prompts)(idea)
        qrys.append(prompt)
        
        # qrys.append()

print(len(qrys))
qrys = list(set(qrys))
print(len(qrys))

qrys = [[{"role": "user", "content": qry}] for qry in qrys]

3237
3070


In [77]:
responses = batch_completion(
    model="gpt-4.1-2025-04-14",
    messages=qrys
)

df = pd.DataFrame({
    "instruction": [qry[0]["content"] for qry in qrys],
    "response": [res.choices[0].message.content for res in responses],
    "source": 'poem'
})

df.to_csv("poem.csv", index=False)

[[{'role': 'user',
   'content': '김소월의 시집을 읽고 영감을 받은 듯, “밤하늘 별빛 아래에서 느끼는 고독과 희망의 교차점”를 숨막히게 아름다운 어조로 시를 써 보세요.'}],
 [{'role': 'user',
   'content': '“도시의 새벽녘, 마지막 버스를 기다리는 사람들의 침묵과 그 속에 숨겨진 각자의 사연을 상상하는 시.”와 3개의 단어(무작위로: 예술, 바람, 기억)를 섞어 콜라주처럼 산문-시 하이브리드로 작성하세요.'}],
 [{'role': 'user',
   'content': '“도심의 오래된 전철 안에서 서로 다른 목적지를 향해 움직이는 사람들의 표정과 흐릿한 창밖 풍경을 엮어, 각자의 삶과 순간의 교차점을 포착하는 시”와 연결된 오브제 하나(예: 오래된 나침반, 깨진 유리잔)가 화자 되어 시계열 순서로 독백하는 시를 써 보세요.'}],
 [{'role': 'user',
   'content': '“봄비에 젖은 도시의 오래된 골목에서, 사라진 연인을 그리워하며 과거와 현재가 겹쳐지는 순간을 포착한 시”를 주제로 사회·정치적 메시지를 담아 풍자하거나 비판하는 시를 써 보세요.'}],
 [{'role': 'user',
   'content': '“이국의 밤, 창문에 비친 자신의 모습과 어린 시절의 그림자가 겹쳐지며, 현재와 과거의 내가 대화를 나누는 몽환적인 장면을 그리는 시”라는 주제와 대조적 이미지를 가진 다른 사물을 엮어우울한 톤으로 시를 작성하세요.'}]]

### Essay Generation

In [83]:
ideas = ['역사적 사건의 해석은 시대에 따라 달라질 수 있는가?',
 '문학 작품은 그 시대를 반영하는가?',
 '자신이 경험한 역할 갈등 사례와 해결 노력에 대해 적어주세요.',
 '대중문화가 우리의 생활과 가치관에 미치는 영향과 그 영향력이 긍정적인지 부정적인지 논하세요.',
 '자신이 전시회를 연다면, 우리 문화유산 중 3가지를 선택하고 홍보하는 글을 적어보세요.',
 '현대사회에서 사회적 불평등이 어떻게 형성되고 있는지 설명하고, 이를 해소하기 위한 정책에 대해 논술하세요.',
 '가장 최근에 만난 도서 또는 드라마, 영화 등의 주인공에게 편지 쓰기.',
 '인공지능이 사람들의 삶에 어떤 영향을 미치는지 논술하세요.',
 '우리나라의 경우, 남녀평등복무제 즉, 여성 징병제를 도입해야 한다고 보는가?',
 '디지털 문화의 확산이 우리에게 미치는 영향은?',
 '과학의 발전이 사회적 불평등을 해소할 수 있을까요?',
 '경제 성장이 민주주의 발전에 미친 영향에 대해 논술하세요.',
 '문학이 우리 삶에 미치는 영향력과 의미는?',
 '우리나라의 문화와 예술 중 하나를 골라 외국 친구에게 소개해 보세요.',
 '사물 인터넷이 자신의 삶에 행복을 가져다 줄 것인가?']

import random
from tqdm import tqdm
from openai import OpenAI
from tqdm import tqdm

client = OpenAI(api_key="")

SCHEMA = {
    "type": "object",
    "properties": {
        "ideas": {
            "type": "array",
            "items": {"type": "string"},
            "minItems": 1,
            "maxItems": 5
        }
    },
    "required": ["checklist"]
}

function_def = {
    "name": "return_structured_output",
    "description": "Always return JSON matching the supplied schema",
    "parameters": {
        **SCHEMA,
        "strict": True
    }
}


for i in tqdm(range(500)):
    sampled = random.sample(ideas, 5)
    prompt = (
        "다음은 기존 에세이 아이디어 5개입니다:\n\n"
        + "\n".join(f"- {item}" for item in sampled)
        + "\n\n이 중 영감을 받아, **새로운 에세이 주제 2가지**를 제안해 주세요."
    )


    response = client.chat.completions.create(
        model="gpt-4.1-2025-04-14", 
        messages=[{"role": "user", "content": prompt}],
        functions=[function_def],
        function_call={"name": "return_structured_output"},
        temperature=0.7
    )

    
    returned = response.choices[0].message.function_call.arguments
    ideas.extend(eval(returned)['ideas'])    

100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 500/500 [17:09<00:00,  2.06s/it]


In [88]:
ideas = list(set(ideas))

In [103]:
import random
from typing import List, Tuple, Dict

def count_and_drop_half(
    strings: List[str],
    keywords: List[str],
    seed: int = None
) -> Tuple[Dict[str, int], List[str]]:

    if seed is not None:
        random.seed(seed)

    counts: Dict[str, int] = {}
    to_remove = set()

    for kw in keywords:
        matches = [s for s in strings if kw in s]
        counts[kw] = len(matches)

        drop_n = len(matches) // 2
        if drop_n > 0:
            drops = random.sample(matches, drop_n)
            to_remove.update(drops)

    filtered_strings = [s for s in strings if s not in to_remove]

    return counts, filtered_strings



kw_list = ["인공지능", "디지털",'미디어','기술']

counts, remaining = count_and_drop_half(ideas, kw_list, seed=42)
print("키워드별 개수:", counts)
print(len(remaining))

키워드별 개수: {'인공지능': 442, '디지털': 358, '미디어': 189, '기술': 462}
414


In [106]:
responses = batch_completion(
    model="gpt-4.1-2025-04-14",
    messages=[[{"role": "user", "content": idea}] for idea in ideas]
)

df = pd.DataFrame({
    "instruction": ideas,
    "response": [res.choices[0].message.content for res in responses],
    "source": 'essay'
})
df = df[df.instruction.isin(remaining)]
df.to_csv("essay.csv", index=False)

### Math & Code & Stem

In [112]:
ds = load_dataset('amphora/ko-r1-v1')

Generating train split: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16086/16086 [00:01<00:00, 13303.07 examples/s]


In [114]:
df = ds['train'].to_pandas()

In [116]:
df = df[['problem','solution']]

In [None]:
responses = batch_completion(
    model="gpt-4.1-2025-04-14",
    messages=[[{"role": "user", "content": prob}] for prob in df.problem.values]
)

In [None]:
df['response'] = [res.choices[0].message.content for res in responses]
df.to_csv('r1.csv',index=False)

### Filtering

In [15]:
import pandas as pd
df0 = pd.read_csv('r1.csv')
df1 = pd.read_csv('essay.csv')
df2 = pd.read_csv('poem.csv')
df3 = pd.read_csv('qa_arena.csv')
df4 = pd.read_csv('summarization-multi.csv')
df5 = pd.read_csv('brainstorm_science.csv')
df6 = pd.read_csv('summarization_single.csv')
df7 = pd.read_csv('koalpaca-realqa.csv').sample(10000)
df8 = pd.read_csv('kmmlu-train.csv')

In [16]:
df0.columns = ['instruction','solution','response']
df0['source'] = 'Ko-R1'

df = pd.concat([df0,df1,df2,df3,df4,df5,df6,df7,df8])

df = df.sample(frac=1.0)

In [18]:
df = df.reset_index()
df = df[['instruction','response']]

In [21]:
from datasets import Dataset

ds = Dataset.from_pandas(df)
ds.push_to_hub('amphora/fc-ko-project-sft-v0',token='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')

  from .autonotebook import tqdm as notebook_tqdm
Uploading the dataset shards:   0%|                                                                                                                                                                                                                                                                                                                 | 0/1 [00:00<?, ?it/s]
Creating parquet from Arrow format:   0%|                                                                                                                                                                                                                                                                                                          | 0/41 [00:00<?, ?ba/s][A
Creating parquet from Arrow format:   7%|█████████████████████▏                                                                                                                                                              

CommitInfo(commit_url='https://huggingface.co/datasets/amphora/fc-ko-project-sft-v0/commit/8039c6b2a7d9a1438ba39e0ce2613d552da3e569', commit_message='Upload dataset', commit_description='', oid='8039c6b2a7d9a1438ba39e0ce2613d552da3e569', pr_url=None, repo_url=RepoUrl('https://huggingface.co/datasets/amphora/fc-ko-project-sft-v0', endpoint='https://huggingface.co', repo_type='dataset', repo_id='amphora/fc-ko-project-sft-v0'), pr_revision=None, pr_num=None)