In [22]:
import json
import random
import commentjson

my_label = 7
templatePath = 'intentTemplate/request_recommendation_mood.jsonc'
entityPath = 'entities/genres.jsonc'
authorPath = 'entities/authors.jsonc'
gernePath = 'entities/genres.jsonc'

def choose_josa(word, josa_with_batchim, josa_without_batchim):
    if not word:
        return ""
    last_char = word[-1]

    if '가' <= last_char <= '힣':
        has_batchim = (ord(last_char) - ord('가')) % 28 > 0
        return josa_with_batchim if has_batchim else josa_without_batchim

    return josa_without_batchim

def process_korean_template(template, title, author):
    text = template.replace('{}', title)
    text = text.replace('[]', author)
    text = text.replace('{이}', choose_josa(title, '이', ''))
    text = text.replace('{은}', choose_josa(title, '은', '는'))
    text = text.replace('{를}', choose_josa(title, '을', '를'))
    text = text.replace('{과}', choose_josa(title, '과', '와'))
    text = text.replace('{가}', choose_josa(title, '이', '가'))
    text = text.replace('{으로}', choose_josa(title, '으로', '로'))

    return text

def generate_labeled_data(templates, entities, authors, label):
    output_data = []

    for template in templates:
        title = random.choice(entities)
        author = random.choice(authors)
        formatted_text = process_korean_template(template, title, author)
        data_point = {"text": formatted_text, "label": label}
        output_data.append(data_point)

    return output_data

# Load templates and entities
with open(templatePath, 'r', encoding='utf-8') as f:
    my_templates = commentjson.load(f)

with open(entityPath, 'r', encoding='utf-8') as f:
    my_entities = commentjson.load(f)

with open(authorPath, 'r', encoding='utf-8') as f:
    my_authors = commentjson.load(f)



# Generate labeled data
generated_data_set1 = generate_labeled_data(my_templates, my_entities, my_authors, my_label)

# Format output
item_strings = [json.dumps(item, ensure_ascii=False) for item in generated_data_set1]
output_string = "[\n" + ",\n".join(["  " + "{ " + s[1:-1] + " }" for s in item_strings]) + "\n]"
print(output_string)

[
  { "text": "눈 오는 날 창가에서 읽을 만한 책 없을까요?", "label": 7 },
  { "text": "날씨가 좀 꿀꿀한데, 이런 날 읽으면 기분 좋아지는 책 추천해주세요.", "label": 7 },
  { "text": "주말 아침에 커피랑 같이 읽을 책 뭐 없을까요?", "label": 7 },
  { "text": "퇴근길 지하철에서 가볍게 읽을 책 추천 부탁드려요.", "label": 7 },
  { "text": "요즘 좀 우울한데, 위로가 되는 책 있을까요?", "label": 7 },
  { "text": "스트레스 해소에 도움 되는 책 추천해주세요.", "label": 7 },
  { "text": "생각이 너무 많아서 머리 식힐 수 있는 책 좀 알려주세요.", "label": 7 },
  { "text": "아무 생각 없이 웃고 싶을 때 읽을 책 추천해주세요.", "label": 7 },
  { "text": "마음이 지칠 때 힐링되는 책 없을까요?", "label": 7 },
  { "text": "새로운 시작을 앞두고 영감을 줄 수 있는 책 추천 바랍니다.", "label": 7 },
  { "text": "잠 안 오는 밤에 읽기 좋은 잔잔한 책 추천 부탁해요.", "label": 7 },
  { "text": "혼자 여행 가서 읽기 좋은 책 있을까요?", "label": 7 },
  { "text": "휴가 때 해변에서 읽을 만한 책 추천해주세요.", "label": 7 },
  { "text": "집에서 뒹굴거리면서 편하게 읽을 책 추천해줘.", "label": 7 },
  { "text": "짧은 시간에 집중해서 읽을 수 있는 책 없을까요?", "label": 7 },
  { "text": "머릿속이 복잡할 때 생각 정리에 도움 되는 책 추천 좀.", "label": 7 },
  { "text": "가을 감성에 어울리는 책 뭐 없을까?", "label": 7 },
  { "text": "밤에 혼자 조용히 사색하며