In [1]:
import json

def merge_predictions_with_keywords():
    """predictions.json과 extracted_keywords.json을 합쳐서 새로운 구조로 만드는 함수"""
    
    # predictions.json 로드
    print("📄 predictions.json 로딩 중...")
    with open("result/predictions.json", "r", encoding="utf-8") as f:
        predictions = json.load(f)
    
    # extracted_keywords.json 로드
    print("📄 extracted_keywords.json 로딩 중...")
    with open("result/extracted_keywords.json", "r", encoding="utf-8") as f:
        keywords_data = json.load(f)
    
    # 키워드 데이터를 id를 키로 하는 딕셔너리로 변환
    keywords_dict = {}
    for item in keywords_data:
        keywords_dict[item["id"]] = item["keywords"]
    
    print(f"📊 총 {len(predictions)}개의 predictions 데이터")
    print(f"📊 총 {len(keywords_dict)}개의 keywords 데이터")
    
    # 합친 결과 생성
    merged_results = []
    
    for item in predictions:
        item_id = item["id"]
        
        # 기존 구조 유지하면서 output에 keyword 추가
        merged_item = {
            "id": item_id,
            "input": item["input"],
            "output": {
                "answer": item["output"]["answer"],
                "keyword": ", ".join(keywords_dict.get(item_id, [])) if item_id in keywords_dict else ""
            }
        }
        
        merged_results.append(merged_item)
    
    # 결과 저장
    output_file = "result/predictions_with_keywords.json"
    with open(output_file, "w", encoding="utf-8") as f:
        json.dump(merged_results, f, ensure_ascii=False, indent=2)
    
    print(f"✅ 합쳐진 결과가 {output_file}에 저장되었습니다!")
    
    # 첫 번째 항목 구조 확인
    if merged_results:
        print("\n📋 첫 번째 항목의 구조:")
        print(json.dumps(merged_results[0], ensure_ascii=False, indent=2))
    
    return merged_results

# 실행
merged_data = merge_predictions_with_keywords()

📄 predictions.json 로딩 중...
📄 extracted_keywords.json 로딩 중...
📊 총 498개의 predictions 데이터
📊 총 498개의 keywords 데이터
✅ 합쳐진 결과가 result/predictions_with_keywords.json에 저장되었습니다!

📋 첫 번째 항목의 구조:
{
  "id": "750",
  "input": {
    "question_type": "교정형",
    "question": "다음 중 어문 규범에 부합하는 것을 선택하고, 그 이유를 설명하세요.\n― 다시는 결혼하고 싶지 않아요, \n― 다시는 결혼하고 싶지 않아요. "
  },
  "output": {
    "answer": "\"다시는 결혼하고 싶지 않아요.\"가 옳다. 쉬프트(Shift)와 탭(Tab)을 이용한 공백의 사용은 표준어 사용에 적합하지 않으므로 사용하지 않는다.",
    "keyword": "쉬프트, 탭, 표준어"
  }
}
