In [6]:
import json
import re
from pathlib import Path

# 파일 경로 설정
input_file = Path("data/answers.json")
output_file = Path("data/answers_filtered.json")
removed_file = Path("data/answers_removed.json")

# (1) 자모 나열만 있는 라인: "ㄱ, ㄴ, ㄷ" 같은 패턴
jamo_list_re = re.compile(r'^[\sㆍ,]*[ㄱ-ㅎ](?:\s*[ㆍ,]\s*[ㄱ-ㅎ])*[\sㆍ,]*$')

# (2) 단독 "숫자개" 또는 "xx개"
count_re = re.compile(r'^(?:\d+|xx)개$')

# [id] 같은 접두사 제거
prefix_re = re.compile(r'^\[.*?\]\s*')
def extract_body(item: str) -> str:
    return prefix_re.sub('', item).strip()

# JSON 로드
with input_file.open("r", encoding="utf-8") as f:
    data = json.load(f)

kept = []
removed = []

for item in data:
    body = extract_body(item)
    if jamo_list_re.match(body) or count_re.match(body):
        removed.append(item)
    else:
        kept.append(item)

print(f"전체 {len(data)}개 중 남김 {len(kept)}개, 제거 {len(removed)}개")

# 결과 저장
with output_file.open("w", encoding="utf-8") as f:
    json.dump(kept, f, ensure_ascii=False, indent=2)
with removed_file.open("w", encoding="utf-8") as f:
    json.dump(removed, f, ensure_ascii=False, indent=2)

print(f"저장 완료 → {output_file}, {removed_file}")


전체 3149개 중 남김 3085개, 제거 64개
저장 완료 → data/answers_filtered.json, data/answers_removed.json
