## From string arry input

In [11]:
# keyword string array로 출력
import re
import json

# 파일 경로
input_file = "questions.json"
output_file = "questions_keyword.json"

# 정규식 패턴: "에 대한/에 관한" 앞까지 추출
pattern = re.compile(r"(.+?)(?=에 대한|에 관한)")

# 제거할 불필요한 접두어
prefixes_to_remove = [
    "다음 중 ",
    "다음 ",
]

def clean_prefix(text: str) -> str:
    """불필요한 접두어 제거"""
    for prefix in prefixes_to_remove:
        if text.startswith(prefix):
            return text[len(prefix):]
    return text

def extract_subject(stem: str) -> str:
    """문제 stem에서 주제를 추출"""
    match = pattern.search(stem)
    if match:
        subject = match.group(1).strip()
        subject = clean_prefix(subject)
        return subject
    return stem.strip()

# 파일 읽기
with open(input_file, "r", encoding="utf-8") as f:
    stems = json.load(f)  # 문자열 리스트

# keyword만 리스트로 저장
keywords = [extract_subject(stem) for stem in stems]

# 결과 저장
with open(output_file, "w", encoding="utf-8") as f:
    json.dump(keywords, f, ensure_ascii=False, indent=2)

print(f"✅ 키워드 추출 완료 → {output_file}")


✅ 키워드 추출 완료 → questions_keyword.json


In [10]:
# stem + keyword object array로 출력
import re
import json

# 파일 경로
input_file = "questions.json"
output_file = "questions_keyword.json"

# 정규식 패턴: "에 대한/에 관한" 앞까지 추출
pattern = re.compile(r"(.+?)(?=에 대한|에 관한)")

# 제거할 불필요한 접두어 리스트
prefixes_to_remove = [
    "다음 중 ",
    "다음 ",
]

def clean_prefix(text: str) -> str:
    """불필요한 접두어 제거"""
    for prefix in prefixes_to_remove:
        if text.startswith(prefix):
            return text[len(prefix):]
    return text

def extract_subject(stem: str) -> str:
    """문제 stem에서 주제를 추출"""
    match = pattern.search(stem)
    if match:
        subject = match.group(1).strip()
        subject = clean_prefix(subject)  # 접두어 제거
        return subject
    return stem.strip()

# 파일 읽기
with open(input_file, "r", encoding="utf-8") as f:
    stems = json.load(f)

results = []
for stem in stems:
    subject = extract_subject(stem)
    results.append({
        "stem": stem,
        "keyword": subject
    })

# 결과 저장
with open(output_file, "w", encoding="utf-8") as f:
    json.dump(results, f, ensure_ascii=False, indent=2)

print(f"✅ 키워드 추출 완료 → {output_file}")


✅ 키워드 추출 완료 → questions_keyword.json


In [2]:
import re

# 테스트용 stems
stems = [
    "법원에 대한 설명으로 옳지 않은 것은?",
    "사법권에 관한 설명으로 옳은 것은?",
    "대통령의 권한에 관한 다음 설명 중 옳지 않은 것은?",
    "헌법재판소의 권한에 관한 다음 기술 중 옳은 것은?",
    "<보기>의 사례에 대한 설명으로 옳은 것은?"
]

# 정규식: "에 대한/관한" 앞의 주제를 뽑되, "의 권한/의 지위" 같은 것도 포함
pattern = re.compile(r"(.+?)(?=에 대한|에 관한)")

for stem in stems:
    match = pattern.search(stem)
    if match:
        subject = match.group(1).strip()
        print(f"원문: {stem}")
        print(f"주제: {subject}")
        print("-" * 40)


원문: 법원에 대한 설명으로 옳지 않은 것은?
주제: 법원
----------------------------------------
원문: 사법권에 관한 설명으로 옳은 것은?
주제: 사법권
----------------------------------------
원문: 대통령의 권한에 관한 다음 설명 중 옳지 않은 것은?
주제: 대통령의 권한
----------------------------------------
원문: 헌법재판소의 권한에 관한 다음 기술 중 옳은 것은?
주제: 헌법재판소의 권한
----------------------------------------
원문: <보기>의 사례에 대한 설명으로 옳은 것은?
주제: <보기>의 사례
----------------------------------------
