Skip to content

v1.6.0 — KatFish·LREAD 기반 분류 체계 보강 + 정량 점수 레이어

Choose a tag to compare

@epoko77-ai epoko77-ai released this 06 May 15:33
· 26 commits to main since this release
43094bf

핵심 변경

분류 체계 v1.5.1 → v1.6

  • 신규 5건: C-11 연결어미 뒤 쉼표 [S1, KatFish 4.84배 단일 최강 분리도] · C-12 쉼표 포함률 [S2] · E-5 분절 평균 길이 [S2] · E-6 POS 다양성 [S2, 에세이·뉴스 한정] · G-3 안전 균형 lexicon [S2]
  • 보강 2건: D-1 결산 lexicon 4종 정식 인용 / F-4 한자어 명사화 -성·-적·-화 명시 + 12회 임계
  • hold 2건: BN/VX 띄어쓰기 규칙성·페르소나-레지스터 불일치 (v1.7+ 검토)

룰북 보강 (monolith 무수정)

  • quick-rules.md 123 → 126줄: C-11·G-3·F-4·D-1 lexicon 처방 추가
  • humanize-monolith.md·5인 에이전트 정의 모두 무수정 — v1.5 도구 호출 4회 캡 그대로 보존

정량 점수 레이어 신설

  • references/metrics.py (308줄) — 8지표 계산기, 표준 라이브러리만 (konlpy·bareun 의존성 0)
  • references/baseline.json — KatFish 3장르 baseline + 3종 lexicon + LREAD 캘리브레이션
  • scripts/prepare_monolith_input.py — monolith 호출 외부 사전처리, 결합 입력 파일에 점수 prepend
  • tests/test_metrics.py — 13 케이스 전수 통과

검증 결과 (run 003~007 5편 일괄, 같은 입력에 v1.5 vs v1.6 두 번 윤문)

지표 v1.5 v1.6 개선
ending_comma 평균 z +3.40 +0.67 −2.73 (인간 baseline 근접)
risk_band low 도달 0/5 3/5 +3
input 대비 risk_score 감소 2/5 4/5 +2
등급 A 유지 5/5 5/5 회귀 없음
도구 호출 4회 캡 5/5 5/5 보존

가장 심한 케이스(run 006 교육 블로그)는 ending_comma_rate 0.500 → 0.120(76% 감소), z=+5.84 → +1.00로 정상 구간 도달. v1.5 회귀에서 5편 중 4편이 악화했던 자리에서 v1.6은 5편 전수 개선.

한계 — 다음 회차 과제

  • baseline의 lexical_diversity·hanja_nominalizer_density placeholder는 KatFish 미공개 셀로 보수적 추정값 → 한국어 essay 실측 교정 필요
  • 정책·공적 문서(run 007)는 ending_comma z=+2.47 잔존 → 장르별 baseline 별도 카탈로그 필요
  • 일부 케이스에서 char_count 증가(쉼표 제거 부작용으로 분절 길이 늘어남) → 룰북에 분절 재조정 가이드 검토

관련

  • PR: #17 (#17)
  • 산출물: _workspace/v1.6-2026-05-06/01_pattern_candidates.md ~ 05_regression_report.md