v2.9.0 — PDF 텍스트 품질 신호 + OCR 필요 판정
PDF 텍스트 품질 신호 + OCR 필요 판정
Added
parsePdf결과에 페이지별 품질 신호pageQuality+ 문서 요약qualitySummary추가- 페이지 메트릭:
textChars,hangulRatio,controlCharRatio,replacementCharRatio,puaRatio needsOcr/ocrReason(low_text|high_pua|high_control|high_replacement)로 OCR 큐 자동 라우팅 가능- 신규 모듈
src/pdf/quality.ts(임계치 상수 명시)
Changed
- PDF 블록/마크다운에서 비표시 제어문자 제거 (C0/DEL/C1 strip, PUA는 신호 보존 위해 유지)
kordoc은 OCR을 기본 탑재하지 않고 품질 신호만 노출합니다. 전국 지자체 주요업무계획 PDF 190건(45,399쪽) 대량 처리 중 도출.