Skip to content

v2.9.0 — PDF 텍스트 품질 신호 + OCR 필요 판정

Choose a tag to compare

@chrisryugj chrisryugj released this 05 Jun 12:36
· 16 commits to main since this release

PDF 텍스트 품질 신호 + OCR 필요 판정

Added

  • parsePdf 결과에 페이지별 품질 신호 pageQuality + 문서 요약 qualitySummary 추가
  • 페이지 메트릭: textChars, hangulRatio, controlCharRatio, replacementCharRatio, puaRatio
  • needsOcr / ocrReason (low_text | high_pua | high_control | high_replacement)로 OCR 큐 자동 라우팅 가능
  • 신규 모듈 src/pdf/quality.ts (임계치 상수 명시)

Changed

  • PDF 블록/마크다운에서 비표시 제어문자 제거 (C0/DEL/C1 strip, PUA는 신호 보존 위해 유지)

kordoc은 OCR을 기본 탑재하지 않고 품질 신호만 노출합니다. 전국 지자체 주요업무계획 PDF 190건(45,399쪽) 대량 처리 중 도출.