Releases: Marker-Inc-Korea/ko-pii
Releases · Marker-Inc-Korea/ko-pii
v1.15.2
v1.15.1
v1.15.0
v1.14.0
Added
MergeMode.ROLE_SPLIT— 토큰 NER 하이브리드(룰=결정적 ID, ML=퍼지 교체)를
라이브러리 병합 모드로 제공.Anonymizer(secondary_detector=..., merge_mode="role_split", role_split_labels=...). 외부 검증(OOD·체크섬 유효 gold)에서 F1 0.97 로 union 상회
—docs/HYBRID_NER.md외부 검증 절.HFTokenNERAdapter(ko_pii.integrations.hf_token_ner) — HYBRID_NER 레시피로
직접 학습한 토큰분류 NER 을secondary_detector로 꽂는 범용 어댑터 (lazy 로드,
BIO 디코딩은 torch 없이 테스트 가능한 순수 함수).[classifier]extra 에datasets추가 —python -m ko_pii.classifier.train이
extra 설치만으로 동작하도록.
Fixed
- RRN 공백 구분자 변형 검출 — 서식 표기
880101 - 1234568(공백+하이픈+공백)이
구분자 2자 제한에 걸려 미검출되던 갭 수정(하이브리드 NER 체크섬 프로브에서 발견).
공백으로 감싼 구분자만 추가 허용 — 순수 공백 3자(표 칼럼 나열)는 계속 비허용으로
FP 확대 없음. 회귀 테스트 3건 추가. PIIClassifier.from_pretrained— 모델 경로가 없을 때 raw HuggingFace 에러 대신
"가중치 미배포 — 직접 학습" 안내가 담긴FileNotFoundError.
Docs
- README 예제 실측 교정(한/영) —
combined_risk속성명(distinct_identifiers/
distinct_quasi),k_anonymity시그니처(quasi_keys/threshold/satisfies_threshold),
anonymize_records튜플 반환 언패킹, partial 표기(홍OO), IntEnum 출력(.name).
전 스니펫 실행 검증 완료. - README 하이브리드 절 — 두 하이브리드(토큰 NER vs 문서 분류기) 구분 표 +
role_split사용법 추가 (오독 방지). experiments/ner이식성 — 스크립트 8종 절대경로 제거(레포 상대 + env 폴백),
code/requirements.txt(실측 스택 고정) 신설. 외부 머신 재현 검증 완료.
v1.13.0
Fixed
- 건강보험증번호 형식 확장 — 증번호 표기형
N-NNNNNNNNNN(종별코드 + 하이픈 + 10자리) 검출 추가. 기존엔
순수 11자리만 인식. 키워드 anchor 유지로 FP 안전. - 처방번호 형식 확장 — EMR 영문 접두 형식(
RX-2026-008471,PRSC-2026-...등) 검출 추가. 기존엔
YYYYMMDDNNNN12자리만 인식. 키워드 anchor 필수. - 합성 평가셋(540) 기준 MEDICAL_INSURANCE 0.0 → 0.893, PRESCRIPTION_ID 0.0 → 0.718, 전체 ko-pii F1
0.784 → 0.790.
Added
- 회귀 게이트 테스트 —
tests/unit/eval/test_generated_eval_regression.py. 커밋된 합성 평가셋으로
ko-pii 전체/라벨별 F1 하한을 CI(pytest)에서 자동 검증. - 확장 평가셋 —
data/generated_eval_large.jsonl(1,938문서 = 540 검증분 + LLM 생성 1,398). 독립
시스템 견고성 대조에서 ko-pii 0.825 (3.6× 큰 셋에서도 우위 유지). - KDPII 에 Gemma-4-E4B 측정 추가 — 대화체 크기효과 문서화(작은 LLM은 ko-pii 미만).
v1.12.1
Full Changelog: v1.12.0...v1.12.1