Skip to content

Releases: Marker-Inc-Korea/ko-pii

v1.15.2

18 Jun 01:43

Choose a tag to compare

버그픽스 (v1.15.2)

v1.15.1

11 Jun 04:25

Choose a tag to compare

버그픽스 (v1.15.1)
ko-pii --version 표기 오류 수정

v1.15.0

11 Jun 04:13

Choose a tag to compare

v1.15.0 — 카테고리 레지스트리 & CLI 조회

ko-pii --labels 로 33종 PII 카테고리(include/exclude 라벨 키)를 그룹·한글명·검출방식과
함께 조회할 수 있습니다. 코드에서는 'from ko_pii.labels import ALL_LABELS, LABEL_INFO'

v1.14.0

11 Jun 00:35

Choose a tag to compare

Added

  • MergeMode.ROLE_SPLIT — 토큰 NER 하이브리드(룰=결정적 ID, ML=퍼지 교체)를
    라이브러리 병합 모드로 제공. Anonymizer(secondary_detector=..., merge_mode="role_split", role_split_labels=...). 외부 검증(OOD·체크섬 유효 gold)에서 F1 0.97 로 union 상회
    docs/HYBRID_NER.md 외부 검증 절.
  • HFTokenNERAdapter (ko_pii.integrations.hf_token_ner) — HYBRID_NER 레시피로
    직접 학습한 토큰분류 NER 을 secondary_detector 로 꽂는 범용 어댑터 (lazy 로드,
    BIO 디코딩은 torch 없이 테스트 가능한 순수 함수).
  • [classifier] extra 에 datasets 추가 — python -m ko_pii.classifier.train
    extra 설치만으로 동작하도록.

Fixed

  • RRN 공백 구분자 변형 검출 — 서식 표기 880101 - 1234568(공백+하이픈+공백)이
    구분자 2자 제한에 걸려 미검출되던 갭 수정(하이브리드 NER 체크섬 프로브에서 발견).
    공백으로 감싼 구분자만 추가 허용 — 순수 공백 3자(표 칼럼 나열)는 계속 비허용으로
    FP 확대 없음. 회귀 테스트 3건 추가.
  • PIIClassifier.from_pretrained — 모델 경로가 없을 때 raw HuggingFace 에러 대신
    "가중치 미배포 — 직접 학습" 안내가 담긴 FileNotFoundError.

Docs

  • README 예제 실측 교정(한/영) — combined_risk 속성명(distinct_identifiers/
    distinct_quasi), k_anonymity 시그니처(quasi_keys/threshold/satisfies_threshold),
    anonymize_records 튜플 반환 언패킹, partial 표기(홍OO), IntEnum 출력(.name).
    전 스니펫 실행 검증 완료.
  • README 하이브리드 절 — 두 하이브리드(토큰 NER vs 문서 분류기) 구분 표 +
    role_split 사용법 추가 (오독 방지).
  • experiments/ner 이식성 — 스크립트 8종 절대경로 제거(레포 상대 + env 폴백),
    code/requirements.txt(실측 스택 고정) 신설. 외부 머신 재현 검증 완료.

v1.13.0

09 Jun 04:59

Choose a tag to compare

Fixed

  • 건강보험증번호 형식 확장 — 증번호 표기형 N-NNNNNNNNNN(종별코드 + 하이픈 + 10자리) 검출 추가. 기존엔
    순수 11자리만 인식. 키워드 anchor 유지로 FP 안전.
  • 처방번호 형식 확장 — EMR 영문 접두 형식(RX-2026-008471, PRSC-2026-... 등) 검출 추가. 기존엔
    YYYYMMDDNNNN 12자리만 인식. 키워드 anchor 필수.
  • 합성 평가셋(540) 기준 MEDICAL_INSURANCE 0.0 → 0.893, PRESCRIPTION_ID 0.0 → 0.718, 전체 ko-pii F1
    0.784 → 0.790.

Added

  • 회귀 게이트 테스트tests/unit/eval/test_generated_eval_regression.py. 커밋된 합성 평가셋으로
    ko-pii 전체/라벨별 F1 하한을 CI(pytest)에서 자동 검증.
  • 확장 평가셋data/generated_eval_large.jsonl (1,938문서 = 540 검증분 + LLM 생성 1,398). 독립
    시스템 견고성 대조에서 ko-pii 0.825 (3.6× 큰 셋에서도 우위 유지).
  • KDPII 에 Gemma-4-E4B 측정 추가 — 대화체 크기효과 문서화(작은 LLM은 ko-pii 미만).

v1.12.1

08 Jun 08:06

Choose a tag to compare

Full Changelog: v1.12.0...v1.12.1