Skip to content

0.15.0

Choose a tag to compare

@bab2min bab2min released this 23 Mar 01:41
· 460 commits to main since this release
  • Kiwi 0.15.0의 기능들(https://github.com/bab2min/Kiwi/releases/tag/v0.15.0 )이 반영되었습니다.
    • 둘 이상의 형태소로 더 잘게 분리될 수 있는 형태소를 추가 분리하는 옵션인 splitComplex 도입
    • 부사파생접사를 위한 XSM 태그 추가 및 이에 해당하는 형태소 -이, -히, -로, -스레 추가
    • 조사/어미에 덧붙는 받침을 위한 Z_CODA 태그 추가 및 조사/어미에서 자동으로 Z_CODA를 분절해내는 기능 추가
    • 형태 분석 및 언어 모델 탐색 속도 최적화
    • 옛한글 문자를 특수 기호로 분리하지 않고 일반 한글과 동일하게 처리하도록 개선
    • 문장 분리 성능 개선
      • 2010. 01. 01. 와 같이 공백이 포함된 serial 패턴 처리 보강
      • Dr., Mr. 와 같이 약자 표현의 .이 마침표로 처리되지 않도록 보강
      • '-음'으로 문장이 끝나는 경우를 판별하기 위해 음/EF 형태소 추가 및 모델 보강
    • 한 문장 내에서 사전에 미등재된 형태가 256개 이상 등장할 때 형태소 분석 결과가 잘못 나오는 문제 해결
    • 특정 경우에 문장 분리가 전혀 되지 않던 버그 수정(#111)
    • 이모지 등 U+10000 이상의 유니코드 문자를 모두 한자로 분류하던 버그 수정
  • Kiwi.glueinsert_new_lines 인자가 추가되었습니다.
  • 형태소의 사전 표제형을 보여주는 Token.lemma 프로퍼티가 추가되었습니다.