Skip to content

skyworldgo/mecab-kdic

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

22 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

MeCab 용 한국어 사전입니다.


사용하는 방법
-------------

이 프로젝트 파일을 다운받고 그 디렉토리를 kdic 이라 할 때

    cd kdic
    make

seed 디렉토리에는 사전을 생성하기 위한 필수 파일이 위치합니다.
make 하면 tagged-text 파일로부터 ./corpus ./seed/kdic.csv 가 생성되고
./final/pos-id.def ./seed/pos-id.def 파일이 생성됩니다.
final 디렉토리에는 최종 생성된 사전이 위치합니다.

make 로 생성된 파일을 제거하기 위해서는

    make clean


파일 설명
---------

    unk.def

알 수없는 단어를 위한 파일입니다. 표층 부분이 char.def에 범주화되어 있는데 그
범주 이름으로 된 파일입니다. 각 범주에 대해 어떤 소생(素生)열을 부여하는지를
정의합니다. 하나의 범주에 여러 소성을 정의해도 괜찮습니다. r-id, l-id, cost
부분을 0,0,0으로 놓아두면 학습 후 적절한 비용값이 자동으로 부여됩니다.

예

HANGEUL,0,0,0,기호,*,*
HANGEUL,0,0,0,체언,*,*


사전 csv 형식
-------------

표층형,왼쪽문맥ID,오른쪽문맥ID,비용,품사,품사세분류1,품사세분류2,품사세분류3

또한 자신이 좋아하는 정보를 CSV가 허락하는 범위 내에서 추가해도 괜찮습니다.

예

사용자설정,0,0,0,체언,명사,일반명사,사용자설정,사용자설정,사용자설정,추가항목


엔트리의 포맷(활용어)
---------------------

mecab은 해석 중에 전개하지 않고, 사전 작성 시에 정적으로 전개하는
방침(정적 활용 전개)을 취하고 있습니다. 활용어의 경우, 이용자가 사전에 활용을
확장해야 합니다.


알 수 없는 단어 처리의 외부 정의
--------------------------------
MeCab 0.90에서는 사용자가 알 수 없는 언어 처리 전략을 자유롭게 정의할 수 있습니다.
기본적인 전략으로 문자 종류에 따라 띄어쓰기를 실시합니다.
문자 종류 자체의 정의(어떤 문자 코드가 어떤 문자 종류에 맞는지)
각 글자 종류에 대한 띄어쓰기 정의(그룹화 또는 N 문자씩 구성),
띄어쓰기된 것에 어떠한 품사를 허용하는가, 사용자가 스스로 정의할 수 있습니다.


TODO
----

1. rewrite.def, feature.def 를 다듬어야 합니다.

2. tagged-text 파일 작성


사용권(license)
---------------

LGPL 사용권으로 제공됩니다. COPYING 파일을 참고하세요.


주의
----

저작권이 만료된 문서들로만 작업합니다.
만료저작물 조회 http://freeuse.copyright.or.kr/expiration/list.do

About

experimental korean dictionary for MeCab

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published