Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

'미스터' 가 명사로 뽑히지 않는 Case #23

Open
ming99999 opened this issue Aug 3, 2018 · 1 comment
Open

'미스터' 가 명사로 뽑히지 않는 Case #23

ming99999 opened this issue Aug 3, 2018 · 1 comment

Comments

@ming99999
Copy link
Contributor

뉴스 데이터를 전처리하여 명사 추출에 사용하고 있습니다.
최근 드라마 '미스터 션샤인' 이 자주 등장해서 '미스터'와 '션샤인'이 당연히 명사로 잡힐 줄 알았는데
NounExtractor_v2를 사용하여 명사 스코어링을 해 보니 '미스터'가 명사로 잡히질 않았습니다.
LTokenizer를 사용했을 때 '미스터 션샤인'이 [미스, 터, 션샤인]으로 나뉘더라고요

'미스'는 잘 잡히는 것 처럼 '미스터'도 명사로 잘 잡고 싶습니다.
방법이 없을까요 ㅠ?

@lovit
Copy link
Owner

lovit commented Aug 3, 2018

"미스터 션샤인"은 bigram 으로 이뤄진 명사입니다. "션샤인 + R"의 R 에 조사와 같은 명사를 설명하는 features 가 많기 때문에 "션샤인"은 명사로 인식되기가 쉽습니다. 반대로 "미스터"는 "미스터 션샤인"의 맥락 때문에 대부분의 R 이 "", 빈칸일 것입니다. 그래서 "미스터"를 명사로 설명하는 부분이 적을 것입니다. 반면, "미스"는 이와 상관없이 다른 맥락에서 명사로 사용될 경우가 많다고 생각됩니다.

언급해주신 문제는 n-gram 으로 이뤄진 명사를 찾는 문제로 접근해야 할 것 같습니다.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants