Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[week 8] 본 논문에서 제안하는 character n-gram을 활용하면 접두사와 접미사에 대한 정보를 알 수 있나요? #31

Closed
HanNayeoniee opened this issue May 5, 2022 · 1 comment

Comments

@HanNayeoniee
Copy link
Collaborator

HanNayeoniee commented May 5, 2022

character n-gram을 구성할 때, 첫 번째 subword에는 <를 붙이고 마지막 subword에는 >를 붙인다고 합니다.
저는 이 기호가 subword 집합의 시작과 끝을 알리는 역할이라고 생각했는데요, <과 >를 통해 해당 단어의 접두사와 접미사에 대한 정보를 알 수 있나요?

Each word w is represented as a bag of character n-gram. We add special boundary symbols < and > at the beginning and end of words, allowing to distinguish prefixes and suffixes from other character sequences.

image

단어 where의 character n-gram(n=3)

@HanNayeoniee HanNayeoniee changed the title [week 8] 본 논문에서 제안하는 subword n-gram을 활용하면 접두사와 접미사에 대한 정보를 알 수 있나요? [week 8] 본 논문에서 제안하는 character n-gram을 활용하면 접두사와 접미사에 대한 정보를 알 수 있나요? May 5, 2022
@xuio-0528
Copy link
Collaborator

<가 붙은 경우에는 접두사, >가 붙은 경우에는 접미사로 평가되게 됩니다.
그렇게 되면 단어 중간에 접두사 형태가 나오더라도 ex) <im , im 두 단어는 다르게 학습되게 되어서 접두사, 접미사를 보다 정확하게 학습할 수 있는 것 같습니다.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants