Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

안녕하세요! 질문이 있습니다. #1

Closed
lsjsj92 opened this issue Jul 29, 2020 · 2 comments
Closed

안녕하세요! 질문이 있습니다. #1

lsjsj92 opened this issue Jul 29, 2020 · 2 comments

Comments

@lsjsj92
Copy link

lsjsj92 commented Jul 29, 2020

안녕하세요 ~ 먼저 좋은 자료 공유해주셔서 감사합니다.
알고보니 제가 자주 갔던 블로그 주인님이시네요 ㅎㅎ

질문이 있어서 Issue 남겨드려요!
제가 초보라 질문 수준이 낮아서.. 죄송합니다 ㅠ

  1. Tokenizer word 개수를 3만개로 지정한 이유가 있으실까요?
  • BERT 논문에서인가 거기서는 3만개로 했다고 본 것 같은데 그것 때문일까요?
  • 한국어 (특히 네티즌들이 사용하는 단어)는 굉장히 다양한 단어가 있는데 3만개로 커버리지가 가능한지 궁금합니다!
  1. Fine-tuning 하는 방법이 어떻게 될까요?
  • Beomi님께서 만드신 Pre-training된 model을 이용해서 제가 가지고 있는 Dataset에 Fine-tuning을 하고 싶습니다.
  • Model을 Fine-tuning 하는 방법과 Tokenizer tuning을(가능할지 모르겠지만) 하는 방법이 어떻게 될까요??

감사합니다!

@Beomi
Copy link
Owner

Beomi commented Aug 5, 2020

안녕하세요,

Vocab 갯수가 3만은 경험적으로 지정한 측면이 있습니다.
다만 한국어같은 경우는 자소단위가 아닌 이상 한 글자 단위도 무척 많아서, 해당 부분을 모두 커버하고 + 유의미한 단어 단위로 자르기 위해서는 3만개 정도는 필요하다고 생각합니다.
물론 3만개의 Vocab도 완벽한것은 아니기 때문에 한계는 있습니다 :)

Finetune을 Downstream task에 사용하시려는 것일까요? 아니면 갖고 계시는 데이터로 Pretrain을 좀 더 하시려는걸까요? 그것에 따라서 달라집니다.
전자의 경우라면 본문의 Colab링크를 참고하시면 Classification 예시가 있고,
후자의 경우라면 좀더 복잡한 방법이 필요합니다.

@lsjsj92
Copy link
Author

lsjsj92 commented Aug 6, 2020

아 3만개 지정은 그런 이유이시군요 감사합니다.

음.. 전자쪽이 맞을 것 같습니다.

가지고 있는 dataset을 이용해서

  1. Tokenizer word 부터 다시 셋팅
  2. 셋팅된 tokenizer로 fine tune 하는 수준

으로 생각하고 있었습니다.
말씀해주신 자료 보면서 이것저것 조사를 해봐야겠네요 ㅎㅎ 감사합니다!

@lsjsj92 lsjsj92 closed this as completed Aug 6, 2020
This issue was closed.
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants