Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

<fix> Improve BM25 with hyper-parameters #28

Merged
merged 3 commits into from May 6, 2021
Merged

<fix> Improve BM25 with hyper-parameters #28

merged 3 commits into from May 6, 2021

Conversation

sooyounlee
Copy link
Contributor

  • Corrected typos in README.md
  • Adjusted hyper-parameters in BM25 and TFIDF
    • TFIDF: max_features 50000 -> None
    • BM25: max_features 50000 -> None, b 0.75 -> 0.01, k1 1.2 -> 0.1

fixed retriever-related typos
Changed BM25 & TFIDF hyper parameters
TFIDF: max_features = 50000 -> None
BM25: max_features = 50000 -> None, b = 0.75 -> 0.01, k1 = 1.2 -> 0.1
@olenmg
Copy link
Member

olenmg commented May 6, 2021

README 저도 고치려고 했는데 마침 커밋됐네요ㅋㅋㅋ
확인했습니다~

@ggm1207
Copy link
Contributor

ggm1207 commented May 6, 2021

확인했습니다!

@SeongIkKim
Copy link
Member

SeongIkKim commented May 6, 2021

성능이 올라서 다행이긴 합니다만, 마음에 걸리는게 있습니다!
max-features를 제한하지 않으면 잘 나오지않는 단어들까지도 모두 포착하여 embedding하기때문에 현재 validation set에는 적합할수 있지만 overfitting 가능성이 클것같습니다.

public dataset에 비하여 저희는 private dataset이 1.5배 더 크기도 하구요. corpus의 크기를 보고 적절하게 limit를 두어야 overfitting을 피할 수 있지 않을까 싶습니다. EDA를 해보고 적절하게 파라미터를 정하라고 하는데 어떻게 해야하는지 감이 안잡혀서 좀 더 찾아보겠습니다 ㅠㅠ

https://www.kaggle.com/c/quora-insincere-questions-classification/discussion/75319

일단은 이거 그대로 merge하셔도 될것같습니다! 파라미터는 제가 EDA해보면서 한번 더 찾아볼게요.

@ggm1207
Copy link
Contributor

ggm1207 commented May 6, 2021

지금 생성된 embedding이 전체 wiki 데이터셋에 대해서 수행한 거라 괜찮지 않을까요? train, validation, test 데이터 모두 wiki 데이터 셋에 포함되어 있는 걸로 알고 있습니다!

@SeongIkKim
Copy link
Member

@ggm1207 생각해보니 그것도 그렇네요! 전체 데이터셋이 애초에 주어진 task다 보니... answer가 없이도 embedding은 정확하게 될 수 있으니까요.
그럼 Reader model만 overfitting을 피하면 될까요?

convert p_embedding matrix into csc before for loop
improved performance: 9min 56sec -> 18sec for 240 queries
@sooyounlee
Copy link
Contributor Author

wiki 보고 빈도수가 낮은 단어들 중에 불용어들을 embedding 전에 미리 제거하는 방향으로 가도 좋을 것 같아요!

@ggm1207
Copy link
Contributor

ggm1207 commented May 6, 2021

@SeongIkKim 넵! Reader 모델은 고려를 해야 될 것 같습니다! 적절한 하이퍼 파라미터 찾은 후에 train, valid 합쳐서 학습 시키는 방향으로 해도 좋을 것 같네요!

@ebbunnim
Copy link
Member

ebbunnim commented May 6, 2021

넵 확인했습니다!

@ebbunnim ebbunnim merged commit 383ce52 into main May 6, 2021
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

None yet

5 participants