<fix> Improve BM25 with hyper-parameters #28

sooyounlee · 2021-05-06T02:24:58Z

Corrected typos in README.md
Adjusted hyper-parameters in BM25 and TFIDF
- TFIDF: max_features 50000 -> None
- BM25: max_features 50000 -> None, b 0.75 -> 0.01, k1 1.2 -> 0.1

fixed retriever-related typos

Changed BM25 & TFIDF hyper parameters TFIDF: max_features = 50000 -> None BM25: max_features = 50000 -> None, b = 0.75 -> 0.01, k1 = 1.2 -> 0.1

olenmg · 2021-05-06T02:27:00Z

README 저도 고치려고 했는데 마침 커밋됐네요ㅋㅋㅋ
확인했습니다~

ggm1207 · 2021-05-06T02:34:48Z

확인했습니다!

SeongIkKim · 2021-05-06T02:35:07Z

성능이 올라서 다행이긴 합니다만, 마음에 걸리는게 있습니다!
max-features를 제한하지 않으면 잘 나오지않는 단어들까지도 모두 포착하여 embedding하기때문에 현재 validation set에는 적합할수 있지만 overfitting 가능성이 클것같습니다.

public dataset에 비하여 저희는 private dataset이 1.5배 더 크기도 하구요. corpus의 크기를 보고 적절하게 limit를 두어야 overfitting을 피할 수 있지 않을까 싶습니다. EDA를 해보고 적절하게 파라미터를 정하라고 하는데 어떻게 해야하는지 감이 안잡혀서 좀 더 찾아보겠습니다 ㅠㅠ

https://www.kaggle.com/c/quora-insincere-questions-classification/discussion/75319

일단은 이거 그대로 merge하셔도 될것같습니다! 파라미터는 제가 EDA해보면서 한번 더 찾아볼게요.

ggm1207 · 2021-05-06T02:44:51Z

지금 생성된 embedding이 전체 wiki 데이터셋에 대해서 수행한 거라 괜찮지 않을까요? train, validation, test 데이터 모두 wiki 데이터 셋에 포함되어 있는 걸로 알고 있습니다!

SeongIkKim · 2021-05-06T02:57:05Z

@ggm1207 생각해보니 그것도 그렇네요! 전체 데이터셋이 애초에 주어진 task다 보니... answer가 없이도 embedding은 정확하게 될 수 있으니까요.
그럼 Reader model만 overfitting을 피하면 될까요?

convert p_embedding matrix into csc before for loop improved performance: 9min 56sec -> 18sec for 240 queries

sooyounlee · 2021-05-06T03:05:09Z

wiki 보고 빈도수가 낮은 단어들 중에 불용어들을 embedding 전에 미리 제거하는 방향으로 가도 좋을 것 같아요!

ggm1207 · 2021-05-06T03:06:19Z

@SeongIkKim 넵! Reader 모델은 고려를 해야 될 것 같습니다! 적절한 하이퍼 파라미터 찾은 후에 train, valid 합쳐서 학습 시키는 방향으로 해도 좋을 것 같네요!

ebbunnim · 2021-05-06T04:37:57Z

넵 확인했습니다!

sooyounlee added 2 commits May 6, 2021 11:17

<fix> Fix README typo

259eaca

fixed retriever-related typos

<fix> Change BM25, TFIDF hyper parameters

967f122

Changed BM25 & TFIDF hyper parameters TFIDF: max_features = 50000 -> None BM25: max_features = 50000 -> None, b = 0.75 -> 0.01, k1 = 1.2 -> 0.1

sooyounlee requested review from ebbunnim, olenmg, SeongIkKim and ggm1207 May 6, 2021 02:25

<fix> Optimize BM25

19244fc

convert p_embedding matrix into csc before for loop improved performance: 9min 56sec -> 18sec for 240 queries

ebbunnim merged commit 383ce52 into main May 6, 2021

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

<fix> Improve BM25 with hyper-parameters #28

<fix> Improve BM25 with hyper-parameters #28

sooyounlee commented May 6, 2021

olenmg commented May 6, 2021

ggm1207 commented May 6, 2021

SeongIkKim commented May 6, 2021 •

edited

ggm1207 commented May 6, 2021

SeongIkKim commented May 6, 2021

sooyounlee commented May 6, 2021

ggm1207 commented May 6, 2021

ebbunnim commented May 6, 2021

<fix> Improve BM25 with hyper-parameters #28

<fix> Improve BM25 with hyper-parameters #28

Conversation

sooyounlee commented May 6, 2021

olenmg commented May 6, 2021

ggm1207 commented May 6, 2021

SeongIkKim commented May 6, 2021 • edited

ggm1207 commented May 6, 2021

SeongIkKim commented May 6, 2021

sooyounlee commented May 6, 2021

ggm1207 commented May 6, 2021

ebbunnim commented May 6, 2021

SeongIkKim commented May 6, 2021 •

edited