<fix> integrate subset of retriever code & fill missing top-k parameter #26
Add this suggestion to a batch that can be applied as a single commit.
This suggestion is invalid because no changes were made to the code.
Suggestions cannot be applied while the pull request is closed.
Suggestions cannot be applied while viewing a subset of changes.
Only one suggestion per line can be applied in a batch.
Add this suggestion to a batch that can be applied as a single commit.
Applying suggestions on deleted lines is not supported.
You must change the existing code in this line in order to create a valid suggestion.
Outdated suggestions cannot be applied.
This suggestion has been applied or marked resolved.
Suggestions cannot be applied from pending reviews.
Suggestions cannot be applied on multi-line comments.
Suggestions cannot be applied while the pull request is queued to merge.
Suggestion cannot be applied right now. Please check back later.
종헌님이 이미 고치시고 commit만 남겨두고 있으신것 같지만 저도 돌려보느라 고쳐놓은 부분들 올렸습니다. 아직 지영님 브랜치 파일 정리가 다 안된것같아 merge해도 무리 없어 보이는 부분들만 제 브랜치에 적용시키고 종헌님 브랜치로 pull request 보냅니다!
BM 25 이슈는 아직 top-k개를 뽑아오지 못해서 정확도가 많이 낮은 문제도 있던것 같습니다.
위의 그래프는 기존 run 코드에서 건모님과 지영님이 구현해두신 top-k 샘플링 적용하여 query당 5개 지문 뽑아왔을 때의 EM입니다.
top-1 sampling에서는 BM25가 EM 6% 가량으로 더 낮게 나왔지만, 샘플링 수를 늘리자 13%가량으로 비슷해졌습니다. F-1은 오히려 근소하게 역전했습니다.