Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

p2c/pal 결과 처리과정 수정 #43

Merged
merged 16 commits into from
Mar 23, 2024
Merged

p2c/pal 결과 처리과정 수정 #43

merged 16 commits into from
Mar 23, 2024

Conversation

fgenie
Copy link
Owner

@fgenie fgenie commented Mar 16, 2024

README.md 아래 todo 에 진행사항이 적혀있음

  • few shot harvesting / equivalence / parsing 이 셋이 좀 밀접하게 돌고돌아서 고생을 좀 했으나... 이제 거의 다 왔음
    • 저번은 cot parsing 에 관한 것이었고 이번에는 code execution 결과 처리에 관한 것 (sympy - latex expression)
      GSM: (no effective change) / 6 None's
      OCW: (24 effective change) / 82 rows change over 272 / 58 None's
      MATH: (147 effective change) /. 1318 rows change over 4996 / 1172 None's
  • cot / pal / model selection / rims 의 fewshot은 dataset-adaptive로 하고 p2c만 원 논문의 MBPP fewshot을 사용하게 될 것

CoT 파싱에 관한 내용은 아래, 해당 개선으로 CoT, PAL의 결과 변동 정도는 비슷하다.
#37 (comment)

@fgenie fgenie mentioned this pull request Mar 16, 2024
@fgenie fgenie changed the title 결국 이번주까지 돌려보진 못했으나... p2c/pal 결과 처리과정 수정 Mar 16, 2024
@fgenie fgenie marked this pull request as ready for review March 23, 2024 05:16
@fgenie
Copy link
Owner Author

fgenie commented Mar 23, 2024

baseline 의 디버깅까지 마쳤습니다.

  • evaluation / parsing 그리고 이에 연관된 majority voting 로직 (majority voting 로직을 바꾸지 않고 이전 결과에 채점한 경우에는 의도한대로 성능 변화가 없었음)
  • ocw, math에 활용되는 프롬프트의 변경
  • math 에서 pt 5개로 나눠서 돌던거 그냥 한 통으로 돌도록 변경, 애초에 문제가 긴 execution time이 아니었으므로...
  • outdir 좀더 관리 편리하게 변경
  • token 수를 잘 세보니 longcontext 가 강제되는 상황은 아니나, 이전 성적이 chatgptlong이었기 때문에 동등 비교를 위해 현재 실험은 chatgpt0613long으로 하겠음. 이후에는 성능이 비슷한 chatgpt0613 혹은 chatgpt1106으로 수행할 예정.

@fgenie fgenie merged commit 43aedab into main Mar 23, 2024
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

None yet

1 participant