-
Notifications
You must be signed in to change notification settings - Fork 6
Add scripts for g-leaderboard (GENIAC official evaluation) #31
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Conversation
evaluation/installers/g-leaderboard/scripts/run_g-leaderboard.sh
Outdated
Show resolved
Hide resolved
evaluation/installers/g-leaderboard/scripts/run_g-leaderboard.sh
Outdated
Show resolved
Hide resolved
ytivy
left a comment
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
@hkiyomaru レビューしました。
OPENAI_API_KEYが必要そうなのもあり、動作確認できておらず、またconfig周りはあまり確認できていません。
|
|
|
動作確認は @YumaTsuta さんの修正が反映されたあとにこちらでやります |
Co-authored-by: YumaTsuta <67862948+YumaTsuta@users.noreply.github.com>
Co-authored-by: YumaTsuta <67862948+YumaTsuta@users.noreply.github.com>
|
@Taka008 修正終わったので動作確認お願いします.(手元では動くことを確認済みです) |
|
@hkiyomaru gpu関連の module loadが不要なことに気がついて、評価スクリプト (v1.4.0)の方を修正しています(動作確認済み)。同様に適用しても問題ないですが、その場合はお手数おかけします。 |
|
llm-jp-eval v1.4.0 の変更を反映しました.動作確認済みです. |
|
v3 シリーズ用の |
今のものが v3 シリーズ用のつもりです.モデルサイズに関しては 172B 想定で,MT Bench 評価時に 8GPUs を確保するのをデフォルトにしています. |
|
1.7B v3 で試しに動かしてみましたが,空の回答が結構あったのでなにか間違えたのかと思っていました |
|
172B-instruct (55k steps) は無回答問題はありませんでした. いきなり EOS を吐いているとは考えづらいので,会話の separator (###) を吐いて出力が truncate されているとかでしょうか.いずれにそても,ベースモデルに指示追従能力がないことに由来する問題な気がします. |
|
チューニング済みの 13B v3 exp4 を試しに回してみましたが,確かに問題なさそうです |
|
@hkiyomaru |
|
マージします |



What
Add scripts for evaluating LLMs using g-leaderboard (GENIAC official evaluation).
Related issues
#29