Skip to content

Conversation

@hkiyomaru
Copy link
Member

What

Add scripts for evaluating LLMs using g-leaderboard (GENIAC official evaluation).

Related issues

#29

@hkiyomaru hkiyomaru requested review from Taka008 and ytivy August 29, 2024 05:09
@hkiyomaru hkiyomaru marked this pull request as ready for review August 29, 2024 05:09
@hkiyomaru
Copy link
Member Author

hkiyomaru commented Aug 29, 2024

GENIAC の評価をローカルで回すためのスクリプトです.

@Taka008 児玉さんは自分で回せた方が都合が良いと思うので,動作確認をお願いしたいです.Azure OpenAI API の endpoint と key は @cr-liu さんに聞いてください.

@YumaTsuta llm-jp-eval-v1.3.1 のスクリプトを参考に作成しました.レビューお願いします.

Copy link
Contributor

@ytivy ytivy left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

@hkiyomaru レビューしました。
OPENAI_API_KEYが必要そうなのもあり、動作確認できておらず、またconfig周りはあまり確認できていません。

@ytivy
Copy link
Contributor

ytivy commented Aug 29, 2024

install.sh は wrapper欲しくなりますね。時間がった時にでもやりますか

@Taka008
Copy link
Contributor

Taka008 commented Aug 29, 2024

動作確認は @YumaTsuta さんの修正が反映されたあとにこちらでやります

@hkiyomaru
Copy link
Member Author

@Taka008 修正終わったので動作確認お願いします.(手元では動くことを確認済みです)

@ytivy
Copy link
Contributor

ytivy commented Aug 29, 2024

@hkiyomaru gpu関連の module loadが不要なことに気がついて、評価スクリプト (v1.4.0)の方を修正しています(動作確認済み)。同様に適用しても問題ないですが、その場合はお手数おかけします。

@hkiyomaru
Copy link
Member Author

llm-jp-eval v1.4.0 の変更を反映しました.動作確認済みです.

@Taka008
Copy link
Contributor

Taka008 commented Aug 30, 2024

v3 シリーズ用の resources/config_base.yaml の見本はありますか?

@hkiyomaru
Copy link
Member Author

hkiyomaru commented Aug 31, 2024

v3 シリーズ用の resources/config_base.yaml の見本はありますか?

今のものが v3 シリーズ用のつもりです.モデルサイズに関しては 172B 想定で,MT Bench 評価時に 8GPUs を確保するのをデフォルトにしています.

@Taka008
Copy link
Contributor

Taka008 commented Aug 31, 2024

1.7B v3 で試しに動かしてみましたが,空の回答が結構あったのでなにか間違えたのかと思っていました
こんなものなんですか?

@hkiyomaru
Copy link
Member Author

空の回答,そんなにありますか?Jaster 4-shot は空回答 0 件ですし,問題なさそうに見えます.
image

@Taka008
Copy link
Contributor

Taka008 commented Aug 31, 2024

MT-bench を見てました
image

@hkiyomaru
Copy link
Member Author

hkiyomaru commented Aug 31, 2024

172B-instruct (55k steps) は無回答問題はありませんでした.
image
https://wandb.ai/nii-geniac/llm-leaderboard/runs/8xrr9dqg

いきなり EOS を吐いているとは考えづらいので,会話の separator (###) を吐いて出力が truncate されているとかでしょうか.いずれにそても,ベースモデルに指示追従能力がないことに由来する問題な気がします.

@Taka008
Copy link
Contributor

Taka008 commented Sep 1, 2024

チューニング済みの 13B v3 exp4 を試しに回してみましたが,確かに問題なさそうです
https://wandb.ai/llm-jp-eval/test/runs/wouna8fd

@Taka008
Copy link
Contributor

Taka008 commented Sep 3, 2024

@hkiyomaru
mdx, sakura の両環境で動作確認が取れました.approve しておきました

@hkiyomaru
Copy link
Member Author

マージします

@hkiyomaru hkiyomaru merged commit 68a5d31 into main Sep 3, 2024
@hkiyomaru hkiyomaru deleted the g-leaderboard branch September 3, 2024 01:41
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

4 participants