-
Notifications
You must be signed in to change notification settings - Fork 8
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
empty value rummlu #3
Comments
Спасибо.
Это ожидаемое поведение. У задачи/таски/сета не предоставлено правильных ответов (проводится закрытый тест). Получить результат можно по шагам из корневого README https://github.com/ai-forever/MERA/tree/main#submit-to-mera.
Тоже ожидаемое поведение. В описании параметров main.py https://github.com/ai-forever/MERA/tree/main/lm-evaluation-harness#notes-on-mainpy-settings об этом рассказано: ...score result 0 will be reported. Если есть желание, можете внести предложения (или даже pull request), где описать момент с отсутствием публичных правильных ответов, чтобы не возникало соответствующих ожиданий. |
Здравствуйте! |
Чтобы эта мысль не пропала в обсуждениях не связанного с ней issue, рекомендую завести её в виде feature request в рамках нового issue с описанием мотивации, там, может быть, и состоится потом обсуждение плюсов и минусов.
Цифры получаются и без публичного выноса на лидерборд в рамках сабмитов, отправляемых на сайт, где автоматика обсчитывает и выдает числа в ответ на присланный архив с содержимым в нужном формате. Чтобы сделать их публичными, придется прислать на почту ещё и логи дополнительные (в обычном документированном случае собираются и упаковываются в архив в рамках вызова bash скрипта). |
Добрый день!
Не расcчитывается метрика для задачи rummlu.
mmv@mmv:~/dev/mera/MERA/lm-evaluation-harness$ python3 ./main.py --model hf-causal-experimental --model_args pretrained=mistralai/Mistral-7B-v0.1,dtype=auto,use_accelerate=True,max_memory_per_gpu=20GB,max_length=4096 --output_base_path="$PWD/mera_results/Mistral-7B-v0.1_defaults" --batch_size=4 --write_out --tasks rummlu --num_fewshot=5 --output_path="$PWD/mera_results/Mistral-7B-v0.1_defaults/rummlu_result.json" --device cuda --limit 50
Selected Tasks: ['rummlu']
параметр --inference:
без параметра --inference:
Traceback (most recent call last):
File "/home/mmv/dev/mera/MERA/lm-evaluation-harness/./main.py", line 126, in
main()
File "/home/mmv/dev/mera/MERA/lm-evaluation-harness/./main.py", line 84, in main
results = evaluator.simple_evaluate(
File "/home/mmv/dev/mera/MERA/lm-evaluation-harness/lm_eval/utils.py", line 238, in _wrapper
return fn(*args, **kwargs)
File "/home/mmv/dev/mera/MERA/lm-evaluation-harness/lm_eval/evaluator.py", line 197, in simple_evaluate
results = evaluate(
File "/home/mmv/dev/mera/MERA/lm-evaluation-harness/lm_eval/utils.py", line 238, in _wrapper
return fn(*args, **kwargs)
File "/home/mmv/dev/mera/MERA/lm-evaluation-harness/lm_eval/evaluator.py", line 980, in evaluate
results[task_name][metric + "_stderr"] = stderr(items)
File "/home/mmv/dev/mera/MERA/lm-evaluation-harness/lm_eval/metrics.py", line 25, in mean_stderr
return sample_stddev(arr) / math.sqrt(len(arr))
File "/home/mmv/dev/mera/MERA/lm-evaluation-harness/lm_eval/metrics.py", line 21, in sample_stddev
return math.sqrt(sum([(x - mu) ** 2 for x in arr]) / (len(arr) - 1))
ZeroDivisionError: float division by zero
The text was updated successfully, but these errors were encountered: