Using pretrained models #90

syleedandekar · 2024-03-19T16:27:59Z

The paper mentions that you performed end-to-end validation of AlpacaFarm. Do you have the code up on Github for that? I want to use the LLM pre-trained on human preferences to generate some more preferences.

YannDubs · 2024-03-19T21:43:11Z

For validation you can check: https://github.com/tatsu-lab/alpaca_farm?tab=readme-ov-file#running-automatic-evaluation or directly use AlpacaEval

This is the reward model from human preferences: https://huggingface.co/tatsu-lab/alpaca-farm-reward-model-human-wdiff
Ans the RLHF model: https://huggingface.co/tatsu-lab/alpaca-farm-ppo-human-wdiff

syleedandekar · 2024-03-21T14:28:22Z

I've been trying to generate text using ppo-human but I've just been getting gibberish. It works fine when I use LLama2. Is there an example in AlpacaEval I can refer to?

YannDubs · 2024-03-21T17:33:25Z

here are some outputs: https://github.com/tatsu-lab/alpaca_eval/blob/main/results/alpaca-farm-ppo-human/model_outputs.json

decoding configs: https://github.com/tatsu-lab/alpaca_eval/blob/main/src/alpaca_eval/models_configs/alpaca-farm-ppo-human/configs.yaml

YannDubs closed this as completed Mar 19, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Using pretrained models #90

Using pretrained models #90

syleedandekar commented Mar 19, 2024

YannDubs commented Mar 19, 2024

syleedandekar commented Mar 21, 2024 •

edited

Loading

YannDubs commented Mar 21, 2024

Using pretrained models #90

Using pretrained models #90

Comments

syleedandekar commented Mar 19, 2024

YannDubs commented Mar 19, 2024

syleedandekar commented Mar 21, 2024 • edited Loading

YannDubs commented Mar 21, 2024

syleedandekar commented Mar 21, 2024 •

edited

Loading