我看到了你们在 WebArena-Lite_info 中的信息。并按照算法得到了第0/1轮数据,构造了webrl第一次训练的数据。
但尝试了很多种(修改loss的)方式都没有办法复现第一轮的结果。
考虑到文中beta消融的结果,我怀疑是因为我的第0轮用的orm而不是WebArena-Lite reward对轨迹进行打分而导致结果有偏,导致我使用 replay buffer时和图里w/o replay buffer的结果比较像....所以想请问作者能提供一下webarena-lite reward/你们第0轮的数据吗?
