能提供一下第0轮的数据/webarena-lite reward吗

我看到了你们在 [WebArena-Lite_info](https://github.com/THUDM/WebRL/blob/main/WebArena-Lite_info.json)  中的信息。并按照算法得到了第0/1轮数据，构造了webrl第一次训练的数据。

但尝试了很多种（修改loss的）方式都没有办法复现第一轮的结果。

考虑到文中beta消融的结果，我怀疑是因为我的第0轮用的orm而不是WebArena-Lite reward对轨迹进行打分而导致结果有偏，导致我使用 replay buffer时和图里w/o replay buffer的结果比较像....所以想请问作者能提供一下webarena-lite reward/你们第0轮的数据吗？


![image](https://github.com/user-attachments/assets/c9247d3f-6817-4e66-b8e8-8dcb26ba07ee)


Provide feedback

Saved searches

Use saved searches to filter your results more quickly

能提供一下第0轮的数据/webarena-lite reward吗 #34

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

能提供一下第0轮的数据/webarena-lite reward吗 #34

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions