Skip to content

能提供一下第0轮的数据/webarena-lite reward吗 #34

@Fu-Dayuan

Description

@Fu-Dayuan

我看到了你们在 WebArena-Lite_info 中的信息。并按照算法得到了第0/1轮数据,构造了webrl第一次训练的数据。

但尝试了很多种(修改loss的)方式都没有办法复现第一轮的结果。

考虑到文中beta消融的结果,我怀疑是因为我的第0轮用的orm而不是WebArena-Lite reward对轨迹进行打分而导致结果有偏,导致我使用 replay buffer时和图里w/o replay buffer的结果比较像....所以想请问作者能提供一下webarena-lite reward/你们第0轮的数据吗?

image

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions