Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

关注复现使用的200k数据 #98

Open
Faner88 opened this issue Jun 1, 2024 · 7 comments
Open

关注复现使用的200k数据 #98

Faner88 opened this issue Jun 1, 2024 · 7 comments

Comments

@Faner88
Copy link

Faner88 commented Jun 1, 2024

reproduce
请问这里复现的时候使用的200k数据,和消融实验一样,要保证中文160k吗,但是train.py里面的dataset_percent看起来是随机采样了这个比例的数据吧。是要保证这个中文比例吗

@tyxsspa
Copy link
Owner

tyxsspa commented Jun 3, 2024

dataset_percent不是随机采样的。

@Faner88
Copy link
Author

Faner88 commented Jun 13, 2024

dataset_percent不是随机采样的。

那直接使用dataset_percent=0.0566就可以保证中文160k吗,我现在用这个200k数据复现,中文的结果和上图的差很多。英文的差不多。请问是什么原因呢?麻烦您了~

@tyxsspa
Copy link
Owner

tyxsspa commented Jun 13, 2024

中文的结果和上图的差很多

请问具体指标多少?能否复现到上图的0.5364?

@Faner88
Copy link
Author

Faner88 commented Jun 13, 2024

中文的结果和上图的差很多

请问具体指标多少?能否复现到上图的0.5364?

实验设置是Exp1,中文的acc:0.3374 NED:0.6095。但是英文的两个指标甚至要高于上图的结果

@tyxsspa
Copy link
Owner

tyxsspa commented Jun 13, 2024

@Faner88 我最近也关注到了这个问题,每次用tool_add_anytext.py得到的初始ckpt进行复现实验,在200k数据上会有指标波动。但使用同一个初始ckpt进行实验,指标变化很小。我猜测:

  1. https://github.com/tyxsspa/AnyText/blob/main/cldm/embedding_manager.py#L105 这里的linear层后面应该加一个nn.LayerNorm(token_dim)
  2. learning rate=2e-5可能略大
    我有空时验证下这个问题,如果你有发现,也请在这个issue中share一下

@Faner88
Copy link
Author

Faner88 commented Jun 13, 2024

@Faner88 我最近也关注到了这个问题,每次用tool_add_anytext.py得到的初始ckpt进行复现实验,在200k数据上会有指标波动。但使用同一个初始ckpt进行实验,指标变化很小。我猜测:

  1. https://github.com/tyxsspa/AnyText/blob/main/cldm/embedding_manager.py#L105 这里的linear层后面应该加一个nn.LayerNorm(token_dim)
  2. learning rate=2e-5可能略大
    我有空时验证下这个问题,如果你有发现,也请在这个issue中share一下

好的,真的非常感谢您的回答~我会尝试修改验证,后续有发现再交流,感谢!!

@tyxsspa
Copy link
Owner

tyxsspa commented Jun 21, 2024

@Faner88 在上述Linear层后加了LN层,并用全0初始化,做了两组实验,指标基本和上图一致,中英Sen. ACC±3个点以内

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants