Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

中文的唇动效果似乎比较差?请问是否有对中文做优化? #24

Open
magicleo opened this issue Apr 7, 2023 · 7 comments

Comments

@magicleo
Copy link

magicleo commented Apr 7, 2023

No description provided.

@magicleo magicleo changed the title 中文的唇动效果似乎比较差?不知道是否有对中文做优化? 中文的唇动效果似乎比较差?请问是否有对中文做优化? Apr 7, 2023
@kunncheng
Copy link
Collaborator

kunncheng commented Apr 8, 2023

训练所用的数据集为英文,可以泛化到不同语种,但性能有一定程度的下降。
将LNet在合适的大规模中文视频数据集上重新训练或许能提升效果。

@zhangziliang04
Copy link

训练部分的程序,是否有计划释放出来。目前为止,尚未看到。不知道是否与有计划开放,训练不成的程序?

@kunncheng
Copy link
Collaborator

关于LNet的训练过程目前可以参考Wav2Lip,我们与其类似采用self-reconstruction的方式在LRS2 dataset上训练。
迁移到不同数据集上训练有一定困难,若是从网络上收集的数据首先需要进行音视频对齐,其次训练lip-sync判别器,最后训练lip-sync network,具体可以参考这里

@magicleo
Copy link
Author

magicleo commented Apr 9, 2023

@kunncheng 看SadTalker的项目说是在VoxCeleb1 数据集上训练的,感觉中文的唇动效果似乎要比video-retalking效果好一些。不知道是否有计划提供一些其他数据集上进行训练的模型。

@kunncheng
Copy link
Collaborator

@kunncheng 看SadTalker的项目说是在VoxCeleb1 数据集上训练的,感觉中文的唇动效果似乎要比video-retalking效果好一些。不知道是否有计划提供一些其他数据集上进行训练的模型。

SadTalker是驱动单张图像,本项目是编辑视频,多帧与单帧任务之间难度不同,这也是DNet所要解决的问题,希望能将多帧驱动简化为单帧,即将口型归一化。

也尝试过在别的数据集上训练,但难以收敛或性能未取得明显提升。因此暂时没有该计划

@desaltsand
Copy link

OpenTalker

@marsjin
Copy link

marsjin commented Mar 29, 2024

希望有个中文的训练集;目前适配中文,面部相对清晰度下降不少

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

5 participants