中文的唇动效果似乎比较差？请问是否有对中文做优化？ #24

magicleo · 2023-04-07T08:47:58Z

No description provided.

kunncheng · 2023-04-08T06:26:31Z

训练所用的数据集为英文，可以泛化到不同语种，但性能有一定程度的下降。
将LNet在合适的大规模中文视频数据集上重新训练或许能提升效果。

zhangziliang04 · 2023-04-08T23:08:33Z

训练部分的程序，是否有计划释放出来。目前为止，尚未看到。不知道是否与有计划开放，训练不成的程序？

kunncheng · 2023-04-09T06:46:34Z

关于LNet的训练过程目前可以参考Wav2Lip，我们与其类似采用self-reconstruction的方式在LRS2 dataset上训练。
迁移到不同数据集上训练有一定困难，若是从网络上收集的数据首先需要进行音视频对齐，其次训练lip-sync判别器，最后训练lip-sync network，具体可以参考这里。

magicleo · 2023-04-09T11:27:13Z

@kunncheng 看SadTalker的项目说是在VoxCeleb1 数据集上训练的，感觉中文的唇动效果似乎要比video-retalking效果好一些。不知道是否有计划提供一些其他数据集上进行训练的模型。

kunncheng · 2023-04-09T12:25:51Z

@kunncheng 看SadTalker的项目说是在VoxCeleb1 数据集上训练的，感觉中文的唇动效果似乎要比video-retalking效果好一些。不知道是否有计划提供一些其他数据集上进行训练的模型。

SadTalker是驱动单张图像，本项目是编辑视频，多帧与单帧任务之间难度不同，这也是DNet所要解决的问题，希望能将多帧驱动简化为单帧，即将口型归一化。

也尝试过在别的数据集上训练，但难以收敛或性能未取得明显提升。因此暂时没有该计划

desaltsand · 2023-04-29T05:40:06Z

OpenTalker

marsjin · 2024-03-29T09:22:00Z

希望有个中文的训练集；目前适配中文，面部相对清晰度下降不少

magicleo changed the title ~~中文的唇动效果似乎比较差？不知道是否有对中文做优化？~~ 中文的唇动效果似乎比较差？请问是否有对中文做优化？ Apr 7, 2023

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

中文的唇动效果似乎比较差？请问是否有对中文做优化？ #24

中文的唇动效果似乎比较差？请问是否有对中文做优化？ #24

magicleo commented Apr 7, 2023

kunncheng commented Apr 8, 2023 •

edited

Loading

zhangziliang04 commented Apr 8, 2023

kunncheng commented Apr 9, 2023

magicleo commented Apr 9, 2023

kunncheng commented Apr 9, 2023

desaltsand commented Apr 29, 2023

marsjin commented Mar 29, 2024

中文的唇动效果似乎比较差？请问是否有对中文做优化？ #24

中文的唇动效果似乎比较差？请问是否有对中文做优化？ #24

Comments

magicleo commented Apr 7, 2023

kunncheng commented Apr 8, 2023 • edited Loading

zhangziliang04 commented Apr 8, 2023

kunncheng commented Apr 9, 2023

magicleo commented Apr 9, 2023

kunncheng commented Apr 9, 2023

desaltsand commented Apr 29, 2023

marsjin commented Mar 29, 2024

kunncheng commented Apr 8, 2023 •

edited

Loading