Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

请问大佬,跟 StoryDiffusion 比,技术差异在哪里? #15

Closed
wikeeyang opened this issue Jun 22, 2024 · 10 comments
Closed

请问大佬,跟 StoryDiffusion 比,技术差异在哪里? #15

wikeeyang opened this issue Jun 22, 2024 · 10 comments

Comments

@wikeeyang
Copy link

StoryDiffusion 用的已经是 XL 模型,出图效果不错,在本地部署验证后,感觉输出也比较稳定,输出图片如下:

examples01-image-09

请问大佬,能讲一下本项目跟 StoryDiffusion 项目的差异点在哪里吗?让我们学习学习,谢谢!

@donahowe
Copy link
Owner

你好,正如论文中所提到的,StoryDiffusion的生成是一次性出完所有的图,那么只要有一张图不满意所有故事都要重新生成这并不合理。另外,它在在维护多角色一致性的性能非常有限。AutoStudio主要的目的是探索一个更加困难的任务:实时交互的生图,未来会更新与GPT的接口的代码(前3个agents),能够实现on-the-fly interaction(AutoStudio的SDXL版本也将马上放出)

@JoshonSmith
Copy link

你好,正如论文中所提到的,StoryDiffusion的生成是一次性出完所有的图,那么只要有一张图不满意所有故事都要重新生成这并不合理。另外,它在在维护多角色一致性的性能非常有限。AutoStudio主要的目的是探索一个更加困难的任务:实时交互的生图,未来会更新与GPT的接口的代码(前3个agents),能够实现on-the-fly interaction(AutoStudio的SDXL版本也将马上放出)

是否可以根据参考图,来生成漫画,感觉应用会很广

@donahowe
Copy link
Owner

当然可以,论文中的漫画可视化就是参考斗破苍穹/赛博朋克边缘行者完成的绘图,者可以在run.py中手动导入id的参考图实现

@wikeeyang
Copy link
Author

感谢大佬的快速回复!论文我也都看了,由于本人英文水平和大模型图形处理技术有限,不是太明白,您这么点一下,明白了很多,这也是我对本项目非常感兴趣的原因所在,学到不少,谢谢!

我看你的目标:on-the-fly interaction,我想这应该是现阶段T2I领域顶尖难度的应用了,为你的技术水平和创新Idea点赞!

我测试过 Omost、MuLan、StreamMultiDiffusion、StoryDiffusion、AI Comic Factory 等很多类似或相关的项目,目前在提示词准确性、图片风格延续性、连续出图等方面都存在挑战,我看本项目用了 SAM,一些类似 Segment 的技术,我感觉在图片人物完整性、风格延续性方面应该会有较大的提升!现在就是还没跑通过,如果能连续跑下来,并且试着自己换一下提示剧本,效果稳定的话,我觉得应该有很大的应用市场!

我最近也基于 SD3,测试了两个出图效率提升方面的项目:
https://github.com/gojasper/flash-diffusion
https://github.com/madebyollin/taesd
这两个项目结合,能使SD3秒速出图,效果还不错。当然,这两个项目都支持SD1.5、SDXL以及最新的SD3。
大佬也可以考虑在提升出图效率方面,是否能结合进去,当然,这个得看具体技术点,我不太懂。

目前我自己测了测用 Phi-3-mini-4k-instruct 作为后台 LLM 模型,根据指令,完成中文提示词到英文提示词的翻译转换。
然后,结合上述两个项目的出图速度提升,在自己本地环境,SD3出图速度快了非常多,在老破旧的显卡,基本也能秒速出图。

@donahowe
Copy link
Owner

是的您说的没错,感谢您的意见。AutoStudio和我先前的工作TheaterGen, CMIGBench数据集都是意在为on-the-fly interaction开路,即使他们的效果距离实际运用(端到端)还有一定的距离。我接下来将会加入腾讯实习继续focus这个领域 ;) 欢迎讨论~

@wikeeyang
Copy link
Author

为大佬点赞!👍👍👍,期待您的项目越做越好!取得成功。

@wikeeyang
Copy link
Author

恭喜大佬加入腾讯实习,👍👍👍,我觉得是个好机会,腾讯应该有该领域不少高手,可以一起相互学习提高!我觉得国内目前T2I大模型领域,混元 HunyuanDiT 和华为 PixArt 应该是领先的。特别是华为的 PixArt-Sigma-XL-2-2K-MS 大模型,毕竟任意比例的大分斌率输出挺难的,构图准确挺难,我测试过 6000x2000 这样的宽幅,PixArt 输出都比较准确。

@donahowe
Copy link
Owner

恭喜大佬加入腾讯实习,👍👍👍,我觉得是个好机会,腾讯应该有该领域不少高手,可以一起相互学习提高!我觉得国内目前T2I大模型领域,混元 HunyuanDiT 和华为 PixArt 应该是领先的。特别是华为的 PixArt-Sigma-XL-2-2K-MS 大模型,毕竟任意比例的大分斌率输出挺难的,构图准确挺难,我测试过 6000x2000 这样的宽幅,PixArt 输出都比较准确。

感谢,是的,目前t2i距离落地还有一定的距离,特别是interactive t2i,我还是个本科生啦刚刚入门,期待一起交流合作 ;)

@kongds1999
Copy link

@wikeeyang 你好,我最近也在研究相关的项目比如storydiffusion,不知道你在试验中有没有发现storydiffusion在长提示词这块的缺陷,就是prompt一长,会导致生成的一致性下降,当然,我考虑了token长度限制的这个问题

@wikeeyang
Copy link
Author

@kentonson 是的,提示词多了、长了,文生图模型的聚焦估计就会出问题,一致性、延续性是挺难的。

@donahowe donahowe closed this as completed Jul 2, 2024
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

4 participants