-
Notifications
You must be signed in to change notification settings - Fork 31
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
请问大佬,跟 StoryDiffusion 比,技术差异在哪里? #15
Comments
你好,正如论文中所提到的,StoryDiffusion的生成是一次性出完所有的图,那么只要有一张图不满意所有故事都要重新生成这并不合理。另外,它在在维护多角色一致性的性能非常有限。AutoStudio主要的目的是探索一个更加困难的任务:实时交互的生图,未来会更新与GPT的接口的代码(前3个agents),能够实现on-the-fly interaction(AutoStudio的SDXL版本也将马上放出) |
是否可以根据参考图,来生成漫画,感觉应用会很广 |
当然可以,论文中的漫画可视化就是参考斗破苍穹/赛博朋克边缘行者完成的绘图,者可以在run.py中手动导入id的参考图实现 |
感谢大佬的快速回复!论文我也都看了,由于本人英文水平和大模型图形处理技术有限,不是太明白,您这么点一下,明白了很多,这也是我对本项目非常感兴趣的原因所在,学到不少,谢谢! 我看你的目标:on-the-fly interaction,我想这应该是现阶段T2I领域顶尖难度的应用了,为你的技术水平和创新Idea点赞! 我测试过 Omost、MuLan、StreamMultiDiffusion、StoryDiffusion、AI Comic Factory 等很多类似或相关的项目,目前在提示词准确性、图片风格延续性、连续出图等方面都存在挑战,我看本项目用了 SAM,一些类似 Segment 的技术,我感觉在图片人物完整性、风格延续性方面应该会有较大的提升!现在就是还没跑通过,如果能连续跑下来,并且试着自己换一下提示剧本,效果稳定的话,我觉得应该有很大的应用市场! 我最近也基于 SD3,测试了两个出图效率提升方面的项目: 目前我自己测了测用 Phi-3-mini-4k-instruct 作为后台 LLM 模型,根据指令,完成中文提示词到英文提示词的翻译转换。 |
是的您说的没错,感谢您的意见。AutoStudio和我先前的工作TheaterGen, CMIGBench数据集都是意在为on-the-fly interaction开路,即使他们的效果距离实际运用(端到端)还有一定的距离。我接下来将会加入腾讯实习继续focus这个领域 ;) 欢迎讨论~ |
为大佬点赞!👍👍👍,期待您的项目越做越好!取得成功。 |
恭喜大佬加入腾讯实习,👍👍👍,我觉得是个好机会,腾讯应该有该领域不少高手,可以一起相互学习提高!我觉得国内目前T2I大模型领域,混元 HunyuanDiT 和华为 PixArt 应该是领先的。特别是华为的 PixArt-Sigma-XL-2-2K-MS 大模型,毕竟任意比例的大分斌率输出挺难的,构图准确挺难,我测试过 6000x2000 这样的宽幅,PixArt 输出都比较准确。 |
感谢,是的,目前t2i距离落地还有一定的距离,特别是interactive t2i,我还是个本科生啦刚刚入门,期待一起交流合作 ;) |
@wikeeyang 你好,我最近也在研究相关的项目比如storydiffusion,不知道你在试验中有没有发现storydiffusion在长提示词这块的缺陷,就是prompt一长,会导致生成的一致性下降,当然,我考虑了token长度限制的这个问题 |
@kentonson 是的,提示词多了、长了,文生图模型的聚焦估计就会出问题,一致性、延续性是挺难的。 |
StoryDiffusion 用的已经是 XL 模型,出图效果不错,在本地部署验证后,感觉输出也比较稳定,输出图片如下:
请问大佬,能讲一下本项目跟 StoryDiffusion 项目的差异点在哪里吗?让我们学习学习,谢谢!
The text was updated successfully, but these errors were encountered: