请问大佬，跟 StoryDiffusion 比，技术差异在哪里？ #15

wikeeyang · 2024-06-22T02:21:45Z

StoryDiffusion 用的已经是 XL 模型，出图效果不错，在本地部署验证后，感觉输出也比较稳定，输出图片如下：

请问大佬，能讲一下本项目跟 StoryDiffusion 项目的差异点在哪里吗？让我们学习学习，谢谢！

donahowe · 2024-06-22T03:05:51Z

你好，正如论文中所提到的，StoryDiffusion的生成是一次性出完所有的图，那么只要有一张图不满意所有故事都要重新生成这并不合理。另外，它在在维护多角色一致性的性能非常有限。AutoStudio主要的目的是探索一个更加困难的任务：实时交互的生图，未来会更新与GPT的接口的代码（前3个agents），能够实现on-the-fly interaction（AutoStudio的SDXL版本也将马上放出）

JoshonSmith · 2024-06-22T08:09:45Z

你好，正如论文中所提到的，StoryDiffusion的生成是一次性出完所有的图，那么只要有一张图不满意所有故事都要重新生成这并不合理。另外，它在在维护多角色一致性的性能非常有限。AutoStudio主要的目的是探索一个更加困难的任务：实时交互的生图，未来会更新与GPT的接口的代码（前3个agents），能够实现on-the-fly interaction（AutoStudio的SDXL版本也将马上放出）

是否可以根据参考图，来生成漫画，感觉应用会很广

donahowe · 2024-06-22T08:13:44Z

当然可以，论文中的漫画可视化就是参考斗破苍穹/赛博朋克边缘行者完成的绘图，者可以在run.py中手动导入id的参考图实现

wikeeyang · 2024-06-22T08:56:13Z

感谢大佬的快速回复！论文我也都看了，由于本人英文水平和大模型图形处理技术有限，不是太明白，您这么点一下，明白了很多，这也是我对本项目非常感兴趣的原因所在，学到不少，谢谢！

我看你的目标：on-the-fly interaction，我想这应该是现阶段T2I领域顶尖难度的应用了，为你的技术水平和创新Idea点赞！

我测试过 Omost、MuLan、StreamMultiDiffusion、StoryDiffusion、AI Comic Factory 等很多类似或相关的项目，目前在提示词准确性、图片风格延续性、连续出图等方面都存在挑战，我看本项目用了 SAM，一些类似 Segment 的技术，我感觉在图片人物完整性、风格延续性方面应该会有较大的提升！现在就是还没跑通过，如果能连续跑下来，并且试着自己换一下提示剧本，效果稳定的话，我觉得应该有很大的应用市场！

我最近也基于 SD3，测试了两个出图效率提升方面的项目：
https://github.com/gojasper/flash-diffusion
https://github.com/madebyollin/taesd
这两个项目结合，能使SD3秒速出图，效果还不错。当然，这两个项目都支持SD1.5、SDXL以及最新的SD3。
大佬也可以考虑在提升出图效率方面，是否能结合进去，当然，这个得看具体技术点，我不太懂。

目前我自己测了测用 Phi-3-mini-4k-instruct 作为后台 LLM 模型，根据指令，完成中文提示词到英文提示词的翻译转换。
然后，结合上述两个项目的出图速度提升，在自己本地环境，SD3出图速度快了非常多，在老破旧的显卡，基本也能秒速出图。

donahowe · 2024-06-22T09:00:11Z

是的您说的没错，感谢您的意见。AutoStudio和我先前的工作TheaterGen, CMIGBench数据集都是意在为on-the-fly interaction开路，即使他们的效果距离实际运用（端到端）还有一定的距离。我接下来将会加入腾讯实习继续focus这个领域 ;) 欢迎讨论~

wikeeyang · 2024-06-22T09:12:17Z

为大佬点赞！👍👍👍，期待您的项目越做越好！取得成功。

wikeeyang · 2024-06-22T09:58:07Z

恭喜大佬加入腾讯实习，👍👍👍，我觉得是个好机会，腾讯应该有该领域不少高手，可以一起相互学习提高！我觉得国内目前T2I大模型领域，混元 HunyuanDiT 和华为 PixArt 应该是领先的。特别是华为的 PixArt-Sigma-XL-2-2K-MS 大模型，毕竟任意比例的大分斌率输出挺难的，构图准确挺难，我测试过 6000x2000 这样的宽幅，PixArt 输出都比较准确。

donahowe · 2024-06-22T11:58:39Z

恭喜大佬加入腾讯实习，👍👍👍，我觉得是个好机会，腾讯应该有该领域不少高手，可以一起相互学习提高！我觉得国内目前T2I大模型领域，混元 HunyuanDiT 和华为 PixArt 应该是领先的。特别是华为的 PixArt-Sigma-XL-2-2K-MS 大模型，毕竟任意比例的大分斌率输出挺难的，构图准确挺难，我测试过 6000x2000 这样的宽幅，PixArt 输出都比较准确。

感谢，是的，目前t2i距离落地还有一定的距离，特别是interactive t2i，我还是个本科生啦刚刚入门，期待一起交流合作 ;）

kongds1999 · 2024-06-27T01:38:16Z

@wikeeyang 你好，我最近也在研究相关的项目比如storydiffusion，不知道你在试验中有没有发现storydiffusion在长提示词这块的缺陷，就是prompt一长，会导致生成的一致性下降，当然，我考虑了token长度限制的这个问题

wikeeyang · 2024-06-27T06:36:54Z

@kentonson 是的，提示词多了、长了，文生图模型的聚焦估计就会出问题，一致性、延续性是挺难的。

donahowe closed this as completed Jul 2, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

请问大佬，跟 StoryDiffusion 比，技术差异在哪里？ #15

请问大佬，跟 StoryDiffusion 比，技术差异在哪里？ #15

wikeeyang commented Jun 22, 2024

donahowe commented Jun 22, 2024

JoshonSmith commented Jun 22, 2024

donahowe commented Jun 22, 2024

wikeeyang commented Jun 22, 2024

donahowe commented Jun 22, 2024

wikeeyang commented Jun 22, 2024

wikeeyang commented Jun 22, 2024

donahowe commented Jun 22, 2024

kongds1999 commented Jun 27, 2024

wikeeyang commented Jun 27, 2024

请问大佬，跟 StoryDiffusion 比，技术差异在哪里？ #15

请问大佬，跟 StoryDiffusion 比，技术差异在哪里？ #15

Comments

wikeeyang commented Jun 22, 2024

donahowe commented Jun 22, 2024

JoshonSmith commented Jun 22, 2024

donahowe commented Jun 22, 2024

wikeeyang commented Jun 22, 2024

donahowe commented Jun 22, 2024

wikeeyang commented Jun 22, 2024

wikeeyang commented Jun 22, 2024

donahowe commented Jun 22, 2024

kongds1999 commented Jun 27, 2024

wikeeyang commented Jun 27, 2024