New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

Sign up for GitHub

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Jump to bottom

OpenAI Sora 技术解析 #5

Closed

zhendi opened this issue Feb 22, 2024 · 1 comment

Owner

zhendi commented Feb 22, 2024

No description provided.

github-actions bot commented Feb 22, 2024

Sora 模型的两个核心原则是什么？

大规模（Large-scale）：数据量大、模型大、算力大。
生成式（Generative）：基于文本条件下的扩散模型。

如何将视频数据转换为同一个表示空间？

首先将视频压缩到潜空间。
然后将视频分块成词元。
最后使用描述性字幕模型和 GPT 来为视频提供文本描述。

Diffusion Transformer (DiT) 模型有何特点？

既可以利用 Transformer 的优点，又可以利用扩散模型的优点。
可以通过增加模型参数、训练数据或训练迭代次数来提高模型精度。

Sora 模型可以生成哪些尺寸的视频？

Sora 模型可以生成 2K 分辨率的视频，以及任何在这两者区间的所有分辨率。

Sora 模型可以提高视频取景和构图的质量吗？

可以。Sora 模型可以生成更真实的视频，并且可以更好地呈现视频中的物体。

算力对 Sora 模型的生成质量有何影响？

算力对 Sora 模型的生成质量有很大的影响。使用更多的算力可以生成更高分辨率和更细腻的视频。

Sora 模型有哪些仿真能力？

三维场景一致性。
长距离相干和物体恒存。
能与世界交互。
能仿真数字世界。

Sora 模型有哪些潜在的应用场景？

画质增强。
在空间或时间上延展视频。
通过文字描述把图片变成视频。
拼接融合多个视频。

zhendi closed this as completed

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment