Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

image_size = [256,512] #62

Open
likeatingcake opened this issue Mar 24, 2024 · 4 comments
Open

image_size = [256,512] #62

likeatingcake opened this issue Mar 24, 2024 · 4 comments
Labels
question Further information is requested

Comments

@likeatingcake
Copy link

我尝试调整image_size为512来得到更高分辨率的视频,出现错误
(latte) yueyc@super-AS-4124GS-TNR:~/Latte$ bash sample/ffs.sh
Using Ema!
Traceback (most recent call last):
File "/home/yueyc/Latte/sample/sample.py", line 143, in
main(omega_conf)
File "/home/yueyc/Latte/sample/sample.py", line 67, in main
model.load_state_dict(state_dict)
File "/home/yueyc/anaconda3/envs/latte/lib/python3.11/site-packages/torch/nn/modules/module.py", line 2041, in load_state_dict
raise RuntimeError('Error(s) in loading state_dict for {}:\n\t{}'.format(
RuntimeError: Error(s) in loading state_dict for Latte:
size mismatch for pos_embed: copying a param with shape torch.Size([1, 256, 1152]) from checkpoint, the shape in current model is torch.Size([1, 1024, 1152]).

请问预训练的模型ffs.pt采用的分辨率是256px吗,是不是代表如果要采样得到更高分辨率的视频,就需要训练一个512px分辨率的视频

@maxin-cn maxin-cn added the question Further information is requested label Mar 24, 2024
@maxin-cn
Copy link
Collaborator

我尝试调整image_size为512来得到更高分辨率的视频,出现错误 (latte) yueyc@super-AS-4124GS-TNR:~/Latte$ bash sample/ffs.sh Using Ema! Traceback (most recent call last): File "/home/yueyc/Latte/sample/sample.py", line 143, in main(omega_conf) File "/home/yueyc/Latte/sample/sample.py", line 67, in main model.load_state_dict(state_dict) File "/home/yueyc/anaconda3/envs/latte/lib/python3.11/site-packages/torch/nn/modules/module.py", line 2041, in load_state_dict raise RuntimeError('Error(s) in loading state_dict for {}:\n\t{}'.format( RuntimeError: Error(s) in loading state_dict for Latte: size mismatch for pos_embed: copying a param with shape torch.Size([1, 256, 1152]) from checkpoint, the shape in current model is torch.Size([1, 1024, 1152]).

请问预训练的模型ffs.pt采用的分辨率是256px吗,是不是代表如果要采样得到更高分辨率的视频,就需要训练一个512px分辨率的视频

Yes, all except LatteT2V are trained on 256 × 256 pixels. Maybe you can see if you can get a higher-resolution video without training.

@likeatingcake
Copy link
Author

我尝试将 image_size 调整为 512 来获得更高分辨率的视频,出现错误 (latte) yueyc@super-AS-4124GS-TNR:~/Latte$ bash Sample/ffs.sh 使用 Ema!回溯(最近一次调用最后一次)一次):文件“/home/yueyc/Latte/sample/sample.py”,第 143 行,在 main(omega_conf) 文件“/home/yueyc/Latte/sample/sample.py”,第 67 行,在主model.load_state_dict(state_dict) 文件“/home/yueyc/anaconda3/envs/latte/lib/python3.11/site-packages/torch/nn/modules/module.py”,第 2041 行,在 load_state_dict 引发 RuntimeError ('为 {} 加载 state_dict 时错误:\n\t{}'.format( RuntimeError: 为 Latte 加载 state_dict 时错误:pos_embed 大小不匹配:复制形状为 torch.Size([ 1, 256, 1152]) 从检查点开始,当前模型中的形状为torch.Size([1, 1024, 1152])。
请问预训练的模型ffs.pt采用的分辨率是256px吗,不是代表如果要采集获得更高分辨率的视频,就需要训练一个512px分辨率的视频

是的,除了LatteT2V训练以外的所有模型都在256 × 256像素上进行训练。也许你可以看看是否可以在不的情况下获得更高分辨率的视频。

你好,请问ucf101.pt模型支持微调吗

@maxin-cn
Copy link
Collaborator

maxin-cn commented Apr 3, 2024

我尝试将 image_size 调整为 512 来获得更高分辨率的视频,出现错误 (latte) yueyc@super-AS-4124GS-TNR:~/Latte$ bash Sample/ffs.sh 使用 Ema!回溯(最近一次调用最后一次)一次):文件“/home/yueyc/Latte/sample/sample.py”,第 143 行,在 main(omega_conf) 文件“/home/yueyc/Latte/sample/sample.py”,第 67 行,在主model.load_state_dict(state_dict) 文件“/home/yueyc/anaconda3/envs/latte/lib/python3.11/site-packages/torch/nn/modules/module.py”,第 2041 行,在 load_state_dict 引发 RuntimeError ('为 {} 加载 state_dict 时错误:\n\t{}'.format( RuntimeError: 为 Latte 加载 state_dict 时错误:pos_embed 大小不匹配:复制形状为 torch.Size([ 1, 256, 1152]) 从检查点开始,当前模型中的形状为torch.Size([1, 1024, 1152])。
请问预训练的模型ffs.pt采用的分辨率是256px吗,不是代表如果要采集获得更高分辨率的视频,就需要训练一个512px分辨率的视频

是的,除了LatteT2V训练以外的所有模型都在256 × 256像素上进行训练。也许你可以看看是否可以在不的情况下获得更高分辨率的视频。

你好,请问ucf101.pt模型支持微调吗

当然可以finetune ucf101.pt这个模型

@maxin-cn
Copy link
Collaborator

我尝试将 image_size 调整为 512 来获得更高分辨率的视频,出现错误 (latte) yueyc@super-AS-4124GS-TNR:~/Latte$ bash Sample/ffs.sh 使用 Ema!回溯(最近一次调用最后一次)一次):文件“/home/yueyc/Latte/sample/sample.py”,第 143 行,在 main(omega_conf) 文件“/home/yueyc/Latte/sample/sample.py”,第 67 行,在主model.load_state_dict(state_dict) 文件“/home/yueyc/anaconda3/envs/latte/lib/python3.11/site-packages/torch/nn/modules/module.py”,第 2041 行,在 load_state_dict 引发 RuntimeError ('为 {} 加载 state_dict 时错误:\n\t{}'.format( RuntimeError: 为 Latte 加载 state_dict 时错误:pos_embed 大小不匹配:复制形状为 torch.Size([ 1, 256, 1152]) 从检查点开始,当前模型中的形状为torch.Size([1, 1024, 1152])。
请问预训练的模型ffs.pt采用的分辨率是256px吗,不是代表如果要采集获得更高分辨率的视频,就需要训练一个512px分辨率的视频

是的,除了LatteT2V训练以外的所有模型都在256 × 256像素上进行训练。也许你可以看看是否可以在不的情况下获得更高分辨率的视频。

你好,请问ucf101.pt模型支持微调吗

当然可以finetune ucf101.pt这个模型

你可以使用我们提供的train.py去微调该模型

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
question Further information is requested
Projects
None yet
Development

No branches or pull requests

2 participants