image_size = [256,512] #62

likeatingcake · 2024-03-24T10:12:22Z

我尝试调整image_size为512来得到更高分辨率的视频，出现错误
(latte) yueyc@super-AS-4124GS-TNR:~/Latte$ bash sample/ffs.sh
Using Ema!
Traceback (most recent call last):
File "/home/yueyc/Latte/sample/sample.py", line 143, in
main(omega_conf)
File "/home/yueyc/Latte/sample/sample.py", line 67, in main
model.load_state_dict(state_dict)
File "/home/yueyc/anaconda3/envs/latte/lib/python3.11/site-packages/torch/nn/modules/module.py", line 2041, in load_state_dict
raise RuntimeError('Error(s) in loading state_dict for {}:\n\t{}'.format(
RuntimeError: Error(s) in loading state_dict for Latte:
size mismatch for pos_embed: copying a param with shape torch.Size([1, 256, 1152]) from checkpoint, the shape in current model is torch.Size([1, 1024, 1152]).

请问预训练的模型ffs.pt采用的分辨率是256px吗，是不是代表如果要采样得到更高分辨率的视频，就需要训练一个512px分辨率的视频

maxin-cn · 2024-03-24T10:15:42Z

我尝试调整image_size为512来得到更高分辨率的视频，出现错误 (latte) yueyc@super-AS-4124GS-TNR:~/Latte$ bash sample/ffs.sh Using Ema! Traceback (most recent call last): File "/home/yueyc/Latte/sample/sample.py", line 143, in main(omega_conf) File "/home/yueyc/Latte/sample/sample.py", line 67, in main model.load_state_dict(state_dict) File "/home/yueyc/anaconda3/envs/latte/lib/python3.11/site-packages/torch/nn/modules/module.py", line 2041, in load_state_dict raise RuntimeError('Error(s) in loading state_dict for {}:\n\t{}'.format( RuntimeError: Error(s) in loading state_dict for Latte: size mismatch for pos_embed: copying a param with shape torch.Size([1, 256, 1152]) from checkpoint, the shape in current model is torch.Size([1, 1024, 1152]).

请问预训练的模型ffs.pt采用的分辨率是256px吗，是不是代表如果要采样得到更高分辨率的视频，就需要训练一个512px分辨率的视频

Yes, all except LatteT2V are trained on 256 × 256 pixels. Maybe you can see if you can get a higher-resolution video without training.

likeatingcake · 2024-04-03T12:22:19Z

我尝试将 image_size 调整为 512 来获得更高分辨率的视频，出现错误 (latte) yueyc@super-AS-4124GS-TNR:~/Latte$ bash Sample/ffs.sh 使用 Ema！回溯（最近一次调用最后一次）一次）：文件“/home/yueyc/Latte/sample/sample.py”，第 143 行，在 main(omega_conf) 文件“/home/yueyc/Latte/sample/sample.py”，第 67 行，在主model.load_state_dict(state_dict) 文件“/home/yueyc/anaconda3/envs/latte/lib/python3.11/site-packages/torch/nn/modules/module.py”，第 2041 行，在 load_state_dict 引发 RuntimeError ('为 {} 加载 state_dict 时错误：\n\t{}'.format( RuntimeError: 为 Latte 加载 state_dict 时错误：pos_embed 大小不匹配：复制形状为 torch.Size([ 1, 256, 1152]) 从检查点开始，当前模型中的形状为torch.Size([1, 1024, 1152])。
请问预训练的模型ffs.pt采用的分辨率是256px吗，不是代表如果要采集获得更高分辨率的视频，就需要训练一个512px分辨率的视频

是的，除了LatteT2V训练以外的所有模型都在256 × 256像素上进行训练。也许你可以看看是否可以在不的情况下获得更高分辨率的视频。

你好，请问ucf101.pt模型支持微调吗

maxin-cn · 2024-04-03T22:47:30Z

我尝试将 image_size 调整为 512 来获得更高分辨率的视频，出现错误 (latte) yueyc@super-AS-4124GS-TNR:~/Latte$ bash Sample/ffs.sh 使用 Ema！回溯（最近一次调用最后一次）一次）：文件“/home/yueyc/Latte/sample/sample.py”，第 143 行，在 main(omega_conf) 文件“/home/yueyc/Latte/sample/sample.py”，第 67 行，在主model.load_state_dict(state_dict) 文件“/home/yueyc/anaconda3/envs/latte/lib/python3.11/site-packages/torch/nn/modules/module.py”，第 2041 行，在 load_state_dict 引发 RuntimeError ('为 {} 加载 state_dict 时错误：\n\t{}'.format( RuntimeError: 为 Latte 加载 state_dict 时错误：pos_embed 大小不匹配：复制形状为 torch.Size([ 1, 256, 1152]) 从检查点开始，当前模型中的形状为torch.Size([1, 1024, 1152])。
请问预训练的模型ffs.pt采用的分辨率是256px吗，不是代表如果要采集获得更高分辨率的视频，就需要训练一个512px分辨率的视频

是的，除了LatteT2V训练以外的所有模型都在256 × 256像素上进行训练。也许你可以看看是否可以在不的情况下获得更高分辨率的视频。

你好，请问ucf101.pt模型支持微调吗

当然可以finetune ucf101.pt这个模型

maxin-cn · 2024-04-11T01:13:36Z

我尝试将 image_size 调整为 512 来获得更高分辨率的视频，出现错误 (latte) yueyc@super-AS-4124GS-TNR:~/Latte$ bash Sample/ffs.sh 使用 Ema！回溯（最近一次调用最后一次）一次）：文件“/home/yueyc/Latte/sample/sample.py”，第 143 行，在 main(omega_conf) 文件“/home/yueyc/Latte/sample/sample.py”，第 67 行，在主model.load_state_dict(state_dict) 文件“/home/yueyc/anaconda3/envs/latte/lib/python3.11/site-packages/torch/nn/modules/module.py”，第 2041 行，在 load_state_dict 引发 RuntimeError ('为 {} 加载 state_dict 时错误：\n\t{}'.format( RuntimeError: 为 Latte 加载 state_dict 时错误：pos_embed 大小不匹配：复制形状为 torch.Size([ 1, 256, 1152]) 从检查点开始，当前模型中的形状为torch.Size([1, 1024, 1152])。
请问预训练的模型ffs.pt采用的分辨率是256px吗，不是代表如果要采集获得更高分辨率的视频，就需要训练一个512px分辨率的视频

是的，除了LatteT2V训练以外的所有模型都在256 × 256像素上进行训练。也许你可以看看是否可以在不的情况下获得更高分辨率的视频。

你好，请问ucf101.pt模型支持微调吗

当然可以finetune ucf101.pt这个模型

你可以使用我们提供的train.py去微调该模型

maxin-cn added the question Further information is requested label Mar 24, 2024

maxin-cn closed this as completed Jul 19, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

image_size = [256,512] #62

image_size = [256,512] #62

likeatingcake commented Mar 24, 2024

maxin-cn commented Mar 24, 2024

likeatingcake commented Apr 3, 2024

maxin-cn commented Apr 3, 2024 •

edited

Loading

maxin-cn commented Apr 11, 2024

image_size = [256,512] #62

image_size = [256,512] #62

Comments

likeatingcake commented Mar 24, 2024

maxin-cn commented Mar 24, 2024

likeatingcake commented Apr 3, 2024

maxin-cn commented Apr 3, 2024 • edited Loading

maxin-cn commented Apr 11, 2024

maxin-cn commented Apr 3, 2024 •

edited

Loading