SSM-Meets-Video-Diffusion-Models

"SSM Meets Video Diffusion Models: Efficient Video Generation with Structured State Spaces" [Paper]

Device Details

Dataset	UCF101	UCF101	MineRL	MineRL	MineRL
# of Frames	16	16	64	200	400
Resolution	$32 \times 32$	$64 \times 64$	$32 \times 32$	$32 \times 32$	$32 \times 32$
Training steps	92k	106k	174k	255k	246k
GPUs	V100 $\times 4$	A100 $\times 8$	V100 $\times 4$	A100 $\times 8$	A100 $\times 8$
Training Time	72 hours	120 hours	72 hours	100 hours	120 hours

Settings

Please use ./Dockerfile to build docker image or install python libraries specified in this dockerfile.

Run Experimental Codes

Downloading Datasets

UCF101

Please follow the commands shown in ./dl_ucf101.ipynb to download datasets.
Specify ucf101-all as --dataset, and . as --folder.

MineRL Navigate

Execute a following python code.

python dl_mine_rl.py

Specify minerl as --dataset, and minerl_navigate-torch as --folder.

Training

python train_video-diffusion.py 
--timesteps 256 --loss_type 'l2' --train_lr 0.0003 --train_num_steps 700000 --train_batch_size 16 --gradient_accumulate_every 2 --ema_decay 0.995 # Learning Settings
--base_channel_size 64 --timeemb_linears 2 # Architecture Settings
--temporal_layer 'bi-s4d' --s4d_version 16 # Temporal Layer Settings
--image_size 32 --dataset 'ucf101-all' # Dataset Settings
--folder 'path/to/datasets' 
--results_folder 'path/to/save' 
--device_ids 0 1 2 3 # GPU Settings

Sampling

python sample_video-diffusion.py 
--timesteps 256 --loss_type 'l2' --train_lr 0.0003 --train_num_steps 700000 --train_batch_size 16 --gradient_accumulate_every 2 --ema_decay 0.995 # Learning Settings
--base_channel_size 64 --timeemb_linears 2 # Architecture Settings
--temporal_layer 'bi-s4d' --s4d_version 16 # Temporal Layer Settings
--image_size 32 --dataset 'ucf101-all' # Dataset Settings
--folder 'path/to/datasets' 
--results_folder 'path/to/save'
--num_samples 2500 --sample_batch_size 10 --sample_save_every 10 # Sampling Number Settings
--milestone 92                                                   # Sampling Milestone (Progress of Learning) Settings
--device_ids 0 --seed 0                                          # Sampling Device Settings

Evaluation

python eval_video-diffusion.py 
--timesteps 256 --loss_type 'l2' --train_lr 0.0003 --train_num_steps 700000 --train_batch_size 16 --gradient_accumulate_every 2 --ema_decay 0.995 # Learning Settings
--base_channel_size 64 --timeemb_linears 2 # Architecture Settings
--temporal_layer 'bi-s4d' --s4d_version 16 # Temporal Layer Settings
--image_size 32 --dataset 'ucf101-all' # Dataset Settings
--folder 'path/to/datasets' 
--results_folder 'path/to/save'
--num_samples 2500 --sample_batch_size 10 --sample_save_every 10 
--milestone 92                                                   
# --seed 0 --sample_seeds 0 1 2 3 --eval_batch_size 100 # Evaluation Settings

Citation

@misc{ssmvdm2024,
      title={SSM Meets Video Diffusion Models: Efficient Video Generation with Structured State Spaces}, 
      author={Yuta Oshima and Shohei Taniguchi and Masahiro Suzuki and Yutaka Matsuo},
      year={2024},
      eprint={2403.07711},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

Name		Name	Last commit message	Last commit date
Latest commit History 24 Commits
frechet_video_distance		frechet_video_distance
images		images
video_diffusion_pytorch		video_diffusion_pytorch
.gitignore		.gitignore
Dockerfile		Dockerfile
LICENSE		LICENSE
README.md		README.md
dl_mine_rl.py		dl_mine_rl.py
dl_ucf101.ipynb		dl_ucf101.ipynb
eval_video-diffusion.py		eval_video-diffusion.py
sample_video-diffusion.py		sample_video-diffusion.py
train_video-diffusion.py		train_video-diffusion.py

License

shim0114/SSM-Meets-Video-Diffusion-Models

Folders and files

Latest commit

History

Repository files navigation

SSM-Meets-Video-Diffusion-Models

Device Details

Settings

Run Experimental Codes

Downloading Datasets

UCF101

MineRL Navigate

Training

Sampling

Evaluation

Citation

About

Resources

License

Stars

Watchers

Forks

Languages