Awesome-VQVAE

A collection of resources and papers on Vector Quantized Variational Autoencoder (VQ-VAE) and its application.

Blog
Paper
- Image
- Video
- 3D
- Human Pose
- Low-level Vision
- Others
- Speech & Audio

Blog

Understanding VQ-VAE (DALL-E Explained Pt. 1)
Charlie Snell
[Website]
9 Feb 2021

How is it so good ? (DALL-E Explained Pt. 2)
Charlie Snell
[Website]
7 Apr 2021

VQ-VAE: A brief introduction
Jianlin Su
[Website]
24 June 2019

Paper

Image

HQ-VAE: Hierarchical Discrete Representation Learning with Variational Bayes
Yuhta Takida, Yukara Ikemiya, Takashi Shibuya, Kazuki Shimada, Woosung Choi, Chieh-Hsin Lai, Naoki Murata, Toshimitsu Uesaka, Kengo Uchida, Wei-Hsiang Liao, Yuki Mitsufuji
arXiv 2024. [Paper]

Towards Accurate Image Coding: Improved Autoregressive Image Generation with Dynamic Vector Quantization
Mengqi Huang, Zhendong Mao, Zhuowei Chen, Yongdong Zhang
CVPR 2023 Highlight. [Paper]

Not All Image Regions Matter: Masked Vector Quantization for Autoregressive Image Generation
Mengqi Huang, Zhendong Mao, Quan Wang, Yongdong Zhang
CVPR 2023. [Paper]

MAGE: MAsked Generative Encoder to Unify Representation Learning and Image Synthesis
Tianhong Li, Huiwen Chang, Shlok Kumar Mishra, Han Zhang, Dina Katabi, Dilip Krishnan
CVPR 2023. [Paper]

Regularized Vector Quantization for Tokenized Image Synthesis
Jiahui Zhang, Fangneng Zhan, Christian Theobalt, Shijian Lu
CVPR 2023. [Paper]

All in Tokens: Unifying Output Space of Visual Tasks via Soft Token
Jia Ning, Chen Li, Zheng Zhang, Zigang Geng, Qi Dai, Kun He, Han Hu
ICCV 2023. [Paper]

StylerDALLE: Language-Guided Style Transfer Using a Vector-Quantized Tokenizer of a Large-Scale Generative Model
Zipeng Xu, Enver Sangineto, Nicu Sebe
ICCV 2023. [Paper]

Peco: Perceptual Codebook for Bert Pre-training of Vision Transformers
Xiaoyi Dong, Jianmin Bao, Ting Zhang, Dongdong Chen, Weiming Zhang, Lu Yuan, Dong Chen, Fang Wen, Nenghai Yu, Baining Guo
AAAI 2023. [Paper]

Designing a Better Asymmetric VQGAN for StableDiffusion
Zixin Zhu, Xuelu Feng, Dongdong Chen, Jianmin Bao, Le Wang, Yinpeng Chen, Lu Yuan, Gang Hua
arXiv 2023. [Paper]

LLM Itself Can Read and Generate CXR Images
Suhyeon Lee, Won Jun Kim, Jong Chul Ye
arXiv 2023. [Paper]

SPAE: Semantic Pyramid AutoEncoder for Multimodal Generation with Frozen LLMs
Lijun Yu, Yong Cheng, Zhiruo Wang, Vivek Kumar, Wolfgang Macherey, Yanping Huang, David A. Ross, Irfan Essa, Yonatan Bisk, Ming-Hsuan Yang, Kevin Murphy, Alexander G. Hauptmann, Lu Jiang
arXiv 2023. [Paper]

Scaling Laws for Generative Mixed-Modal Language Models
Armen Aghajanyan, Lili Yu, Alexis Conneau, Wei-Ning Hsu, Karen Hambardzumyan, Susan Zhang, Stephen Roller, Naman Goyal, Omer Levy, Luke Zettlemoyer
arXiv 2023. [Paper]

MoVQ: Modulating Quantized Vectors for High-Fidelity Image Generation
Chuanxia Zheng, Long Tung Vuong, Jianfei Cai, Dinh Phung
NeurIPS 2022. [Paper]

SQ-VAE: Variational Bayes on Discrete Representation with Self-annealed Stochastic Quantization
Yuhta Takida, Takashi Shibuya, WeiHsiang Liao, Chieh-Hsin Lai, Junki Ohmura, Toshimitsu Uesaka, Naoki Murata, Shusuke Takahashi, Toshiyuki Kumakura, Yuki Mitsufuji
ICML 2022. [Paper]

Vector-quantized Image Modeling with Improved VQGAN
Jiahui Yu, Xin Li, Jing Yu Koh, Han Zhang, Ruoming Pang, James Qin, Alexander Ku, Yuanzhong Xu, Jason Baldridge, Yonghui Wu
ICLR 2022. [Paper]

BEiT v2: Masked Image Modeling with Vector-Quantized Visual Tokenizers
Zhiliang Peng, Li Dong, Hangbo Bao, Qixiang Ye, Furu Wei
arXiv 2022. [Paper]

BEiT: BERT Pre-Training of Image Transformers
Hangbo Bao, Li Dong, Songhao Piao, Furu Wei
ICLR 2022. [Paper]

High-Resolution Image Synthesis with Latent Diffusion Models
Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, Björn Ommer
CVPR 2022 [Paper]

Vector Quantized Diffusion Model for Text-to-Image Synthesis
Shuyang Gu, Dong Chen, Jianmin Bao, Fang Wen, Bo Zhang, Dongdong Chen, Lu Yuan, Baining Guo
CVPR 2022 [Paper]

MaskGIT: Masked Generative Image Transformer
Huiwen Chang, Han Zhang, Lu Jiang, Ce Liu, William T. Freeman
CVPR 2022. [Paper]

Autoregressive Image Generation using Residual Quantization
Doyup Lee, Chiheon Kim, Saehoon Kim, Minsu Cho, Wook-Shin Han
CVPR 2022. [Paper]

VQFR: Blind Face Restoration with Vector-Quantized Dictionary and Parallel Decoder
Yuchao Gu, Xintao Wang, Liangbin Xie, Chao Dong, Gen Li, Ying Shan, Ming-Ming Cheng
ECCV 2022. [Paper]

Unified-IO: A Unified Model for Vision, Language, and Multi-Modal Tasks
Jiasen Lu, Christopher Clark, Rowan Zellers, Roozbeh Mottaghi, Aniruddha Kembhavi
arXiv 2022. [Paper]

Improved Vector Quantized Diffusion Models
Zhicong Tang, Shuyang Gu, Jianmin Bao, Dong Chen, Fang Wen
arXiv 2022. [Paper]

CogView2: Faster and Better Text-to-Image Generation via Hierarchical Transformers
Ming Ding, Wendi Zheng, Wenyi Hong, Jie Tang
arXiv 2022. [Paper]

DiVAE: Photorealistic Images Synthesis with Denoising Diffusion Decoder
Jie Shi, Chenfei Wu, Jian Liang, Xiang Liu, Nan Duan
arXiv 2022. [Paper]

CogView: Mastering Text-to-Image Generation via Transformers
Ming Ding, Zhuoyi Yang, Wenyi Hong, Wendi Zheng, Chang Zhou, Da Yin, Junyang Lin, Xu Zou, Zhou Shao, Hongxia Yang, Jie Tang
NeurIPS 2021. [Paper]

Zero-Shot Text-to-Image Generation
Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray, Chelsea Voss, Alec Radford, Mark Chen, Ilya Sutskever
ICML 2021. [Paper]

Generating Diverse Structure for Image Inpainting With Hierarchical VQ-VAE
Jialun Peng, Dong Liu, Songcen Xu, Houqiang Li
CVPR 2021. [Paper]

Taming Transformers for High-Resolution Image Synthesis
Patrick Esser, Robin Rombach, B. Ommer
CVPR 2020. [Paper]

Generating Diverse High-Fidelity Images with VQ-VAE-2
Ali Razavi, Aäron van den Oord, Oriol Vinyals
NeurIPS 2019. [Paper]

DVAE++: Discrete Variational Autoencoders with Overlapping Transformations
Arash Vahdat, W. Macready, Zhengbing Bian, Amir Khoshaman
ICML 2018. [Paper]

Neural Discrete Representation Learning
Aaron van den Oord, Oriol Vinyals, Koray Kavukcuoglu
NeurIPS 2017. [Paper]

Video

VideoPoet: A Large Language Model for Zero-Shot Video Generation
Dan Kondratyuk, Lijun Yu, Xiuye Gu, José Lezama, Jonathan Huang, Rachel Hornung, Hartwig Adam, Hassan Akbari, Yair Alon, Vighnesh Birodkar, Yong Cheng, Ming-Chang Chiu, Josh Dillon, Irfan Essa, Agrim Gupta, Meera Hahn, Anja Hauth, David Hendon, Alonso Martinez, David Minnen, David Ross, Grant Schindler, Mikhail Sirotenko, Kihyuk Sohn, Krishna Somandepalli, Huisheng Wang, Jimmy Yan, Ming-Hsuan Yang, Xuan Yang, Bryan Seybold, Lu Jiang
arXiv 2023. [Paper]

Language Model Beats Diffusion -- Tokenizer is Key to Visual Generation
Lijun Yu, José Lezama, Nitesh B. Gundavarapu, Luca Versari, Kihyuk Sohn, David Minnen, Yong Cheng, Agrim Gupta, Xiuye Gu, Alexander G. Hauptmann, Boqing Gong, Ming-Hsuan Yang, Irfan Essa, David A. Ross, Lu Jiang
ICLR 2024. [Paper]

MAGVIT: Masked Generative Video Transformer
Lijun Yu, Yong Cheng, Kihyuk Sohn, José Lezama, Han Zhang, Huiwen Chang, Alexander G. Hauptmann, Ming-Hsuan Yang, Yuan Hao, Irfan Essa, Lu Jiang
CVPR 2023. [Paper]

CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers
Wenyi Hong, Ming Ding, Wendi Zheng, Xinghan Liu, Jie Tang
ICLR 2023. [Paper]

Long Video Generation with Time-Agnostic VQGAN and Time-Sensitive Transformer
Songwei Ge, Thomas Hayes, Harry Yang, Xi Yin, Guan Pang, David Jacobs, Jia-Bin Huang, Devi Parikh
ECCV 2022. [Paper]

Latent Video Transformer
Ruslan Rakhimov, Denis Volkhonskiy, Alexey Artemov, Denis Zorin, Evgeny Burnaev
VISIGRAPP 2021. [Paper]

Predicting Video with VQVAE
Jacob Walker, Ali Razavi, Aäron van den Oord
arXiv 2021. [Paper]

VideoGPT: Video Generation using VQ-VAE and Transformers
Wilson Yan, Yunzhi Zhang, Pieter Abbeel, Aravind Srinivas
arXiv 2021. [Paper]

3D

SDFusion: Multimodal 3D Shape Completion, Reconstruction, and Generation
Yen-Chi Cheng, Hsin-Ying Lee, Sergey Tulyakov, Alexander Schwing, Liangyan Gui
CVPR 2023. [Paper]

AutoSDF: Shape Priors for 3D Completion, Reconstruction and Generation
Paritosh Mittal, Yen-Chi Cheng, Maneesh Singh, Shubham Tulsiani
CVPR 2022. [Paper]

Human Pose

MotionGPT: Human Motion as a Foreign Language
Biao Jiang, Xin Chen, Wen Liu, Jingyi Yu, Gang Yu, Tao Chen
NeurIPS 2023. [Paper]

Human Pose as Compositional Tokens
Zigang Geng, Chunyu Wang, Yixuan Wei, Ze Liu, Houqiang Li, Han Hu
CVPR 2023. [Paper]

HumanTOMATO: Text-aligned Whole-body Motion Generation
Shunlin Lu, Ling-Hao Chen, Ailing Zeng, Jing Lin, Ruimao Zhang, Lei Zhang, Heung-Yeung Shum
arXiv 2023. [Paper]

MoConVQ: Unified Physics-Based Motion Control via Scalable Discrete Representations
Heyuan Yao, Zhenhua Song, Yuyang Zhou, Tenglong Ao, Baoquan Chen, Libin Liu
arXiv 2023. [Paper]

MoMask: Generative Masked Modeling of 3D Human Motions
Chuan Guo, Yuxuan Mu, Muhammad Gohar Javed, Sen Wang, Li Cheng
arXiv 2023. [Paper]

Vector Quantized Diffusion Model with CodeUnet for Text-to-Sign Pose Sequences Generation
Pan Xie, Qipeng Zhang, Zexian Li, Hao Tang, Yao Du, Xiaohui Hu
arXiv 2022. [Paper]

Low-level Vision

Adverse Weather Removal with Codebook Priors
Tian Ye, Sixiang Chen, Jinbin Bai, Jun Shi, Chenghao Xue, Jingxia Jiang, Junjie Yin, Erkang Chen, Yun Liu
ICCV 2023. [Paper]

Others

CityDreamer: Compositional Generative Model of Unbounded 3D Cities
Haozhe Xie, Zhaoxi Chen, Fangzhou Hong, Ziwei Liu
arXiv 2023. [Paper]

Speech&Audio

SoundStream: An End-to-End Neural Audio Codec
Neil Zeghidour, Alejandro Luebs, Ahmed Omran, Jan Skoglund, Marco Tagliasacchi
arXiv 2021. [Paper]

High Fidelity Neural Audio Compression
Alexandre Défossez, Jade Copet, Gabriel Synnaeve, Yossi Adi
TMLR 2023. [Paper]

AudioDec: An Open-source Streaming High-fidelity Neural Audio Codec
Yi-Chiao Wu, Israel D. Gebru, Dejan Marković, Alexander Richard
ICASSP 2023. [Paper]

High-Fidelity Audio Compression with Improved RVQGAN
Rithesh Kumar, Prem Seetharaman, Alejandro Luebs, Ishaan Kumar, Kundan Kumar
NeurIPS 2023. [Paper]

RepCodec: A Speech Representation Codec for Speech Tokenization
Dongchao Yang, Songxiang Liu, Rongjie Huang, Jinchuan Tian, Chao Weng, Yuexian Zou
arXiv 2023. [Paper]

HiFi-Codec: Group-residual Vector quantization for High Fidelity Audio Codec
Zhichao Huang, Chutong Meng, Tom Ko
arXiv 2023. [Paper]

SpeechTokenizer: Unified Speech Tokenizer for Speech Large Language Models
Xin Zhang, Dong Zhang, Shimin Li, Yaqian Zhou, Xipeng Qiu
ICLR 2024. [Paper]

NaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and Diffusion Models
Zeqian Ju, Yuancheng Wang, Kai Shen, Xu Tan, Detai Xin, Dongchao Yang, Yanqing Liu, Yichong Leng, Kaitao Song, Siliang Tang, Zhizheng Wu, Tao Qin, Xiang-Yang Li, Wei Ye, Shikun Zhang, Jiang Bian, Lei He, Jinyu Li, Sheng Zhao
arXiv 2024. [Paper]

Name		Name	Last commit message	Last commit date
Latest commit History 42 Commits
README.md		README.md
license		license

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

license

license

Repository files navigation

Awesome-VQVAE

Blog

Paper

Image

Video

3D

Human Pose

Low-level Vision

Others

Speech&Audio

About

Releases

Packages

Contributors 2

License

rese1f/Awesome-VQVAE

Folders and files

Latest commit

History

README.md

README.md

license

license

Repository files navigation

Awesome-VQVAE

Blog

Paper

Image

Video

3D

Human Pose

Low-level Vision

Others

Speech&Audio

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Packages