AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking Head, arXiv'23 #547

AkihikoWatanabe · 2023-04-26T12:09:44Z

AkihikoWatanabe · 2023-04-26T12:13:18Z

text, audio, imageといったマルチモーダルなpromptから、audioに関する様々なタスクを実現できるシステム

AkihikoWatanabe · 2023-04-27T01:52:53Z

マルチモーダルデータをjointで学習したというわけではなく、色々なモデルの組み合わせてタスクを実現しているっぽい

AkihikoWatanabe changed the title ~~AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking Head~~ AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking Head, arXiv'23 Oct 22, 2023

AkihikoWatanabe added ComputerVision NLP MulltiModal AudioProcessing LanguageModel labels Oct 22, 2023

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking Head, arXiv'23 #547

AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking Head, arXiv'23 #547

AkihikoWatanabe commented Apr 26, 2023

AkihikoWatanabe commented Apr 26, 2023 •

edited

AkihikoWatanabe commented Apr 27, 2023 •

edited

AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking Head, arXiv'23 #547

AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking Head, arXiv'23 #547

Comments

AkihikoWatanabe commented Apr 26, 2023

AkihikoWatanabe commented Apr 26, 2023 • edited

AkihikoWatanabe commented Apr 27, 2023 • edited

AkihikoWatanabe commented Apr 26, 2023 •

edited

AkihikoWatanabe commented Apr 27, 2023 •

edited