[20220612] Weekly AI ArXiv 만담 - 54회차 #54

jungwoo-ha · 2022-06-11T07:10:05Z

News

Conferences
- CVPR 2022: 6.19 ~ 24 (New Orleans)
대기업 중심의 AI 투자 관련 (SK, LG, KT 등등)
스캐터랩, 정부와 AI 윤리점검표 개발 추진

ArXiv

Revisiting the "Video" in Video-Language Understanding
- Video-language benchmark 들이 정말 video (temporal) 이해를 평가하는 것이 맞는가? 에 대한 고찰 연구(from Stanford U. 와 Toyota Research)
- Frozen retrained image-text model을 활용한 Atemporal probe 모델을 제안해서 temporal 정보를 배제하여 가장 유용한 single frame만으로 video-language downstream을 풀어봄 --> 생각보다 아주 잘됨
- ATP가 제대로 못풀어야 causal & tempral 정보가 필요한 video-language 벤치마크가 될 것
On Data Scaling in Masked Image Modeling
- Masked Image Modeling 형태의 self-supervised learning에서 데이터 크기 + 학습 epoch + 모델 크기가 주는 영향 분석 (from 칭화대, MSRA)
- MIM은 SimMIM, 모델은 Swin-V2의 여러가지 크기로 함
- 학습데이터는 ImageNet-1k와 21k를 활용, 1k중 학습데이터에 활용 비율 조정.
- 결론은 예상가능한 내용
  - 데이터 많이 쓰면 성능 좋아짐, 모델 큰데 데이터 작으면 overfit,
  - 데이터가 많을 때는 학습오래하면 유리함
  - validation loss는 downstream task 성능 예측에 좋은 지표가됨
흥미있는 연구
- Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models
  - PaLM에서도 사용된 언어모델 평가용 BIG-Bench 데이터셋 (132개 기관 442명)
- Extreme Masking for Learning Instance and Distributed Visual Representations
  - MSRA에서 나온.. MIM ViT에서 masked비율을 75%보다 훨씬 키워 학습?
- VideoINR: Learning Video Implicit Neural Representation for Continuous Space-Time Super-Resolution
  - INR로 In-the-wild video super resolution을 (CVPR2022 oral)

ghlee0304 · 2022-06-12T03:09:57Z

Arxiv (audio and speech processing)

StyleTTS: A Style-Based Generative Model for Natural and Diverse Text-to-Speech Synthesis
- TTS / Columbia University
- 샘플 URL : https://styletts.github.io/
- referenc speech 로부터 자연스러운 운율을 가지는 다양한 speech (diverse speech)를 생성하는 모델을 제안
- Transferable Monotonic Aligner(TMA), duration-invariant data augmentation 방법, speaking style을 위한 SSL 방법을 사용
- 이 논문에서 눈여겨봐야할 점
  1. mel-spectrogram과 phoneme 사이의 alignment를 개선하기 위하여 노력한 점
  2. AdaIN을 사용한 점 (효과를 입증하기 위해서 비교한 점)
- Structure
  1. text aligner는 mel-spectrogram과 phoneme 사이의 alignment를 예측하는 모듈로 LibriSpeech 를 이용하여 사전학습을 취한 후 decoder와 연결하여 fine-tune을 수행
  2. style encoder는 mel-spectrogram을 이용하여 global style vector를 추출하는 역할을 함
  3. pitch extractor는 FastPitch 처럼 F0를 추출하는데 LibriSpeech를 이용하여 사전 학습 후 사용
  4. decoder에서는 phoneme representation과 style vector, pitch, energy를 이용하는데 style vector를 사용할 때 AdaIN을 사용하는 것이 특징
  5. prosody predictors는 pitch와 energy를 에측하는데 보간법을 이용하여 duration을 늘리는 방법을 수행함으로써 다양한 duration에 대해서 robust한 pitch와 energy가 에측되도록 하기 위함
- LJSpeech(single), LibriTTS(multi), ESD (emotional speech dataset, 10 chinese, 10 english, 5 emotions)
UTTS: Unsupervised TTS with Conditional Disentangled Sequential Variational Auto-encoder
- TTS / UC Berkeley, Tencent AI
- 샘플 URL : https://neurtts.github.io/utts_demo/
- audio-text pair가 필요없는 unsupervised text-to-speech (UTTS)를 제안
- 이 논문에서 눈여겨봐야할 점
  1. C-DSVAE가 voice conversion에 사용이 되었고 이를 TTS로 확장했다는 점
  2. masked prediction training을 이용해서 FA(Forced alignment)와 UA(Unsupervised alignment) 사이 관계를 학습
- 기존의 supervised TTS AM(acoustic model)은 aligner가 필요하지만 UTTS AM은 필요가 없음
  1. 기존의 AM은 phoneme sequence의 alignment를 frame마다 acoustic feature로 mapping해야 하지만, UTTS에서는 SSL feature를 이용한 acoustic partition으로부터 unsupervised alignment를 사용한다.
    - self-supervised speech pre-training model은 WavLM을 사용
    - WavLM-Base는 Librispeech-960h를 이용하여 사전 학습되고 acoustic feature를 추출한다.
    - Kmeans++ 알고리즘을 acoustic feature에 적용하여 프레임별 pseudo label을 생성
    - 해당 label은 utterenace X 의 phonetic structure를 나타낸다고 가정
  2. Conditional Disentangled Sequential Variational Auto-encoder (C-DSVAE)를 backbone으로 사용하여 self-supervised/unsupervised model이 가능하기 때문에 TTS data 뿐만 아니라 일반적은 speech data도 사용 가능
    - $X$ : an input utterance
    - $E_{sq}$: a posterior speaker encoder
    - $E_{sp}$ : a prior speaker encoder
    - $E_{cq}$ : a posterior content encoder
흥미 있는 연구
- Zero-Shot Voice Conditioning for Denoising Diffusion TTS Models
  - diffusion TTS / Tel Aviv & Facebook AI Research
  - 학습 중에 사용하지 않는 새로운 speaker의 목소리로 음성을 생성하기 위한 방법 제안 (3초)
  - diffusion 기반인 Grad-TTS에 reference audio를 추가하여 reference audio의 speaker로 합성이 가능하게 만드는 모델
  - 합성음은 아직 없고, 논문의 완성도가 높지 않아 추후 수정될 것으로 예상됨
- Guided-TTS 2: A Diffusion Model for High-quality Adaptive Text-to-Speech with Untranscribed Data
  - diffusion TTS / SNU
  - 기존의 speaker conditioned Guided-TTS를 발전시켜 target speaker의 목소리를 생성하기 위한 방법 제안 (40초)
  - 샘플 URL : https://ksw0306.github.io/guided-tts2-demo/
  - Guided-TTS의 경우 text 전사 없이 diffusion 모델(DDPM)을 학습하되 ASR dataset으로 학습된 classifier를 이용하여 guide를 주는 방식으로 TTS를 구현
  - Guided-TTS2는 DDPM을 speaker conditional DDPM으로 학습, 여기서 speaker encoder도 사전 학습이 된 것을 사용
  - 샘플이 인상적, 스티브 잡스나 손흥민 같은 사람이나, 골룸이나 글라도스 (게임 '포탈'에 나오는 음성) 도 생성함
- BigVGAN: A Universal Neural Vocoder with Large-Scale Training
  - https://github.com/NVIDIA/BigVGAN
  - 보코더 논문으로 저자(이상길)가 FloWaveNet, NonoFlow 보코더 저자로 NVIDIA 인턴으로 작성한 논문
  - speaker와 관계 없이 잘 나오는 universal neural vocoder를 제안
  - HiFi-GAN generator를 사용하고 Discriminator에서 multi-scale discriminator(MSD) 대신 multi-resolution discriminator(MRD)를 사용
  - LeakyReLU 대신에 Snake function $f_{\alpha}(x) = x + \frac{1}{\alpha}\sin(\alpha x)^2$ 함수를 사용
  - 특이점으로는 mel-spectrogram 사용시 full-band frequency를 사용하고 100차원은 log-mel spectrogram을 사용한다는 점
  - 학습 데이터는 LibriTTS 데이터 (노이즈 한 것 까지 모두)

Clyde21c · 2022-06-12T08:09:15Z

Multi-Game Decision Transformers

site
from Google Research
Decision Transformer (DT) 와 같은 sequence model기반 RL알고리즘의 generalist agent로서의 & scaling에 따른 성능에 관한 연구.
multi task 문제에 대해 Decision Transformer 기반의 sequence modeling이 사람 대비 126% 게임 실력을 보여줌. specialist agent보단 낮지만 그에 근접한 성능.
large-scale language model이나 vision model에서 보아왔던 경향성과 유사한 특성을 확인함
1. generalist RL agent에 대해 모델사이즈와 성능 사이의 power-law 관계를 확인
2. pretrained RL agent에 대해 처음주어진 적은데이터로 빠른 finetunning이 되는것을 확인
expert데이터를 학습한 Gato와 달리, 여기선 non-expert 데이터도 활용.
Behavior cloning에 가까운 Gato와 달리 DT는 주어진 return 조건에 대한 action sequence를 생성하는 upside down RL (UDRL)
대신 inference할때 language model에서 쓰이는 guided discriminator접근을 활용하여 expert의 것일 가능성이 큰 return을 조건으로 주어 action을 생성.
Behavior cloning과 달리 non-expert데이터를 학습할경우 더 나은 성능 보여줌.
attention analysis 결과 general agent가 의미있는 이미지 패치에 집중하는것을 확인.

veritas9872 · 2022-06-12T12:26:20Z

AI's New Frontier

영국 Economist지에서 인공지능과 Foundational Model에 대한 특집을 이번주에 냈습니다.

기술전문 신문이 아님에도 불구하고 최근에 나온 GATO 모델 등에 대해서 매우 자세하고 논의하고 일반인의 입장에서도 Foundation model 및 자연어 모델, DALL-E 등 초거대 모델과 이로 인해 발생하는 이슈 등에 대해 매우 잘 정리했기 때문에 비전문가에게 분야 및 이슈를 소개하는데 매우 좋은 기사라고 생각됩니다.

또한, 저명한 인지과학자이신 Douglas Hofstadter의 GPT3와의 adversarial한 대화를 통해 아직까지도 인공지능이 겉으로는 세계에 대해 이해를 하고 있는 것으로 보일 수 있지만 진정한 World Model을 가지지 못하는 것을 보이는데 최근 이슈가 된 AI 모델과 의식의 관계에 대해 이미 많이 고민을 해본 사람에게도 새로운 각도를 제시해주어 도움이 될 수 있다고 생각합니다.

참조를 위해 이번 주 기사 링크를 공유해드립니다.

https://www.economist.com/interactive/briefing/2022/06/11/huge-foundation-models-are-turbo-charging-ai-progress

https://www.economist.com/by-invitation/2022/06/09/artificial-neural-networks-today-are-not-conscious-according-to-douglas-hofstadter

veritas9872 · 2022-06-12T12:41:34Z

An on-chip photonic deep neural network for image classification
URL: https://www.nature.com/articles/s41586-022-04714-0
Paper: https://arxiv.org/ftp/arxiv/papers/2106/2106.11747.pdf

Quantum advantage in learning from experiments
URL: https://www.science.org/doi/10.1126/science.abn7293
Paper: https://arxiv.org/pdf/2112.00778.pdf

딥러닝에 양자 컴퓨터를 사용하는 논문이 각각 Nature와 Science에 accept되었습니다.
초대형 딥러닝 모델이 이슈화되면서 1조 parameter 이상의 모델은 기존의 컴퓨터에서 실행하는데 data transfer로 인해 실행이 느려질 수 밖에 없는데 레이저를 이용할 경우 모델 구조마다 전용 프로세서를 만들어야한다는 단점이 있지만 대신 광속의 실행 시간을 적용할 수 있다는 매우 큰 장점을 가지기 때문에 초거대 신경망을 사용하는데 도움이 될 수 있다고 생각됩니다. 특히 최근 모델들은 대체로 비슷한 구조를 중첩한 구조이기 때문에 더더욱 도움이 될 것으로 생각됩니다.

Beyond the Imitation Game: Collaborative benchmark for measuring and extrapolating the capabilities of language models
Paper: https://arxiv.org/pdf/2206.04615.pdf
GitHub: https://github.com/google/BIG-bench

hollobit · 2022-06-12T13:01:17Z

IBM Global AI Adoption Index 2022

https://www.ibm.com/watson/resources/ai-adoption
https://www.ibm.com/downloads/cas/GVAGA3JP

2022년 세계 기업의 평균 AI 도입률은 34%로 전년 대비 13%

국내 기업 AI 도입 격차...1000명 이상 93% vs 1000명 이하 57%

국내 기업은 AI를 도입하는 주요 목적으로 IT운영 효율성 제고(40%), 비즈니스 프로세스 효율성 제고(39%), 비용 절감(39%)

전세계적으로 기업은 설명 가능하고 신뢰할 수 있는 AI 개발과 관련하여 여러 장벽에 직면

63% Lack of skills and training to develop and manage trustworthy AI

60% AI governance and management tools that don’t work across all data environments

59% Lack of an AI strategy

57% AI outcomes that aren’t explainable

57% Lack of company guidelines for developing trustworthy, ethical AI

57% AI vendors who don’t include explainability features

56% Lack of regulatory guidance from governments or industry

56% Building models on data that has inherent bias (social, economic, and so on)

(AI 도입을 저해하는 요소) ‘AI 기술, 지식 및 전문성 부족(45%)’, ‘AI 모델 개발을 위한 도구 및 플랫폼 부족(39%)’, ‘지나치게 높은 가격(33%)’

"산업계 AI 활용률 2.5%뿐… 옥석 가려 R&D 집중해야" [AI World 2022]]

https://www.fnnews.com/news/202206121752200319

국내 AI R&D 발전방향은... ETRI·6대 학회장 간담회

Many researchers were not compliant with their published data sharing statement: mixed-methods study

https://linkinghub.elsevier.com/retrieve/pii/S089543562200141X
https://twitter.com/liviapuljak/status/1534168511932780545?fbclid=IwAR3UcZnjwThyN5ejYj9rcDo5uLnZ98Cbwd8hPgvdJQ65yt6yjIy2glAlg28

BioMed Central에서 333개의 오픈 액세스 저널에 발간된 논문들을 분석하고 데이터 공개 여부를 저자가 알려주는 데이터 가용성 선언문(DAS:Data Availability Statement)에 적힌데로 제공되는지를 분석한 논문

3556개의 분석 논문 중 3416개가 DAS를 포함

가장 빈번한 DAS 범주(42%)는 데이터 세트를 합리적 요청시 제공 가능하다는 형태 (datasets are available on reasonable request)

추적 조사해보니 DAS에서 저자가 데이터를 공유할 의향이 있다고 표시한 1792개의 논문 중 1670(93%)의 저자가 응답하지 않거나 데이터 공유를 거부

데이터 공유 요청에 응답한 1792명의 저자 254명(14%) 중 122명(6.8%)만이 요청된 데이터를 제공

AI/ML 분야는 ?

kwonminki · 2022-06-12T13:05:30Z

Elucidating the Design Space of Diffusion-Based Generative Models | arxiv

Tero Karras 1저자.. 이젠 DIffusion까지 건드는건가 싶네요.

정말 케라스 스타일 그대로 많은 실험과 뛰어난 직감을 가지고 모델을 재구성한 듯 합니다.

하이퍼 파라미터 조절 (dependent 하도록)
모델의 약간의 변화
σ-dependent normalization factor 의 수정. (기존에는 작을 땐 너무 작고 클 땐 너무 컸음)
σ(time step t)에 따른 loss 변화
data agumentation

jungwoo-ha closed this as completed Aug 6, 2022

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[20220612] Weekly AI ArXiv 만담 - 54회차 #54

[20220612] Weekly AI ArXiv 만담 - 54회차 #54

jungwoo-ha commented Jun 11, 2022 •

edited

Loading

ghlee0304 commented Jun 12, 2022 •

edited

Loading

Clyde21c commented Jun 12, 2022 •

edited

Loading

veritas9872 commented Jun 12, 2022

veritas9872 commented Jun 12, 2022

hollobit commented Jun 12, 2022 •

edited

Loading

kwonminki commented Jun 12, 2022

[20220612] Weekly AI ArXiv 만담 - 54회차 #54

[20220612] Weekly AI ArXiv 만담 - 54회차 #54

Comments

jungwoo-ha commented Jun 11, 2022 • edited Loading

News

ArXiv

ghlee0304 commented Jun 12, 2022 • edited Loading

Arxiv (audio and speech processing)

Clyde21c commented Jun 12, 2022 • edited Loading

veritas9872 commented Jun 12, 2022

veritas9872 commented Jun 12, 2022

hollobit commented Jun 12, 2022 • edited Loading

IBM Global AI Adoption Index 2022

"산업계 AI 활용률 2.5%뿐… 옥석 가려 R&D 집중해야" [AI World 2022]]

Many researchers were not compliant with their published data sharing statement: mixed-methods study

kwonminki commented Jun 12, 2022

Elucidating the Design Space of Diffusion-Based Generative Models | arxiv

jungwoo-ha commented Jun 11, 2022 •

edited

Loading

ghlee0304 commented Jun 12, 2022 •

edited

Loading

Clyde21c commented Jun 12, 2022 •

edited

Loading

hollobit commented Jun 12, 2022 •

edited

Loading