[20220515] Weekly AI ArXiv 만담 - 51회차 #51

jungwoo-ha · 2022-05-15T00:15:08Z

News

Conference
- NeurIPS deadline: Abs 5.16 (우리시간 5.17 05:00AM), Full 5.19 (우리시간 5.20, 05:00AM), Supp 5.26 (우리시간 5.27, 05:00AM)
- ICML decision: 5.14 AoE (우리시간 5.15, 21:00 예정 but 오후에 공개): 모두들 축하드립니다.
Google I/O
- https://io.google/2022/intl/ko/
- Multisearch, Google Glass, Pixel Watch, New Google Maps, 웨이크업 없는 AI 스피커 등
- 요약: https://www.xda-developers.com/google-io-2022-recap-major-announcements/
IT 기술기업 스타트업 투자 가을이 오는가?
Meta OPT 공개 (정말 모든걸 공개)
HyperscaleFAccT CRAFT @ ACM FAccT 2022
- 6.21, 서울 코엑스.
- 고학수 교수님, 조경현 교수님, M. Mitchell (Ethical AI), 차미영 교수님, 박상철 교수님, Deep Ganguli (Anthropic), 배순민 소장님 등
국내 학회
- 2022 한국IT서비스학회 춘계학술대회: 5.18, 대한상공회의소

ArXiv

Unifying Language Learning Paradigms
- LM을 위한 통합 학습기법: Dec only도 Enc-Dec 도 모두 가능 (from Google Research, PaLM팀)
- Pretrainig task: Mixture of Denoisers (S, R, X)
- Denosing mode 변환을 위해 paradigm token 활용
- 그래서 Finetuning 에 서도 in-context learning에서도 더 좋은 성능
- 아쉬운 점: 얘는 비교를 하려면 Chinchilla 비슷한 크기로 맞춰서 비교했어야..
- 적당한 크기 (수십B 이하) 에서 파라미터를 굉장히 잘활용해서 좋은 LM을 만드는 기법들 (좋은 소식)
A Generalist Agent
- Gato: 604개의 RL게임, Vision 기반 Robot control, Text, image-text 캡셔닝 등 604개의 task를 동일한 웨이트 하나의 1.2B Transformer 로 다루는 제목 그대로 generalist agent (from Deepmind)
- 모든 입력은 token으로 변환 (텍스트, 이미지, discrete value, continuous value), Voc size는 대략 35000
- output은 target token prediction 그래서 image 와 agent observation token prediction task는 없음
- 이미지는 ResNet ecoder로 임베딩, 나머지는 모두 lookup table 스타일 임베딩
- task 구분없이 동일한 형태의 token 시퀀스로 다 집어넣고 학습
- 동일 도메인내 다양한 태스크 구분을 위해서는 prompt 를 활용
- 16 x 16 TPU v3 512batch 1M step 4일간 학습 (의외로 computation 많이 안들어가는 듯)
- 나머지 각 도메인 태스크 결과는 논문에서 확인 가능하십니당.
눈여겨볼 논문들
- One Model, Multiple Modalities: A Sparsely Activated Approach for Text, Sound, Image, Video and Code
  - Tecent 에서 나온 하나의 모델로 다양한 모달리티 데이터를 기법
  - MoE이긴 한데 모달리티 별로 분할 activation 시키는 구조로 보임.

ghlee0304 · 2022-05-15T10:09:23Z

Arxiv

NaturalSpeech: End-to-End Text to Speech Synthesis with Human-Level Quality
- Arxiv / Microsoft Research Asia & Microsoft Azure Speech / TTS
- 샘플 URL : https://speechresearch.github.io/naturalspeech/
- Contribution
  1. TTS의 성능 평가를 위하여 humal-level quality에 대한 정의와 평가 가이드 라인을 설명
  2. VAE 기반의 TTS를 제안하고 있으며 large-scale pre-training을 phoneme encoder에 적용
  3. differential durator (duration predictor와 upsampling layer 포함)를 사용
  4. bidirectional prior/posterior module을 이용하여 텍스트로부터 얻어지는 prior과 speech로부터 얻어지는 posterior 사이의 갭을 줄이는데 도움을 줌
  5. memory bank를 이용한 VAE를 사용
- Experiments
  - Dataset : LJSpeech
  - Pre-training : 200 milion sentence (뉴스 크롤링 데이터)
눈여겨볼 논문들
- Muskits: an End-to-End Music Processing Toolkit for Singing Voice Synthesis
  - End-to-end singing voice synthesis (E2E-SVS) 관련 ESPnet (음성 합성)과 Kaldi (음성 인식) 처럼 주요 모델들을 구현하여 오픈 소스로 만들어놓았음
  - 코드 URL : https://github.com/SJTMusicTeam/Muskits
  - 일본어 데이터 셋 : Ofuton-P, Oniku, Natsume, Kiritan
  - 영어 & 한국어 데이터 셋 : CSD
  - 중국어 데이터 셋 : Opencpop
- Vocalsound: A Dataset for Improving Human Vocal Sounds Recognition
  - 음성의 비언어적 특징을 담은 데이터 셋으로 21,000개 / 웃음, 한숨, 기침 등 / 60개 나라의 3,365명의 화자 / 18 ~80세 사이 데이터를 모았음
  - 샘플 및 다운로드 : https://github.com/yuangongnd/vocalsound
- Silence is Sweeter Than Speech: Self-Supervised Model Using Silence to Store Speaker Information
  - HuBERT를 이용한 SSL 수행 시 speaker의 정보가 silence와 관련된 위치에 담긴다는 것을 발견했다는 논문

kimyoungdo0122 · 2022-05-15T10:13:42Z

News

Hugging Face가 1억 달러 시리즈 C 투자를 유치했습니다
- Hugging Face reaches $2 billion valuation to build the GitHub of machine learning
- 시리즈 A에서는 1천 500만 $, B에서 4천만 $, C에서 1억 $ 투자를 받았고 현재는 기업가치가 20억 달러에 이른다는 내용
- 허깅페이스의 BM은 SaaS?
- 수많은 pre-trained model을 보유한 허깅페이스가 AI community에 이미 엄청난 영향력을 갖고 있는데,
- infrastructure solution이 곁들여진다면 Large-scale auto ml 분야와 같은 enterprise에도 큰 영향력을 가질 것 같습니다
Apple의 Machine Learning Chief인 Ian Goodfellow가 퇴사했다고 합니다
- Apple’s chief of machine learning quits over return-to-office policy
- 애플이 코로나 상황이 끝나간다고 느꼈는지, 5월 말에는 주 3회 오피스 의무 출근을 추진하고 있다고 합니다.
- 그리고 점차 풀 오피스 출근으로 전환하는 것에 이안 굿펠로우는 물론 여러 애플 임직원들이 반발하고 있다고 하네요
- 포스트 코로나가 다가오면서 엔지니어 직군을 포함해 많은 사람들이 일하는 방식에 대해서 갈등이 있을 듯합니다

veritas9872 · 2022-05-15T12:47:31Z

Better plain ViT baselines for ImageNet-1k

Arxiv: https://arxiv.org/pdf/2205.01580.pdf
GitHub: https://github.com/google-research/big_vision/tree/main/big_vision

ViT 학습이 기존 통념보다 잘 된다고 합니다. 기존 CNN에 사용하던 테크닉 없이 단순한 학습 방법을 적용했을 때 오히려 ViT 모델이 성능이 더 좋다는 구글의 연구 결과입니다. ViT 모델이 문제없이 ImageNet top-1 80%를 300 epoch 만에 찍는 것을 보여줍니다. 결론은 너무 어렵게 생각하지 말자는 것...

CoCa: Contrastive Captioners are Image-Text Foundation Models

ImageNet 새로운 SOTA가 등장했습니다. 구글에서 Image to Text 모델을 학습한 결과 모든 라벨을 text 형태로 촐력하게 하여 zero-shot accuracy 86.3%와 fine-tuning 결과 91.0%라는 SOTA를 세웠습니다. ~~결론은 역시 돈 많은 자가 승리한다는 것...~~

이번 주는 너무 새로 나온 내용이 많아서 Yannic Kilcher의 YouTube 공유해드립니다.

ML News Part 1: https://www.youtube.com/watch?v=pwSnC8jlh50
ML News Part 2: https://www.youtube.com/watch?v=smUHQndcmOY

veritas9872 · 2022-05-15T13:39:49Z

Tensorboard / W&B 대신 사용할 수 있는 AimStack 공유해드립니다. https://aimstack.io/
W&B와는 다르게 오픈소스입니다!

jungwoo-ha closed this as completed Aug 6, 2022

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[20220515] Weekly AI ArXiv 만담 - 51회차 #51

[20220515] Weekly AI ArXiv 만담 - 51회차 #51

jungwoo-ha commented May 15, 2022 •

edited

Loading

ghlee0304 commented May 15, 2022 •

edited

Loading

kimyoungdo0122 commented May 15, 2022 •

edited

Loading

veritas9872 commented May 15, 2022

veritas9872 commented May 15, 2022 •

edited

Loading

[20220515] Weekly AI ArXiv 만담 - 51회차 #51

[20220515] Weekly AI ArXiv 만담 - 51회차 #51

Comments

jungwoo-ha commented May 15, 2022 • edited Loading

News

ArXiv

ghlee0304 commented May 15, 2022 • edited Loading

Arxiv

kimyoungdo0122 commented May 15, 2022 • edited Loading

News

veritas9872 commented May 15, 2022

veritas9872 commented May 15, 2022 • edited Loading

jungwoo-ha commented May 15, 2022 •

edited

Loading

ghlee0304 commented May 15, 2022 •

edited

Loading

kimyoungdo0122 commented May 15, 2022 •

edited

Loading

veritas9872 commented May 15, 2022 •

edited

Loading