[20211017] Weekly AI ArXiv 만담 #27

jungwoo-ha · 2021-10-12T04:12:41Z

News
ArXiv
- Supervision Exists Everywhere: A Data Efficient Contrastive Language-Image Pre-training Paradigm
  - 데이터를 적게 쓰는 CLIP (DeCLIP) (from 센스타임, UT Austin, U of Sydney) , ICLR 제출버전인듯
  - (1) self-supervision within each modality; (2) multi-view supervision across modalities; (3) nearest-neighbor supervision from other similar pairs.
  - 400M의 1/7 만 쓰고도 DeCLIP-ResNet50 ImageNet-1k Zeroshot 60.4%
- WenetSpeech: A 10000+ Hours Multi-domain Mandarin Corpus for Speech Recognition
  - Librispeech 의 중국어 버전인데 규모가 훨씬 큰 음성데이터셋
  - labeled 10000시간 이상, Weakly labeled 2400시간 이상, Unlabeled 10000시간 이상 총합 22400 시간 이상 데이터
  - 데이터 소스는 유투브와 podcast
  - https://github.com/wenet-e2e/WenetSpeech
- ByteTrack: Multi-Object Tracking by Associating Every Detection Box
  - Multiple object tracker from ByteDance
  - YOLOX + Byte라는 자체 method.
  - Method의 특이함은 잘 모르겠는데 성능은 놀라울 지경 (속도 정확도 모두, Github에서 확인)
  - https://github.com/ifzhang/ByteTrack
- LSTM Based Sentiment Analysis for Cryptocurrency Prediction
  - 중국 Sina-Weibo 뉴스 --> 암호화폐 영향 예측 파이프라인
  - Metric을 수익률로 했으면 더 좋지 않을까 싶은 ㅎㅎ
  - Elon musk의 트위터에 걸어놔도 어떨까 싶은...
- ResNet strikes back: An improved training procedure in timm
  - Timm으로 유명한 Ross Wightman 의 ResNet50으로 ImageNet-1k top-1 acc 80% 뚫는 비법
  - SE block 없이 나머지 recipe로 성능을 영끌하는 방법을 아주 구체적으로 제시
  - 백본 트레이닝 하는 분들께 매우 유용할 듯.
- K-Wav2vec 2.0: Automatic Speech Recognition based on Joint Decoding of Graphemes and Syllables
  - 한국어 ASR을 위한 wav2vec 2.0 연구 (from 고려대)
  - Fairseq 제공 영어버전 wav2vec 을 한국어 음성데이터에 대하 추가 pretraining
  - ASR을 위하 fine tuning 시에 grapheme과 syllable 을 joint decoder를 활용해서 동시 학습하는 multitask hierarchical structure 로 정의했다고.

ghlee3401 · 2021-10-16T08:14:24Z

ArXiv
- KaraSinger: Score-free Singing Voice Synthesis with VQ-VAE using Mel-spectrograms
  - score-free SVS, 악보나 미디 파일 없이 wav파일과 가사만 이용한 SVS 모델 제안
  - VQ-VAE를 이용하여 mel-spectrogram을 다운샘플링하여 code화 시키는 VQ-VAE 파트와
  - 가사로부터 mel-spectrogram을 생성하기 위한 bottom, middle, top level의 code들을 예측하여 VQ-VAE decoder에 전달해주는 LM으로 나누어짐
  - 이런 방법은 가사를 넣으면 무언가를 만들어내긴 하겠지만 작곡가들에게 영감을 줄만큼 줄 수 있을지는 의문
  - MelGAN vocoder를 사용하였으며 품질은 좋지 못함
  - 샘플 페이지 : https://jerrygood0703.github.io/KaraSinger/
- Singer separation for karaoke content generation
  - 기존의 source separation들은 음악에서 사람의 목소리/악기 이런 식으로 분류하여 lead singer만 추출하였음
  - 이 논문에서는 karaoke application을 위해서 듀엣 음악에서 여자와 남자를 추출하거나
  - 화음을 포함한 음악에서 lead singer를 뽑아내려고 하는 정교한 singer separation system을 제안
  - MIR-SingerSeparation (https://gulaerchen.github.io/MIR-SingerSeparation/) 데이터 셋을 공개함
- Music Playlist Title Generation: A Machine-Translation Approach
  - 카이스트 남주한 교수님 연구실
  - 뮤직 track으로부터 playlist title을 자동으로 생성해주는 모델은 제안
  - track ID들의 sequence를 입력으로 넣고 playlist title의 word sequence를 출력으로 하여 seq2seq 모델을 학습
  - 입력 sequence의 순서 정보를 제거하기 위하여 shuffling을 이용한 data augmentation과 positional encoding을 삭제하는 방법을 사용
- A Melody-Unsupervision Model for Singing Voice Synthesis
  - 카이스트 남주한 교수님 연구실
  - 기존의 SVS에서 멜로디와 가사에 대한 라벨을 이용하는데 이를 준비하는 것이 매우 힘듦
  - 이 논문에서는 오직 오디오 파일과 가사만을 이용하여 phoneme별 duration을 예측하는 것을 제안
  - inferenece 시에는 멜로디와 가사를 이용하여 audio를 만듦 (KaraSinger와 다른 점)
  - 각 phoneme alignment를 라벨없이 CTC loss만을 이용하여 예측하고 이를 이용하여 SVS 모델을 사용
  - supervised와 semi-supervised 방식의 결과를 보여주는데 semi-supervised 방식의 발음이 더 나음
  - 샘플페이지 : https://soonbeomchoi.github.io/melody-unsupervised-blog/
- SingGAN: Generative Adversarial Network for High-Fidelity Singing Voice Generation
  - singing voice를 위한 보코더
  - 기존의 보코더들은 세로줄 노이즈 (glitch)와 고주파에 잡히는 hissing noise(치찰음), metallic noise(기계음) 가 생기는 문제가 있음
  - WaveNet기반의 adaptive feature learning (AFL) filter를 이용하고 F0를 이용하여 waveform을 만드는 것이 신기
  - 음질은 비교 모델보다 좋지만, singing voice에 좋다는 PeriodNet과 Multi-band HN-PWG와 비교하지 않은 것은 아쉽
  - 샘플 페이지 : https://singgan.github.io/

hollobit · 2021-10-17T12:09:10Z

[단독] 이해진 손정의 AI동맹 수조원 쏟아붓는다

https://www.mk.co.kr/news/business/view/2021/10/980041/

하정우 네이버 AI랩 리더, 글로벌 AI학회 '뉴립스' 아웃스탠딩 리뷰어 선정

https://zdnet.co.kr/view/?no=20211017103545

대한의료인공지능학회 2021년도 추계학술대회 (10/22~10/23)

https://www.kosaim.org/html/?pmode=BBBS0007100001&smode=view&seq=97

인간의 창작 영역에 도전하는 인공지능(AI) … 무용, 미술, 작곡 등 사람의 능력 빠르게 흡수 ‘독자 창작 시대 온다’

AI lab DeepMind becomes profitable and bolsters relationship with Google

https://venturebeat.com/2021/10/10/ai-lab-deepmind-becomes-profitable-and-bolsters-relationship-with-google/
- DeepMind가 Bell Labs 처럼 될 수 있을까 ?
- 트랜지스터, 위성, 레이저, 광섬유, 셀룰러 전화 및 정보 이론을 포함하여 20세기를 변화시킨 아이디어와 기술의 발상지 - Bell Labs

Need a Bill of Rights for an AI-Powered World

https://www.wired.com/story/opinion-bill-of-rights-artificial-intelligence/
- https://www.federalregister.gov/documents/2021/10/08/2021-21975/notice-of-request-for-information-rfi-on-public-and-private-sector-uses-of-biometric-technologies
- 공공 및 민간 부문의 생체 인식 기술 사용에 관한 정보 요청 - AI 기술을 이용한 생체 인식 기술에서 출발
- ai-equity@ostp.eop.gov
참고 - "인간중심의 개발 원칙 확립"…AI 소비자 권리장전 선포 ('20.11) https://www.koit.co.kr/news/articleView.html?idxno=80235
- AI 소비자 권리장전 8대 가치는 △포용성 △공정성 △차별받지 않을 권리 △안전성과 신뢰성 △투명성 △개인정보 통제권 △책임성 △피해구제 및 행동할 권리

Facebook's Ego4D dataset: Around the World in 3,000 Hours of Egocentric Video

https://ai.facebook.com/research/publications/ego4d-unscripted-first-person-video-from-around-the-world-and-a-benchmark-suite-for-egocentric-perception
https://ego4d-data.org/
https://arxiv.org/abs/2110.07058
- Ego4D, a massive-scale egocentric video dataset and benchmark suite
- 전 세계 74개 지역과 9개 국가에서 855명의 독특한 카메라 착용자가 캡처한 수백 가지 시나리오(가정, 야외, 직장, 레저 등)에 걸친 3,025시간의 일상 활동 비디오를 제공
- 비디오의 일부에는 오디오, 환경의 3D 메시, 시선, 스테레오 및/또는 동일한 이벤트에서 여러 자기 중심 카메라의 동기화된 비디오가 수반
- 과거(일화 기억 쿼리), 현재(손으로 물건 조작, 시청각 대화 및 사회적 상호 작용 분석) 및 미래(활동 예측)의 1인칭 시각적 경험을 이해하는 데 중점을 둔 새로운 벤치마크 데이터셋으로 활용 가능

Workshop to explore key interplay of AI, standards and legislation

https://www.iec.ch/blog/workshop-explore-key-interplay-artificial-intelligence-standards-and-legislation
- 10월 13일 인공 지능 및 표준화, 적합성 평가 및 입법 간의 상호 작용에 관한 워크숍 개최
- 표준화, 적합성 평가 및 입법 프레임워크 간의 상호 작용에 대한 논의
- IEC 아카데미 및 역량 강화 , 스위스 외무부 국제법국

FDA Virtual Public Workshop - Transparency of Artificial Intelligence/Machine Learning-enabled Medical Devices

https://www.fda.gov/medical-devices/workshops-conferences-medical-devices/virtual-public-workshop-transparency-artificial-intelligencemachine-learning-enabled-medical-devices
- 10월14일 2020년 10월에 개최된 AI/ML 지원 의료 기기에 대한 FDA의 환자 참여 자문 위원회의 피드백
- 2021년 1월 FDA는 AI/ML 지원 의료 기기에 중점을 둔 5개 부분으로 구성된 실행 계획을 발표
- AI/ML 지원 의료 기기의 모든 사용자에게 투명성을 지원하는 방법에 대한 공개 워크숍을 개최 계획에 따라 개최
- 세션 I. 투명성의 의미와 역할
- 세션 II. 투명성 제고

AI fake-face generators can be rewound to reveal the real faces they trained on

https://www.technologyreview.com/2021/10/12/1036844/ai-gan-fake-faces-data-privacy-security-leak/
This Person (Probably) Exists. Identity Membership Attacks Against GAN Generated Faces - https://arxiv.org/abs/2107.06018
- 특정 데이터가 신경망 모델을 훈련하는 데 사용되었는지 여부를 알아내는 데 사용할 수 있는 멤버십 공격이라는 유형의 공격을 사용
- 훈련된 데이터를 처리하는 방식(따라서 이전에 수천 번 본 적이 있음)과 보이지 않는 데이터 간의 미묘한 차이를 이용
- 모델은 이전에 본 적이 없는 이미지를 정확하게 식별할 수 있지만 훈련된 이미지보다 신뢰도가 약간 낮음
- 첫 번째 모델의 행동에서 그러한 정보를 발견하고 이를 사용하여 사진과 같은 특정 데이터가 훈련 세트에 있는지 여부를 예측하는 방법을 학습

veritas9872 · 2021-10-17T13:08:16Z

TRAINABLE LEARNING RATE
Under review for ICLR 2022
https://openreview.net/pdf?id=fHeK814NOMO

Learning rate를 학습하는 방법이 ICLR에 리뷰 중으로 올라왔습니다.

대부분 toy task에 적용하지만 learning rate를 별도의 meta learning rate 없이 새로운 알고리즘을 고안해 hyper-parameter에 대해 robust한 결과를 보여주는 것이 매우 인상적입니다.

Clyde21c · 2021-10-17T13:09:06Z

Transformers are Meta-Reinforcement Learners (ICLR 2022 under review)
- Transformer 구조가 어떻게 meta-learning역할을 하는지 실제 신경과학적 메커니즘으로 해석
- 감각에서 들어오는 working memory를 조합하여 episodic memory로 저장하는것을 reinstatement mechanism이라고 하는데 이게 transformer의 attention mechanism과 유사하다고 해석
- 이렇게 조합된 episodic memory는 meta-learning에서의 각 task를 proxy한다고 가정
- 기존 RNN기반의 대표 memory-based Meta-RL알고리즘인 RL2의 발전
A Consciousness-Inspired Planning Agent for Model-Based Reinforcement Learning (NeurIPS 2021)
- Yoshua Bengio교수님
- 처음 보는 OOD task에 대해 generalized된 world model을 학습하도록 하고자 함
- 인간의 의식의 경우 처음 보는 task의 state에서 불필요한 특징을 제외하고 필요한 요소만을 집중하여 세상을 이해하려는 consciousness in first sense (C1)특징을 보임
- 이걸 transformer와 bottleneck을 사용하여 구현
- model-based meta-RL로 분류가능
CausalDyna: Improving Generalization of Dyna-style Reinforcement Learning via Counterfactual-Based Data Augmentation (ICLR 2022 under review)
- 기존 model-based RL에 structured type Causal Inference를 적용
- Dyna스타일의 model-based RL은 world model로 새로운 데이터를 만들어 data augmentation을 하는 알고리즘
- 기존 Dyna와 달리 Counterfactual data(일어나지 않은 상황)를 world model로 생성하여 학습
- OOD에서 기존 알고리즘들보다 generalization 및 효율 향상

veritas9872 · 2021-10-17T13:16:16Z

~~너무 자랑을 하고 싶어서~~ 지난주 공개한 PyTorch Universal Docker Template: The Docker Template for Universal PyTorch Source Builds 프로젝트의 업데이트를 공유합니다.

https://github.com/veritas9872/PyTorch-Universal-Docker-Template

현재 GitHub star 약 250개 (지금 발표 중에서도 계속 올라가는 중입니다)이며 Reddit에서 한 때 Machine Learning 채널의 number 2 article이었습니다. 지금은 약 164개 recommend를 받았으며 상위 10위 내에 있습니다.

지난번 Docker를 통해 pip wheel을 생성하는 기능 뿐만 아니라 Docker Compose를 이용한 interactive development environment 까지 완성되어 딥러닝하시는 모든 분들께 많은 도움이 될 것으로 생각됩니다.

소규모의 연구실에서 몇 개 GPU만 있는 환경부터 Docker swam을 이용해서 중간규모 딥러닝까지 모두 적용할 수 있으며 학습 및 inference를 상당히 빠르게 할 수 있을 뿐만 아니라 development process 중에 환경 관리까지 전부 갖추었습니다.

jungwoo-ha closed this as completed Dec 19, 2021

jungwoo-ha changed the title ~~[20211010] Weekly AI ArXiv 만담~~ [20211017] Weekly AI ArXiv 만담 Dec 26, 2021

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[20211017] Weekly AI ArXiv 만담 #27

[20211017] Weekly AI ArXiv 만담 #27

jungwoo-ha commented Oct 12, 2021 •

edited

Loading

ghlee3401 commented Oct 16, 2021 •

edited

Loading

hollobit commented Oct 17, 2021 •

edited

Loading

veritas9872 commented Oct 17, 2021

Clyde21c commented Oct 17, 2021 •

edited

Loading

veritas9872 commented Oct 17, 2021 •

edited

Loading

[20211017] Weekly AI ArXiv 만담 #27

[20211017] Weekly AI ArXiv 만담 #27

Comments

jungwoo-ha commented Oct 12, 2021 • edited Loading

ghlee3401 commented Oct 16, 2021 • edited Loading

hollobit commented Oct 17, 2021 • edited Loading

veritas9872 commented Oct 17, 2021

Clyde21c commented Oct 17, 2021 • edited Loading

veritas9872 commented Oct 17, 2021 • edited Loading

jungwoo-ha commented Oct 12, 2021 •

edited

Loading

ghlee3401 commented Oct 16, 2021 •

edited

Loading

hollobit commented Oct 17, 2021 •

edited

Loading

Clyde21c commented Oct 17, 2021 •

edited

Loading

veritas9872 commented Oct 17, 2021 •

edited

Loading