[20220213] Weekly AI ArXiv 만담 - 39회차 #39

jungwoo-ha · 2022-02-12T02:15:02Z

News
- KDD, COLT 제출하신 분들 수고 많으셨습니다.
- GPT-NeoX-20B 공개: https://github.com/EleutherAI/gpt-neox
- Inside the Lab: Building for the metaverse with AI
- AI인재 유출
Arxiv
- Block-NeRF: Scalable Large Scene Neural View Synthesis
  - 구글 웨이모에서 나온 도시환경 scene 생성을 위한 NeRF
  - 다수의 작은 Block NeRF들을 별도로 학습하고 생성결과를 combine
  - mip-NeRF를 확장. 위치, 방향, 노출, apprearance embedding활용 RGB생성, 위치+방향으로 visibility 생성 두개의 MLP
  - 이를 위해 별도의 데이터셋 구축
  - 성능을 보면 여러개의 Block-NeRF를 써서 합하는것이 퀄이 좋다고 (같은 메모리에도, Block당 커버 거리도 줄어듬)
  - Project page: https://waymo.com/research/block-nerf/
- MaskGIT: Masked Generative Image Transformer
  - Mased visual token modeling (BEiT 스타일) 의 생성모델 from Google Research
  - VQ-GAN visual token 기반으로 하나 auto-regressive decoding인 VQ-GAN과는 달리 iterative parallel decoding으로 속도가 빠름
  - Decoding에서 Masking 전략이 이 연구의 핵심으로 보임
  - ImageNet 256, 512에서 BiGGAN 보다 더 좋은 퀄을 보임 (모델 크기는 조금더 크긴 함)
- Scaling Law for Recommendation Models: Towards General-purpose User Representations
  - 네이버 클로바 (ML_X팀) 에서 공개한 아마도 세계최초 추천을 위한 범용 user representation 학습에서의 scaling laws 연구 (11월 공개 but 추가실험 통해 업뎃)
  - CLUE: Clip-style로 검색쿼리 시퀀스-쇼핑아이템 시퀀스를 contrastive semantic similarty 학습
  - 이를 위해 Transformer를 item sequence레벨과 서비스 레벨로 구조화
  - 서비스간 아이템 id 공유 문제를 해결하기 위해 모든 item들은 자연어로 변환하여 tokenizing
  - 이를 위해서 11M사용자(익명처리 완료) 50B token 데이터 학습
  - 모델크기, 훈련데이터크기, 시퀀스 길이, 배치 사이즈등이 주는 영향 --> training perforamce가 computation (모델크기+데이터)의 scaling law를 따름
  - 7개의 다양한 서비스의 추천 문제에 transfer learning (Simple MLP만 추가, CLUE는 Frozen encoder로만 활용) + 온라인 성능평가
  - 각 서비스 데이터에 대한 task-specific 모델들에 비해 더 좋은 성능 뿐 아니라 CLUE feature 활용 hybrid도 가능
  - Cold start에서도 뛰어난 경쟁력 + 심지어 네이버 서비스가 아닌 오픈 마켓 플랫폼의 전혀다른 서비스에서도 좋은 성능
- 기타 눈에 띄는 논문
  - NÜWA-LIP: Language Guided Image Inpainting with Defect-free VQGAN
    - NUWA의 VQ-GAN 파트를 DF-VQGAN 으로 개선해서 성능 향상 (MSRA)
  - Can Open Domain Question Answering Systems Answer Visual Knowledge Questions?
    - Outside knowledge VQA 해결을 위해 ODQA 를 활용하는 연구 (Apple)
  - FILM: Frame Interpolation for Large Motion
    - 비디오데이터 학습 통해 꽤 긴시간 차이의 두개 이미지를 비디오로 interplolation 하는 연구 (Google Research)
  - Exploring the Limits of Domain-Adaptive Training for Detoxifying Large-Scale Language Models
    - Large-scale LM 에서 혐오 표현 해결을 위한 여러가지 분석 (코퍼스가 동일하면 모델크기 상관없이 비슷하다는.. from NVidia)

ghlee0304 · 2022-02-13T05:55:17Z

Arxiv (Speech, Singing Voice, Music)
- Cross-speaker style transfer for text-to-speech using data augmentation
  - Amazon Alexa, TTS Research
  - Summary
    - voice conversion방식으로 data augmentation을 하여 single-speaker TTS system의 표현력을 높이도록 만드는 방식을 제안
  - Method
    - Voice conversion model은 CopyCat 논문 (many-to-many vc) 기반으로 만듦
    - TTS는 Tacotron2+VAE reference encoder 기반으로 만듦
    - "Neutral speaker"는 우리가 타겟으로 하는 화자(Target speaker) 로 낭독체로 10시간 존재
    - "Supporting speaker"를 이용하여 voice conversion 모델을 학습하여 target speaker의 목소리로 여러 스타일의 speech를 만듦
    - 1 Supp. Spk 사용시 8시간, 4 Supp. Spk 사용시 각 2시간, 8 Supp. Spk 사용시 각 1시간으로 8시간 분량을 맞춰서 비교 실험
    - "Source speaker"는 TTS 모델 학습 시 사용하는 speaker로 대화체로 8시간 존재
  - Results
News
- KT 기가지니에 아마존 인공지능 음성인식 플랫폼 ‘알렉사’ 탑재... ‘듀얼브레인 AI’ 출시
  - '지니야'라고 부르면 한국어 기가지니를, '알렉사'라고 부르면 영어로 아마존 알렉사 서비스를 이용
- ‘홀로그램 AI’로 되살아난 별들… 산 자를 위한 ‘유령 노예’ 비판도
  - 고인이 된 임윤택, 유재하를 목소리와 외형을 재현
  - 고인이 홀로그램으로 되살아나기를 원했을까? '유령 노예' 비판도 존재
  - 로빈 윌리엄스는 자신의 이미지를 2039년까지 새로운 영화나 광고 등에 삽입할 수 없고, 홀로그램으로도 사용할 수 없다는 유서를 작성
- "연예인들 어쩌나"…'사생활 깨끗' 김래아·로지·한유아, 가요계까지 접수
  - 사생활 스캔들로 광고나 출연 작품이 중단될 염려가 없고 시공간 제약이 없어 활용에 용이
  - 로지(싸이더스 스튜디오 엑스)는 2월 중 음원을 발매
  - 김래아(LG)는 올해 공식 앨범 발매 예정
  - 한유아(스마일게이트)도 2월 말 음월 발매 예정
- Apple Buys Startup That Makes Music With Artificial Intelligence
  - 애플에서 스타트업 'AI 뮤직'을 인수
  - 'AI 뮤직'은 상황, 연령, 용도에 따라 알맞은 음악을 창작하는 기술을 보유

hollobit · 2022-02-13T11:16:50Z

심층 강화 학습으로 챔피언 Gran Turismo 드라이버에게 승리

https://www.nature.com/articles/s41586-021-04357-7

2020년 8월 18일 스위스취리히공대와 소니 AI취리히(Sony AI Zürich) 연구팀은 소니인터랙티브엔터테인먼트가 출시한 드라이빙 시뮬레이터 그란투리스모 스포츠를 플레이할 수 있게 학습시키는 심층학습모델에 대한 논문을 발표 - https://arxiv.org/abs/2008.07971 ( https://ar5iv.org/html/2008.07971v2 )

2022년 2월9일 네이처 논문 abstract - We demonstrate the capabilities of our agent, Gran Turismo Sophy, by winning a head-to-head competition against four of the world’s best Gran Turismo drivers

인간 운전자를 능가하는 일대일 경쟁은 AI의 획기적인 성과로, 언젠가는 자율주행차 개발에 영향을 미칠 수 있다고 소개

소니는 3월 출시 예정인 그란 투리스모 7에 그란 투리스모 소피를 선수용 트레이닝 도구로 통합할 계획

Gran Turismo의 제작자 Kazunori Yamauchi는 Wired와의 인터뷰에서 "Sophy는 인간 운전자가 결코 생각할 수 없는 레이싱 라인을 가지고 있습니다. “운전 기술에 관한 많은 교과서가 다시 쓰여질 것이라고 생각합니다.”

[단독인터뷰] 팀닛 게브루 박사가 한국에 던진 질문 "한국 빅테크 기업 개발자는 자신의 소신을 밝힐 수 있는가"

http://www.aitimes.com/news/articleView.html?idxno=142981

AI 시스템이 만드는 편향성을 줄이자는 목소리는 높아졌지만 갈 길이 멀다. 현재 가장 큰 문제는 빅테크 기업 힘이 너무 강하다는 문제

빅테크 기업의 비윤리적인 행태를 활발히 말할 수 있는 '개발자 보호망(worker protection)'이 필요

"AI는 개발 속도가 빨라선 안 된다. AI 기술은 천천히 발전해야 한다. 고려해야 할 점이 많기 때문이다"

대규모 언어모델(LLM)에서 오는 인종차별과 기후변화와의 문제도 있다. LLM에서 불리한 인종은 기후변화 영향에 더 크게 노출돼 있다. 이를 '환경적 인종차별(environmental racism)'이라 부를 수 있다.

데이터 기본법 시행, 4월20일

인공지능 기업들과 산업에 미칠 영향은 ?

영국 NHS, 의료 인공지능에 대한 알고리즘 영향 평가(AIAs: algorithmic impact assessments) 파일럿 시행

이 프레임워크는 연구원과 개발자가 NHS 환자 데이터에 대한 액세스 권한을 부여받기 전에 알고리즘 시스템의 가능한 위험을 평가하도록 지원하기 위해 파일럿에서 사용

AIA는 AI 시스템을 설계하고 배포하는 사람과 기관에 책임을 묻기 위한 새로운 접근 방식

알고리즘이 사람, 사회 및 환경에 미치는 잠재적 영향을 미리 파악하고 식별하는 데 도움이 되는 한 가지 방법

veritas9872 · 2022-02-13T11:29:28Z

MuZero with Self-competition for Rate Control in VP9 Video Compression

딥마인드에서 기존 체스, 바둑, 등 여러 게임을 규칙을 제공받지 않고 스스로 학습한 MuZero 모델을 video compression task에 적용하여 4~6% 가량 추가 압축을 구현했다고 합니다. 인터넷의 상당 부분이 비디오 전송인 것을 고려할 때 매우 중요한 연구로 생각됩니다. 다만, 강화학습 모델을 적용할 때 추가 연산이 가성비가 나올지 의문입니다.

Blog: https://deepmind.com/blog/article/MuZeros-first-step-from-research-into-the-real-world

Arxiv: https://storage.googleapis.com/deepmind-media/MuZero/MuZero%20with%20self-competition.pdf

Computer Vision: Algorithms and Applications 2nd ed. 2022 Edition 출간

컴퓨터 비전 분야의 대표 교과서인 Szleski Computer Vision의 신간판이 출시되었습니다.

Classical computer vision에 대한 심도 있는 이해뿐만 아니라 최신 딥러닝을 적용한 내용 또한 대폭 추가되었습니다.

Website: https://szeliski.org/Book

PDF 제공 링크: https://szeliski.org/Book/download.php

AI in health and medicine

Nature Medicine에서 의료 분야에 인공지능을 적용하는 것에 대한 리뷰 논문이 나왔습니다.

매우 새로운 내용은 없지만 citation들을 찾아보면 최근 트렌드를 파악하기 좋을 것 같습니다.

https://www.nature.com/articles/s41591-021-01614-0

When Shift Operation Meets Vision Transformer: An Extremely Simple Alternative to Attention Mechanism

Microsoft Research Asia(MRSA)에서 Self-Attention 대신 shift operator를 적용했을 때에도 self-attention과 유사한 성능을 보일 수 있는 내용의 논문을 냈습니다. 최근 초거대 인공지능의 부담이 self-attention으로 인한 것임을 감안할 때 매우 중요한 연구로 생각됩니다.

GitHub: https://github.com/microsoft/SPACH

Arxiv: https://arxiv.org/abs/2201.10801

특히 Swin Transformer의 구조를 도입했을 때 parameter의 숫자가 같아지도록 더 깊은 모델을 학습했을 때 Swin Transformer 이상의 성능을 보였다고 주장하는데 이는 유의미한 결과라고 봅니다.

veritas9872 · 2022-02-13T12:53:53Z

Einops: Clear and Reliable Tensor Manipulations with Einstein-like Notation

ICLR 2022 Oral Session에 EinOps 논문이 Oral Session으로 채택되어 상당한 논란이 있었습니다.

특히 Transformer 분야에서 많이 사용하는 notation 이고 의의는 있었으나 ICLR의 존재 의의 및 역할이 무엇인지 고민을 하게 되는 것 같습니다.

OpenReview: https://openreview.net/forum?id=oapKSVM2bcj

kimyoungdo0122 · 2022-02-13T12:55:20Z

News
- ETRI, AI 기반 스트레스 관리 플랫폼 만든다
  - 근로자의 생체 데이터를 기반으로 스트레스를 측정·분석하고 솔루션을 제공하는 인공지능(AI) 플랫폼을 개발 중
  - 스마트 워치나 밴드와 같은 웨어러블 기기에서 측정하는 생체신호를 바탕으로 분석
  - 기존 웨어러블 기기를 활용한 스트레스 관리는 맥파·심전도·뇌파·피부전도도·피부온도 등 다양한 생체신호를 수집하지만, 개인이 느끼는 스트레스 유발 요인이 다양해 상당한 오차가 발생할 수 있다.
  - 센서와 연동해 온도, 습도, 소음, 미세먼지, 조명 등 근무환경 분석 및 근무시간, 업무 스케쥴 등 작업정보까지 종합적으로 고려해 더욱 정밀하게 직장에서의 스트레스를 측정
  - 정신건강과 관련된 MIT Technology Review의 아티클 Deploying machine learning to improve mental health
  - 마찬가지로 MIT 미디어랩에도 생체 신호를 측정할 수 있는 웨어러블 기기를 활용하여 정신 건강과 관련된 AI 분석을 실시
  - 아티클에서 유의깊게 살펴볼 내용은 'AI 알고리즘이 생체 신호를 정확하게 분석하여 진단하는 것' + '이 진단을 바탕으로 어떤 서비스 or UX를 제공할 것인지'
  - 역시나 AI for Realworld는 알고리즘을 바탕으로 어떤 서비스를 제공할 것인지에 대한 고민이 같이 필요하다는 것을 강조합니다.
- This company says it’s developing a system that can recognize your face from just your DNA
  - 이스라엘의 AI회사 Cortica가 DNA를 기반으로 얼굴을 생성하는 기술을 연구
  - “constructs a physical profile by analyzing genetic material collected in a DNA sample,”
  - 그러나 DNA를 바탕으로 얼굴을 생성하는 것은 기술적으로도 아직 말이 안되고 윤리적인 문제도 야기할 수 있다.
  - 실리콘밸리의 Parabon이라는 회사도 유전 정보를 바탕으로 식별하는 기술을 연구개발 중이지만, 산출물을 정부기관이나 법원 등의 기관에서 채택하지 말라고 권고
  - 관련하여 워싱턴포스트의 미국 경찰의 안면인식 프로그램(아마존 Rekognition) 사용에 대한 비판 아티클 Oregon became a testing ground for Amazon’s facial-recognition policing. But what if Rekognition gets it wrong?
- The AI pioneer says it’s time for smart-sized, “data-centric” solutions to big issues
  - Data-centric AI에 대한 앤드류 응 교수님과의 인터뷰
  - NLP에서 large scale model이 커지고 CV에서도 커지고 있어서 좋다. 하지만 아직 계산 비용의 문제로 비디오 분야에서는 적용이 쉽지 않은 듯하다. 모델이 커지면서 반도체나 연산 방법 등의 발전이 더 필요하다.
  - 그러면서도 이와 같은 규모의 법칙이 다른 산업군에서 쉽게 통하는 것은 아니다.
  - synthetic data와 같이 학습용 데이터를 생성or합성하는 방법은 훌륭한 도구지만, 그 전에 data augmentation, improving labeling consistency, or just asking a factory 와 같은 선제 작업들을 시도하는 것이 좋다
  - AI Transformation에 고민해야할 현실적인 요소에 대한 의견들
- 모두의연구소, 70억 원 투자 유치…AI 연구·인재창출 앞장
  - 모두연 투자 유치 소식...! 많은 성원과 협력 바랍니다 ㅎㅎㅎ

Clyde21c · 2022-02-13T12:59:28Z

Learning robust perceptive locomotion for quadrupedal robots in the wild (Science Robotics)

ETH 취리히, 카이스트 황보제민 교수님
4족보행 로봇이 지형이 다양한 트래킹에서 넘어지지 않고서 원하는 속도로 걷도록 학습 (https://youtu.be/zXbb6KQ0xV8)
시뮬레이션의 이점을 활용한 privileged learning기반의 zero-shot sim-to-real transfer
- 충분히 다양한 물리적 환경을 시뮬레이션상에서 미리 학습
- 이상적인 input으로 학습되는 teacher policy와, teacher policy가 학습한것을 현실적인 input에서 knowledge distillation하는 student policy
Context based meta-RL과 multi-modal 센서를 활용하여 예상치 못한&노이즈가 강한 환경에서의 4족보행 로봇의 real-world robustness 구현
- Recurrent belief encoder가 센서로는 측정되지 않는 true dynamics에 대한 정보를 내포하는 latent task belief를 추론하고, 이를 RL policy가 활용
- Attentional gate를 사용하여 prioprioception(고유수용성 감각; 로봇자체의 움직임에 대한 센서) 과 exteroception(외수용성 감각; 외부환경에 대한 센서)의 multi-modal 정보에 대한 상황에 따른 선택적 활용

Targeted-BEHRT: Deep learning for observational causal inference on longitudinal electronic health records

Oxford Deep Medicine그룹의 BEHRT 후속 연구
BERT기반의 EHR관련 모델인 BEHRT의 causal inference에의 활용
BEHRT를 Feature extractor로 사용할 경우 기존 방법들보다 더 나은 conterfactual regression 성능을 보여줌

jungwoo-ha closed this as completed Apr 3, 2022

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[20220213] Weekly AI ArXiv 만담 - 39회차 #39

[20220213] Weekly AI ArXiv 만담 - 39회차 #39

jungwoo-ha commented Feb 12, 2022 •

edited

Loading

ghlee0304 commented Feb 13, 2022 •

edited

Loading

hollobit commented Feb 13, 2022 •

edited

Loading

veritas9872 commented Feb 13, 2022

veritas9872 commented Feb 13, 2022

kimyoungdo0122 commented Feb 13, 2022 •

edited

Loading

Clyde21c commented Feb 13, 2022 •

edited

Loading

[20220213] Weekly AI ArXiv 만담 - 39회차 #39

[20220213] Weekly AI ArXiv 만담 - 39회차 #39

Comments

jungwoo-ha commented Feb 12, 2022 • edited Loading

ghlee0304 commented Feb 13, 2022 • edited Loading

hollobit commented Feb 13, 2022 • edited Loading

심층 강화 학습으로 챔피언 Gran Turismo 드라이버에게 승리

[단독인터뷰] 팀닛 게브루 박사가 한국에 던진 질문 "한국 빅테크 기업 개발자는 자신의 소신을 밝힐 수 있는가"

데이터 기본법 시행, 4월20일

영국 NHS, 의료 인공지능에 대한 알고리즘 영향 평가(AIAs: algorithmic impact assessments) 파일럿 시행

veritas9872 commented Feb 13, 2022

veritas9872 commented Feb 13, 2022

kimyoungdo0122 commented Feb 13, 2022 • edited Loading

Clyde21c commented Feb 13, 2022 • edited Loading

jungwoo-ha commented Feb 12, 2022 •

edited

Loading

ghlee0304 commented Feb 13, 2022 •

edited

Loading

hollobit commented Feb 13, 2022 •

edited

Loading

kimyoungdo0122 commented Feb 13, 2022 •

edited

Loading

Clyde21c commented Feb 13, 2022 •

edited

Loading