Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[20220213] Weekly AI ArXiv 만담 - 39회차 #39

Closed
jungwoo-ha opened this issue Feb 12, 2022 · 6 comments
Closed

[20220213] Weekly AI ArXiv 만담 - 39회차 #39

jungwoo-ha opened this issue Feb 12, 2022 · 6 comments

Comments

@jungwoo-ha
Copy link
Owner

jungwoo-ha commented Feb 12, 2022

  • News
  • Arxiv
    • Block-NeRF: Scalable Large Scene Neural View Synthesis

      • 구글 웨이모에서 나온 도시환경 scene 생성을 위한 NeRF
      • 다수의 작은 Block NeRF들을 별도로 학습하고 생성결과를 combine
      • mip-NeRF를 확장. 위치, 방향, 노출, apprearance embedding활용 RGB생성, 위치+방향으로 visibility 생성 두개의 MLP
      • 이를 위해 별도의 데이터셋 구축
      • 성능을 보면 여러개의 Block-NeRF를 써서 합하는것이 퀄이 좋다고 (같은 메모리에도, Block당 커버 거리도 줄어듬)
      • Project page: https://waymo.com/research/block-nerf/
        image
        image
        image
    • MaskGIT: Masked Generative Image Transformer

      • Mased visual token modeling (BEiT 스타일) 의 생성모델 from Google Research
      • VQ-GAN visual token 기반으로 하나 auto-regressive decoding인 VQ-GAN과는 달리 iterative parallel decoding으로 속도가 빠름
      • Decoding에서 Masking 전략이 이 연구의 핵심으로 보임
      • ImageNet 256, 512에서 BiGGAN 보다 더 좋은 퀄을 보임 (모델 크기는 조금더 크긴 함)
        image
        image
        image
    • Scaling Law for Recommendation Models: Towards General-purpose User Representations

      • 네이버 클로바 (ML_X팀) 에서 공개한 아마도 세계최초 추천을 위한 범용 user representation 학습에서의 scaling laws 연구 (11월 공개 but 추가실험 통해 업뎃)
      • CLUE: Clip-style로 검색쿼리 시퀀스-쇼핑아이템 시퀀스를 contrastive semantic similarty 학습
      • 이를 위해 Transformer를 item sequence레벨과 서비스 레벨로 구조화
      • 서비스간 아이템 id 공유 문제를 해결하기 위해 모든 item들은 자연어로 변환하여 tokenizing
      • 이를 위해서 11M사용자(익명처리 완료) 50B token 데이터 학습
      • 모델크기, 훈련데이터크기, 시퀀스 길이, 배치 사이즈등이 주는 영향 --> training perforamce가 computation (모델크기+데이터)의 scaling law를 따름
      • 7개의 다양한 서비스의 추천 문제에 transfer learning (Simple MLP만 추가, CLUE는 Frozen encoder로만 활용) + 온라인 성능평가
      • 각 서비스 데이터에 대한 task-specific 모델들에 비해 더 좋은 성능 뿐 아니라 CLUE feature 활용 hybrid도 가능
      • Cold start에서도 뛰어난 경쟁력 + 심지어 네이버 서비스가 아닌 오픈 마켓 플랫폼의 전혀다른 서비스에서도 좋은 성능
        image
        image
        image
    • 기타 눈에 띄는 논문

@ghlee0304
Copy link

ghlee0304 commented Feb 13, 2022

@hollobit
Copy link

hollobit commented Feb 13, 2022

심층 강화 학습으로 챔피언 Gran Turismo 드라이버에게 승리

  • 2020년 8월 18일 스위스취리히공대와 소니 AI취리히(Sony AI Zürich) 연구팀은 소니인터랙티브엔터테인먼트가 출시한 드라이빙 시뮬레이터 그란투리스모 스포츠를 플레이할 수 있게 학습시키는 심층학습모델에 대한 논문을 발표 - https://arxiv.org/abs/2008.07971 ( https://ar5iv.org/html/2008.07971v2 )
  • 2022년 2월9일 네이처 논문 abstract - We demonstrate the capabilities of our agent, Gran Turismo Sophy, by winning a head-to-head competition against four of the world’s best Gran Turismo drivers
  • 인간 운전자를 능가하는 일대일 경쟁은 AI의 획기적인 성과로, 언젠가는 자율주행차 개발에 영향을 미칠 수 있다고 소개
  • 소니는 3월 출시 예정인 그란 투리스모 7에 그란 투리스모 소피를 선수용 트레이닝 도구로 통합할 계획
  • Gran Turismo의 제작자 Kazunori Yamauchi는 Wired와의 인터뷰에서 "Sophy는 인간 운전자가 결코 생각할 수 없는 레이싱 라인을 가지고 있습니다. “운전 기술에 관한 많은 교과서가 다시 쓰여질 것이라고 생각합니다.”

[단독인터뷰] 팀닛 게브루 박사가 한국에 던진 질문 "한국 빅테크 기업 개발자는 자신의 소신을 밝힐 수 있는가"

  • AI 시스템이 만드는 편향성을 줄이자는 목소리는 높아졌지만 갈 길이 멀다. 현재 가장 큰 문제는 빅테크 기업 힘이 너무 강하다는 문제
  • 빅테크 기업의 비윤리적인 행태를 활발히 말할 수 있는 '개발자 보호망(worker protection)'이 필요
  • "AI는 개발 속도가 빨라선 안 된다. AI 기술은 천천히 발전해야 한다. 고려해야 할 점이 많기 때문이다"
  • 대규모 언어모델(LLM)에서 오는 인종차별과 기후변화와의 문제도 있다. LLM에서 불리한 인종은 기후변화 영향에 더 크게 노출돼 있다. 이를 '환경적 인종차별(environmental racism)'이라 부를 수 있다.

데이터 기본법 시행, 4월20일

  • 인공지능 기업들과 산업에 미칠 영향은 ?

영국 NHS, 의료 인공지능에 대한 알고리즘 영향 평가(AIAs: algorithmic impact assessments) 파일럿 시행

  • 이 프레임워크는 연구원과 개발자가 NHS 환자 데이터에 대한 액세스 권한을 부여받기 전에 알고리즘 시스템의 가능한 위험을 평가하도록 지원하기 위해 파일럿에서 사용
  • AIA는 AI 시스템을 설계하고 배포하는 사람과 기관에 책임을 묻기 위한 새로운 접근 방식
  • 알고리즘이 사람, 사회 및 환경에 미치는 잠재적 영향을 미리 파악하고 식별하는 데 도움이 되는 한 가지 방법

@veritas9872
Copy link

MuZero with Self-competition for Rate Control in VP9 Video Compression

딥마인드에서 기존 체스, 바둑, 등 여러 게임을 규칙을 제공받지 않고 스스로 학습한 MuZero 모델을 video compression task에 적용하여 4~6% 가량 추가 압축을 구현했다고 합니다. 인터넷의 상당 부분이 비디오 전송인 것을 고려할 때 매우 중요한 연구로 생각됩니다. 다만, 강화학습 모델을 적용할 때 추가 연산이 가성비가 나올지 의문입니다.

Blog: https://deepmind.com/blog/article/MuZeros-first-step-from-research-into-the-real-world

Arxiv: https://storage.googleapis.com/deepmind-media/MuZero/MuZero%20with%20self-competition.pdf

Screenshot (17)

Computer Vision: Algorithms and Applications 2nd ed. 2022 Edition 출간

컴퓨터 비전 분야의 대표 교과서인 Szleski Computer Vision의 신간판이 출시되었습니다.

Classical computer vision에 대한 심도 있는 이해뿐만 아니라 최신 딥러닝을 적용한 내용 또한 대폭 추가되었습니다.

Website: https://szeliski.org/Book

PDF 제공 링크: https://szeliski.org/Book/download.php

image

AI in health and medicine

Nature Medicine에서 의료 분야에 인공지능을 적용하는 것에 대한 리뷰 논문이 나왔습니다.

매우 새로운 내용은 없지만 citation들을 찾아보면 최근 트렌드를 파악하기 좋을 것 같습니다.

https://www.nature.com/articles/s41591-021-01614-0

image

When Shift Operation Meets Vision Transformer: An Extremely Simple Alternative to Attention Mechanism

Microsoft Research Asia(MRSA)에서 Self-Attention 대신 shift operator를 적용했을 때에도 self-attention과 유사한 성능을 보일 수 있는 내용의 논문을 냈습니다. 최근 초거대 인공지능의 부담이 self-attention으로 인한 것임을 감안할 때 매우 중요한 연구로 생각됩니다.

GitHub: https://github.com/microsoft/SPACH

Screenshot (15)

Arxiv: https://arxiv.org/abs/2201.10801

Screenshot (13)

특히 Swin Transformer의 구조를 도입했을 때 parameter의 숫자가 같아지도록 더 깊은 모델을 학습했을 때 Swin Transformer 이상의 성능을 보였다고 주장하는데 이는 유의미한 결과라고 봅니다.

Screenshot (14)

Screenshot (16)

@veritas9872
Copy link

Einops: Clear and Reliable Tensor Manipulations with Einstein-like Notation

ICLR 2022 Oral Session에 EinOps 논문이 Oral Session으로 채택되어 상당한 논란이 있었습니다.

특히 Transformer 분야에서 많이 사용하는 notation 이고 의의는 있었으나 ICLR의 존재 의의 및 역할이 무엇인지 고민을 하게 되는 것 같습니다.

OpenReview: https://openreview.net/forum?id=oapKSVM2bcj

@kimyoungdo0122
Copy link

kimyoungdo0122 commented Feb 13, 2022

  • News
    • ETRI, AI 기반 스트레스 관리 플랫폼 만든다

      • 근로자의 생체 데이터를 기반으로 스트레스를 측정·분석하고 솔루션을 제공하는 인공지능(AI) 플랫폼을 개발 중
      • 스마트 워치나 밴드와 같은 웨어러블 기기에서 측정하는 생체신호를 바탕으로 분석
      • 기존 웨어러블 기기를 활용한 스트레스 관리는 맥파·심전도·뇌파·피부전도도·피부온도 등 다양한 생체신호를 수집하지만, 개인이 느끼는 스트레스 유발 요인이 다양해 상당한 오차가 발생할 수 있다.
      • 센서와 연동해 온도, 습도, 소음, 미세먼지, 조명 등 근무환경 분석 및 근무시간, 업무 스케쥴 등 작업정보까지 종합적으로 고려해 더욱 정밀하게 직장에서의 스트레스를 측정
      • 정신건강과 관련된 MIT Technology Review의 아티클 Deploying machine learning to improve mental health
      • 마찬가지로 MIT 미디어랩에도 생체 신호를 측정할 수 있는 웨어러블 기기를 활용하여 정신 건강과 관련된 AI 분석을 실시
      • 아티클에서 유의깊게 살펴볼 내용은 'AI 알고리즘이 생체 신호를 정확하게 분석하여 진단하는 것' + '이 진단을 바탕으로 어떤 서비스 or UX를 제공할 것인지'
      • 역시나 AI for Realworld는 알고리즘을 바탕으로 어떤 서비스를 제공할 것인지에 대한 고민이 같이 필요하다는 것을 강조합니다.
        image
    • This company says it’s developing a system that can recognize your face from just your DNA

      • 이스라엘의 AI회사 Cortica가 DNA를 기반으로 얼굴을 생성하는 기술을 연구
      • “constructs a physical profile by analyzing genetic material collected in a DNA sample,”
      • 그러나 DNA를 바탕으로 얼굴을 생성하는 것은 기술적으로도 아직 말이 안되고 윤리적인 문제도 야기할 수 있다.
      • 실리콘밸리의 Parabon이라는 회사도 유전 정보를 바탕으로 식별하는 기술을 연구개발 중이지만, 산출물을 정부기관이나 법원 등의 기관에서 채택하지 말라고 권고
      • 관련하여 워싱턴포스트의 미국 경찰의 안면인식 프로그램(아마존 Rekognition) 사용에 대한 비판 아티클 Oregon became a testing ground for Amazon’s facial-recognition policing. But what if Rekognition gets it wrong?
    • The AI pioneer says it’s time for smart-sized, “data-centric” solutions to big issues

      • Data-centric AI에 대한 앤드류 응 교수님과의 인터뷰
      • NLP에서 large scale model이 커지고 CV에서도 커지고 있어서 좋다. 하지만 아직 계산 비용의 문제로 비디오 분야에서는 적용이 쉽지 않은 듯하다. 모델이 커지면서 반도체나 연산 방법 등의 발전이 더 필요하다.
      • 그러면서도 이와 같은 규모의 법칙이 다른 산업군에서 쉽게 통하는 것은 아니다.
        image
      • synthetic data와 같이 학습용 데이터를 생성or합성하는 방법은 훌륭한 도구지만, 그 전에 data augmentation, improving labeling consistency, or just asking a factory 와 같은 선제 작업들을 시도하는 것이 좋다
      • AI Transformation에 고민해야할 현실적인 요소에 대한 의견들
    • 모두의연구소, 70억 원 투자 유치…AI 연구·인재창출 앞장

      • 모두연 투자 유치 소식...! 많은 성원과 협력 바랍니다 ㅎㅎㅎ
        image

@Clyde21c
Copy link

Clyde21c commented Feb 13, 2022

Learning robust perceptive locomotion for quadrupedal robots in the wild (Science Robotics)

  • ETH 취리히, 카이스트 황보제민 교수님
  • 4족보행 로봇이 지형이 다양한 트래킹에서 넘어지지 않고서 원하는 속도로 걷도록 학습 (https://youtu.be/zXbb6KQ0xV8)
  • 시뮬레이션의 이점을 활용한 privileged learning기반의 zero-shot sim-to-real transfer
    • 충분히 다양한 물리적 환경을 시뮬레이션상에서 미리 학습
    • 이상적인 input으로 학습되는 teacher policy와, teacher policy가 학습한것을 현실적인 input에서 knowledge distillation하는 student policy
  • Context based meta-RL과 multi-modal 센서를 활용하여 예상치 못한&노이즈가 강한 환경에서의 4족보행 로봇의 real-world robustness 구현
    • Recurrent belief encoder가 센서로는 측정되지 않는 true dynamics에 대한 정보를 내포하는 latent task belief를 추론하고, 이를 RL policy가 활용
    • Attentional gate를 사용하여 prioprioception(고유수용성 감각; 로봇자체의 움직임에 대한 센서) 과 exteroception(외수용성 감각; 외부환경에 대한 센서)의 multi-modal 정보에 대한 상황에 따른 선택적 활용

image
image

Targeted-BEHRT: Deep learning for observational causal inference on longitudinal electronic health records

  • Oxford Deep Medicine그룹의 BEHRT 후속 연구
  • BERT기반의 EHR관련 모델인 BEHRT의 causal inference에의 활용
  • BEHRT를 Feature extractor로 사용할 경우 기존 방법들보다 더 나은 conterfactual regression 성능을 보여줌
    image

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

6 participants