Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[20210307] Weekly Arxiv Causal Talk #1

Closed
jungwoo-ha opened this issue Mar 13, 2021 · 0 comments
Closed

[20210307] Weekly Arxiv Causal Talk #1

jungwoo-ha opened this issue Mar 13, 2021 · 0 comments

Comments

@jungwoo-ha
Copy link
Owner

jungwoo-ha commented Mar 13, 2021

  • AI 주요 이슈
  • Arxiv 논문 리스트
    • WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning (https://arxiv.org/abs/2103.01913 ) → from Google Research
      • 위키피디아의 문서-이미지 데이터를 공개 (이미지 11.5M, 텍스트 37,5 M)
    • MixSpeech: Data Augmentation for Low-resource Automatic Speech Recognition (https://arxiv.org/abs/2102.12664) → accepted @ ICASSP 2021
      • from Chinese Academy of Sciences, Tsinghua U, MSRA
      • SpecAug 이후 드디어 음성에서도 Mixup 류 aug?
      • 두 spectrogram mix, GT annotation loss mix, LAS 활용
      • TIMIT, WSJ, HKUST
    • Perceiver: General Perception with Iterative Attention (https://arxiv.org/abs/2103.03206 ) → from Deepmind
      • Transformer 구조를 개선해서 이미지, 비디오, 오디오, 3d 포인트 클라우드 에서 모두 잘되도록 하는 구조.
    • When Face Recognition Meets Occlusion: A New Benchmark (https://arxiv.org/abs/2103.02805v1 ) → ICASSP 2021, from Wuhan Univ.
      • 마스크를 합성한 것이 많음. 안경이 있는건 또 신기
    • Learning Accurate and Interpretable Decision Rule Sets from Neural Networks (https://arxiv.org/abs/2103.02826v1 ) → AAAI 2021, from UCSD
      • XAI (Rule layer / OR layer), 2 FC layers.
    • Infinite Nature: Perpetual View Generation of Natural Scenes from a Single Image (https://infinite-nature.github.io/ ) from Google Research
    • Data Augmentation for Object Detection via Differentiable Neural Rendering (https://arxiv.org/abs/2103.02852v1 )
      • From U of Pittsburgh
      • 오브젝트 디텍터 학습을 위해 싱글 이미지 주어지면 neural renderer를 이용해서 카메라 뷰를 다양화한 이미지를 생성하여 data augment 하고 학습에사용.
      • 생각보다 이미지 뷰가 엄청 다양하진 않지만 꽤 신박한 아이디어로 보임.
      • 다른 augment와 함께 쓸 수 있을 것 같은데..
      • 근데 online affine이 낫나.. 이게 낫나… ROI 나올까??
      • Single Image Renderer가 더 좋아지면 더 유용할지도 …
      • 근데 왜 object detector에만 썼는지.. (COCO 로 검증)
    • Improving Computational Efficiency in Visual Reinforcement Learning via Stored Embeddings (https://arxiv.org/abs/2103.02886v1 )
      • From BAIR (Peter Abbeel)
      • Cnn encoder 일부 freezing
      • Experience replay 에서 이미지 대신 vector 저장.
      • 효율화해도 성능 유지됨
      • DeepMind Control Suite 에서 테스트
    • Coordinate Attention for Efficient Mobile Network Design (https://arxiv.org/abs/2103.02907 )
      • From NU Singapore
      • 작은 cnn 백본에서 se 나 cbam 을 대체 가능
      • Mobilebetv2 moblienext effnet 에 얹어봄
      • 블럭내에 채널 split, bn, 그룹 컨브,.존재 (뭔가 ResNest: ResNet Split-attention 냄새도 나고..)
      • Madd 는 별로 안 늘어나는데 latency 나 메모리 관점에선 어떠할지 체크 필요
    • The Transformer Network for the Traveling Salesman Problem (https://arxiv.org/abs/2103.03012v1 )
      • From NTU, Singapore
      • AI 수업때 늘 나오던 TSP를 RL기반 transformer enc - dec로 해결.
      • TSP50, TSP100 에서 기존 heuristic 기반 SOTA combinatorial optimization solver 대비 더 좋은 성능 보임.
      • 2018년에 Max Welling lab에서 Routing 연구 있음.
      • 학교 숙제를 요걸로 한번 해보시면 어떨까요?
      • 관련 영상 (The Transformer Network for the Traveling Salesman Problem (ucla.edu))
    • CoTr: Efficiently Bridging CNN and Transformer for 3D Medical Image Segmentation (https://arxiv.org/abs/2103.03024v1 )
      • from Northwestern Polytech Univ (China), U of Adelaide
      • 초고해상도 3d 의료 이미지 세그먼테이션
      • CNN feature + deformable Transformer → 속도와 long range dependency 문제 동시 해결
      • 기본적 enc, dec는 CNN. 중간 추상화가 deformable transformer 역할
      • cropped size: 48x192x192, BCV 데이터셋에서 검증.
    • Advances in Multi-turn Dialogue Comprehension: A Survey (https://arxiv.org/abs/2103.03125v1 )
      • from 상하이교통대
      • 멀티턴 대화모델들에 대한 survey 정리 연구
      • 멀티텀 대화 연구나 서비스 만드시는 분들에겐 도움될듯
      • 감사하게도 Dialog-BERT 논문 인용함.
    • DONeRF: Towards Real-Time Rendering of Neural Radiance Fields using Depth Oracle Networks (https://arxiv.org/abs/2103.03231v1 )
      • NeRF 이후로 Neural renderer 비약적인 결과 보여줌
      • 최근 ShapeNeRF는 이미지 거의 안씀.. (주로 구글리서치)
      • 근데… 연산량 넘 많음..
      • Facebook reality lab과 오스트리아 Graz Univ 에서 무려 800x800 을 15fps 로 뽑아내는 NeRF를 만듬. (대략 48배 빠름)
      • 과연 VR/AR의 세상이 오는 데 혁혁한 기여 가능?
      • https://depthoraclenerf.github.io/
    • Anycost GANs for Interactive Image Synthesis and Editing (https://arxiv.org/abs/2103.03243v1 )
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant