[20211121] Weekly AI ArXiv 만담 #30

jungwoo-ha · 2021-11-21T04:10:03Z

News
- 3마녀 강림: ACL 2022 데드라인 + CVPR 2022 데드라인 + ICLR 2022 Rebuttal
- CVPR 2022 데드라인 36시간 연장 + cmt 폭파 전날 overleaf 다운... 파란만장한 CVPR
- Global AI Summit (11. 25 ~ 26): http://globalaisummit.kr/home/
  - AI 학과 학회 소속 분들은 무료 등록 가능하답니다 (팝업참조)
- 과학기술 미래인재 컨퍼런스 2021 (11. 26): https://www.hrst-conference.kr/forum
  - Thomas Frey 기조강연
- AI학회에서 한국의 약진: EMNLP 5위 (KAIST 12개, 네이버 9개), NeurIPS 8위 (KAIST 45개, 네이버 7개)
ArXiv
- Masked Autoencoders Are Scalable Vision Learners
  - 이진원님 PR12 talk: https://www.youtube.com/watch?v=mtUa3AAxPNQ
  - Kaiming He, Xinlei Chen, Ross Girshick 조합!! (근데 왜 조직명은 아직 FAIR냐???)
  - 이미지 격자 패치 상당수 masking, encoding 이후에 maksed patch 가져와서 작은 decoder 써서 recon 시키기
  - 나중에 인식에 쓸때는 encoder만 가져다가 fine-tune
  - 마스킹 비율을 많이 늘려서 어려운 SSL task를 만들어 놓는 것이 중요함!
- Swin Transformer V2: Scaling Up Capacity and Resolution
  - ICCV 2021 Best paper 에 빛나는 Swin 저자들이 확대되어 V2를 내놓음.
  - V2의 메인테마는 Scaling-up: 모델크기 (3B), 해상도 (1536x1536), 데이터양
  - 스케일업을 위한 일부 모델 구조 변경
    - SA에서 QK를 dot-product 대신 cosine attention 으로
    - Layernorm의 위치를 pre에서 post 로
    - Windows에서 relative position bias를 log-spaced continuous 로
  - ImageNet-21k로 pretraing 후 ImageNet v2 84%, ImageNet-1k v1: 90.17 (기존 SOTA인 ViT는 JFT-3B)
  - https://github.com/microsoft/Swin-Transformer
- XLS-R: Self-supervised Cross-lingual Speech Representation Learning at Scale
  - Meta AI에서 나온 진정한 의미의 음성인식 Scaling law 연구 (소속명 표기가 dog판 ㅋㅋ)
  - 기본 wav2vec 2.0 구조를 유지하되 parameter를 2B까지 끌어올리고
  - Pretraining으로 128개국어 50만시간 학습 후 Finetuining 으로 음성번역, 음성인식, 언어인식, 화자인식 등등등에서 놀라운 결과 (한국어는 61시간)
  - https://github.com/pytorch/fairseq/tree/main/examples/wav2vec/xlsr
  - 허깅페이스에도 https://huggingface.co/models?other=xls_r
- Pre-training Graph Neural Network for Cross Domain Recommendation
  - Graph constrastive SSL pretraing-finetuning 을 이용하여 cross domain 추천에 적용
  - 기존에 joint training 은 source domain bias에서 완전히 자유롭지 못함
  - 기본적으로 GIN (Graph isomorphism network) + MoCo 스타일의 InforNCE loss 활용 SSL
  - 특이한 건 Finetuning 시에 복잡한 모델 대신 MF를 쓰는 것이 더 낫다고 (with Bayesian Persolization Ranking loss)
  - Amazon-GGF를 source로 Amazon-PP를 target으로
- November 2021 Edition: Rapid Advancements in Digital Transformation in Journal of Innovation (by AI미래포럼 임채성 위원님)
  - 산업 (Industrial) AI는 AI 적용을 통해 혁신적 결과물을 창출하는 산업 DX와 밀접한 관련성을 갖는다 하겠읍니다. 산업 DX(디지털 전환, 디지털 트랜스포메이션) 글로벌 선도 단체인 미국 IIC에서 Journal of Innovation 특집 아티클을 5개를 오늘 내어 놓았읍니다. 아티클 내용과 특집 링크를 아래와 같이 공유드립니다.
  - 산업 DX Journey 대한 전체적인 틀과 개념을 보시려면: The Digital Transformation Journey in the Enterprise and its Leadership
  - 일본 도시바의 산업 DX 신 비즈니스 모델을 보시려면: Digital Transformation in Steel Inspection: Toshiba MetalSpector Customer Case Study
  - IIC에서의 Testbed, test drive와 산업 DX 관련한 사항을 보시려면: Digital Transformation in Practice: Learning from IIC Deployments (한국 기업 Inter-X 사례 포함)
  - 산업 DX 를 추진하는 기업의 신 혁신 프로세스를 보시려면: The New Innovation Process of Undergoing Digital Transformation in Industries
  - 일본 미쯔비시의 스마트팩토리에서의 DX를 향한 점진적 접근을 보시려면: A Continuous Improvement (Kaizen) Driven Approach for Realistic Digital Transformation in Smart Manufacturing

kimyoungdo0122 · 2021-11-21T07:27:08Z

News
- 한국, 글로벌 AI 지수에서 종합 5위 기록...지난해보다 3계단 상승
  - 미, 중, 캐나다, 영국은 1위부터 4위까지 동일하고 5~10위권에서 엎치락뒤치락
  - 글로벌 AI 지수
  - 글로벌 AI 인덱스로 본 한국 AI산업의 현주소 in 2020
  - Talent(28위->19위), Infrastructure(5위->6위), Operation Environment(30위->50위), Research(22위->18위), Development(3위->2위), Government Strategy(31위->7위), Commercial(25위->15위)
- Alphabet Chases Wonder Drugs With DeepMind AI Spinoff Isomorphic Labs
  - 딥마인드에서 Isomorphic Labs 라는 생물학, 의학, 신약 개발 등 전문 AI 연구 회사로 분할. 설립자 겸 CEO가 Demis Hassabis
  - Introducing Isomorphic Labs
  - Isomorphic이 동형(同型)이라는 뜻..
  - 굉장히 복잡하고 다이나믹하지만 생물학도 정보 처리 시스템으로 볼 수 있기 때문에 정보 과학과 생물학은 동형이라는 허사비스의 소개말.
  - DeepMind takes next step in robotics research
  - 로보틱스 및 물리 시뮬레이션 플랫폼 MuJoCo를 인수, 오픈 소스로 개방. 로보틱스, RL, 물리 시뮬레이션 연구자들에게 기여가 될 것으로 전망
  - 딥마인드의 행보 귀추 주목
- Facebook AI Research, multilingual 모델이 처음으로 bilingual 모델을 WMT에서 이겼다!
  - 최근 대부분의 언어모델은 Bilingual 모델이며 두 언어의 쌍으로 만들어진 데이터에서 학습됨.
  - 세계적으로 많이 사용되는 언어간 데이터에 비해 소수 언어는 데이터도 부족하며, 페이스북같은 전세계 수십 억 명이 이용하는 서비스에 bilingual 모델을 일일이 적용하기는 불가능함
  - 그래서 multilingual 모델을 연구했고 WMT에서 좋은 성능을 보임
  - Facebook AI’s WMT21 News Translation Task Submission
  - 아키텍쳐는 dense transformer와 Sparsely Gated Mixture of Expert (MoE)를 썼고 후자가 더 좋았다
  - many to English와 English to many를 별도로 학습하고 Large scal backtranslation을 썼더니 좋았다
  - 하나의 Multilingual 모델로 전세계 유저에게 서빙할 수 있다는 방향이 보인다!
- Microsoft is giving businesses access to OpenAI’s powerful AI language model GPT-3
  - OpenAI의 모델이 드디어 as a service로 Microsoft Azure에 들어갔습니다
  - 기존 OpenAI API와의 차이점
  - Microsoft Azure OpenAI Service
  - GPT-3와 Copilot을 우선 제공하려는 듯
  - 윤리와 보안 이슈에 대한 우려를 인지하고 있어서 각별히 주의를 기울이는 모습
  - MS가 OpenAI에 10억 달러를 투자하고 독점계약을 한 것이 드디어 서비스로 나타나는가?

ghlee3401 · 2021-11-21T07:39:36Z

ArXiv
- Emotional Prosody Control for Speech Generation
  - EmoTTS
  - 이 논문에서는 user가 연속적이고 의미 있는 공간에서 감정을 선택할 수 있음 (Arousal-Valence space)
  - FastSpeech2 구조를 확장하여 Prosody Control(PC) block을 이용하였음
  - arousal 과 valance에 대한 학습 가능한 256차의 벡터의 weighted sum을 이용 (그림의 cond block은 linear layer)
  - 여기서 arousal은 intensity, valance는 감정의 긍정/부정을 의미하고 두 값들은 scalar 값
  - VA space를 세분화한 것은 눈길이 가지만, 결과와 샘플이 좀 아쉬움
  - 샘플 : https://researchweb.iiit.ac.in/~sarath.s/emotts/
- Improving Prosody for Unseen Texts in Speech Synthesis by Utilizing Linguistic Information and Noisy Data
  - end-to-end speech synthesis는 많은 양의 학습 데이터가 필요하고 unseen text에 대해서 prosody가 자연스럽지 않음
  - 이 논문에서는 BERT 기반 모델과 FastSpeech2 기반의 모델을 결합하여 사용
  - pre-trained BERT를 fine-tune하고 FastSpeech2의 encoder와 duration predictor를 많은 양의 noisy 데이터로 pre-train 시킴
  - BERT 사용시 single-task / multi-task fine-tunning으로 나누어 사용 (중국어 BERT)
  - AM(acoustic model)에서는 많은 양의 noisy 데이터로 duration predictor를 pre-trainning을 하는데 BERT에서처럼 mask 방식을 이용하여 학습을 시킴 (figure 2)
  - 실험 결과를 보면 BERT를 사용했을 때 AB test에서 높은 결과를 보여주고, noisy 데이터를 사용하였을 때 성능 향상이 있음
  - 샘플 : https://cookingbear.github.io/research/publications/finetuned-bert/

veritas9872 · 2021-11-21T12:58:23Z

Survival-oriented embeddings for improving accessibility to complex data structures

Arxiv: https://arxiv.org/pdf/2110.11303.pdf

NeurIPS 2021 accept된 논문 공유해드립니다.

의료 인공지능 분야에서 딥러닝을 이용한 생존분석, 즉 어떤 현상이 언제 일어날 것인지에 대한 예측 관련 논문이 많이 연구되고 있는데 LMU Munich 영상의학과와 통계학과에서 liver tumor CT scan에서 영상을 직접 input으로 사용해 생존분석을 하는 방법을 제시했습니다.

VAE를 사용해서 영상의 feature를 추출하는 역할을 수행하도록 하고 Cox loss를 조합해서 생존 확률 예측을 하도록 했는데 이는 기존의 딥러닝 기반의 생존분석 모델은 영상 정보로부터 end-to-end 예측을 하기 어려웠기 때문에 학습 안정화를 하는데에 크게 기여했다고 생각됩니다.

VAE의 latent vector를 보았을 때 실제로 tumor가 영향을 미치는 것으로 보입니다(?).

아쉬운 점은 영상 정보를 사용했음에도 불구하고 훨씬 단순한 tabular information을 사용한 방법과 성능이 크게 다르지 않다는 점입니다. 하지만 여전히 image data에서 survival prediction을 비교적 안정적으로 할 수 있는 방법을 제시해준다면 의의가 있다고 생각됩니다.

hollobit · 2021-11-21T13:01:39Z

과기정통부 '사람중심 인공지능 핵심원천기술 개발' 추진

기후 변화의 가공할 미래 위협...생성적 적대 신경망(GANs)이 잘 보여준다

http://www.aitimes.com/news/articleView.html?idxno=141547

2021년 11월 11-12일 프랑스 파리 GPAI 총회 개최

장관급 대표를 포함하여 시민 사회, 학계, 산업 및 정부의 주요 국제 AI 전문가들이 참여

https://www.gpai.ai/projects/climate-change-and-ai.pdf

https://www.newswire.ca/news-releases/artificial-intelligence-in-the-fight-against-climate-change-a-new-report-presented-at-cop26-862543770.html

https://thisclimatedoesnotexist.com/home

IEEE, 2022년 이후의 기술 impact에 대한 조사

https://virtualizationreview.com/articles/2021/11/19/ieee-tech-study.aspx?m=1

https://transmitter.ieee.org/impact-of-technology-2022/
미국 의 최고 정보 책임자, 최고 기술 책임자 및 기술 리더 350명을 대상으로 한 10월 설문 조사를 기반
"2022년에 가장 중요한 기술은 - 21%가 AI와 머신 러닝,
글로벌 전염병으로 인해 클라우드 컴퓨팅, AI 및 기계 학습, 5G 및 증강 현실, 가상 현실 및 혼합 현실(AR/VR/MR)의 채택을 가속화
AI는 향후 1~5년 동안 거의 모든 산업 부문에서 혁신의 대부분을 주도할 것 - 95%

Thanks to its AI system, Grammarly is now one of the most valuable US startups

https://www.morningbrew.com/emerging-tech/stories/2021/11/19/thanks-to-its-system-of-grammarly-is-now-one-of-the-most-valuable-us-startups

$200 million 투자 추가. 총 $13 billion valuation.
3천만 명의 사람들이 매일 사용. 50만개 응용들과 연계
2009년 우크라이나 창업 기업.

jungwoo-ha closed this as completed Dec 19, 2021

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[20211121] Weekly AI ArXiv 만담 #30

[20211121] Weekly AI ArXiv 만담 #30

jungwoo-ha commented Nov 21, 2021 •

edited

Loading

kimyoungdo0122 commented Nov 21, 2021 •

edited

Loading

ghlee3401 commented Nov 21, 2021 •

edited

Loading

veritas9872 commented Nov 21, 2021

hollobit commented Nov 21, 2021 •

edited

Loading

[20211121] Weekly AI ArXiv 만담 #30

[20211121] Weekly AI ArXiv 만담 #30

Comments

jungwoo-ha commented Nov 21, 2021 • edited Loading

kimyoungdo0122 commented Nov 21, 2021 • edited Loading

ghlee3401 commented Nov 21, 2021 • edited Loading

veritas9872 commented Nov 21, 2021

hollobit commented Nov 21, 2021 • edited Loading

뷰노 이준형님 대한영상정보학회 Emphysema challenge 수상

[단독] 정부가 ‘연구용’ 줬더니, 얼굴 영상 10만건 빼돌렸다

차세대 인공지능 연구개발에 5년간 3천18억원 투입

기후 변화의 가공할 미래 위협...생성적 적대 신경망(GANs)이 잘 보여준다

IEEE, 2022년 이후의 기술 impact에 대한 조사

Thanks to its AI system, Grammarly is now one of the most valuable US startups

jungwoo-ha commented Nov 21, 2021 •

edited

Loading

kimyoungdo0122 commented Nov 21, 2021 •

edited

Loading

ghlee3401 commented Nov 21, 2021 •

edited

Loading

hollobit commented Nov 21, 2021 •

edited

Loading