Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[20211121] Weekly AI ArXiv 만담 #30

Closed
jungwoo-ha opened this issue Nov 21, 2021 · 4 comments
Closed

[20211121] Weekly AI ArXiv 만담 #30

jungwoo-ha opened this issue Nov 21, 2021 · 4 comments

Comments

@jungwoo-ha
Copy link
Owner

jungwoo-ha commented Nov 21, 2021

  • News
    • 3마녀 강림: ACL 2022 데드라인 + CVPR 2022 데드라인 + ICLR 2022 Rebuttal
    • CVPR 2022 데드라인 36시간 연장 + cmt 폭파 전날 overleaf 다운... 파란만장한 CVPR
    • Global AI Summit (11. 25 ~ 26): http://globalaisummit.kr/home/
      • AI 학과 학회 소속 분들은 무료 등록 가능하답니다 (팝업참조)
    • 과학기술 미래인재 컨퍼런스 2021 (11. 26): https://www.hrst-conference.kr/forum
      • Thomas Frey 기조강연
    • AI학회에서 한국의 약진: EMNLP 5위 (KAIST 12개, 네이버 9개), NeurIPS 8위 (KAIST 45개, 네이버 7개)
  • ArXiv
    • Masked Autoencoders Are Scalable Vision Learners

      • 이진원님 PR12 talk: https://www.youtube.com/watch?v=mtUa3AAxPNQ
      • Kaiming He, Xinlei Chen, Ross Girshick 조합!! (근데 왜 조직명은 아직 FAIR냐???)
      • 이미지 격자 패치 상당수 masking, encoding 이후에 maksed patch 가져와서 작은 decoder 써서 recon 시키기
      • 나중에 인식에 쓸때는 encoder만 가져다가 fine-tune
      • 마스킹 비율을 많이 늘려서 어려운 SSL task를 만들어 놓는 것이 중요함!
        image
        image
        image
        image
    • Swin Transformer V2: Scaling Up Capacity and Resolution

      • ICCV 2021 Best paper 에 빛나는 Swin 저자들이 확대되어 V2를 내놓음.
      • V2의 메인테마는 Scaling-up: 모델크기 (3B), 해상도 (1536x1536), 데이터양
      • 스케일업을 위한 일부 모델 구조 변경
        • SA에서 QK를 dot-product 대신 cosine attention 으로
        • Layernorm의 위치를 pre에서 post 로
        • Windows에서 relative position bias를 log-spaced continuous 로
      • ImageNet-21k로 pretraing 후 ImageNet v2 84%, ImageNet-1k v1: 90.17 (기존 SOTA인 ViT는 JFT-3B)
      • https://github.com/microsoft/Swin-Transformer
        image
        image
    • XLS-R: Self-supervised Cross-lingual Speech Representation Learning at Scale

    • Pre-training Graph Neural Network for Cross Domain Recommendation

      • Graph constrastive SSL pretraing-finetuning 을 이용하여 cross domain 추천에 적용
      • 기존에 joint training 은 source domain bias에서 완전히 자유롭지 못함
      • 기본적으로 GIN (Graph isomorphism network) + MoCo 스타일의 InforNCE loss 활용 SSL
      • 특이한 건 Finetuning 시에 복잡한 모델 대신 MF를 쓰는 것이 더 낫다고 (with Bayesian Persolization Ranking loss)
      • Amazon-GGF를 source로 Amazon-PP를 target으로
        image
        image
    • November 2021 Edition: Rapid Advancements in Digital Transformation in Journal of Innovation (by AI미래포럼 임채성 위원님)

      • 산업 (Industrial) AI는 AI 적용을 통해 혁신적 결과물을 창출하는 산업 DX와 밀접한 관련성을 갖는다 하겠읍니다. 산업 DX(디지털 전환, 디지털 트랜스포메이션) 글로벌 선도 단체인 미국 IIC에서 Journal of Innovation 특집 아티클을 5개를 오늘 내어 놓았읍니다. 아티클 내용과 특집 링크를 아래와 같이 공유드립니다.
      • 산업 DX Journey 대한 전체적인 틀과 개념을 보시려면: The Digital Transformation Journey in the Enterprise and its Leadership
      • 일본 도시바의 산업 DX 신 비즈니스 모델을 보시려면: Digital Transformation in Steel Inspection: Toshiba MetalSpector Customer Case Study
      • IIC에서의 Testbed, test drive와 산업 DX 관련한 사항을 보시려면: Digital Transformation in Practice: Learning from IIC Deployments (한국 기업 Inter-X 사례 포함)
      • 산업 DX 를 추진하는 기업의 신 혁신 프로세스를 보시려면: The New Innovation Process of Undergoing Digital Transformation in Industries
      • 일본 미쯔비시의 스마트팩토리에서의 DX를 향한 점진적 접근을 보시려면: A Continuous Improvement (Kaizen) Driven Approach for Realistic Digital Transformation in Smart Manufacturing
@kimyoungdo0122
Copy link

kimyoungdo0122 commented Nov 21, 2021

@ghlee3401
Copy link

ghlee3401 commented Nov 21, 2021

  • ArXiv
    • Emotional Prosody Control for Speech Generation

      • EmoTTS
      • 이 논문에서는 user가 연속적이고 의미 있는 공간에서 감정을 선택할 수 있음 (Arousal-Valence space)
      • FastSpeech2 구조를 확장하여 Prosody Control(PC) block을 이용하였음
      • arousal 과 valance에 대한 학습 가능한 256차의 벡터의 weighted sum을 이용 (그림의 cond block은 linear layer)
      • 여기서 arousal은 intensity, valance는 감정의 긍정/부정을 의미하고 두 값들은 scalar 값
      • VA space를 세분화한 것은 눈길이 가지만, 결과와 샘플이 좀 아쉬움
      • 샘플 : https://researchweb.iiit.ac.in/~sarath.s/emotts/

      Emotional Prosody Control for Speech Generation1
      Emotional Prosody Control for Speech Generation3

    • Improving Prosody for Unseen Texts in Speech Synthesis by Utilizing Linguistic Information and Noisy Data

      • end-to-end speech synthesis는 많은 양의 학습 데이터가 필요하고 unseen text에 대해서 prosody가 자연스럽지 않음
      • 이 논문에서는 BERT 기반 모델과 FastSpeech2 기반의 모델을 결합하여 사용
      • pre-trained BERT를 fine-tune하고 FastSpeech2의 encoder와 duration predictor를 많은 양의 noisy 데이터로 pre-train 시킴
      • BERT 사용시 single-task / multi-task fine-tunning으로 나누어 사용 (중국어 BERT)
      • AM(acoustic model)에서는 많은 양의 noisy 데이터로 duration predictor를 pre-trainning을 하는데 BERT에서처럼 mask 방식을 이용하여 학습을 시킴 (figure 2)
      • 실험 결과를 보면 BERT를 사용했을 때 AB test에서 높은 결과를 보여주고, noisy 데이터를 사용하였을 때 성능 향상이 있음
      • 샘플 : https://cookingbear.github.io/research/publications/finetuned-bert/

      Improving Prosody for Unseen Texts in Speech Synthesis by Utilizing Linguistic Information and Noisy Data1

      Improving Prosody for Unseen Texts in Speech Synthesis by Utilizing Linguistic Information and Noisy Data2

      Improving Prosody for Unseen Texts in Speech Synthesis by Utilizing Linguistic Information and Noisy Data3

      Improving Prosody for Unseen Texts in Speech Synthesis by Utilizing Linguistic Information and Noisy Data4

@veritas9872
Copy link

Survival-oriented embeddings for improving accessibility to complex data structures

Screenshot (72)

Arxiv: https://arxiv.org/pdf/2110.11303.pdf

NeurIPS 2021 accept된 논문 공유해드립니다.

의료 인공지능 분야에서 딥러닝을 이용한 생존분석, 즉 어떤 현상이 언제 일어날 것인지에 대한 예측 관련 논문이 많이 연구되고 있는데 LMU Munich 영상의학과와 통계학과에서 liver tumor CT scan에서 영상을 직접 input으로 사용해 생존분석을 하는 방법을 제시했습니다.

VAE를 사용해서 영상의 feature를 추출하는 역할을 수행하도록 하고 Cox loss를 조합해서 생존 확률 예측을 하도록 했는데 이는 기존의 딥러닝 기반의 생존분석 모델은 영상 정보로부터 end-to-end 예측을 하기 어려웠기 때문에 학습 안정화를 하는데에 크게 기여했다고 생각됩니다.

Screenshot (73)

VAE의 latent vector를 보았을 때 실제로 tumor가 영향을 미치는 것으로 보입니다(?).

아쉬운 점은 영상 정보를 사용했음에도 불구하고 훨씬 단순한 tabular information을 사용한 방법과 성능이 크게 다르지 않다는 점입니다. 하지만 여전히 image data에서 survival prediction을 비교적 안정적으로 할 수 있는 방법을 제시해준다면 의의가 있다고 생각됩니다.

Screenshot (74)

@hollobit
Copy link

hollobit commented Nov 21, 2021

뷰노 이준형님 대한영상정보학회 Emphysema challenge 수상

[단독] 정부가 ‘연구용’ 줬더니, 얼굴 영상 10만건 빼돌렸다

https://www.hani.co.kr/arti/economy/it/1019612.html

차세대 인공지능 연구개발에 5년간 3천18억원 투입

http://www.mtnews.net/news/view.php?idx=12233
https://www.youtube.com/watch?v=d-5neAOFP0U

  • 과기정통부 '사람중심 인공지능 핵심원천기술 개발' 추진
    예타내역

기후 변화의 가공할 미래 위협...생성적 적대 신경망(GANs)이 잘 보여준다

http://www.aitimes.com/news/articleView.html?idxno=141547

  • 2021년 11월 11-12일 프랑스 파리 GPAI 총회 개최

IEEE, 2022년 이후의 기술 impact에 대한 조사

https://virtualizationreview.com/articles/2021/11/19/ieee-tech-study.aspx?m=1
기술동향

  • https://transmitter.ieee.org/impact-of-technology-2022/
    미국 의 최고 정보 책임자, 최고 기술 책임자 및 기술 리더 350명을 대상으로 한 10월 설문 조사를 기반
    "2022년에 가장 중요한 기술은 - 21%가 AI와 머신 러닝,
    글로벌 전염병으로 인해 클라우드 컴퓨팅, AI 및 기계 학습, 5G 및 증강 현실, 가상 현실 및 혼합 현실(AR/VR/MR)의 채택을 가속화
    AI는 향후 1~5년 동안 거의 모든 산업 부문에서 혁신의 대부분을 주도할 것 - 95%

Thanks to its AI system, Grammarly is now one of the most valuable US startups

$200 million 투자 추가. 총 $13 billion valuation.
3천만 명의 사람들이 매일 사용. 50만개 응용들과 연계
2009년 우크라이나 창업 기업.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

5 participants