Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[20210725] Weekly AI ArXiv 만담 #18

Closed
jungwoo-ha opened this issue Jul 19, 2021 · 4 comments
Closed

[20210725] Weekly AI ArXiv 만담 #18

jungwoo-ha opened this issue Jul 19, 2021 · 4 comments

Comments

@jungwoo-ha
Copy link
Owner

jungwoo-ha commented Jul 19, 2021

@ghlee3401
Copy link

ghlee3401 commented Jul 25, 2021

Paper

  • Sequence-to-Sequence Piano Transcription with Transformers
    seq2seqpiaon

    • Code : https://goo.gl/magenta/seq2seq-piano-transcription-code (아직 없음)
    • Problem : Automatic Music Transcription (AMT) 의 기존 연구들은 모델의 architecture, input/output representation 등에 대한 광범위한 도메인별 디자인이 필요하였음
    • Contribution : domain-specific adaptation 없이 자동으로 piano audio를 MIDI 열로 바꾸어주는 방법을 제안하였음
    • Method
      • autoregressive encoder-decoder Transformer architecture
      • input은 mel-spectrogram, output은 각 frame당 softmax 결과값이 나오는데 target은 MIDI로부터 추출한 vocabulary
      • Note : [128개의 값] (128개의 MIDI pitches, 실험에서는 실제로 사용되는 피아노 키에 해당하는 88개의 pith를 사용)
      • Velocity : [128개의 값] 다음 note event가 발생할 때까지의 속력 (빠르기), note-off 시에는 0
      • Time : [6,000개의 값] segment 안에서 note가 나타나는 절대 시간 위치. 10ms bin으로 나누어둠
      • EOS : [1개의 값] sequence의 끝을 나타냄
  • StarGANv2-VC: A Diverse, Unsupervised, Non-parallel Framework for Natural-Sounding Voice Conversion
    starganv2vc

    • Sample : https://starganv2-vc.github.io/
    • Conference : INTERSPEECH 2021
    • Problem : non-parallel voice conversion (auto-encoder-based/TTS-based/GAN-based) speaker 정보를 없이기 위한 적잘한 constraint가 설계되어야하거나, speaker similarity가 떨어지거나, text label이 필요하거나 하는 문제가 있음
    • Contribution
      • StarGAN v2를 voice conversion에 적용하여 plain speech를 다양한 스타일의 speech로 conversion 하였음
      • novel adversarial source classifier loss로 변환된 음성과 타겟 음성 간의 similarity를 높였음
      • ASR과 F0 extraction network를 모두 이용한 perceptual loss를 VC에서 처음 사용함
  • Digital Einstein Experience: Fast Text-to-Speech for Conversational AI
    einstein

@Kyung-Min
Copy link

Kyung-Min commented Jul 25, 2021

Paper

  • User-specific Adaptive Fine-tuning for Cross-domain Recommendations

    • 추천시스템의 cross domain transfer를 위한 finetuning 방법
    • 타겟 데이터셋 크기가 작을 때, 파라미터가 매우 큰 모델을 통째로 finetuning하면 overfitting이 발생하기 쉬움
    • 유저별로 서로 다른 레이어를 tuning해줌으로써, finetuning cost를 줄이고, performance도 향상시킬 수 있었다라고 주장
    • input sequence가 들어왔을 때 어떤 레이어를 tuning해줄지 결정하는 policy networks 존재
    • hard (gumbel softmax) / soft (gating mechanism) / RL (REINFORCE style)
    • image
  • End-to-End Learning of Coherent Probabilistic Forecasts for Hierarchical Time Series (ICML 21)

    • Hierarchical time-series forecasting을 end2end 하게 학습하는 모델
    • Coherence constraints: shop 단위 주문건수 = sum of item 단위 주문건수
    • 각 예측은 특정 확률 분포에서 샘플링해야함 (probablistic forecasting)
    • 샘플링은 end2end가 안되므로 VAE에서처럼 reparameterization trick 사용 y= mean + sigma*z (z is sampled from normal dist.)
    • Coherence를 맞추기 위해서 hierarchy에 맞는 matrix 정의
    • image
    • Transformed sample should be in the coherence sub-space
    • image

News

@veritas9872
Copy link

veritas9872 commented Jul 25, 2021

Neuroprosthesis for Decoding Speech in a Paralyzed Person with Anarthria

https://www.nejm.org/doi/full/10.1056/NEJMoa2027540

image

Supplementary Material: https://www.gwern.net/docs/ai/2021-moses-supplement.pdf

AI가 드디어 독심술에 성공했습니다! ㄷㄷㄷㄷㄷㄷ
New England Journal of Medicine (NEJM)에서 마비가 찾아온 사람의 뇌신호로부터 단어 및 문장을 예측하는데 성공했습니다.
아직 paywall 뒤에 있지만 조만간 큰 뉴스가 될 것으로 예상됩니다.
몇 년 후에 뇌내 AI에 의해 의사소통하는 기술의 시조가 될지도 모릅니다 ㅎㅎㅎ

Real-ESRGAN: Training Real-World Blind Super-Resolution with Pure Synthetic Data
image

https://arxiv.org/abs/2107.10833
ESRGAN 모델을 synthetic data를 통해 학습했을 때 real data와 마찬가지로 좋은 효과를 보여주는 페이퍼입니다.
제가 예전에 ESRGAN을 많이 사용했었는데 후속 프로젝토 또한 image reconstruction task에 많은 도움이 될 것 같습니다.

@kwonminki
Copy link

논문 소개는 아니지만... 크롬을 사용하시는 분들께 공유하면 좋을 듯 해서 올려봅니다.

https://chrome.google.com/webstore/detail/arxive/hkoblclipggkhhbllgefhnbjdcajmelh?hl=ko

chrome extension으로 'Arxive' 라고 하나 만들어서 올려봤습니다. 크롬 웹스토어에서 직접 검색하셔도 나옵니다.

정말 간단하게 arxiv 사이트를 통해 논문을 받을 때 파일 제목을 논문제목 + 저자 + 연도로 저장할 수 있게 만들었습니다.
arxiv 사이트에 접속하면 원래 논문을 다운받던 pdf 밑에 Direct download가 페이지에 하나 생기고 해당 링크를 클릭하시면 됩니다.
설정에서 저자, 연도 유무 선택이 가능하고, 바로 다운로드 폴더에 받을지 다른이름으로 저장할지도 설정 가능합니다.
필요하신 분 있으시면 쓰시면 좋을 듯 합니다. (나중에 시간나면 다른 사이트들도 추가해볼까 합니다)

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

5 participants