New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

Sign up for GitHub

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Jump to bottom

Voice Conversion from Unaligned Corpora using Variational Autoencoding Wasserstein Generative Adversarial Networks #14

Open

Hiroshiba opened this issue Jul 19, 2017 · 3 comments

Labels

Audio Processing

Member

Hiroshiba commented Jul 19, 2017 •

edited

conditional VAEで音声embeddingを獲得し、転写することで音声変換を行う。更にWGANを使ってクリアな音声を目指す。

論文本体・著者

Chin-Cheng Hsu, Hsin-Te Hwang, Yi-Chiao Wu, Yu Tsao, Hsin-Min Wang
arXiv: https://arxiv.org/abs/1704.00849
demo: https://jeremycchsu.github.io/vc-vawgan/
Interspeech 2017 Poster

解きたい問題

対応関係のないデータを使っての音声変換

新規性

この分野でWGAN(Wasserstein GAN)を使った点

実装

入力は2種類
- 過去文献と同じ音響特徴量x
- 話者のOneHotベクトルy
ネットワークは3種類
- 音響特徴量xから潜在変数zを推定するEncoder
- 話者ラベルyとzから音響特徴量を推定するGenerator(Synthesizer)
- xや推定されたx'からWasserstein距離を推定するDiscriminator


論文 Algorithm. 1 より

パラメータは3種類
- Φ: Encoderのパラメータ
- φ: Discriminatorのパラメータ
- θ: Generatorのパラメータ
ロスは3種類
- J_obs: xとx'の対数尤度（らしいけど実装は不明）
- J_lat: zとN(0,1)のKL距離
- J_wgan: WGANのロス
  - WGANに入力するx'には、xから推定したzと、xに非対応のyから推定したものを用いる

実験・議論

データ関連
- データセットはVoice Conversion Challenge 2016 dataset
- 入力音響特徴量xはスペクトル包絡512次元、非周期性指標512次元、基本周波数1次元
- 話者数は3人
ネットワーク
- 全部CNN
  - 詳細は書かれていないが、デモ用のgithubのファイルからなんとなく分かる
デモサイトで実際に聞ける


論文 Fig. 2 より

５段階評価実験
VAEに比べて良くなった

読んだ中での不明点などの感想

不明点
- ネットワーク構造が全く書かれておらず、追実験が不可能
- WGANを使った理由が不明瞭
  - 文中の説明だと、WGANではなくGANを使っても解決できそうだった
その他の感想
- 非対応の音声データを使った音声変換タスクを解決した論文を読んでみたかったが、今見れるものだと音響特徴量を変換するようなものしか見つからなかった
  - Interspeech2017で発表予定のDeepLearing論文を探したが、arXivで読めるのがとても少ない
  - 早く音声分野にもarXivに論文を投稿する文化が広まってほしい
- ネットワーク図がなくて読みづらい
- 早く他の論文も読みたい。Interspeech 2017の開催が待ち遠しい。

関連論文

Member

kogaki commented Jul 20, 2017

Generatorがyを無視しない制約ってどのロスに入ってるんでしょう？Jwganにyも入力するのかと思って読んだらそうじゃなかったので。

Member Author

Hiroshiba commented Jul 20, 2017

このタスクは、ターゲット側の話者が１人であることを前提に組まれていると思います。
Jwganにはターゲット側の正解データと生成データのみが与えられるため、yの入力が不要になります。

Member

kogaki commented Jul 20, 2017

あーー、なるほどです。ありがとうございます。

kogaki added the Audio Processing label

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment