2018: Comprehensive evaluation of statistical speech waveform synthesis #194

jojonki · 2019-01-24T07:36:42Z

Comprehensive evaluation of statistical speech waveform synthesis
Thomas Merritt, Bartosz Putrycz, Adam Nadolski, Tianjun Ye, Daniel Korzekwa, Wiktor Dolecki, Thomas Drugman, Viacheslav Klimkov, Alexis Moinet, Andrew Breen, Rafal Kuklinski, Nikko Strom, Roberto Barra-Chicote
SLT 2018.
https://arxiv.org/abs/1811.06296

概要

Amazonの統計的音声波形合成（SSWS: Statistical Speech Waveform Synthesis）の評価論文
ハイブリッド型の単位選択合成，SSWS，に対して人を使って知覚テストを行い，詳しくエラー分析を行った

イントロ

音声合成システムは，自然さと柔軟さのトレードオフ問題がつきもの
単位選択合成（Unit selection）スタイルは，ベストケースに置いては，かなり自然な音声合成をできるが，様々に異なる音声を生成するのは不可能
- 最適なユニットがない場合は，音声合成の自然さは，ぐんと下がってしまう
ボコーダー由来の音声パラメタを利用した従来の統計的パラメトリック音声合成（SPSS：Statistical Parametric Speech Synthesis）は，安定した自然さを提供できる
- ただ真に自然な発話からはかけ離れている
ハイブリッド音声合成は，Unit selectionとSPSSのギャップを埋めるために提案された
- unit selectionの不安定問題を軽減させているが，unit selectionのパラダイムに従っており，利用できるunitデータベースに律速される
ボコーダーベースのSPSSでは，音声パラメタの分布を予測するために統計モデルは使われてきた．これらのパラメタはボコーダーに渡され，音声波形を生成する
- ボコーダーは，音声生成において，多くの手作りの想定があるため，自然さを損なう場合がある
最近では，直接音声波形を予測するような統計的モデルが出てきた
- Wavenet（2016）は最初に提案された統計的音声波形合成（SSWS）システム
- Deep Voice，SampleRNN，Char2Wav，WaveNet派生，が続く
SSWSの評価について研究がない問題を指摘
- 行われた評価方法に関する詳細な説明
- 異なる音声ドメインにおけるパフォーマンスの違い
- 従来の音声合成技術との比較

AmazonのSSWS

AmazonのSSWSはFigure 1
- 詳細については省略（TTSシステムの技術的バックグランドがないため，正直良くわからん）

評価

ベースライン
- SPSS（WORLDボコーダーを使った従来の統計的パラメトリック音声合成）とハイブリッド（状態レベルの統計的パラメトリック予測に基づくUnit selection [29]）の２つをベースラインに採用．
MUSHRA（MUltiple Stimuli with Hidden Reference and Anchor）評価
- すべてのシステムは，約２０時間の女性の米語で知覚評価された
- MUSHRAに基づいてリスニングテストが行われた
  - MUSHRAは音声コーデックの評価のために開発されたが，音声合成の違いを発見するのにも有用であることがわかっている[31, 32]
  - 被験者はシステムを0から100で評価
  - MUSHRAでは，上限と下限（１００点と０点）がセットされ，被験者はそれに基づきシステムを０～１００で評価
  - ただし，音声合成においては下限をセットするのは難しいのでセットしていない，また１００をセットすることも強要していない（31, 11, 32に基づく）
- 実験設定
  - ５０人の米語ネイティブの被験者（聴覚に問題ない人）
  - テスト発話数は２００
    - すべてのテスト発話は１０回評価されるよう分割された．[33]の実験に基づいてる
  - この２００発話はAmazonの９つのドメインから選ばれている
  - この知覚評価が頑健で再現性があるものを確認するために，異なる５０人を更に雇用し同様のテストを行った（つまり合計で１００人の被験者）
    - Group A，Group Bと名付ける．Group Bは非音声専門家でUSAの色んな州から集められた
音声エラーの分析
- 異なるシステムでの品質の違いを見るために，Amazonの言語研究者（米語ネイティブ）に各システム２００発話を提示され，音声合成における下記チェックポイントに対してレーティングを行う
  - audio glitch, stress, intonation/prosody, pronunciation, incorrect pause insertion, incorrect pitch insertion, text normalisation, other

実験結果

MUSHRA評価
- サマリはTable 2に，Fig 2, 4にも結果
- Group A, Bは似たような傾向で，頑健さと再現性があるといえそう（統計検定アリ）
- SPSSより，SSWSとハイブリッドが好まれる傾向がある
スピーチドメイン別結果
- 各ドメインで各システムを比較（両側t検定）
  - SSWSがハイブリッドよりも良い
    - infotainment,calling,news,navigation
  - ハイブリッドがSSWSよりも良い
    - spelling
  - 有意差なし
    - entertainment,texting,ascessibility,flash-briefing
音声エラーの分析
- ２００発話に対する各エラー数をTable 4
- SSWSの改善点
  - incorrect pause insertion, incorrect pitch accent, intonation/prosody, text normalisation.
- SSWSの改悪点
  - audio glitch
- Table 5にはSSWSのaudio glitchをドメイン別にエラー分析
  - 特定のドメインが悪い，とかはなさそう
- 多くのタイプの問題はSSWSにより改善されているが，audio glitchにはさらなる分析が必要

まとめ

AmazonのSSWS（プロトタイプ）をハイブリッドタイプと比較した
知覚評価は，繰り返され信頼できる値であった
更なる分析のためにドメイン別の評価も行った
加えて各音声合成システムに対して，音声エラーも比較した（SSWSは多くのエラーを改善したがaudio glitchは悪化）

用語

単位選択合成（Unit selection synthesis）
- 人の声をスタジオで長時間録音した音声をユニットにスライスしデータベース化、次いで、入力テキストに従ってそれらを再結合し全く新しい音声を生成します
- https://shiropen.com/2017/08/24/27601
- https://ja.wikipedia.org/wiki/%E9%9F%B3%E5%A3%B0%E5%90%88%E6%88%90#%E5%8D%98%E4%BD%8D%E9%81%B8%E6%8A%9E%E5%9E%8B%E9%9F%B3%E5%A3%B0%E5%90%88%E6%88%90[30][31]
Wavenet, Googleの解説記事（日本語）
- https://cloud.google.com/text-to-speech/docs/wavenet?hl=ja
音声合成の種類
- EN: https://en.wikipedia.org/wiki/Speech_synthesis#Synthesizer_technologies
- JA: https://ja.wikipedia.org/wiki/%E9%9F%B3%E5%A3%B0%E5%90%88%E6%88%90#%E6%89%8B%E6%B3%95
- Concatenation Synthesis （波形接続型音声合成）
  - 録音された音声の素片を連結して合成する
  - Unit selection synthesis（単位選択型音声合成）
    - コーパスベース音声合成とも呼ばれるが、生成モデル型音声合成でもモデルの学習にコーパスを使用する。データベースの作成では、音声を録音し、その録音した音声に対して、文・フレーズ・アクセント句・形態素・音素・アクセントなどを表すラベルを付与するとともに、音声認識や人手での調整により、ラベルと音声区間の対応を取る。
- Statistical Parametric Synthesis（統計的パラメトリック音声合成）
  - HMM-based
  - DNN-based
TTSのすばらしいまとめ
- https://gist.github.com/tosaka2/30032cdd505fe7a66d91f14851e293e3

jojonki · 2019-05-11T02:04:33Z

Podcastでも解説しました．https://anchor.fm/lnlp-ninja/episodes/ep20-Comprehensive-evaluation-of-statistical-speech-waveform-synthesis-e31pp2

jojonki changed the title ~~🚧 v2): Comprehensive evaluation of statistical speech waveform synthesis~~ 🚧 Comprehensive evaluation of statistical speech waveform synthesis Jan 27, 2019

jojonki added Evaluation TTS labels Jan 27, 2019

jojonki changed the title ~~🚧 Comprehensive evaluation of statistical speech waveform synthesis~~ Comprehensive evaluation of statistical speech waveform synthesis Jan 27, 2019

jojonki changed the title ~~Comprehensive evaluation of statistical speech waveform synthesis~~ 2018: Comprehensive evaluation of statistical speech waveform synthesis Jan 27, 2019

jojonki added the Podcast label May 11, 2019

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

2018: Comprehensive evaluation of statistical speech waveform synthesis #194

2018: Comprehensive evaluation of statistical speech waveform synthesis #194

jojonki commented Jan 24, 2019 •

edited

jojonki commented May 11, 2019

2018: Comprehensive evaluation of statistical speech waveform synthesis #194

2018: Comprehensive evaluation of statistical speech waveform synthesis #194

Comments

jojonki commented Jan 24, 2019 • edited

概要

イントロ

AmazonのSSWS

評価

実験結果

まとめ

コメント

用語

jojonki commented May 11, 2019

jojonki commented Jan 24, 2019 •

edited