New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

2018: Comprehensive evaluation of statistical speech waveform synthesis #194

Open
jojonki opened this Issue Jan 24, 2019 · 0 comments

Comments

Projects
None yet
1 participant
@jojonki
Copy link
Owner

jojonki commented Jan 24, 2019

Comprehensive evaluation of statistical speech waveform synthesis
Thomas Merritt, Bartosz Putrycz, Adam Nadolski, Tianjun Ye, Daniel Korzekwa, Wiktor Dolecki, Thomas Drugman, Viacheslav Klimkov, Alexis Moinet, Andrew Breen, Rafal Kuklinski, Nikko Strom, Roberto Barra-Chicote
SLT 2018.
https://arxiv.org/abs/1811.06296

概要

  • Amazonの統計的音声波形合成(SSWS: Statistical Speech Waveform Synthesis)の評価論文
  • ハイブリッド型の単位選択合成,SSWS,に対して人を使って知覚テストを行い,詳しくエラー分析を行った

イントロ

  • 音声合成システムは,自然さと柔軟さのトレードオフ問題がつきもの
  • 単位選択合成(Unit selection)スタイルは,ベストケースに置いては,かなり自然な音声合成をできるが,様々に異なる音声を生成するのは不可能
    • 最適なユニットがない場合は,音声合成の自然さは,ぐんと下がってしまう
  • ボコーダー由来の音声パラメタを利用した従来の統計的パラメトリック音声合成(SPSS:Statistical Parametric Speech Synthesis)は,安定した自然さを提供できる
    • ただ真に自然な発話からはかけ離れている
  • ハイブリッド音声合成は,Unit selectionとSPSSのギャップを埋めるために提案された
    • unit selectionの不安定問題を軽減させているが,unit selectionのパラダイムに従っており,利用できるunitデータベースに律速される
  • ボコーダーベースのSPSSでは,音声パラメタの分布を予測するために統計モデルは使われてきた.これらのパラメタはボコーダーに渡され,音声波形を生成する
    • ボコーダーは,音声生成において,多くの手作りの想定があるため,自然さを損なう場合がある
  • 最近では,直接音声波形を予測するような統計的モデルが出てきた
    • Wavenet(2016)は最初に提案された統計的音声波形合成(SSWS)システム
    • Deep Voice,SampleRNN,Char2Wav,WaveNet派生,が続く
  • SSWSの評価について研究がない問題を指摘
    • 行われた評価方法に関する詳細な説明
    • 異なる音声ドメインにおけるパフォーマンスの違い
    • 従来の音声合成技術との比較

AmazonのSSWS

  • AmazonのSSWSはFigure 1
    • 詳細については省略(TTSシステムの技術的バックグランドがないため,正直良くわからん)
  • image

評価

  • ベースライン

    • SPSS(WORLDボコーダーを使った従来の統計的パラメトリック音声合成)とハイブリッド(状態レベルの統計的パラメトリック予測に基づくUnit selection [29])の2つをベースラインに採用.
  • MUSHRA(MUltiple Stimuli with Hidden Reference and Anchor)評価

    • すべてのシステムは,約20時間の女性の米語で知覚評価された
    • MUSHRAに基づいてリスニングテストが行われた
      • MUSHRAは音声コーデックの評価のために開発されたが,音声合成の違いを発見するのにも有用であることがわかっている[31, 32]
      • 被験者はシステムを0から100で評価
      • MUSHRAでは,上限と下限(100点と0点)がセットされ,被験者はそれに基づきシステムを0~100で評価
      • ただし,音声合成においては下限をセットするのは難しいのでセットしていない,また100をセットすることも強要していない(31, 11, 32に基づく)
    • 実験設定
      • 50人の米語ネイティブの被験者(聴覚に問題ない人)
      • テスト発話数は200
        • すべてのテスト発話は10回評価されるよう分割された.[33]の実験に基づいてる
      • この200発話はAmazonの9つのドメインから選ばれている
      • この知覚評価が頑健で再現性があるものを確認するために,異なる50人を更に雇用し同様のテストを行った(つまり合計で100人の被験者)
        • Group A,Group Bと名付ける.Group Bは非音声専門家でUSAの色んな州から集められた
  • 音声エラーの分析

    • 異なるシステムでの品質の違いを見るために,Amazonの言語研究者(米語ネイティブ)に各システム200発話を提示され,音声合成における下記チェックポイントに対してレーティングを行う
      • audio glitch, stress, intonation/prosody, pronunciation, incorrect pause insertion, incorrect pitch insertion, text normalisation, other

実験結果

  • MUSHRA評価

    • サマリはTable 2に,Fig 2, 4にも結果

    • Group A, Bは似たような傾向で,頑健さと再現性があるといえそう(統計検定アリ)

    • SPSSより,SSWSとハイブリッドが好まれる傾向がある

    • image

  • スピーチドメイン別結果

    • 各ドメインで各システムを比較( 両側t検定)
      • SSWSがハイブリッドよりも良い
        • infotainment,calling,news,navigation
      • ハイブリッドがSSWSよりも良い
        • spelling
      • 有意差なし
        • entertainment,texting,ascessibility,flash-briefing
  • 音声エラーの分析

    • 200発話に対する各エラー数をTable 4

    • SSWSの改善点

      • incorrect pause insertion, incorrect pitch accent, intonation/prosody, text normalisation.
    • SSWSの改悪点

      • audio glitch
    • Table 5にはSSWSのaudio glitchをドメイン別にエラー分析

      • 特定のドメインが悪い,とかはなさそう
    • 多くのタイプの問題はSSWSにより改善されているが,audio glitchにはさらなる分析が必要

まとめ

  • AmazonのSSWS(プロトタイプ)をハイブリッドタイプと比較した
  • 知覚評価は,繰り返され信頼できる値であった
  • 更なる分析のためにドメイン別の評価も行った
  • 加えて各音声合成システムに対して,音声エラーも比較した(SSWSは多くのエラーを改善したがaudio glitchは悪化)

コメント

  • TTSの包括的な主観評価を行っており,TTS評価を行いたい人にとってはとても参考になる論文だと思う

用語

@jojonki jojonki changed the title 🚧 v2): Comprehensive evaluation of statistical speech waveform synthesis 🚧 Comprehensive evaluation of statistical speech waveform synthesis Jan 27, 2019

@jojonki jojonki changed the title 🚧 Comprehensive evaluation of statistical speech waveform synthesis Comprehensive evaluation of statistical speech waveform synthesis Jan 27, 2019

@jojonki jojonki changed the title Comprehensive evaluation of statistical speech waveform synthesis 2018: Comprehensive evaluation of statistical speech waveform synthesis Jan 27, 2019

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment