Skip to content

音声認識による自動調整 #231

@Patchethium

Description

@Patchethium

内容

ちょっと伝えにくいかもしれませんが、たとえば、この動画にあるユーザー音声>>合成音声の機能を実装してみていきたいと思います。

議論したいことについてですが、まずその可能な仕組みが2つあることです。

  1. ユーザー音声>音声認識>モーラごとの音素&ピッチ&長さ>GUI>synthesis>合成音声
  2. ユーザー音声>音声認識>フレームごとの音素&ピッチ>decode_forwarder>合成音声

1つ目にはユーザーの調整空間が広くなりますが、精度は下がるかもしれません。2つ目のは逆に精度が高いですけど、ユーザーは音声の他に何も調整できなくなります。両方を実装して、2つ目の仕組みを高精度モードという名前をつける手もあるんですが、これ書くコードが多くて面倒になりそうです。

そして音声認識/合成を触ることは初めてですが、ここでこの実装は可能であるのかどうかわかりません。ご意見があればぜひ。

Pros 良くなる点

ユーザーの調整空間を広くなる

ボイスチェンジャーとして使えることになる

Cons 悪くなる点

やることが多い

実現方法

音素の抽出はJulius、音高の抽出はWORLDでできると思います。

ちょっと長さをどうすればいいのかよくわかりません。。。

Metadata

Metadata

Assignees

No one assigned

    Labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions