-
Notifications
You must be signed in to change notification settings - Fork 243
Closed as not planned
Labels
Description
内容
ちょっと伝えにくいかもしれませんが、たとえば、この動画にあるユーザー音声>>合成音声の機能を実装してみていきたいと思います。
議論したいことについてですが、まずその可能な仕組みが2つあることです。
- ユーザー音声>
音声認識>モーラごとの音素&ピッチ&長さ>GUI>synthesis>合成音声 - ユーザー音声>
音声認識>フレームごとの音素&ピッチ>decode_forwarder>合成音声
1つ目にはユーザーの調整空間が広くなりますが、精度は下がるかもしれません。2つ目のは逆に精度が高いですけど、ユーザーは音声の他に何も調整できなくなります。両方を実装して、2つ目の仕組みを高精度モードという名前をつける手もあるんですが、これ書くコードが多くて面倒になりそうです。
そして音声認識/合成を触ることは初めてですが、ここでこの実装は可能であるのかどうかわかりません。ご意見があればぜひ。
Pros 良くなる点
ユーザーの調整空間を広くなる
ボイスチェンジャーとして使えることになる
Cons 悪くなる点
やることが多い
実現方法
音素の抽出はJulius、音高の抽出はWORLDでできると思います。
ちょっと長さをどうすればいいのかよくわかりません。。。