In [1]:
from espnet2.bin.tts_inference import Text2Speech
from espnet2.train.dataset import ESPnetDataset
import os

# 実験ディレクトリのパス
exp_dir = "./exp/tts_finetune_xvector_vits_raw_phn_jaconv_pyopenjtalk_prosody"

# 学習設定ファイルのパス
train_config_path = os.path.join(exp_dir, "config.yaml")

# モデルファイルのパス
model_path = os.path.join(exp_dir, "train.total_count.best.pth")
# model_path = os.path.join(exp_dir, "latest.pth")

# ボコーダモデルの名前
vocoder_tag = "parallel_wavegan/jsut_parallel_wavegan.v1"

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
# text2speechインスタンスの作成
text2speech = Text2Speech.from_pretrained(
    train_config=train_config_path,
    model_file=model_path,
    vocoder_tag=vocoder_tag,
)



In [3]:
dataset = ESPnetDataset([
    ("./dump/22k/xvector/eval1/xvector.scp", "xvector", "kaldi_ark"),
    ("./dump/22k/raw/eval1/wav.scp", "speech", "sound")])

In [5]:
from IPython.display import display, Audio, Markdown

In [13]:
i = 40
id = dataset[i][0]
xvector = dataset[i][1]['xvector']
speech = dataset[i][1]['speech']

result = text2speech("それではこれで、明日の状況の確認をお願いしようと思います", spembs=xvector)
display(Markdown(f"**{id}**"))
display(Markdown("- リアル"))
display(Audio(speech, rate=text2speech.fs))
display(Markdown("- 合成"))
display(Audio(result["wav"].cpu(), rate=text2speech.fs))


**jvs010_TRAVEL1000_0708**

- リアル

- 合成

In [27]:
i, j = 40, 45
id_i = dataset[i][0]
xvector_i = dataset[i][1]['xvector']
speech_i = dataset[i][1]['speech']
id_j = dataset[j][0]
xvector_j = dataset[j][1]['xvector']
speech_j = dataset[j][1]['speech']


result_i = text2speech("それではこれで、明日の状況の確認をお願いしようと思います", spembs=xvector_i)
result_j = text2speech("それではこれで、明日の状況の確認をお願いしようと思います", spembs=xvector_j)
w_i = 0.5
result_i_j = text2speech("それではこれで、明日の状況の確認をお願いしようと思います", spembs=(w_i*xvector_i+(1.0-w_i)*xvector_j))

display(Markdown(f"- リアル({id_i})"))
display(Audio(speech_i, rate=text2speech.fs))
display(Markdown(f"- リアル({id_j})"))
display(Audio(speech_j, rate=text2speech.fs))

display(Markdown(f"- 合成({id_i})"))
display(Audio(result_i["wav"].cpu(), rate=text2speech.fs))
display(Markdown(f"- 合成({id_j})"))
display(Audio(result_j["wav"].cpu(), rate=text2speech.fs))
display(Markdown(f"- 合成({id_i}+{id_j})"))
display(Audio(result_i_j["wav"].cpu(), rate=text2speech.fs))



- リアル(jvs010_TRAVEL1000_0708)

- リアル(jvs011_TRAVEL1000_0709)

- 合成(jvs010_TRAVEL1000_0708)

- 合成(jvs011_TRAVEL1000_0709)

- 合成(jvs010_TRAVEL1000_0708+jvs011_TRAVEL1000_0709)

In [26]:
i, j = 0, 15
id_i = dataset[i][0]
xvector_i = dataset[i][1]['xvector']
speech_i = dataset[i][1]['speech']
id_j = dataset[j][0]
xvector_j = dataset[j][1]['xvector']
speech_j = dataset[j][1]['speech']

display(Markdown(f"- リアル({id_i})"))
display(Audio(speech_i, rate=text2speech.fs))
display(Markdown(f"- リアル({id_j})"))
display(Audio(speech_j, rate=text2speech.fs))

import numpy as np
text = "こんにちは"
for w_j in np.arange(0.0, 1.1, 0.1):
    w_i = 1.0 - w_j
    result_i_j = text2speech(text,
                             spembs=(w_i*xvector_i+w_j*xvector_j))
    display(Markdown(f"- 合成({id_i}({w_i:.1f}) : {id_j}({w_j:.1f}))"))
    display(Audio(result_i_j["wav"].cpu(), rate=text2speech.fs))

- リアル(jvs001_TRAVEL1000_0429)

- リアル(jvs004_TRAVEL1000_0958)

- 合成(jvs001_TRAVEL1000_0429(1.0) : jvs004_TRAVEL1000_0958(0.0))

- 合成(jvs001_TRAVEL1000_0429(0.9) : jvs004_TRAVEL1000_0958(0.1))

- 合成(jvs001_TRAVEL1000_0429(0.8) : jvs004_TRAVEL1000_0958(0.2))

- 合成(jvs001_TRAVEL1000_0429(0.7) : jvs004_TRAVEL1000_0958(0.3))

- 合成(jvs001_TRAVEL1000_0429(0.6) : jvs004_TRAVEL1000_0958(0.4))

- 合成(jvs001_TRAVEL1000_0429(0.5) : jvs004_TRAVEL1000_0958(0.5))

- 合成(jvs001_TRAVEL1000_0429(0.4) : jvs004_TRAVEL1000_0958(0.6))

- 合成(jvs001_TRAVEL1000_0429(0.3) : jvs004_TRAVEL1000_0958(0.7))

- 合成(jvs001_TRAVEL1000_0429(0.2) : jvs004_TRAVEL1000_0958(0.8))

- 合成(jvs001_TRAVEL1000_0429(0.1) : jvs004_TRAVEL1000_0958(0.9))

- 合成(jvs001_TRAVEL1000_0429(0.0) : jvs004_TRAVEL1000_0958(1.0))