# Advanced TTS demos

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/r9y9/ttslearn/blob/master/notebooks/ch11_Advanced-demos.ipynb)

이 페이지(노트북 형식)에서는, 제11장에서 조금 접한 「비자기 회귀형 신경 보코더」를 이용한, 발전적인 음성 합성의 데모를 나타냅니다.
서적에서는 JSUT 코퍼스만을 다루었습니다만, 여기에서는 JVS 코퍼스를 이용한 다화자 음성 합성 등, 다른 코퍼스를 이용한 음성 합성의 데모도 소개합니다.
이 페이지의 데모는 책에 설명되어 있지 않습니다.

비자기 회귀형 신경보코더의 구현에는 [kan-bayashi/ParallelWaveGAN](https://github.com/kan-bayashi/ParallelWaveGAN) 을 이용합니다.
다화자 음성 합성의 구현은, 서적에서는 구현의 해설은 하고 있지 않습니다만, 제9장, 제10장의 내용에, 경미한 수정을 더하는 것으로 실현 가능합니다.
관심있는 독자는 extra_recipes 소스 코드를 참조하십시오.

## 준비

### ttslearn 설치

In [None]:
%%capture
try:
    import ttslearn
except ImportError:
    !pip install ttslearn

In [None]:
import ttslearn
ttslearn.__version__

### 패키지 임포트

In [None]:
%pylab inline
import IPython
from IPython.display import Audio
import librosa
import librosa.display
from tqdm.notebook import tqdm
import torch
import random

## JSUT

### Tacotron + Parallel WaveGAN (16kHz）

In [None]:
from ttslearn.contrib import Tacotron2PWGTTS

if torch.cuda.is_available():
    device = torch.device("cuda")
else:
    device = torch.device("cpu")
print("Device:", device)

pwg_engine = Tacotron2PWGTTS(device=device)

%time wav, sr = pwg_engine.tts("あらゆる現実を、すべて自分のほうへねじ曲げたのだ。")
IPython.display.display(Audio(wav, rate=sr))

### Tacotron + Parallel WaveGAN (24kHz）

In [None]:
from ttslearn.pretrained import create_tts_engine

pwg_engine = create_tts_engine("tacotron2_pwg_jsut24k", device=device)

%time wav, sr = pwg_engine.tts("あらゆる現実を、すべて自分のほうへねじ曲げたのだ。")
IPython.display.display(Audio(wav, rate=sr))

### Tacotron + HiFi-GAN (24kHz）

In [None]:
from ttslearn.pretrained import create_tts_engine

pwg_engine = create_tts_engine("tacotron2_hifipwg_jsut24k", device=device)

%time wav, sr = pwg_engine.tts("あらゆる現実を、すべて自分のほうへねじ曲げたのだ。")
IPython.display.display(Audio(wav, rate=sr))

## JVS 

### Multi-speaker Tacotron + Parallel WaveGAN (16kHz）

In [None]:
pwg_engine = create_tts_engine("multspk_tacotron2_pwg_jvs16k", device=device)
for spk in ["jvs001", "jvs010", "jvs030", "jvs050", "jvs100"]:
    text = "タコスと寿司、あなたはどっちが好きですか？わたしは" + ("寿司" if random.random() > 0.2 else "タコス") + "が好きです。"
    wav, sr = pwg_engine.tts(text, spk_id=pwg_engine.spk2id[spk])
    print(f"Speaker: {spk}")
    print(text)
    IPython.display.display(Audio(wav, rate=sr))

### Multi-speaker Tacotron + Parallel WaveGAN (24kHz）

In [None]:
pwg_engine = create_tts_engine("multspk_tacotron2_pwg_jvs24k", device=device)
for spk in ["jvs001", "jvs010", "jvs030", "jvs050", "jvs100"]:
    text = "タコスと寿司、あなたはどっちが好きですか？わたしは" + ("寿司" if random.random() > 0.2 else "タコス") + "が好きです。"
    wav, sr = pwg_engine.tts(text, spk_id=pwg_engine.spk2id[spk])
    print(f"Speaker: {spk}")
    print(text)
    IPython.display.display(Audio(wav, rate=sr))

### Multi-speaker Tacotron + HiFi-GAN (24kHz）

In [None]:
pwg_engine = create_tts_engine("multspk_tacotron2_hifipwg_jvs24k", device=device)
for spk in ["jvs001", "jvs010", "jvs030", "jvs050", "jvs100"]:
    text = "タコスと寿司、あなたはどっちが好きですか？わたしは" + ("寿司" if random.random() > 0.2 else "タコス") + "が好きです。"
    wav, sr = pwg_engine.tts(text, spk_id=pwg_engine.spk2id[spk])
    print(f"Speaker: {spk}")
    print(text)
    IPython.display.display(Audio(wav, rate=sr))

## Common voice (ja)

### Multi-speaker Tacotron + Parallel WaveGAN (16kHz）

In [None]:
pwg_engine = create_tts_engine("multspk_tacotron2_pwg_cv16k", device=device)
# NOTE: some speaker's voice have significant amount of noise (e.g., speaker 0)
for spk_id in [5, 6, 12, 15, 19]:
    text = ("今日" if random.random() > 0.5 else "明日") + "の天気は、" +  ("晴れ時々曇り" if random.random() > 0.5 else "晴れ") + "です。"
    wav, sr = pwg_engine.tts(text, spk_id=spk_id)
    print(f"Speaker ID: {spk_id}")
    print(text)
    IPython.display.display(Audio(wav, rate=sr))

### Multi-speaker Tacotron + Parallel WaveGAN (24kHz）

In [None]:
pwg_engine = create_tts_engine("multspk_tacotron2_pwg_cv24k", device=device)
# NOTE: some speaker's voice have significant amount of noise (e.g., speaker 0)
for spk_id in [5, 6, 12, 15, 19]:
    text = ("今日" if random.random() > 0.5 else "明日") + "の天気は、" +  ("晴れ時々曇り" if random.random() > 0.5 else "晴れ") + "です。"
    wav, sr = pwg_engine.tts(text, spk_id=spk_id)
    print(f"Speaker ID: {spk_id}")
    print(text)
    IPython.display.display(Audio(wav, rate=sr))

## 참고

- Parallel WaveGAN: https://arxiv.org/abs/1910.11480
- HiFi-GAN: https://arxiv.org/abs/2010.05646
- Parallel WaveGAN을 포함한 GAN 기반 비자가 회귀 형 신경 보코더 구현: https://github.com/kan-bayashi/ParallelWaveGAN