## DeepVoice2: Multi-Speaker Neural Text-to-Speech

### Abstract

我们提出一种利用低维度的speaker embedding，仅通过一个模型生成多个说话者的TTS增强技术。作为一个起点，我们展示了单说话人神经 TTS 的最新两种方法的改进: DeepVoice1 和 Tacotron. 我们介绍了DeepVoice2,它是基于DeepVoice1的相似pipeline,但是构建了更高性能的block, 对比DeepVoice1，音频质量有了显著提升。对于Tacotron,增加了一个post-processing neural vocoder,使音频质量有了提升。我们在两个多说话人 TTS 数据集上演示了用于 Deep Voice 2 和 Tacotron 的多说话人语音合成技术, 在这两个目前最好的TTS系统(DeepVoice2 and Tacotron)上都证明了我们方法的有效性。证明一个TTS系统可以通过每个说话者半小时以内的数据学到上百个语音特征，实现了高质量的音频合成并且几乎完整的保存了说话者的特性

### 1. Introduction

人工语音合成，通常称为文本到语音( TTS )，在技术接口、可访问性、媒体和娱乐等方面有多种应用。大多数 TTS 系统都是用单个讲话者语音构建的，而通过拥有不同的语音数据库或模型参数来提供多个讲话者语音。因此，与只支持单一语音的系统相比，开发支持多个语音的 TTS 系统需要更多的数据和开发工作。

在这项工作中，我们证明我们可以建立全神经的多说话人 TTS 系统，在不同的说话人之间共享绝大多数的参数。我们证明，一个单一的模型不仅可以从多个不同的声音产生语音，而且与训练单说话者系统相比，每个说话者所需要的数据也明显较少。

具体而言，我们的贡献如下:

1. 我们提出了一种基于 Deep Voice 1 (《Deep voice: Real-time neural text-to-speech》)的改进架构： Deep Voice 2 ；
2. 我们介绍了一种基于 WaveNet (《Wavenet: A generative model for raw audio》)的 spectrogram-to-audio neural vocoder(声谱图到音频的神经声码器)，并将其与 Tacotron (《Tacotron: Towards end-to-end speech synthesis.》) 一起使用，作为 Griffin-Lim 音频生成器的替代品；
3. 以这两个单说话人模型为基线，我们通过在 Deep Voice 2 和 Tacotron 中引入可训练的 speaker embeddings 来演示 multi-speaker neural speech synthesis。


本文的其余部分组织如下：

1. Section2:讨论了相关的工作，以及使本文与之前工作做出不同贡献的原因；
2. Section3:介绍了 Deep Voice 2 ，并强调了与 Deep Voice 1 的区别；
3. Section4:解释了神经 TTS 模型的 speaker embedding 技术，并展示了 Deep Voice 2 和 Tacotron 架构的多说话人变体；
4. - Section5.1:通过平均意见评分( MOS )评估量化了单说话人 TTS 的改进
   -Section5.2:通过 MOS 评估和 multi-speaker discriminater accuracy 度量给出了 Deep Voice 2 和 Tacotron 的综合音频质量；
5. Section6:给出结论并对结果和未来工作进行讨论。


### 2. Related Work

我们按顺序讨论我们在第一节提出的每个相关工作，从单说话人神经语音合成开始，然后转向多说话人语音合成和生成模型质量度量。

关于单说话人的语音合成，深度学习已被用于各种各样的子组件，包括持续时间预测(《Fast, compact, and high quality LSTM-RNN based statistical parametric speech synthesizers for mobile devices》)，基本频率预测(《Median-based generation of synthetic speech durations using a non-parametric approach》)，声学建模(《Unidirectional long short-term memory recurrent neural network with recurrent output layer for low-latency speech synthesis》)，以及自回归逐样本音频波形生成器(《SampleRNN: An unconditional end-to-end neural audio generation model》)

我们的贡献建立在最近的完全神经 TTS 系统方面的工作基础上，包括 Deep Voice 1 (《Deep voice: Real-time neural text-to-speech》)、 Tacotron(《Tacotron: Towards end-to-end speech synthesis.》)和 Char2Wav(《Char2wav: End-to-end speech synthesis》) 。

这些工作集中在构建单说话人 TTS 系统，而我们的论文则集中在扩展神经 TTS 系统，以在每个说话人的数据更少的情况下处理多个说话人。

我们的工作并不是第一次尝试多说话人 TTS 系统。例如，在传统的基于 HMM 的 TTS 合成(《Robust speaker-adaptive hmm-based text-to-speech synthesis》)中，一个平均语音模型使用多个说话者数据进行训练，然后对其进行适配以适应不同的说话者。基于 DNN 的系统(《On the training of DNN-based average voice model for speech synthesis》)也被用于构建平均语音模型， with i-vectors representing speakers as additional inputs and separate output layers for each target speaker. 类似地，Fan等人(《Multi-speaker modeling and speaker adaptation for DNN-based TTS synthesis》)在不同说话人之间使用带有说话人相关的输出层预测声码器参数(如线谱对、非周期性参数等)的共享隐藏表达。最近，生成对抗网络( GANs )(《Voice conversion from unaligned corpora using variational autoencoding wasserstein generative adversarial networks》)解决了说话人适应问题。

相反，对于 multi-speaker TTS,我们使用了可训练的 speaker embeddings. 该方法被研究在语音识别上(《Fast speaker adaptation of hybrid NN/HMM model for speech recognition based on discriminative learning of speaker code》)，但在语音合成方面是一个新技术。与之前依赖于 fixed embeddings (例如 i-vector )的工作不同，本工作中使用的 speaker embeddings 是与模型的其他部分一起从零开始训练的，因此可以直接学习与语音合成任务相关的特征。此外，这项工作不依赖于 per-speaker output layers 或 average voice modeling，这导致更高质量的合成样本和更低的数据需求(因为每个说话人需要学习的唯一参数更少)。

为了以一种自动的方式评估生成的声音的区别性，我们建议使用 speaker discriminator 的分类精度。类似的指标，如 "Inception score"，已被用于图像合成的 GANs 定量质量评估(《Improved techniques for training gans》)。说话人分类研究既有传统的 GMM-based methods(《* Speaker verification using adapted gaussian mixture models*》)，也有最近的深度学习方法(《Deep speaker: an end-to-end neural speaker embedding system》)。



### 3. Single-Speaker Deep Voice 2

在本节中，我们介绍了 Deep Voice 2 ，一种基于 Deep Voice 1 (《Deep voice: Real-time neural text-to-speech》)的神经 TTS 系统。我们保留了 Deep Voice 1 (《Deep voice: Real-time neural text-to-speech》)的一般结构，如下图所示。

![Screen Shot 2022-03-10 at 5.10.09 PM.png](attachment:e76a9a79-2bda-4fcb-9dd9-d0c545a91898.png)


我们提出改进单说话人模型的主要动机是将其作为高质量多说话人模型的起点。

Deep Voice 2 和 Deep Voice 1 的一个主要区别是 the phoneme duration 和 frequency model 的分离。Deep Voice 1 有一个模型来联合 预测音素持续时间(predict phoneme duration) 和 frequency profile (浊音和随时间变化的基频，F0)。 在 Deep Voice 2 中，首先预测音素持续时间，然后作为频率模型的输入。

在随后的小节中，我们介绍了在 Deep Voice 2 中使用的模型。我们将在第五节第一部分对 Deep Voice 2 和 Deep Voice 1 进行定量比较。

#### 3.1 Segmentation model

与 Deep Voice 1 类似，在 Deep Voice 2 中，音素位置估计被视为一个无监督学习问题。Segmentation model 是 convolutional-recurrent architecture with connectionist temporal classification loss( CTC )(《Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks》)，用于音素对分类，然后使用音素对提取它们之间的边界。Deep Voice 2 的主要架构变化是在卷积层中添加了 batch normalization 和 residual connections。其中， Deep Voice 1 的 Segmentation model 将每一层的输出计算为：

$$h^{(l)}=\text{relu}\big(W^{(l)}*h^{(l-1)}+b^{(l)}\big)\tag{1}$$

where $h^{(l)}$ is the output of the l-th layer, $W^{(l)}$ is the convolution ﬁlterbank(滤波器组), $b^{(l)}$ is the bias vector, and $*$ is the convolution operator.

Deep Voice 2 的 Segmentation model 层代替计算为：

$$h^{(l)}=\text{relu}\big(h^{(l-1)}+\text{BN}(W^{(l)}*h^{(l-1)})\big)\tag{2}$$

此外，我们发现该 Segmentation 对 silence phonemes 和其他音素之间的边界存在错误，这将显著降低在某些数据集上的分割精度。我们引入了一个小的后处理步骤来纠正这些错误:每当 segmentation 解码 silence boundary 时，我们调整 the boundary with a silence detection heuristic.

#### 3.2 Duration Model

在 Deep Voice 2 中，我们没有预测一个连续值的持续时间，而是将持续时间预测制定为一个序列标记问题。我们将音素持续时间离散化为 log-scale buckets，并将每个输入音素分配给与其持续时间对应的 bucket label。我们通过在输出层具有 pairwise potentials(成对电位)条件随机场( CRF )对序列进行建模(《Neural architectures for named entity recognition》)在推理过程中，我们使用 Viterbi forward-backward 算法 从 CRF 中解码离散持续时间。我们发现量化持续时间预测和通过CRF引入 pairwise dependence 可以提高音频合成质量。

#### 3.3 Frequency Model

从duration model中解码之后，the predicted phoneme durations are upsampled from a per-phoneme input features to a per-frame input for the frequency model.  Deep Voice 2 Frequency model 由多个层组成:首先，双向门选循环单元( bidirec-GRU )层(《Learning phrase representations using rnn encoder-decoder for statistical machine translation》)通过 input features 生成 hidden states。从这些隐藏的状态，an affine projection 紧随一个 sigmoid 非线性产生每个帧被表达的概率。隐藏状态也被用来做两个单独的标准化 F0 预测。首先 $f_{\text{GRU}}$ 用单层双向 GRU，然后再用 affine projection 进行预测。第二种预测 $f_{\text{conv}}$ ，is made by adding up the contributions of multiple convolutions with varying convolution widths 
and a single output channel. Finally, the hidden state is used with an afﬁne projection and a sigmoid nonlinearity to predict a mixture ratio $w$! , which is used to weigh the two normalized frequency predictions and combine them into

$$f= w \cdot f_{\text{GRU}}+(1-w)\cdot f_{\text{conv}}\tag{3}$$

然后，将归一化预测 $f$ 转换为真实频率 $F_0$ 预测：
 
$$F_0=\mu_{\text{F}_0}+\sigma_{\text{F}_0}\cdot f \tag{4}$$

其中， $\mu_{\text{F}_0}$ 和 $\sigma_{\text{F}_0}$ 分别为训练模型的说话者 $F_0$ 的均值和标准差.我们发现，混合卷积和循环层来预测 F0 的效果比单独预测任一层的效果都好。我们将此归因于一种假设，即在有效处理整个上下文信息的同时，广泛的卷积减少了循环层在大量输入帧中维护状态的负担。

#### 3.4 Vocal Model

Deep Voice 2 语音模型基于一个 WaveNet 架构(《Wavenet: A generative model for raw audio》)，带有一个双层双向 QRNN (《Quasi-recurrent neural networks》)调节网络(two-layer bidirectional QRNN conditional network)，类似于 Deep Voice 1 。然而，我们去掉了the gated tanh 非线性和残差连接之间的 1 × 1 卷积。此外，我们对 WaveNet 的每一层都使用相同的调节器偏差(conditioner bias)，而不是像在 Deep Voice 1 中那样为每一层产生单独的偏差。

### 4. Multi-Speaker Models with Trainable Speaker Embeddings

为了从多个说话人合成语音，我们在我们的每个模型中对每个说话人增加了一个low-dimensional speaker embedding vector。与以前的工作不同，我们的方法不依赖于每个说话人的权重矩阵或层。与说话人相关的参数存储在一个非常低维的向量中，因此在说话人之间有几乎完全的权重共享。我们使用 speaker embeddings 来产生递归神经网络初始状态(recurrent neural network initial states)、非线性偏差和乘法门控因子(multiplicative gating factors)，并在整个网络中使用。speaker embeddings 用[-0.1,0.1]的均匀分布随机初始化，并通过反向传播联合训练。每个模型都有自己的一套 speaker embeddings。

为了鼓励每个说话人的独特声音特征影响模型，我们将 speaker embedding 合并到模型的多个部分。根据经验，我们发现仅仅提供 speaker embeddings 到输入层对于任何模型都不起作用，除了vocal model.这可能使由于高度的residual connections存在在 WaveNet中，以及学习高品质 speaker embeddings 的难度导致。我们注意到有几种模式趋向于产生高性能：

- **Site-Specific(特定位置) speaker Embeddings**: 对于模型架构中的每个使用地点，通过仿射投影和非线性变换将 the shared speaker embeddings 转变为适当的维度和形式的共.      
- **Recurrent Initialization**: Initialize recurrent layer hidden states with site-speciﬁc speaker embeddings.        
- **Input Augmentation**: 在每个时间步循环层, concatenate a site-special speaker embeddings to the input.        
- **Feature Gating**: Multiply layer activations elementwise with a site-speciﬁc speaker embedding to render(使成为) adaptable information ﬂow. 

Next, we describe how speaker embeddings are used in each architecture.

#### 4.1 Multi-Speaker Deep Voice 2

Deep Voice 2 的每个模型都有单独的 speaker embeddings。然而，它们可以被看作是一个独立训练的 chunks of a larger speaker embedding

**4.1.1 Segmentation Model**

在 multi-speaker segmentation model 中，我们在卷积层的 residual connections 中使用特征门控(feature gatinig)。代替公式（2）we multiply the batch-normalized activations by a site-speciﬁc speaker embedding：

$$h^{(l)}=\text{relu}\big(h^{(l-1)}+\text{BN}(W^{(l)}*h^{(l-1)})\cdot g_s \big)\tag{2}$$

where $g_s$ is a site-speciﬁc speaker embedding. 在所有卷积层中，相同的特定位置的 embedding 是共享的。此外，我们初始化每个循环层 with a second site specific embeddings。类似地，每一层共享相同的特定位置的embedding，而不是每一层有一个单独的embedding。 

**4.1.2 Duration Model**

The multi-speaker duration model 使用了与说话人相关的 recurrent initialization 和 input augmentation. A site-speciﬁc embedding 被用来初始化 RNN hidden states, 另一个 site-speciﬁc embedding 通过连接到特征向量作为RNN第一层的输入。

**4.1.3 Frequency Model**

multi-speaker frequency model 使用循环初始化，它用一个 site-specific speaker-embedding 来初始化循环层(循环输出层除外)。如 3.3 节所述，the single-speaker frequency model 中的递归输出层和卷积输出层预测归一化频率，然后通过固定的线性变换将其转换为true $F_0$. 线性变换依赖于说话人 $F_0$ 的均值和标准偏差。这些值在不同的演讲者之间差别很大：例如，男性演讲者的 $F_0$ 均值往往要低得多。为了更好地适应这些变化，我们使平均值和标准偏差可训练的模型参数，并以缩放项的形式将它们乘以speaker embeddings上。具体而言，我们计算 $F_0$ 预测为：

$$F_0=\mu_{\text{F}_0}\cdot \big(1+\text{softsign}(V_{\mu}^T g_f)\big)+\sigma_{\text{F}_0}\cdot \big(1+\text{softsign}(V_{\sigma}^T g_f)\big)\cdot f \tag{6}$$

$g_f$ is a site-specific speaker embedding，$\mu_{\text{F}_0}$ 和 $\sigma_{\text{F}_0}$ 是可训练的标量参数，初始化为数据集上 $F_0$ 的均值和标准偏差， $V_{\mu}$ 和 $V_{\sigma}$ 是可训练的参数向量。


**4.1.4 Vocal Model**

multi-speaker vocal model只使用 input augmentation，将 site-specific speaker embedding 连接到调节器的每个 input frame.和global conditioning不同，它影响的是local condition。
       
没有speaker embedding也会生成听起来有点特色的声音，因为它接收了frequency 和duration model的distinct（独特的）特征。然而，加了embedding之后语音质量有所提升，并且观察到embedding收敛到一个有意义的latent space(潜在空间)。

![Screen Shot 2022-03-10 at 6.54.58 PM.png](attachment:49091120-8ee5-47c4-ab6c-a546089817cb.png)


#### 4.2 Multi-Speaker Tacotron

除了deep voice2，我们也在Tactron上实验，a sequence-to-sequence character-to-waveform model. 当训练multi-speaker tactron 的版本时，发现模型的性能高度依赖模型的超参数，对于小数据集说话人上常常在学习 attention mechanism上失败。并且发现，如果不同语音片段的开始时刻不一致的话，模型较难收敛到一个合理的attention曲线并生成可识别的语音。因此，将每个语音中前后的 silence 删除。因为对模型超参数和数据预处理的高度敏感，后续的优化很大可能会提升性能。因此，我们的工作重点是证明Tacotron和DeepVoice2一样，能够通过 speaker embeddings 处理多个说话人的能力，而不是比较两个框架的质量。

**4.2.1 Character-to-Spectrogram Model**

Tactron 包含 CBHG encoder、attention decoder、CBHG post-processing模块。由于框架复杂，我们不详细介绍框架而是主要说明我们的改进。

我们发现如果将embedding加到 CBHG post-processing network 上会使输出性能下降；但是将 speaker embeddings 加到 CBHG encoder 中是必要的.没有 speaker-dpendent CBHG encoder，这个模型不能够学习attention mechanism 也不能产生有意义的输出。

![Screen Shot 2021-10-26 at 11.30.40 AM.png](attachment:438bf05b-bb45-4977-9f8b-5d84f20608da.png)

为了使说话人编码器适应，我们在每个时间步用一个 site-specific embeddings 作为每个 highway layer 的额外输入，并用第二个 site-specific embedding 初始化 CBHG RNN 状态。

我们发现将 speaker embedding 加到decoder上也有效果，分别加在decoder prenet 作为额外的输入 以及在attention RNN上 speaker embeddings作为初始化 attention context vector 。初始化 decoder GRU hidden state，也作为content-based attention的tanh激活函数的bias。

**4.2.2 Spectrogram-to-Waveform Model**

原始的tacotron使用GL算法通过迭代估计位置的相位将频谱图转为时域音频波形。但是输入端微小的噪声会在输出端造成很大的误差，为了使用Tacotron产生更高质量的音频，我们训练了一个 WaveNet-based neural vocoder去代替之前的Griffim-Lim算法使线性频谱转为音频波形。所使用的模型相当于 Deep Voice 2 的 vocal model，但采用线性比例的对数幅度谱图代替音素本身和 $F_0$ 作为输入。这个Tacotron-WaveNet model如下图。正如我们将在第5.1节中展示的那样，基于 WaveNet 的神经声码器确实也显著改善了单说话人 Tacotron。

![Screen Shot 2022-03-10 at 7.25.07 PM.png](attachment:a72591a0-222f-4679-9af0-03582fbadce6.png)