# 语音降噪

语音降噪主要研究如何利用信号处理技术消除信号中的强噪声干扰，从而提高输出信噪比以提取出有用信号的技术。消除信号中噪声污染的通常方法是让受污染的信号通过二个能抑制噪声而让信号相对不变的滤波器，此滤波器从信号不可检测的噪声场中取得输入，将此输入加以滤波，抵消其中的原始噪声，从而达到提高信噪比的目的。

然而，由于干扰通常都是随机的，从带噪语音巾提取完全纯净的语音几乎不可能。在这种情况下，语音增强的目的主要有两个:一是改进语音质量，消除背景噪声，使昕者乐于接受，不感觉疲劳，这是一种主观度量;二是提高语音可懂度，这是一种客观度量。这两个目的往往不能兼得，所以实际应用中总是视具体情况而有所侧重的。

根据语音和噪声的特点，出现了很多种语音增强算法。比较常用的有谱减法、维纳滤波法、卡尔曼滤波法、自适应滤波法等。此外，随着科学技术的发展又出现了一些新的增强技术，如基于神经网络的语音增强、基于HMM 的语音增强、基于昕觉感知的语音增强、基于多分辨率分析的语音增强、基于语音产生模型的线性滤波法、基于小波变换的语音增强方法、梳状洁、波法、自相关法、基于语音模型的语音增强方法等。

### 带噪语音模型

而通常所说噪声是局部平稳的，是指一段带噪语音中的噪声，具有和语音段开始前那段噪声相同的统计特性，且在整个语音段中保持不变。也就是说，可以根据语音开始前那段噪声来估计语音中所叠加的噪声统计特性。

### LMS自适应滤波器
所谓自适应滤波器就是利用前一时刻已获得的滤波器参数等结果，自动地调节现时刻的滤波器参数，以适应信号和|噪声未知的随机变化的统计特性，从而实现最优滤波。

最小方均(LMS) 白适应算法就是以已知期望响应和滤波器输出信号之间误差的方均值最小为准的，依据输入信号在迭代过程中估计梯度矢量，并更新权系数以达到最优的白适应迭代算法。LMS 算法是一种梯度最速下降方法，其显著的优点是它的简单性，这种算法不需要计算相应的相关函数，也不需要进行矩阵运算。

滤波器的输出$y(n)$表示为：
$$y(n)=\bold{W^T}(n)\bold{X}(n)=\sum_{i=0}^{N-1}w_i(n)\bold{x}(n-i)$$

对于LMS滤波器的结构，误差为：$\bold{e}(n)=\bold{d}(n)-\bold{y}(n)$。方均误差为：
$$\epsilon=\bold{E}[\bold{e^2}(n)]=\bold{E}[\bold{d}(n)-\bold{y}(n)]=\bold{E}[\bold{d^2}(n)]+\bold{W^T}(n)R\bold{W}(n)-2\bold{PW}(n)$$

其中$\bold{R}=\bold{E}[\bold{X}\bold{X^T}]$，是$N\times N$的自相关矩阵，$\bold{P}=\bold{E}[\bold{d}(n)\bold{X^T}(n)]$为互相关矩阵，代表理想信号$\bold{d}(n)$与输入矢量$\bold{X}(n)$的相关性。

在达到误差$\epsilon$最小时，有：
$$\frac{\partial \epsilon}{\partial\bold{W}(n)}|_{\bold{W}(n)=W^*}=0$$

有：
$$\bold{RW^*-P}=0\rightarrow\bold{W^*=\bold{R^{-1}P}}$$

LMS算法使用梯度下降来解，即$\bold{W:=W-\mu \Delta W(n)}$

$$\Delta W(n)=\frac{\partial E[e^2(n)]}{\partial W(n)}=2E[e(n)]\frac{\partial E[e(n)]}{\partial W(n)}=2E[e(n)]\frac{\partial E[\bold{d}(n)-\bold{y}(n)]}{\partial W(n)}=-2E[e(n)x(n)]$$

那么：
$$W_{(n+1)}=W_{(n)}+2\mu \Delta e(n)x(n)$$

### 语音质量性能指标
 - 信噪比
  $$SNR=10\lg \frac{\sum\limits_{n=1}^Ns^2(n)}{\sum\limits_{n=1}^Nd^2(n)}$$
  $s$表示信号，$d$表示噪声。
 - PESQ(Perceptual Evaluation of Speech Quality)
  PESQ 算法需要带噪的衰减信号和一个原始的参考信号。开始时将两个待比较的语音信号经过电平调整、输入滤波器滤波、时间对准和补偿、昕觉变换之后，分别提取两路信号的参数，综合其时频特性，得到PESQ分数，最终将这个分数映射到主观平均意见分(MOS)。PESQ得分范围在-0.5到4.5之间。得分越高表示语音质量越好。


### 谱减法
对于任何一帧信号$x_i(m)$做FFT变换后：
$$X_i(k)=\sum_{m=1}^Nx_i(m)\exp(j\frac{2\pi mk}{N})$$

对于$X_i(k)$的幅值为$|X_i(k)|$,角度为$X^i_{angle}(k)=\arctan[\frac{Im(X_i(k))}{Re(X_i(k))}]$,前导噪声段时长为IS,对应帧数为NIS,可以得到该噪声段的平均能量为：
$$D(k)=\frac{1}{NIS}\sum_{i=1}^{NIS}|X_i(k)|^2$$

谱减公式为：
$$|\hat X_i(k)|^2=\left \{\begin{array}{ll}
    |X_i(k)|^2-a\times D(k)& |X_i(k)|^2\geqslant a \times D(k)\\
    b\times D(k)&|X_i(k)|^2< a \times D(k)
\end{array} \right.$$

其中，$a,b$是两个常数，$a$为过减因子，$b$为增益补偿因子。

利用谱减后的幅值$|\hat X_i(k)|$,以及原先的相位角$X^i_{angle}(k)$，可以利用iFFT求出增强后的语音序列$\hat x_i(m)$。

### Boll改进谱减法
（一）谱减公式改为：
$$|\hat X_i(k)|^{\gamma}=\left \{\begin{array}{ll}
    |X_i(k)|^{\gamma}-a\times D(k)& |X_i(k)|^{\gamma}\geqslant a \times D(k)\\
    b\times D(k)&|X_i(k)|^{\gamma}< a \times D(k)
\end{array} \right.$$

$$D(k)=\frac{1}{NIS}\sum_{i=1}^{NIS}|X_i(k)|^{\gamma}$$

当$\gamma=1$，算法相当于用谱幅值做谱减法，当$\gamma=2$，算法相当于用功率谱幅值做谱减法。

（二）计算平均谱值代替
$$Y_i(k)=\frac{1}{2M+1}\sum_{j=-M}^MX_{i+j}(k)$$

使用$Y_i(k)$代替$X_i(k)$，可以得到较小的谱估算方差。

（三）减小噪声残留
$$D_i(k)=\left \{\begin{array}{ll}
    D_i(k)& D_i(k)\geqslant \max|N_R(k)|\\
    \min\{D_j(k)|j \in [i-1,i,i+1]\}&D_i(k)< \max|N_R(k)|
\end{array} \right.$$

其中，$\max|N_R(k)|$为最大残余噪声。


## 维纳滤波

基本维纳滤波就是用来解决从噪声中提取信号问题的一种过滤(或滤波)方法。它基于平稳随机过程模型，且假设退化模型为线性空间不变系统的。实际上这种线性滤波问题，可以看成是一种估计问题或一种线性估计问题。基本的维纳滤波是根据全部过去的和当前的观察数据来估计信号的当前值，它的解是以均方误差最小条件下所得到的系统的传递函数H(z)或单位样本响应h(n)的形式给出的，因此更常称这种系统为最佳线性过滤器或滤波器。设计维纳滤波器的过程就是寻求在最小均方误差下滤波器的单位样本响应h(n)或传递函数H(z)的表达式，其实质是解维纳-霍夫(Wiener-Hopf)方程。

带语音信号为：
$$x(n)=s(n)+v(n)$$

进过维纳滤波器$h(n)$的输出响应$y(n)$为：
$$y(n)=x(n)*h(n)=\sum_mh(m)x(n-m)$$

理论上，x(n)通过线性系统h(n)后得到的r(n)应尽量接近于s(n)，因此y(n)为s(n)的估计值，可用$\hat s$(n)表示，即$y(n)=\hat s(n)$。$\hat s(n)$按最小均方误差准则使$\hat s(n)$和$s(n)$的均方误差$E[e^2(n)]=E[[s(n)-\hat s(n)]^2]$最小。
$$\frac{\partial E[e^2(n)]}{\partial h(n)}=E[2e(n)\frac{\partial e(n)}{\partial h(n)}]=E[2e(n)x(n-m)]=0$$

带入$e(n)$的式子：
$$E[(s(n)-\hat s(n))x(n-m)]=0$$

用$R_x(m-l)=E[x(n-m)x(n-l)]$表示$x(n)$的自相关函数，$R_{sx}(m)=E[s(n)x(n-m)]$表示$s(n)$和$x(n)$的互相关函数。

那么期望方程可以写成：
$$\sum_lh(l)R_x(m-l)=R_{sx}(m)\tag{Wiener-Hopf方程}$$

如果$R_{sx}(m)$和$R_x(m-l)$是已知的，那么解这个方程就是求维纳滤波器的冲击响应。

当l从0到N-1取有限个整数值时，设滤波器冲击响应序列的长度为N,冲击响应为：$\bold{h}=[h(0)h(1)...h(N-1)]^T$，滤波器数据输入矢量$\bold{x}(n)=[x(n)x(n-1)...x(n-N+1)]^T$,滤波器的输出为：$\bold{y}(n)=\hat s(n)=x^T(n)h(n)=h^Tx(n)$。
用$\bold{Q}=E[x(n)s(n)]$表示互相关函数，$\bold{R}=E[x(n)x^T(n)]$是$x(n)$的自相关函数，所以Wiener-Hopf方程可以写成：
$$\bold{Q=Rh}$$

那么$\bold{h_{opt}=R^{-1}Q}$

## 小波分解

在传统的傅里叶分析中，信号完全是在频域展开的，不包含任何时频的信息。因为丢弃的时域信息对某些应用同样重要，所以出现很多能表征时域和频域信息的信号分析方法，如短时傅里叶变换、Gabor 变换、时频分析、小波变换等。其中，短时傅里叶变换是在傅里叶分析基础上引入时域信息的最初尝试，在假定一定长度时间窗内的信号是平稳的前提下，短时傅里叶变换可以通过将每个时间窗内的信号展开到频域的方法来获得局部的频域信息。但是，短时傅里叶变换的时域区分度只能依赖于大小不变的时间窗，对某些瞬态信号来说还是粒度太大。所以，对很多应用来说不够精确，短时傅里叶变换仍存在很大的缺陷。
而小波分析克服了短时傅里叶变换在单分辨率上的缺陷，具有多分辨率分析的特点，在时域和频域都有表征信号局部信息的能力，时间窗和频率窗都可以根据信号的具体形态动态调整。在一般情况下，在低频部分(信号较平稳)可以采用较低的时间分辨率来提高频率的分辨率，在高频情况下(频率变化不大)可以用较低的频率分辨率来换取精确的时间定位。因为这些特性，小波分析可以探测正常信号巾的瞬态，并展示其频率成分，被称为数学显傲镜，广泛应用于各个时频分析领域。

### 小波分析的基本原理
小波是函数空间$L^2(R)$中满足下述条件的一个函数或者信号$\psi(x)$:
$$C_{\psi}=\int_{R^{*}}\frac{|\hat \psi(w)|^2}{|w|}dw<\infty$$

其中，$R^*=R-\{0\}$表示非零实数全体，$\hat \psi(w)$是$\psi(w)$的傅里叶变换，$\psi(w)$称为小波母函数。对于实数对$(a,b)$，参数$a$为非零实数，函数
$$\psi(a,b)(x)=\frac{1}{\sqrt{|a|}}\psi(\frac{x-b}{a})$$

称为由母小波函数$\psi(x)$生成的依赖于参数对$(a,b)$的连续小波函数，检测小波。其中$a$是伸缩因子，$b$为平移因子。

对信号$f(x)$的连续小波变换定义为：
$$W_f(a,b)=\frac{1}{\sqrt{|a|}}\int_Rf(x)\psi(\frac{x-b}{a})dx=<f(x),\psi_{a,b}(x)>$$

其逆变换为：
$$f(x)=\frac{1}{C_{\psi}}\int\int_{R\times R^*}W_f(a,b)\psi(\frac{x-b}{a})dadb$$

信号$f(x)$的离散小波变换定义为：
$$W_f(2^j,2^jk)=2^{-j/2}\int_{-\infty}^{+\infty}f(x)\psi(2^{-j}x-k)dx$$

其逆变换为：
$$f(t)=C\sum_{j=-\infty}^{+\infty}\sum_{k=-\infty}^{+\infty}W_f(2^j,2^jk)\psi_{(2^j,2^jk)}(x)$$

其中C是与信号无关的常数。

### 小波降噪的基本原理
小波变换具有很强的去数据相关性，它能够使信号的能量在小波域集中在一些大的小波系数中;而噪声的能量却分布于整个小波域内。因此，经小波分解后，信号的小波系数幅值要大于噪声的系数幅值。因此，幅值比较大的小波系数一般以信号为主，而幅值比较小的系数在很大程度上是噪声。于是，采用阔值的办法可以把信号系数保留，而使大部分噪声系数减小至零。小波降噪的具体处理过穗为:将含噪信号在各尺度上进行小被分解，设定一个闺值，幅值低于该阔值的小波系数置位0，高于该阈值的小波系数或者完全保留，或者做相应的收缩处理。最后，将处理后获得的小波系数用逆小波变换进行重构，得到去噪后的信号。
去噪处理中，阈值函数体现了超过和低于阈值的小波系数不同处理策略，是阈值去噪中关键的一步。设w表示小波系数，T为给定阈值，$sgn(*)$为符号函数，常见的符号函数有：
 - 硬阈值
  $$w_{new}=\left \{\begin{array}{ll}
      w&,|w|\geqslant T\\0&,|w|<T
  \end{array}\right.$$
 
 - 软阈值
  $$w_{new}=\left \{\begin{array}{ll}
      sgn(w)(|w|-T)&,|w|\geqslant T\\0&,|w|<T
  \end{array}\right.$$

 - 软硬折中
  $$w_{new}=\left \{\begin{array}{ll}
      sgn(w)(|w|-\alpha T)&,|w|\geqslant T\\0&,|w|<T
  \end{array}\right.,\alpha \in (0,1]$$

 - 加权平均构造
  $$w_{new}=\left \{\begin{array}{ll}
      (1-\mu)w+\mu · sgn(w)(|w|-T)&,|w|\geqslant T\\0&,|w|<T
  \end{array}\right.$$

门限$T$的选择有很多种，比如：
$$T=\frac{median(w)}{0.6745}\sqrt{2\log [(j+1)/j]}$$

这里，$median(*)$代表中值估计器，$j$表示当前分解层数。


In [None]:
import pywt
import numpy as np


def wavedec(s, jN, wname):
    ca, cd = [], []
    a = s
    for i in range(jN):
        a, d = pywt.dwt(a, wname)
        ca.append(a)
        cd.append(d)
    return ca, cd


def Wavelet_Hard(s, jN, wname):
    """
    小波硬阈值滤波
    :param s:
    :param jN:
    :param wname:
    :return:
    """
    ca, cd = wavedec(s, jN, wname)
    for i in range(len(ca)):
        thr = np.median(cd[i] * np.sqrt(2 * np.log((i + 2) / (i + 1)))) / 0.6745
        di = np.array(cd[i])
        cd[i] = np.where(np.abs(di) > thr, di, 0)
    calast = np.array(ca[-1])
    thr = np.median(calast * np.sqrt(2 * np.log((jN + 1) / jN))) / 0.6745
    calast = np.where(np.abs(calast) > thr, di, 0)
    cd.append(calast)
    coef = cd[::-1]
    res = pywt.waverec(coef, wname)
    return res


def Wavelet_Soft(s, jN, wname):
    """
    小波软阈值滤波
    :param s:
    :param jN:
    :param wname:
    :return:
    """
    ca, cd = wavedec(s, jN, wname)
    for i in range(len(ca)):
        thr = np.median(cd[i] * np.sqrt(2 * np.log((i + 2) / (i + 1)))) / 0.6745
        di = np.array(cd[i])
        cd[i] = np.where(np.abs(di) > thr, np.sign(di) * (np.abs(di) - thr), 0)
    calast = np.array(ca[-1])
    thr = np.median(calast * np.sqrt(2 * np.log((jN + 1) / jN))) / 0.6745
    calast = np.where(np.abs(calast) > thr, np.sign(calast) * (np.abs(calast) - thr), 0)
    cd.append(calast)
    coef = cd[::-1]
    res = pywt.waverec(coef, wname)
    return res


def Wavelet_hardSoft(s, jN, wname, alpha=0.5):
    """
    小波折中阈值滤波
    :param s:
    :param jN:
    :param wname:
    :param alpha:
    :return:
    """
    ca, cd = wavedec(s, jN, wname)
    for i in range(len(ca)):
        thr = np.median(cd[i] * np.sqrt(2 * np.log((i + 2) / (i + 1)))) / 0.6745
        di = np.array(cd[i])
        cd[i] = np.where(np.abs(di) > thr, np.sign(di) * (np.abs(di) - alpha * thr), 0)
    calast = np.array(ca[-1])
    thr = np.median(calast * np.sqrt(2 * np.log((jN + 1) / jN))) / 0.6745
    calast = np.where(np.abs(calast) > thr, np.sign(calast) * (np.abs(calast) - alpha * thr), 0)
    cd.append(calast)
    coef = cd[::-1]
    res = pywt.waverec(coef, wname)
    return res


def Wavelet_average(s, jN, wname, mu=0.1):
    """
    小波加权平均滤波
    :param s:
    :param jN:
    :param wname:
    :param alpha:
    :return:
    """
    ca, cd = wavedec(s, jN, wname)
    for i in range(len(ca)):
        thr = np.median(cd[i] * np.sqrt(2 * np.log((i + 2) / (i + 1)))) / 0.6745
        di = np.array(cd[i])
        cd[i] = np.where(np.abs(di) > thr, (1 - mu) * di + np.sign(di) * mu * (np.abs(di) - thr), 0)
    calast = np.array(ca[-1])
    thr = np.median(calast * np.sqrt(2 * np.log((jN + 1) / jN))) / 0.6745
    calast = np.where(np.abs(calast) > thr, (1 - mu) * calast + np.sign(calast) * mu * (np.abs(calast) - thr), 0)
    cd.append(calast)
    coef = cd[::-1]
    res = pywt.waverec(coef, wname)
    return res


In [4]:
from utils.soundBase import *
from utils.Wavelet import *
import matplotlib.pyplot as plt

plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False


def awgn(x, snr):
    snr = 10 ** (snr / 10.0)
    xpower = np.sum(x ** 2) / len(x)
    npower = xpower / snr
    return x + np.random.randn(len(x)) * np.sqrt(npower)


data, fs = soundBase('./data/C5_4_y.wav').audioread_new()
data = data - np.mean(data)
data = data - np.max(np.abs(data))
SNR = 5
N = len(data)
s = awgn(data, SNR)
time = [i / fs for i in range(N)]  # 设置时间

wname = 'db7'
jN = 6

res_s = Wavelet_Soft(s, jN, wname)
res_d = Wavelet_Hard(s, jN, wname)
res_hs = Wavelet_hardSoft(s, jN, wname)
res_a = Wavelet_average(s, jN, wname)

plt.figure(figsize=(14, 10))
plt.subplot(3, 2, 1)
plt.plot(time, data)
plt.ylabel('原始信号')
plt.subplot(3, 2, 2)
plt.plot(time, s)
plt.ylabel('加噪声信号')
plt.subplot(3, 2, 3)
plt.ylabel('小波软阈值滤波')
plt.plot(time, res_s)

plt.subplot(3, 2, 4)
plt.ylabel('小波硬阈值滤波')
plt.plot(time, res_d)

plt.subplot(3, 2, 5)
plt.ylabel('小波折中阈值滤波')
plt.plot(time, res_hs)

plt.subplot(3, 2, 6)
plt.ylabel('小波加权滤波')
plt.plot(time, res_a)

plt.savefig('images/wavelet.png')
plt.close()



![wavelet](images/wavelet.png)

除了使用小波降噪以外，还有使用小波包分解结合MFCC来提特征的做法。参照[小波包分解-MFCC](https://github.com/busyyang/python_sound_open/blob/master/chapter5_%E8%AF%AD%E9%9F%B3%E9%99%8D%E5%99%AA/wp_mfcc.py)的实现。

