In [None]:
import torch
import torchaudio
import matplotlib.pyplot as plt

## 加载声音文件

In [None]:
filename = "./audio_file/二通01.wav"
waveform, sample_rate = torchaudio.load(filename)

print("Shape of waveform: {}".format(waveform.size()))
print("Sample rate of waveformL {}".format(sample_rate))

plt.figure()
plt.plot(waveform.t().numpy())

## 转变数据

torchaudio支持不断增长的转换列表。
- 重采样：将波形重采样为其他采样率。
- 频谱图：从波形创建频谱图。
- GriffinLim ：使用 Griffin-Lim 转换从线性比例幅度谱图计算波形。
- ComputeDeltas ：计算张量(通常是声谱图）的增量系数。
- ComplexNorm ：计算复数张量的范数。
- MelScale ：使用转换矩阵将正常 STFT 转换为 Mel 频率 STFT。
- AmplitudeToDB ：这将频谱图从功率/振幅标度变为分贝标度。
- MFCC ：根据波形创建梅尔频率倒谱系数。
- MelSpectrogram ：使用 PyTorch 中的 STFT 功能从波形创建 MEL 频谱图。
- MuLawEncoding ：基于 mu-law 压扩对波形进行编码。
- MuLawDecoding ：解码 mu-law 编码波形。
- TimeStretch ：在不更改给定速率的音高的情况下，及时拉伸频谱图。
- FrequencyMasking ：在频域中对频谱图应用屏蔽。
- TimeMasking ：在时域中对频谱图应用屏蔽。

In [None]:
specgram = torchaudio.transforms.Spectrogram()(waveform)

print("Shape of spectrogram:{}".format(specgram.size()))

plt.figure()
plt.imshow(specgram.log2()[0,:,:].numpy(), cmap='gray')

In [None]:
specgram = torchaudio.transforms.MelSpectrogram()(waveform)

print("Shape of spectrogram: {}".format(specgram.size()))

plt.figure()
p = plt.imshow(specgram.log2()[0,:,:].detach().numpy(), cmap='gray')

In [None]:
new_sample_rate = sample_rate/10

channel = 0
transformed = torchaudio.transforms.Resample(sample_rate, new_sample_rate)(waveform[channel].view(1,-1))

print("Shape of transformed waveform:{}".format(transformed.size()))

plt.figure()
plt.plot(transformed[0,:].numpy())

In [None]:
# Let's check if the tensor is in the interval [-1,1]
print("Min of waveform: {}\nMax of waveform: {}\nMean of waveform: {}".format(waveform.min(), waveform.max(), waveform.mean()))

In [None]:
def normalize(tensor):
    tensor_minusmean = tensor - tensor.mean()
    return tensor_minusmean/tensor_minusmean.abs().max()

# waveform = normalize(waveform)

In [None]:
transformed = torchaudio.transforms.MuLawEncoding()(waveform)

print("Shape of transformed waveform:{}".format(transformed.size()))

plt.figure()
plt.plot(transformed[0,:].numpy())

In [None]:
reconstructed = torchaudio.transforms.MuLawDecoding()(transformed)

print("Shape of recovered waveform:{}".format(reconstructed.size()))

plt.figure()
plt.plot(reconstructed[0,:].numpy())

In [None]:
# Compute median relative difference
err = ((waveform-reconstructed).abs() / waveform.abs()).median()

print("Median relative difference between original and MuLaw reconstucted signals: {:.2%}".format(err))