In [190]:
import torchaudio
import numpy as np
import soundfile as sf
from datasets import Audio
import matplotlib.pyplot as plt
from IPython import display as disp
from huggingface_hub.hf_api import HfFolder; 
from datasets import load_dataset, DatasetDict

from bokeh.plotting import figure
from bokeh.io import output_notebook, show

hf_token = "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"
HfFolder.save_token(hf_token)
output_notebook()

In [204]:
def get_sample(samples, ind, vis=False):
    wav = samples["audio"][ind]["array"]
    sr = samples["audio"][ind]["sampling_rate"]
    if vis:
        vis_sample(wav, sr)                           
    return wav, sr
    
def vis_sample(wav, sr):
    disp.display(disp.Audio(wav, rate=sr))
    p = figure(width=1400, height=400, title="hello world")
    p.line(np.arange(wav.shape[0]), wav, line_width=2)
    show(p)
    
def get_noise_samples(data, n_samples):
    '''input - torch.Tensor with shape [1, N]
       output - torch.Tensor with shape [1, n_samples]'''
    data_length = data.shape[1] 
    max_probably_start = data_length - n_samples - 1
    probability_start = np.arange(max_probably_start)
    
    index_start = np.random.choice(probability_start)
    interval = data[0, index_start : index_start + n_samples]
            
    return interval.numpy()

#### Звук шума робота

In [205]:
PATH_ROBOT_NOISE = "/home/docker_current/src/datasets/robot_noise/robot_noise_1677429557.wav"
noise, noise_sr = torchaudio.load(PATH_ROBOT_NOISE)
print("audio length in seconds = ", noise.shape[1] / noise_sr)

audio length in seconds =  929.28


#### Чистый звук из датасета CommonVoice

In [206]:
samples = load_dataset("mozilla-foundation/common_voice_11_0", "ru", split="train[0:40]")
samples

Found cached dataset common_voice_11_0 (/home/docker_current/.cache/huggingface/datasets/mozilla-foundation___common_voice_11_0/ru/11.0.0/2c65b95d99ca879b1b1074ea197b65e0497848fd697fdb0582e0f6b75b6f4da0)


Dataset({
    features: ['client_id', 'path', 'audio', 'sentence', 'up_votes', 'down_votes', 'age', 'gender', 'accent', 'locale', 'segment'],
    num_rows: 40
})

In [207]:
samples = samples.cast_column("audio", Audio(sampling_rate=16000))
wav, sr = get_sample(samples, 11, vis=True)

#### Имеются аудио без шума из CommonVoice и запись шума робота. Необходимо получить зашумленный сигнал с желаемым SNR
#### Для начала необходимо выровнять сигналы по мощности.
#### Определяются мощности исходных сигналов: $ P_{signal} $  и  $ P_{noise} $. Затем производится выравнивание сигналов по мощности:
#### $$ noise = \sqrt{ \frac{ P_{signal} }{ P_{noise} } } * noise $$

#### Из выровнянных по мощности сигналов получается сигнал с желаемым SNR

#### $$ NoisingSignal = \sqrt{SNR}*signal + noise  = \sqrt{ \frac{ P_{signal}^* }{ P_{noise}^* } } * signal + noise   $$

#### Данная формула логична, поскольку тогда выполнятся равенство для SNR, так как как раз получится, что мощность незашумленной состваляющей сигнала в $\frac{ P_{signal} }{ P_{noise} } $ больше, чем зашумленной

In [208]:
def get_power(signal):
    return (signal**2).sum()

def noising(wav, noise, desire_snr_db):
    noise_samples = get_noise_samples(noise, wav.shape[0])
    power_noise, power_wav = get_power(noise_samples), get_power(wav)
    noise_samples = noise_samples * np.sqrt(power_wav / power_noise)
    snr = 10 ** (desire_snr_db / 10)
    
    power_noise_align = power_wav = get_power(noise_samples)
    
    print(snr, np.sqrt(snr))
    print(f"power_signal / power_noise_align = {power_wav / power_noise_align}")
    noising_signal = np.sqrt(snr) * wav + noise_samples
    noising_signal = noising_signal / np.abs(noising_signal).max() * 0.4
    return noising_signal

In [222]:
noise_wav = noising(wav, noise, 0)
vis_sample(noise_wav, sr)

1.0 1.0
power_signal / power_noise_align = 1.0
