In [1]:
%load_ext autoreload
%autoreload 2
import warnings 
warnings.filterwarnings("ignore")

In [100]:
import os
os.chdir(r'C:\Users\NILS\Documents\ATIAM\PAM\deep-eurorack-control\src')

import torch
import time
import numpy as np
import argparse
import timeit
import samplerate
import cdpam

from tqdm import tqdm
from deep_eurorack_control.models.ddsp.model import DDSP
from deep_eurorack_control.models.ddsp.decoder import Decoder
from deep_eurorack_control.config import settings
from deep_eurorack_control.models.ddsp.ops import *
from deep_eurorack_control.datasets.ddsp import  NSynth_ddsp
from torch.utils.data import DataLoader
import torchaudio

def load_model(filepath,filename,n_hidden):
    checkpoint_file = os.path.join(filepath,filename)
    checkpoint = torch.load(checkpoint_file,map_location=settings.device)
    sr,frame_size,n_harmonics,n_bands = checkpoint["sr"],checkpoint["frame_size"], checkpoint["n_harmonics"],checkpoint["n_bans"]
    # sr = 16000
    # n_harmonics=11
    # n_bands=65
    # frame_size = 256
    model_name = '_'.join(checkpoint_file.split('lr')[0].split('_')[1:-1])
    if 'res' in model_name:
        residual=False
    else:
        residual=True
    print(model_name,sr,frame_size,n_harmonics,n_bands,residual)
    model = DDSP(model_name,sr,frame_size,n_harmonics,n_bands,n_hidden,residual=residual)
    model.decoder.load_state_dict(checkpoint["model_state_dict"])
    return model

def compute_loss(dataloader,model,loss_fn,loss):
    
    model.decoder.eval()
    torch.set_grad_enabled(False)

    multiscale_loss = 0 
    jnd_loss = 0
    mel_loss=0
    start=time.time()
    for data in tqdm(dataloader):
 
        pitch_true,pitch_conf,loud,audio = [item.to(settings.device) for item in data]
        signal_in = audio.reshape(audio.shape[0],-1)

        if model.residual==True:
            mfcc = model.wave2mfcc(signal_in)[...,:-1]
            res = model.encoder(mfcc.permute(0,2,1))
        else:
            res=None

        pitch = pitch_true
        harmonics,filters = model.decoder(pitch,loud,res)
        signal_out,_ = generate_signal(pitch,harmonics,filters,model.frame_size,model.sr)
        
        if loss==True:
            multiscale_loss+= model._compute_loss_spec(signal_in,signal_out).item()/len(dataloader)
            mel_loss += torch.mean(melspectrogram_loss(signal_in,signal_out)).item()/len(dataloader)
            
            
            resample_rate = 22050
            resampler = torchaudio.transforms.Resample(model.sr, resample_rate,dtype=signal_out.dtype).to(settings.device)
            jnd_loss += torch.mean(loss_fn.forward(resampler(signal_in)*32768,resampler(signal_out)*32768)).item()/len(dataloader)
            # jnd_loss += torch.mean(loss_fn.forward(signal_in*32768,signal_out*32768)).item()/len(dataloader)

    if loss==True:
        return(multiscale_loss,mel_loss,jnd_loss)
    else:
        end = time.time()
        total_time=(end-start)
        return(total_time)
    

def run_analysis(filepath,filename,n_hidden,dataloader,batch_size):
    model = load_model(filepath,filename,n_hidden)
    loss_fn = cdpam.CDPAM(dev=settings.device)
    inf_time = 0
    for i in range(10):
        inf_time += compute_loss(dataloader,model,loss_fn,loss=False)/10
    inf_speed =  64000*len(dataloader)*batch_size/inf_time
    multiscale_loss,mel_loss,jnd_loss = compute_loss(dataloader,model,loss_fn,loss=True)
    print('Model : ',filename)
    print("Multiscale Spectral Loss : ",round(multiscale_loss,2))
    print("Mel Loss : ",round(mel_loss,2))


    print("JND Loss : ",round(jnd_loss,2))
    print("Inference Speed : ",round(inf_speed*1e-6,2)," M samples/sec")
    return(inf_speed,multiscale_loss,mel_loss,jnd_loss)

In [97]:
from librosa.filters import mel as librosa_mel_fn
import torch.nn.functional as F
mel_basis = {}
hann_window = {}

n_fft = 1024
num_mels = 80
sampling_rate = 16000
hop_size = 256
win_size = 1024
fmin = 0
fmax = 8000

def dynamic_range_compression_torch(x, C=1, clip_val=1e-5):
    return torch.log(torch.clamp(x, min=clip_val) * C)

def spectral_normalize_torch(magnitudes):
    output = dynamic_range_compression_torch(magnitudes)
    return output


def mel_spectrogram(x, n_fft, num_mels, sampling_rate, hop_size, win_size, fmin, fmax, center=False):
    #if torch.min(x) < -1.:
    #    print('min value is ', torch.min(x))
    #if torch.max(x) > 1.:
    #    print('max value is ', torch.max(x))

    global mel_basis, hann_window, device
    if fmax not in mel_basis:
        mel = librosa_mel_fn(sampling_rate, n_fft, num_mels, fmin, fmax)
        mel_basis[str(fmax)+'_'+str(x.device)] = torch.from_numpy(mel).float().to(x.device)
        hann_window[str(x.device)] = torch.hann_window(win_size).to(x.device)

    
    x = torch.nn.functional.pad(x.unsqueeze(1), (int((n_fft-hop_size)/2), int((n_fft-hop_size)/2)), mode='reflect')
    x = x.squeeze(1)

    melspectro = torch.stft(x, n_fft, hop_length=hop_size, win_length=win_size, window=hann_window[str(x.device)],
                      center=center, pad_mode='reflect', normalized=False, onesided=True)

    melspectro = torch.sqrt(melspectro.pow(2).sum(-1)+(1e-9))

    melspectro = torch.matmul(mel_basis[str(fmax)+'_'+str(x.device)], melspectro)
    melspectro = spectral_normalize_torch(melspectro)

    return melspectro

# def melspectrogram_loss(x, x_gen, n_fft, num_mels, sampling_rate, hop_size, win_size, fmin, fmax, center=False):
def melspectrogram_loss(x, x_gen):
    x_mel = mel_spectrogram(x, n_fft, num_mels, sampling_rate, hop_size, win_size, fmin, fmax, center=True)
    x_gen_mel = mel_spectrogram(x_gen, n_fft, num_mels, sampling_rate, hop_size, win_size, fmin, fmax, center=True)
    loss_melspectro = F.l1_loss(x_mel, x_gen_mel)
    return loss_melspectro

In [98]:
filepath = r"C:\Users\NILS\Documents\ATIAM\PAM\Nouveau dossier" 
filename = "DDSP_normal_nsynth_lr_0.001_n_epochs_250__sr_16000__frame_256.pt"



dataset_dir = r'C:\Users\NILS\Documents\ATIAM\PAM\Datasets\nsynth_test_processed'

batch_size =10
dataset = NSynth_ddsp(dataset_dir)
dataloader = DataLoader(dataset, batch_size=batch_size, shuffle=True)
data = next(iter(dataloader))

for filename in filenames:
    if 'gru' in filename:
        n_hidden = 256
    else:
        n_hidden=512
    print(n_hidden)
    

512
512
512
512
256


In [106]:
res

tensor([[[-0.0602, -0.0266,  0.0531,  ...,  0.0352,  0.0235,  0.0317],
         [-0.0561, -0.0189,  0.0565,  ...,  0.0386,  0.0208,  0.0339],
         [-0.0531, -0.0107,  0.0567,  ...,  0.0402,  0.0203,  0.0373],
         ...,
         [-0.0651, -0.0380,  0.0505,  ...,  0.0238,  0.0197,  0.0114],
         [-0.0651, -0.0380,  0.0505,  ...,  0.0238,  0.0197,  0.0114],
         [-0.0651, -0.0380,  0.0505,  ...,  0.0238,  0.0197,  0.0114]],

        [[-0.1187, -0.0235,  0.0475,  ...,  0.0779,  0.0528,  0.0115],
         [-0.1141, -0.0129,  0.0468,  ...,  0.0769,  0.0527,  0.0104],
         [-0.1026, -0.0011,  0.0561,  ...,  0.0736,  0.0462,  0.0074],
         ...,
         [-0.0814, -0.0370,  0.0671,  ...,  0.0164,  0.0115,  0.0101],
         [-0.0814, -0.0370,  0.0671,  ...,  0.0164,  0.0115,  0.0101],
         [-0.0814, -0.0370,  0.0671,  ...,  0.0164,  0.0115,  0.0101]],

        [[-0.1438, -0.0251,  0.0412,  ...,  0.0891,  0.0623, -0.0034],
         [-0.1418, -0.0193,  0.0454,  ...,  0

In [103]:
filenames = os.listdir(filepath)
filename = filenames[1]
print(filename)
if 'gru' in filename:
    n_hidden = 256
else:
    n_hidden=512
print(n_hidden)
model = load_model(filepath,filename,n_hidden)
model.decoder.eval()
torch.set_grad_enabled(False)

multiscale_loss = 0 
jnd_loss = 0
mel_loss=0
start=time.time()
pitch_true,pitch_conf,loud,audio = [item.to(settings.device) for item in data]
signal_in = audio.reshape(audio.shape[0],-1)

if model.residual==True:
    mfcc = model.wave2mfcc(signal_in)[...,:-1]
    res = model.encoder(mfcc.permute(0,2,1))
else:
    res=None

pitch = pitch_true
harmonics,filters = model.decoder(pitch,loud,res)
signal_out,_ = generate_signal(pitch,harmonics,filters,model.frame_size,model.sr)
ref = signal_in.cpu().numpy()
gen = signal_out.cpu().numpy()
    
for i in range(5):
    IPython.display.display(IPython.display.Audio(ref[i],rate=16000))
    IPython.display.display(IPython.display.Audio(gen[i],rate=16000))
    print('Sample',i)

DDSP_normal_nsynth2_lr_0.001_n_epochs_250__sr_16000__frame_256.pt
512
normal_nsynth2 16000 256 51 65 True


Sample 0


Sample 1


Sample 2


Sample 3


Sample 4


In [None]:
IPython.display.Audio(ref,rate=16000)

In [13]:
import IPython
import sounddevice as sd
def play():
    sd.play(sound_compiled,16000)


In [230]:

filepath = r"C:\Users\NILS\Documents\ATIAM\PAM\Nouveau dossier" 
filename = "DDSP_normal_nsynth_lr_0.001_n_epochs_250__sr_16000__frame_256.pt"


filenames = os.listdir(filepath)

dataset_dir = r'C:\Users\NILS\Documents\ATIAM\PAM\Datasets\nsynth_test_processed'

batch_size =2
dataset = NSynth_ddsp(dataset_dir)
dataloader = DataLoader(dataset, batch_size=batch_size, shuffle=False)

for filename in filenames:
    if 'gru' in filename:
        n_hidden = 256
    else:
        n_hidden=512
    print(n_hidden)
    run_analysis(filepath,filename,n_hidden,dataloader,batch_size)



512
nsynth 16000 256 51 65 True


100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:02<00:00, 68.89it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:01<00:00, 77.79it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:01<00:00, 79.49it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:02<00:00, 74.76it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:01<00:00, 78.11it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:02<00:00, 69.51it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:02<00:00, 73.54it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:02<00:00, 68.92it/s]
100%|███████████████████████████████████

Model :  DDSP_nsynth_lr_0.001_n_epochs_100__sr_16000__frame_256.pt
Multiscale Spectral Loss :  6.12
Mel Loss :  1.15
JND Loss :  0.77
Inference Speed :  9.32  M samples/sec
512
nsynth_nores 16000 256 51 65 False


100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:02<00:00, 72.95it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:02<00:00, 72.95it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:01<00:00, 77.25it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:02<00:00, 74.69it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:02<00:00, 66.32it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:02<00:00, 72.67it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:02<00:00, 70.24it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:02<00:00, 73.79it/s]
100%|███████████████████████████████████

Model :  DDSP_nsynth_nores_lr_0.001_n_epochs_250__sr_16000__frame_256.pt
Multiscale Spectral Loss :  3.81
Mel Loss :  0.53
JND Loss :  0.44
Inference Speed :  9.3  M samples/sec
256
nsynth_nores_smallgru 16000 256 51 65 False


100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:02<00:00, 72.60it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:02<00:00, 75.98it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:02<00:00, 75.79it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:01<00:00, 79.28it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:01<00:00, 81.47it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:01<00:00, 79.90it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:01<00:00, 80.11it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:01<00:00, 78.75it/s]
100%|███████████████████████████████████

Model :  DDSP_nsynth_nores_smallgru_lr_0.001_n_epochs_100__sr_16000__frame_256.pt
Multiscale Spectral Loss :  3.83
Mel Loss :  0.54
JND Loss :  0.43
Inference Speed :  10.0  M samples/sec
512
nsynth_nores_smallsynth 16000 256 21 30 False


100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:02<00:00, 66.03it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:02<00:00, 70.57it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:01<00:00, 81.00it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:01<00:00, 82.12it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:01<00:00, 84.11it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:01<00:00, 85.37it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:01<00:00, 82.66it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:01<00:00, 81.77it/s]
100%|███████████████████████████████████

Model :  DDSP_nsynth_nores_smallsynth_lr_0.001_n_epochs_100__sr_16000__frame_256.pt
Multiscale Spectral Loss :  3.93
Mel Loss :  0.55
JND Loss :  0.42
Inference Speed :  10.07  M samples/sec





In [233]:

filepath = r"C:\Users\NILS\Documents\ATIAM\PAM\Nouveau dossier" 
filename = "DDSP_normal_nsynth_lr_0.001_n_epochs_250__sr_16000__frame_256.pt"


filenames = os.listdir(filepath)

dataset_dir = r'C:\Users\NILS\Documents\ATIAM\PAM\Datasets\nsynth_test_processed'

batch_size =2
dataset = NSynth_ddsp(dataset_dir)
dataloader = DataLoader(dataset, batch_size=batch_size, shuffle=False)

for filename in filenames:
    if 'gru' in filename:
        n_hidden = 256
    else:
        n_hidden=512
    print(n_hidden)
    run_analysis(filepath,filename,n_hidden,dataloader,batch_size)



512
nsynth 16000 256 51 65 True


100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:02<00:00, 73.09it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:01<00:00, 82.74it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:01<00:00, 82.35it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:01<00:00, 78.95it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:02<00:00, 73.54it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:02<00:00, 72.29it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:02<00:00, 71.25it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:02<00:00, 69.86it/s]
100%|███████████████████████████████████

Model :  DDSP_nsynth_lr_0.001_n_epochs_100__sr_16000__frame_256.pt
Inference Speed :  4.56  M samples/sec
512
nsynth_nores 16000 256 51 65 False


100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:01<00:00, 81.43it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:01<00:00, 81.69it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:01<00:00, 81.17it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:01<00:00, 78.19it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:01<00:00, 80.57it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:01<00:00, 82.30it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:01<00:00, 82.70it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:01<00:00, 81.47it/s]
100%|███████████████████████████████████

Model :  DDSP_nsynth_nores_lr_0.001_n_epochs_250__sr_16000__frame_256.pt
Inference Speed :  5.03  M samples/sec
256
nsynth_nores_smallgru 16000 256 51 65 False


100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:01<00:00, 82.92it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:01<00:00, 82.74it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:01<00:00, 83.10it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:01<00:00, 84.90it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:01<00:00, 80.36it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:01<00:00, 80.45it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:01<00:00, 84.29it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:01<00:00, 82.21it/s]
100%|███████████████████████████████████

Model :  DDSP_nsynth_nores_smallgru_lr_0.001_n_epochs_100__sr_16000__frame_256.pt
Inference Speed :  5.26  M samples/sec
512
nsynth_nores_smallsynth 16000 256 21 30 False


100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:01<00:00, 89.87it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:01<00:00, 91.81it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:01<00:00, 90.19it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:01<00:00, 91.92it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:01<00:00, 91.97it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:01<00:00, 90.35it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:01<00:00, 89.87it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:01<00:00, 86.67it/s]
100%|███████████████████████████████████

Model :  DDSP_nsynth_nores_smallsynth_lr_0.001_n_epochs_100__sr_16000__frame_256.pt
Inference Speed :  5.69  M samples/sec





In [238]:
filepath = r"C:\Users\NILS\Documents\ATIAM\PAM\Nouveau dossier" 
filename = "DDSP_normal_nsynth_lr_0.001_n_epochs_250__sr_16000__frame_256.pt"


filenames = os.listdir(filepath)

dataset_dir = r'C:\Users\NILS\Documents\ATIAM\PAM\Datasets\nsynth_test_processed'

batch_size =2
dataset = NSynth_ddsp(dataset_dir)
dataloader = DataLoader(dataset, batch_size=batch_size, shuffle=False)

for filename in filenames:
    if 'gru' in filename:
        n_hidden = 256
    else:
        n_hidden=512
    print(n_hidden)
    run_analysis(filepath,filename,n_hidden,dataloader,batch_size)



512
nsynth 16000 256 51 65 True


100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:15<00:00, 10.13it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:15<00:00,  9.92it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:15<00:00,  9.71it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:15<00:00,  9.68it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:16<00:00,  9.46it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:15<00:00,  9.58it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:15<00:00,  9.60it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:15<00:00,  9.68it/s]
100%|███████████████████████████████████

Model :  DDSP_nsynth_lr_0.001_n_epochs_100__sr_16000__frame_256.pt
Inference Speed :  1.24  M samples/sec
512
nsynth_nores 16000 256 51 65 False


100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:12<00:00, 12.06it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:12<00:00, 11.81it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:13<00:00, 11.60it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:12<00:00, 12.15it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:13<00:00, 11.49it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:13<00:00, 11.39it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:13<00:00, 11.37it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:12<00:00, 11.99it/s]
100%|███████████████████████████████████

Model :  DDSP_nsynth_nores_lr_0.001_n_epochs_250__sr_16000__frame_256.pt
Inference Speed :  1.5  M samples/sec
256
nsynth_nores_smallgru 16000 256 51 65 False


100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:10<00:00, 15.06it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:10<00:00, 15.09it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:10<00:00, 15.28it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:09<00:00, 15.71it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:09<00:00, 15.34it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:09<00:00, 15.47it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:10<00:00, 15.09it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:10<00:00, 15.11it/s]
100%|███████████████████████████████████

Model :  DDSP_nsynth_nores_smallgru_lr_0.001_n_epochs_100__sr_16000__frame_256.pt
Inference Speed :  1.96  M samples/sec
512
nsynth_nores_smallsynth 16000 256 21 30 False


100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:07<00:00, 19.61it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:07<00:00, 20.56it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:07<00:00, 19.24it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:08<00:00, 19.07it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:07<00:00, 19.83it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:08<00:00, 19.09it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:07<00:00, 19.84it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:07<00:00, 19.25it/s]
100%|███████████████████████████████████

Model :  DDSP_nsynth_nores_smallsynth_lr_0.001_n_epochs_100__sr_16000__frame_256.pt
Inference Speed :  2.48  M samples/sec





In [253]:
settings.device

device(type='cuda')

In [258]:
filepath = r"C:\Users\NILS\Documents\ATIAM\PAM\Nouveau dossier" 
filename = "DDSP_normal_nsynth_lr_0.001_n_epochs_250__sr_16000__frame_256.pt"


filenames = os.listdir(filepath)

dataset_dir = r'C:\Users\NILS\Documents\ATIAM\PAM\Datasets\nsynth_test_processed'

batch_size =2
dataset = NSynth_ddsp(dataset_dir)
dataloader = DataLoader(dataset, batch_size=batch_size, shuffle=False)

for filename in filenames[-2:-1]:
    if 'gru' in filename:
        n_hidden = 256
    else:
        n_hidden=512
    print(n_hidden)
    run_analysis(filepath,filename,n_hidden,dataloader,batch_size)



256
nsynth_nores_smallgru_smallsynth 16000 256 21 30 False


100%|████████████████████████████████████████████████████████████████████████████████| 153/153 [00:01<00:00, 92.15it/s]
100%|███████████████████████████████████████████████████████████████████████████████| 153/153 [00:01<00:00, 105.91it/s]
100%|███████████████████████████████████████████████████████████████████████████████| 153/153 [00:01<00:00, 112.01it/s]
100%|███████████████████████████████████████████████████████████████████████████████| 153/153 [00:01<00:00, 117.12it/s]
100%|███████████████████████████████████████████████████████████████████████████████| 153/153 [00:01<00:00, 119.60it/s]
100%|███████████████████████████████████████████████████████████████████████████████| 153/153 [00:01<00:00, 104.94it/s]
100%|███████████████████████████████████████████████████████████████████████████████| 153/153 [00:01<00:00, 107.56it/s]
100%|███████████████████████████████████████████████████████████████████████████████| 153/153 [00:01<00:00, 109.58it/s]
100%|███████████████████████████████████

Model :  DDSP_nsynth_nores_smallgru_smallsynth_lr_0.001_n_epochs_100__sr_16000__frame_256.pt
Multiscale Spectral Loss :  3.86
Mel Loss :  0.54
JND Loss :  0.42
Inference Speed :  13.51  M samples/sec





In [27]:
from deep_eurorack_control.pipelines.ddsp.dataset_process import preprocess_dataset

raw_data_dir = r'C:\Users\NILS\Documents\ATIAM\PAM\Datasets\nsynth-test\audio'
dataset_dir = r'C:\Users\NILS\Documents\ATIAM\PAM\Datasets\nsynth_test_processed'
filters = 'string_acoustic'
sr = 16000
frame_size = 256
nb_files = None
preprocess_dataset(raw_data_dir,dataset_dir,filters,sr,frame_size,nb_files)


100%|████████████████████████████████████████████████████████████████████████████████| 306/306 [01:30<00:00,  3.39it/s]
