tests/data/quartznet_speech_recognition.yaml

model: "QuartzNet"
sample_rate: 16000
dropout: &drop 0.0
rep: &rep 1
n_mels: &n_mels 64
se: &se true
kernel_size_factor: &kfactor 2.0

AudioToTextDataLayer:
    train:
        shuffle: true
    eval:
        shuffle: false
        max_duration: null

AudioToMelSpectrogramPreprocessor:
    normalize: "per_feature"
    window_size: 0.02
    window_stride: 0.01
    window: "hann"
    features: 64
    n_fft: 512
    frame_splicing: 1
    dither: 0.00001
    stft_conv: true

SpectrogramAugmentation:
    rect_masks: 5
    rect_time: 120
    rect_freq: 50

JasperEncoder:
    feat_in: *n_mels
    activation: "relu"
    conv_mask: true

    jasper:
        - filters: 32
          repeat: 1
          kernel: [11]
          stride: [1]
          dilation: [1]
          dropout: *drop
          residual: false
          separable: true
          se: *se
          kernel_size_factor: *kfactor

        - filters: 32
          repeat: *rep
          kernel: [11]
          stride: [1]
          dilation: [1]
          dropout: *drop
          residual: true
          separable: true
          se: *se
          kernel_size_factor: *kfactor

        - filters: 32
          repeat: *rep
          kernel: [13]
          stride: [1]
          dilation: [1]
          dropout: *drop
          residual: true
          separable: true
          se: *se
          kernel_size_factor: *kfactor

        - filters: 32
          repeat: *rep
          kernel: [17]
          stride: [1]
          dilation: [1]
          dropout: *drop
          residual: true
          separable: true
          se: *se
          kernel_size_factor: *kfactor

        - filters: 32
          repeat: 1
          kernel: [29]
          stride: [1]
          dilation: [2]
          dropout: *drop
          residual: false
          separable: true
          se: *se
          kernel_size_factor: *kfactor

        - filters: 32
          repeat: 1
          kernel: [1]
          stride: [1]
          dilation: [1]
          dropout: *drop
          residual: false

labels: ["dog", "cat"]