# Valutazioni finali
Con questo notebook si conclude il nostro progetto. Trarremo delle considerazione sui risultati ottenuti, approffonendo quali strategia hanno funzionato meglio. 

## Funzioni note
Le seguenti celle contengono le librerie e le funzioni create durante lo sviluppo del progetto. Non sono state apportate sostanziali modifiche, a ragion di ciò non ne andremo a descrivere nuovamente il funzionamento. 

In [1]:
import matplotlib.pyplot as plt
import numpy as np 
import pandas as pd
import tensorflow as tf
import os 
import scipy.fftpack as scipy
import onnxruntime as rt
import tf2onnx
import onnx
import random

In [2]:
train_ds, validation_ds = tf.keras.utils.audio_dataset_from_directory(
    directory='../reduced_dataset/dataset/audio',
    validation_split=0.4, # stiamo mettendo da parte il 40% del dataset, che sarà suddiviso in validation set e test set
    shuffle=True,
    subset='both', # necessario se stiamo utilizzando validation_split (se no darebbe errore)
    seed=0 # necessario se stiamo utilizzando sia shuffle che validation_split (se no darebbe errore)
)

noise_ds = tf.keras.utils.audio_dataset_from_directory(
    directory='../noise_dataset',
    batch_size = 1
)

noise_label_names = noise_ds.class_names

val_ds = validation_ds.take(validation_ds.cardinality() // 2) # ho cambiato nome del validation_ds in modo tale da non creare problemi con l'istruzione seguente
test_ds = validation_ds.skip(validation_ds.cardinality() // 2)

Found 12933 files belonging to 30 classes.
Using 7760 files for training.
Using 5173 files for validation.
Found 14 files belonging to 14 classes.


In [3]:
def cut_audios(dataset, length):
    new_audios = [] # inizializziamo una lista dove inseriremo i nostri audio tagliati
    labels = []
    
    # iteriamo nel dataset
    for audio, label in dataset:
        # tagliamo l'audio ad un secondo e lo appendiamo a una lista 
        labels.append(label.numpy())
        
        audio = tf.reshape(audio, [-1])[np.shape(audio)[1]//2:np.shape(audio)[1]//2 + length]
        new_audios.append(audio.numpy()) # convertiamo in array per poterli modificare
        
    return new_audios, labels

cut_noise_audios, cut_noise_labels = cut_audios(noise_ds, 16000)

def mix_audios(original_audios, noise_audios):
    mixed_dataset = [] # inizializziamo la lista dove inseriremo gli audio uniti al rumore

    original_audios = original_audios.unbatch() # il nostro training set ha una batch_size di 32, per rendere il processo più semplice unbatchiamo
    
    # per ogni audio del dataset originale
    for audio, label in original_audios:    
        audio = np.squeeze(audio, axis=-1) # rimuoviamo l'ultima asse inutile (quella dei canali)
        
        # Scegliamo in modo randomico un audio dalla lista degli audio rumorosi
        noise_sample = random.choice(noise_audios)

        # calcolo l'ampiezza massima dell'audio rumoroso
        max_amplitude_audio = np.max(np.abs(audio))
        max_amplitude_noise = np.max(np.abs(noise_sample))
        # calcolo un noise factor che varia a seconda dell'ampiezza massima di entrambi gli audio
        noise_factor = max_amplitude_audio / max_amplitude_noise
        noise_factor = min(noise_factor, 1.0)
        
        noise_sample = noise_sample * noise_factor
        
        mixed_audio = audio + noise_sample # uniamo l'audio original al rumore

        # aggiungiamo l'audio con noise alla lista
        mixed_dataset.append((mixed_audio, label))

    return mixed_dataset

mixed_train_list = mix_audios(train_ds, cut_noise_audios)
mixed_val_list = mix_audios(validation_ds, cut_noise_audios)

def create_mixed_ds(dataset_list):
    audio_data = [tf.convert_to_tensor(audio, dtype=tf.float32) for audio, label in dataset_list]
    labels = [label for _, label in dataset_list]

    audio_data = tf.expand_dims(audio_data, axis=-1)
    
    mixed_train_ds = tf.data.Dataset.from_tensor_slices((audio_data, labels))
    mixed_train_ds = mixed_train_ds.batch(32)
    return mixed_train_ds

mixed_train_ds = create_mixed_ds(mixed_train_list)
mixed_validation_ds = create_mixed_ds(mixed_val_list)

mixed_val_ds = mixed_validation_ds.take(mixed_validation_ds.cardinality() // 2) # ho cambiato nome del validation_ds in modo tale da non creare problemi con l'istruzione seguente
mixed_test_ds = mixed_validation_ds.skip(mixed_validation_ds.cardinality() // 2)

In [4]:
class DatasetConverter:
    def __init__(self, dataset):
        self.dataset = dataset

    def convert(self, option):
        available_options = ['spectrogram', 'filterbanks', 'mfcc']
        
        if option == available_options[0]:
            return self.get_spectrogram_dataset()
        elif option == available_options[1]:
            return self.get_filterbanks_dataset()
        elif option == available_options[2]:
            return self.get_mfcc_dataset()
        else:
            raise ValueError(f"Opzione non disponibile: inserire una delle seguenti opzioni: {available_options}")
    
    # INIZIO SPETTROGRAMMI
    def squeeze(self, audio, labels):
        audio = tf.squeeze(audio, axis=-1)
        return audio, labels
    
    def get_spectrogram(self, waveform):
    # applichiamo la short-time Fourier transorm
        spectrogram = tf.signal.stft(waveform, frame_length=255, frame_step=128)
        spectrogram = tf.abs(spectrogram)
        
        return spectrogram[..., tf.newaxis]
    
    def get_spectrogram_dataset(self):
        # squeeze
        self.dataset = self.dataset.map(self.squeeze, tf.data.AUTOTUNE)
        self.dataset = self.dataset.map(lambda x, y: (self.get_spectrogram(x), y), num_parallel_calls=tf.data.AUTOTUNE)
        
        return self.dataset

    # FINE SPETTROGRAMMI

    def convert_to_numpy(self, dataset):
        audio_data = []
        labels = []
    
        dataset = dataset.unbatch()
        
        for audio, label in dataset:
            audio_data.append(audio.numpy())  # Assuming audio is a tensor, convert to numpy array
            labels.append(label.numpy())      # Assuming label is a tensor, convert to numpy array
        
        audio_data = np.array(audio_data)
        labels = np.array(labels)
        
        return audio_data, labels
    
    # INIZIO FILTERBANKS
    def makeHamming(self, M):
        R = (( M - 1 ) / 2 , M / 2)[M % 2 == 0]
        w = (np.hamming(M), np.hamming(M + 1))[M % 2 == 0]
        if M % 2 != 0:
            w[0] = w[0]/2
            w[M-1] = w[M-1]/2
        else:
            w = w[:M]
    
        return w

    def hztomel(self, hz):
        return (2595 * np.log10(1 + hz / 700))

    def meltohz(self, mel):
        return (700 * (10**(mel / 2595) - 1))

    def compute_filterbanks(self, audios_np, pre_emphasis=0.97, sample_rate=16000, frame_size=0.025, frame_stride=0.01, NFFT=512, nfilt=40):
        filterbanks_np = []
        
        for samples in audios_np:
            emphasized_audio = np.append(samples[0], samples[1:] - pre_emphasis * samples[:-1])
            audio_length = len(emphasized_audio)
    
            frame_length, frame_step = int(frame_size * sample_rate), int(frame_stride * sample_rate)
    
            num_frames = int(np.ceil(float(np.abs(audio_length - frame_length)) / frame_step))
    
            pad_audio_length = num_frames * frame_step + frame_length
            z = np.zeros((pad_audio_length - audio_length))
            pad_audio = np.append(emphasized_audio, z)
    
            indices = np.tile(np.arange(0, frame_length), (num_frames, 1)) + np.tile(np.arange(0, num_frames * frame_step, frame_step), (frame_length, 1)).T
            frames = pad_audio[indices.astype(np.int32, copy=False)]
    
            # Usiamo la funzione di Hamming
            hamming_window = self.makeHamming(frame_length)
    
            mag_frames = np.absolute(np.fft.rfft(frames, NFFT))  # Magnitudo della FFT
            pow_frames = ((1.0 / NFFT) * ((mag_frames) ** 2))
    
            # convertiamo hz in mel
            low_freq_mel = self.hztomel(0)
            high_freq_mel = self.hztomel(sample_rate / 2)
    
            mel_points = np.linspace(low_freq_mel, high_freq_mel, nfilt + 2)
            hz_points = self.meltohz(mel_points) 
    
            bin = np.floor((NFFT + 1) * hz_points / sample_rate)
    
            fbank = np.zeros((nfilt, int(np.floor(NFFT / 2 + 1))))
    
            for m in range(1, nfilt + 1):
                f_m_minus = int(bin[m - 1])
                f_m = int(bin[m])
                f_m_plus = int(bin[m + 1])
    
                for k in range(f_m_minus, f_m):
                    fbank[m - 1, k] = (k - bin[m - 1]) / (bin[m] - bin[m - 1])
                for k in range(f_m, f_m_plus):
                    fbank[m - 1, k] = (bin[m + 1] - k) / (bin[m + 1] - bin[m])
    
            # in questo momento invece calcoliamo i filter banks per i segmenti di audio, utilizzando i filtri triangolari appena creati
            filter_banks = np.dot(pow_frames, fbank.T)
            filter_banks = np.where(filter_banks == 0, np.finfo(float).eps, filter_banks)
            filter_banks = 20 * np.log10(filter_banks)
    
            filterbanks_np.append(filter_banks)
        
        return np.array(filterbanks_np)
    
    def get_filterbanks_dataset(self): 
        audios, labels = self.convert_to_numpy(self.dataset)

        filterbanks = self.compute_filterbanks(audios)
        filterbanks = np.expand_dims(filterbanks, axis=-1)

        self.dataset = tf.data.Dataset.from_tensor_slices((filterbanks, labels))
        self.dataset = self.dataset.batch(32)
        
        return self.dataset
    # FINE FILTERBANKS

    # INIZIO MFCC
    def compute_mfcc(self, filter_banks, num_ceps=12, cep_lifter=22):
        mfcc_np = []
        
        for f in filter_banks:
            mfcc = scipy.dct(f, type=2, axis=1, norm='ortho')[:, 1 : (num_ceps + 1)]

            (nframes, ncoeff) = mfcc.shape
            n = np.arange(ncoeff)
            
            lift = 1 + (cep_lifter / 2) * np.sin(np.pi * n / cep_lifter)
            mfcc *= lift

            mfcc_np.append(mfcc)
        
        return np.array(mfcc_np)
    
    
    def get_mfcc_dataset(self):
        audios, labels = self.convert_to_numpy(self.dataset)

        filterbanks = self.compute_filterbanks(audios)
        mfcc = self.compute_mfcc(filterbanks)
        
        mfcc = np.expand_dims(mfcc, axis=-1)
        
        self.dataset = tf.data.Dataset.from_tensor_slices((mfcc, labels))
        self.dataset = self.dataset.batch(32)
        
        return self.dataset
    
    # FINE MFCC

## Funzioni nuove

Per poter rappresentare i dati ottenuti abbiamo dovuto modificare `evaluate_onnx_model`. Se fino ad ora questa funzione aveva solamente la funzione di printare le metriche di valutazioni migliori, ora restituisce direttamente l'accuratezza e la perdita. 

In [5]:
def evaluate_onnx_model(path_model_onnx, test_ds):
    # il fatto che sia suddiviso in batch mi crea problemi, perciò lo risolvo togliendoli
    test_ds = test_ds.unbatch()
    
    # carico il modello utilizzando il file onnx
    m = rt.InferenceSession(path_model_onnx)
    
    # trasformo il dataset in array numpy
    spectrogram_np = np.array([spectrogram.numpy() for spectrogram, _ in test_ds], dtype=np.float32)
    labels_np = np.array([label.numpy() for _, label in test_ds])
    
    # eseguo le predizione del modello
    pred_onnx = m.run(None, {'input': spectrogram_np})
    # ottengo la predizione corretta
    predictions = np.argmax(pred_onnx[0], axis=1)
    # computo la accuratezza
    accuracy = np.mean(predictions == labels_np)
    # computo la loss
    sparse_categorical_loss = tf.keras.losses.sparse_categorical_crossentropy(labels_np, pred_onnx[0])
    mean_sparse_categorical_loss = np.mean(sparse_categorical_loss)
    # stampo l'accuratezza
    return round(accuracy, 3), round(mean_sparse_categorical_loss, 3)

Per poter analizzare meglio le reti create è stata sviluppata la funzione `create_table`, la quale crea una struttura DataFrame di Pandas in base al dataset e all'ottimizzatore passati come argomenti e alla scelta di avere o meno il dataset rumoroso. Imposta di default come ottimizzatore **rmsprop** e sceglie il dataset senza rumore.

In [8]:
# creiamo le colonne e il dataframe
headers = ["Modello", "Opt", "Dataset", "Rumore", "Accuratezza", "Perdita"]

def create_table(dataset_name, optimizer="rmsprop", noise=False):
    if noise:
        dataset = DatasetConverter(mixed_test_ds)
        dataset = dataset.convert(dataset_name)
    else:
        dataset = DatasetConverter(test_ds)
        dataset = dataset.convert(dataset_name)
        
    path = f"bestmodels/noise/{optimizer}/" if noise else f"bestmodels/{optimizer}/"
    path += dataset_name + "/"

    df = pd.DataFrame(columns=headers)

    for model in os.listdir(path):
        if model.endswith("onnx"):
            new_row = []
            model_name = model.split(".onnx")[0]
            model_name = model_name.split("_")
            
            if model_name[-1] != "model":
                model_name = model_name[:-1]

            model_name = "_".join(model_name)
  
            new_row.append(model_name)

            new_row.append(optimizer)
            
            new_row.append(path.split("/")[-2])
            
            if noise:
                new_row.append("Sì")
            else:
                new_row.append("No")

            accuracy, loss = evaluate_onnx_model(path+model, dataset)
            new_row.append(accuracy)
            new_row.append(loss)

            df.loc[-1] = new_row
            df.index = df.index + 1

    return df

## Valutazione spettrogrammi
Partiamo da analizzare i risultati dei modelli con il primo tipo di dati creati a partire dal nostro dataset di audio di partenza. 

Per farlo abbiamo bisogno di creare due dataframe, uno per l'ottimizzatore rmsprop e un altro per l'adam, che uniremo per creare una tabella unica. 

In [9]:
df_spect_rmsprop = create_table("spectrogram")
df_spect_adam = create_table("spectrogram", optimizer="adam")
df_spect = pd.concat([df_spect_rmsprop, df_spect_adam]).sort_values(by="Accuratezza", ascending=False).reset_index(drop=True)

df_spect

Unnamed: 0,Modello,Opt,Dataset,Rumore,Accuratezza,Perdita
0,bp_basic_model,adam,spectrogram,No,0.897,0.448
1,bp_basic_model,rmsprop,spectrogram,No,0.891,0.437
2,improved_basic_model,rmsprop,spectrogram,No,0.863,0.549
3,improved_basic_model,adam,spectrogram,No,0.855,0.649
4,basic_model,rmsprop,spectrogram,No,0.828,0.804
5,basic_model,adam,spectrogram,No,0.788,0.788
6,tuned_improved_basic_model,rmsprop,spectrogram,No,0.775,1.066
7,tuned_improved_basic_model,adam,spectrogram,No,0.769,1.145


Da questa tabella possiamo notare come in quasi tutti i casi l'ottimizzatore **rmsprop** per questo tipo di dati abbia prodotto dei modelli con un'accuratezza maggiore e una perdita minore. 

Esaminando nello specifico i modelli si può osservare come il nostro modello convolutivo base partisse con un buon valore di accuratezza, intorno all'**80%** e come aggiungendo un semplice livello di dropout questa si sia attesta sull' **85%**. I risultati migliori, però, sono stati guadagnati dall'adozione delle best practice, nel quale impiegando l'uso di blocchi residui si è riusciti a raggiungere quasi un **90%** di accuratezza. 


Scarsi i risultati guadagnati dalla tecnica di tuning degli iperparametri, dove si è raggiunta l'accuratezza più bassa tra tutti i modelli. 

## Filterbank

In [10]:
df_fb_rmsprop = create_table("filterbanks")
df_fb_adam = create_table("filterbanks", optimizer="adam")
df_fb = pd.concat([df_fb_rmsprop, df_fb_adam]).sort_values(by="Accuratezza", ascending=False).reset_index(drop=True)

df_fb

Unnamed: 0,Modello,Opt,Dataset,Rumore,Accuratezza,Perdita
0,improved_basic_model,rmsprop,filterbanks,No,0.881,0.532
1,bp_basic_model,adam,filterbanks,No,0.881,0.531
2,bp_basic_model,rmsprop,filterbanks,No,0.871,0.607
3,tuned_improved_basic_model,adam,filterbanks,No,0.848,0.598
4,tuned_improved_basic_model,rmsprop,filterbanks,No,0.846,0.601
5,improved_basic_model,adam,filterbanks,No,0.843,0.579
6,basic_model,adam,filterbanks,No,0.831,0.617
7,basic_model,rmsprop,filterbanks,No,0.824,0.659


In [13]:
df_mfcc_rmsprop = create_table("mfcc")
df_mfcc_adam = create_table("mfcc", optimizer="adam")
df_mfcc = pd.concat([df_mfcc_rmsprop, df_mfcc_adam]).sort_values(by="Accuratezza", ascending=False).reset_index(drop=True)

df_mfcc

Unnamed: 0,Modello,Opt,Dataset,Rumore,Accuratezza,Perdita
0,bp_basic_model,adam,mfcc,No,0.831,0.74
1,improved_basic_model,rmsprop,mfcc,No,0.814,0.786
2,basic_model,rmsprop,mfcc,No,0.797,0.85
3,bp_basic_model,rmsprop,mfcc,No,0.796,0.795
4,improved_basic_model,adam,mfcc,No,0.78,0.875
5,basic_model,adam,mfcc,No,0.742,0.968
6,tuned_improved_basic_model,adam,mfcc,No,0.683,1.146
7,tuned_improved_basic_model,rmsprop,mfcc,No,0.681,1.147


In [14]:
df_spect_rmsprop_noise = create_table("spectrogram", noise=True)
df_spect_adam_noise = create_table("spectrogram", optimizer="adam", noise=True)
df_spect_noise = pd.concat([df_spect_rmsprop_noise, df_spect_adam_noise]).sort_values(by="Accuratezza", ascending=False).reset_index(drop=True)

df_spect_noise

Unnamed: 0,Modello,Opt,Dataset,Rumore,Accuratezza,Perdita
0,tuned_improved_basic_model,rmsprop,spectrogram,Sì,0.706,1.3
1,improved_basic_model,rmsprop,spectrogram,Sì,0.703,1.062
2,tuned_improved_basic_model,adam,spectrogram,Sì,0.674,1.339
3,improved_basic_model,adam,spectrogram,Sì,0.669,1.158
4,basic_model,adam,spectrogram,Sì,0.663,1.276
5,bp_basic_model,rmsprop,spectrogram,Sì,0.644,1.498
6,basic_model,rmsprop,spectrogram,Sì,0.642,1.231
7,bp_basic_model,adam,spectrogram,Sì,0.597,1.418


In [15]:
df_fb_rmsprop_noise = create_table("filterbanks", noise=True)
df_fb_adam_noise = create_table("filterbanks", optimizer="adam", noise=True)
df_fb_noise = pd.concat([df_fb_rmsprop_noise, df_fb_adam_noise]).sort_values(by="Accuratezza", ascending=False).reset_index(drop=True)

df_fb_noise

Unnamed: 0,Modello,Opt,Dataset,Rumore,Accuratezza,Perdita
0,improved_basic_model,rmsprop,filterbanks,Sì,0.75,0.943
1,tuned_improved_basic_model,rmsprop,filterbanks,Sì,0.737,1.095
2,improved_basic_model,adam,filterbanks,Sì,0.728,1.038
3,tuned_improved_basic_model,adam,filterbanks,Sì,0.719,0.963
4,basic_model,rmsprop,filterbanks,Sì,0.704,1.279
5,basic_model,adam,filterbanks,Sì,0.668,1.297
6,bp_basic_model,rmsprop,filterbanks,Sì,0.63,1.537
7,bp_basic_model,adam,filterbanks,Sì,0.594,1.379


In [16]:
df_mfcc_rmsprop_noise = create_table("mfcc", noise=True)
df_mfcc_adam_noise = create_table("mfcc", optimizer="adam", noise=True)
df_mfcc_noise = pd.concat([df_mfcc_rmsprop_noise, df_mfcc_adam_noise]).sort_values(by="Accuratezza", ascending=False).reset_index(drop=True)

df_mfcc_noise

Unnamed: 0,Modello,Opt,Dataset,Rumore,Accuratezza,Perdita
0,improved_basic_model,rmsprop,mfcc,Sì,0.627,1.392
1,bp_basic_model,rmsprop,mfcc,Sì,0.625,1.35
2,improved_basic_model,adam,mfcc,Sì,0.616,1.556
3,basic_model,rmsprop,mfcc,Sì,0.612,1.539
4,bp_basic_model,adam,mfcc,Sì,0.598,1.402
5,tuned_improved_basic_model,rmsprop,mfcc,Sì,0.584,1.632
6,tuned_improved_basic_model,adam,mfcc,Sì,0.579,1.541
7,basic_model,adam,mfcc,Sì,0.499,1.699
