<center>
    <header>
        <h1>Audio Classifier Python</h1>
        <h2>Marco Bondaschi, Mauro Conte</h2>
        <h4>Laboratorio di Telecomunicazioni</h4>
        <h5>Università Degli Studi Di Brescia</h5>
        <h6>13/03/2017</h6>
    </header>
</center>
<hr><hr>

<h2>Descrizione</h2>

Per questa prima esperienza di laboratorio, abbiamo realizzato un software di classificazione audio, realizzato in Python, che permettesse di analizzare e distinguere un file musicale da uno di parlato.

Per realizzare questo compito abbiamo usufruito di un database di 40 file audio .wav, MONO e con frequenza di campionamento pari a 16000 Hz, già suddivisi in 20 file di musica (dalla durata di 10 s l'uno) e 20 file di parlato (dalla durata di 3 s l'uno).

Abbiamo inoltre in dotazione un database di 10 suoni incogniti, sempre MONO a 16000Hz, che il nostro software dovrà essere in grado di dividere in musica o parlato.

Il primo passo per creare il software di classificazione è la fase di training, attraverso la quale si addestra il software a distinguere musica e parlato facendogli analizzare i 40 file già suddivisi nelle due categorie.

In secondo luogo si attua la fase di test, in cui si consegnano al software i 10 file incogniti, che verranno analizzati dal programma e suddivisi in musica o parlato.


<h3>Strumenti</h3>

Per raggiungere questi obiettivi, è stato necessario utilizzare le estensioni Scipy e Numpy, che implementano funzioni matematiche di alto livello. In particolare abbiamo utilizzato due funzioni fondamentali: spectrogram e svd. 

In [23]:
import scipy.signal
import scipy.linalg
import scipy.io.wavfile
import numpy as np
import os
import sys

<h3>Spectrogram</h3>
La prima serve per ottenere lo spettrogramma di un segnale audio, che consiste nel suddividere il segnale in intervalli di tempo uguali, finestrarli utilizzando una delle numerose finestre disponibili (nel nostro caso la finestra di Hamming), quindi calcolare la FFT di questi segmenti, utilizzando un numero di campioni a scelta. Da questo procedimento si ottiene perciò una matrice, dove ogni colonna contiene la FFT del segmento di segnale designato (e dunque il numero di righe della matrice equivale al numero di campioni della FFT, mentre il numero di colonne equivale al numero di segmenti in cui è stato suddiviso il segnale).

<h3>SVD</h3>
La seconda funzione, invece, esegue la Decomposizione ai Valori Singolari (SVD, Singular Value Decomposition) su una matrice $M\in{\mathbb{C}^{(m,n)}}$

Questa pratica consiste in una fattorizzazione della matrice $M$ in un prodotto tra tre matrici $M=USV^{*}$, dove:
<ul>
    <li>
$U\in{\mathbb{C}^{(m,n)}}$ è una matrice unitaria (ovvero una matrice il cui prodotto con la sua matrice trasposta coniugata dà la matrice unitaria)
    </li>
    <li>
$S$ è una matrice diagonale  $\in\mathbb{C}^{(m,n)}$
    </li>
    <li>
$V^{*}$ è la trasposta coniugata di una matrice unitaria $V\in{\mathbb{C}^{(n,n)}}$
    </li>
</ul>

Gli elementi sulla diagonale principale di $S$ sono le radici quadrate degli autovalori associati agli autovettori che si trovano sulle colonne di $V^*$.

Ritorna una lista di tuple contenenti SampleRate, Data, FileName data una path.

In [None]:
def load_audio(path):
    audio_list = []
    for filename in os.listdir(path):
        rate, data = scipy.io.wavfile.read(path + filename) 
        audio_list.append((rate, data, filename))
    return audio_list

Ritorna lo spettrogramma  di un segnale dati il SampleRate e Data.

Come impostazioni per lo spettrogramma abbiamo seguito la documentazione dello standard mpeg7 allegata, paragrafo 1.1.2.3.4. Poichè la frequenza di campionamento dei file è pari a 16000 Hz, abbiamo ottenuto una hopsize (corrispondente al valore noverlap della funzione di Numpy) pari a 160, la lunghezza della finestra pari alla più piccola potenza di 2 maggiore di 3 hopsize, ovvero 512 campioni, che è anche il numero di campioni della FFT. La finestra utilizzata, come da specifiche, è quella di Hamming.

In [None]:
def get_spectrogram(data, rate):
    f, t, sxx = signal.spectrogram(data, rate, 'hamming', 512, 160, 512)
    spectrogram = 10 * np.log10(sxx + sys.float_info.min)
    return spectrogram

Ritorna lo spettrogramma di un insieme di audio data la lista.

In [None]:
def get_spectrogram_from_list(collection):
    spectrogram = None
    for rate,data,f_name in collection:
        if spectrogram is None: spectrogram = get_spectrogram(data,rate)
        else: scipy.hstack((spectrogram, get_spectrogram(data,rate)))
    return spectrogram

Ritorna una matrice che ha per colonne i vettori di una base ridotta dello spazio vettoriale che genera lo spettrogramma dato lo stesso e la percentuale di energia.

In [None]:
def get_base_from_spectrogram(spectrogram,percent):
    u, s, v = np.linalg.svd(spectrogram)
    energy_e_value = np.sum(s)
    current_sum = 0
    percent_sum = energy_e_value * percent / 100
    for i in range(len(s)):
        current_sum += s[i]
        if current_sum >= percent_sum:
            break
    base = u[:, range(0, i)]
    return base

Ritorna la feature relativa ad un audio ricavata dal suo spettrogramma e dalla base

In [None]:
def get_feature_mean(spectrogram, base):
    mean_vector = np.zeros(base.shape[1])
    coefficient_on_base = np.dot(spectrogram.T, base)
    mean_vector += np.mean(coefficient_on_base, 0)
    return mean_vector

In [None]:
Ritorna la feature relativa ad una lista di audio ricavata dal suo spettrogramma e dalla base

In [None]:
def get_feature_mean_from_list(collection, base):
    mean_vector = np.zeros(base.shape[1])
    for rate, data, filename in collection:
        spectrogram = get_spectrogram(data,rate)
        mean_vector += get_feature_mean(spectrogram,base)
    return mean_vector / len(collection)

Calcola l'approssimazione dello spettrogramma su una base

Ritorna l'errore tra lo spettrogramma originale e l'approssimato

In [16]:
def get_error_base(spectrogram, base):
    coefficient_on_base = np.dot(spectrogram.T, base)
    spectrogram_ric = np.dot(coefficient_on_base, base.T).T
    error = np.linalg.norm(spectrogram - spectrogram_ric)
    return error

In [17]:
path_db = os.getcwd()+'/05_AudioClassifier_Pdf/05_AudioClassifier_Pdf/database/'
path_music = path_db + 'music/'
path_speech = path_db + 'speech/'
path_unknowns = path_db.replace('database/', '') + 'unknownSounds/'

In [18]:
music = load_audio(path_music)
speech = load_audio(path_speech)
unknowns = load_audio(path_unknowns)

In [19]:
spectrogram_music = get_spectrogram_from_list(music)
spectrogram_speech = get_spectrogram_from_list(speech)
spectrogram_total = scipy.hstack((spectrogram_music, spectrogram_speech))

In [20]:
energy = 50
base_music = get_base_from_spectrogram(spectrogram_music,energy)
base_speech = get_base_from_spectrogram(spectrogram_speech,energy)
base_total = get_base_from_spectrogram(spectrogram_total,energy)

In [21]:
feature_mean_music = get_feature_mean_from_list(music,base_music)
feature_mean_speech = get_feature_mean_from_list(speech,base_speech)
feature_mean_music_on_total = get_feature_mean_from_list(music,base_total)
feature_mean_speech_on_total = get_feature_mean_from_list(speech,base_total)

In [22]:
for rate,data,filename in unknowns:
    current_spectrogram = get_spectrogram(data , rate)
    print('Item: ',filename)
    
    err_on_speech = get_error_base(current_spectrogram,base_speech)
    err_on_music = get_error_base(current_spectrogram,base_music)
    print('\tMetodo1:: ','MUSICA' if err_on_music<err_on_speech else'PARLATO')

    err_on_speech = np.linalg.norm(feature_mean_speech-get_feature_mean(current_spectrogram,base_speech))
    err_on_music = np.linalg.norm(feature_mean_music-get_feature_mean(current_spectrogram,base_music))
    print('\tMetodo2:: ','MUSICA' if err_on_music<err_on_speech else'PARLATO')
    
    err_on_speech = np.linalg.norm(feature_mean_speech_on_total-get_feature_mean(current_spectrogram,base_total))
    err_on_music = np.linalg.norm(feature_mean_music_on_total-get_feature_mean(current_spectrogram,base_total))
    print('\tMetodo3:: ','MUSICA' if err_on_music<err_on_speech else'PARLATO')

Item:  004_BobDylan-OxfordTown-10s-B.wav
	Metodo1::  PARLATO
	Metodo2::  MUSICA
	Metodo3::  MUSICA
Item:  007si1079.wav
	Metodo1::  PARLATO
	Metodo2::  PARLATO
	Metodo3::  PARLATO
Item:  007si1271.wav
	Metodo1::  PARLATO
	Metodo2::  PARLATO
	Metodo3::  PARLATO
Item:  010_CiboMatto-Moonchild-10s-A.wav
	Metodo1::  MUSICA
	Metodo2::  MUSICA
	Metodo3::  MUSICA
Item:  014si1291.wav
	Metodo1::  PARLATO
	Metodo2::  PARLATO
	Metodo3::  PARLATO
Item:  016si1621.wav
	Metodo1::  PARLATO
	Metodo2::  PARLATO
	Metodo3::  PARLATO
Item:  019_Nirvana-Downer-10s-B.wav
	Metodo1::  MUSICA
	Metodo2::  MUSICA
	Metodo3::  MUSICA
Item:  024_JimiHendrix-WaitUntilTomorrow-10s-A.wav
	Metodo1::  MUSICA
	Metodo2::  MUSICA
	Metodo3::  MUSICA
