# Soft Computing

## Vežba 6 - Klasifikacija zvuka

### Zvuk

Zvuk je mehanički talas frekvencija od 16Hz do 20kHZ, tj. u rasponu u kojem ga čuje ljudsko uvo. Zvuk frekvencije:
* niže od 16Hz - infrazvuk
* više od 20kHz - ultrazvuk
* više od 1GHz - hiperzvuk.

Zvuk nastaje više ili manje periodičnim oscilovanjem izvora zvuka koji u neposrednoj okolini menja pritisak medijuma, poremećaj pritiska prenosi se na susedne čestice medijuma i tako se širi u obliku:
* uglavnom longitudinalnih talasa u gasovima i tečnostima i
* longitudinalnih i transferzalnih talasa u čvrstim telima. 

Talasi su vibracije koje prenose energiju sa mesta na mesto bez prenošenja materije.

![Zvučni talasi](images/waves.jpeg)

Zvuk su kompresije i razređivanja u vazduhu koje će uvo pokupiti. Zvuk je kretanje vazduha. Često se izražava talasnim oblikom koji pokazuje šta se dešava sa česticama vazduha koje se tokom vremena kreću napred-nazad. Vertikalna osa pokazuje kako se vazduh kreće unazad ili unapred u odnosu na nultu poziciju. Horizontalna osa pokazuje vreme.

### Uzorkovanje

U obradi signala, uzorkovanje je redukcija kontinualnog signala u niz diskrenih vrednosti. Frekvencija ili brzina uzorkovanja je broj uzoraka uzetih tokom određenog vremenskog perioda. Visoka frekvencija uzorkovanja rezultira sa manjim gubitkom informacija, ali većim troškovima izračunavanja. Niske frekvencije uzorkovanja imaju veći gubitak informacija, ali su brze i jeftine za izračunavanje.

![Uzorkovanje](images/sampling.png)

Frekvencija ili brzina uzorkovanja (eng. *sampling rate*) i bitna dubina (eng. *bit depth*) su dva najvažnija elementa kod diskretizacije zvučnog signala. Frekvencija uzorkovanja određuje koliko često će uzimati uzorke, a bitna dubina određuje kako detaljno će uzimati uzorke, kao što je prikazano na slici ispod:

![Uzorkovanje](images/sampling2.jpeg)

Obično, CD ima 44.1kHz frekvenciju uzorkovanja sa 16-bitnom dubinom. To znači da se uzorci uzimaju 44100 puta u sekundi i da bilo koji uzorak može uzeti vrednosti iz raspona 65536 vrednosti, što će odgovarati njegovoj amplitudi.

Pored frekvencije uzorkovanja i bitne dubine, još se najčešće spominje i broj kanala (eng. *channels*). Najčešće vrednosti za broj kanala su 1 (mono) i 2 (stereo). 


### Amplituda

Amplituda zvučnog talasa je mera njegove promene tokom određenog perioda. Druga uobičajena definicija amplitude je funkcija veličine razlike između ekstremnih vrednosti varijable. 


### Furijeova transformacija

Furijeova transformacija razlaže funkciju vremena (signal) u frekvencije koje ga čine.

![Furijeova transformacija](images/fourier.png)

Na isti način kao što se muzički akord može predstaviti glasnoćom i frekvencijama njegovih sastavnih nota, Furijeova transformacija funkcije prikazuje amplitudu svake frekvencije prisutne u osnovnoj funkciji (signalu).

![Furijeova transformacija signala](images/fourier1.png)


### Periodogram

U obradi signala, periodogram je procena spektralne gustine signala.

![Periodogram](images/periodogram.png)

Periodogram iznad pokazuje spektar snage dve sinusoidne funkcije od ~ 30Hz i ~ 50Hz. Izlaz Furijeove transformacije se može zamisliti kao periodogram.

### Spektralna gustina

Spektar jačine (eng. *power spectrum*) talasnog oblika je način za opisivanje distribucije snage u diskrentim frekvencijskim komponentama koje čine taj signal. Statistički prosek signala, meren njegovim frekvencijskim sadržajem, naziva se njegovim spektrom. Spektralna gustina (eng. *spectral density*) digitalnog signala opisuje frekvencijski sadržaj signala.

![Spectral density](images/spectral.png)

### Mel-skala

Mel-skala (eng. *Mel-scale*) je skala visine tonova za koje slušaoci procenjuju da su jednaki u udaljenosti jedan od drugog. Referentna tačka između mel-skale i normalnog merenja frekvencije je proizvoljno definisana dodeljivanjem perceptivnog tona od 1000 mela na 1000Hz. 

![Mel-scale](images/mel.png)

Formula za konverziju f Hz u m melova je:

![Mel-scale formula](images/mels.png)


### Cepstrum

Cepstrum je rezultat uzimanja Furijeove transformacije logartima procenjenog spektra snage signala.

### Zadatak - Klasifikacija urbanih zvukova

Kreiranje modela mašinskog učenja za klasifikaciju, opis ili generisanje zvuka obično se odnosi na modelovanje gde su ulazni podaci zvučni uzorci.

Dat je deo [UrbanSound8K](https://urbansounddataset.weebly.com/urbansound8k.html) skupa podataka koji sadrži označene zvučne uzorke (dužine <= 4 sekunde) urbanih zvukova iz 10 klasa:
* klima uređaj (*air conditioner*)
* auto sirena (*car horn*)
* dečija igra (*children playing*)
* lavež pasa (*dog bark*)
* bušenje (*drilling*)
* motor u praznom hodu (*engine idling*)
* pucanj (*gun shot*)
* sirena (*siren*)
* ulična muzika (*street music*)
* pneumatska bušilica (*jackhammer*, ili na [francuskom](https://www.youtube.com/watch?v=JqnPlH7Aol4)).

Primer za svaku klasu je dat u **samples/** folderu.

Skup podataka se nalazi u **data/** folderu tako da se:
* zvučni fajlovi nalaze u **data/audio/** folderu
* metapodaci nalaze u **data/metadata.csv** (opis svih kolona iz metapodataka dat je na gorenavedenom linku).

Potrebno je kreirati klasifikator koji će klasifikovati zvučne odlomke u odgovarajuću klasu sa što većom tačnošću.

### LibROSA

Za rad sa zvukom ćemo koristiti Python-ov paket za zvučnu i muzičku analizu - **LibROSA**:
* [Dokumentacija](https://librosa.org/doc/0.8.1/index.html)
* [Tutorial](https://librosa.org/doc/0.8.1/tutorial.html)
* [Naučni rad](http://conference.scipy.org/proceedings/scipy2015/pdfs/brian_mcfee.pdf)

In [None]:
import numpy as np
import pandas as pd

import IPython.display as ipd

import librosa
import librosa.display

import matplotlib.pyplot as plt
%matplotlib inline

##### Metapodaci

In [None]:
df = pd.read_csv("data/metadata.csv")

Prikaz zaglavlja i prvih 5 redova metapodataka:

In [None]:
df.head()

Ukupan broj redova u skupu podataka, informacije o kolonama (tip podataka, da li sadrži nedostajuće vrednosti) i ukupna zauzetost RAM memorije od strane metapodataka: 

In [None]:
df.info()

Distribucija klasa u skupu podataka može se utvrditi brojanjem pojavljivanja svake klase u **class** koloni:

In [None]:
df["class"].value_counts()

##### Primeri za svaku klasu

Zvučni uzorci se obično predstavljaju kao vremenske serije (eng. *time series*), gde y-osa predstavlja amplitudu talasnog oblika. Amplituda se obično meri kao funkcija promene pritiska oko mikrofona ili prijemnog uređaja koji je prvobitno pokupio zvuk.

Ako nema metapodataka povezanih sa zvučnim uzorcima, ovi signali vremenske serije (eng. *time series signals*) su često jedini ulazni podaci za treniranje modela.

Slede primeri svake klase iz našeg skupa podataka. Primer su propraćeni brzinom uzorkovanja, opsegom amplitude i grafičkim prikazom vremenske serije signala.

In [None]:
def display_sample(file_path):
    plt.figure(figsize=(12, 4))
    data, sample_rate = librosa.load(file_path)
    print("Sample rate: ", sample_rate)
    print("min-max range: ", np.min(data), 'to', np.max(data))
    _ = librosa.display.waveshow(data, sr=sample_rate, color="blue")

In [None]:
ipd.Audio("samples/air_con.wav")

In [None]:
display_sample("samples/air_con.wav")

In [None]:
ipd.Audio("samples/car_horn.wav")

In [None]:
display_sample("samples/car_horn.wav")

In [None]:
ipd.Audio("samples/child_play.wav")

In [None]:
display_sample("samples/child_play.wav")

In [None]:
ipd.Audio("samples/dog_bark.wav")

In [None]:
display_sample("samples/dog_bark.wav")

In [None]:
ipd.Audio("samples/drilling.wav")

In [None]:
display_sample("samples/drilling.wav")

In [None]:
ipd.Audio("samples/eng_idle.wav")

In [None]:
display_sample("samples/eng_idle.wav")

In [None]:
ipd.Audio("samples/gun.wav")

In [None]:
display_sample("samples/gun.wav")

In [None]:
ipd.Audio("samples/jackhammer.wav")

In [None]:
display_sample("samples/jackhammer.wav")

In [None]:
ipd.Audio("samples/siren.wav")

In [None]:
display_sample("samples/siren.wav")

In [None]:
ipd.Audio("samples/street_music.wav")

In [None]:
display_sample("samples/street_music.wav")

Pregledom primera iznad, jasno je da sam talasni oblik ne mora nužno da daje jasne podatke o identifikaciji klase. Talasni oblici za motor u praznom hodu, sirenu i pneumatsku bušilicu izgledaju prilično slično.

#### Izdvajanje osobina

Jedna od najboljih tehnika za izdvajanje osobina iz talasnih oblika (i signala uopšte) jeste tehnika iz 1980-te godine - **Mel Frequency Cepstral Coefficients** *(MFCCs)*, koju su osmislili [*Davis* i *Mermelstein*](https://courses.engr.illinois.edu/ece417/fa2017/davis80.pdf). 

Koraci kod MFCCs su:
1. Furijeova transformacija signala
2. Mapiranje snage spektra dobijenog u koraku 1 na Mel-skalu
3. Logaritmovanje snage svake frekvencije na Mel-skali
4. Diskretna kosinusna transformacija liste iz koraka 3, kao da je signal
5. MFCCs su amplitude rezultujućeg spektra.

In [None]:
librosa_audio, librosa_sample_rate = librosa.load("samples/air_con.wav")

In [None]:
mfccs = librosa.feature.mfcc(y=librosa_audio, sr=librosa_sample_rate, n_mfcc=40)
print(mfccs.shape)
print(mfccs)

Vizuelizovaćemo dobijeni rezultat putem spektograma (eng. *spectogram*). Spektogram je vizuelni prikaz spektra frekvencija signala koji varira sa vremenom. Dobar način ilustrovanja spektograma jeste posmatrati ga kao složen prikaz periodograma preko nekog vremenskog intervala digitalnog signala. 

In [None]:
librosa.display.specshow(mfccs, sr=librosa_sample_rate, x_axis="time")

In [None]:
def extract_features(file_name):
    try:
        audio, sample_rate = librosa.load(file_name)
        mfccs = librosa.feature.mfcc(y=audio, sr=sample_rate, n_mfcc=40)
        mfccscaled = np.mean(mfccs.T, axis=0)
    
    except Exception as e:
        print("Error encountered while parsing file: ", file_name)
        return None
    
    return list(mfccscaled)

In [None]:
folder_path = "data/audio/"
features = []

for index, row in df.iterrows():
    file_name = folder_path + row["slice_file_name"]
    
    class_label = row["class"]
    data = extract_features(file_name)
    features.append([file_name, data, class_label])

In [None]:
features_df = pd.DataFrame(features, columns=["file", "feature", "class_label"])

In [None]:
features_df.head()

##### Klasifikacija

Prvi korak jeste da imena klasa konvertujemo u numeričke vrednosti. Za konverziju ćemo koristiti [Label Encoder](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html#sklearn.preprocessing.LabelEncoder). 

Nako konverzije, vršimo podelu skupa podataka na trening i validacioni.

In [None]:
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split

In [None]:
X = np.array(features_df.feature.tolist())
y = np.array(features_df.class_label.tolist())

le = LabelEncoder()
yy = le.fit_transform(y)

In [None]:
x_train, x_test, y_train, y_test = train_test_split(X, yy, test_size=0.2, shuffle=True, random_state=42)

#### SVM

Kao prvi klasifikator, koristićemo SVM sa linearnim kernelom.

In [None]:
from sklearn.svm import SVC
from sklearn import metrics

In [None]:
model = SVC(kernel="linear")
model.fit(x_train, y_train)

In [None]:
y_pred_train = model.predict(x_train)
print("Train Accuracy:", metrics.accuracy_score(y_train, y_pred_train))

y_pred_test = model.predict(x_test)
print("Test Accuracy:", metrics.accuracy_score(y_test, y_pred_test))

Bolju interpretaciju rezultata na testnom skupu možemo dobiti generisanjem [Classification report-a](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.classification_report.html#sklearn.metrics.classification_report). 

In [None]:
print(metrics.classification_report(y_test, y_pred_test))

Ukoliko želimo da vidimo stvarni naziv svake klase, potrebno je da prosledimo i mapiranja koja je generisao Label Encoder.

In [None]:
print(metrics.classification_report(y_test, y_pred_test, target_names=le.classes_))

##### Neuronska mreža

Kao drugi klasifikator, koristićemo *feed-forward* neuronsku mrežu.

In [None]:
from tensorflow import keras

from keras.models import Sequential
from keras.layers import Dense, Dropout, Activation, Flatten

from tensorflow.keras.utils import to_categorical
from tensorflow.keras.optimizers import Adam

Prvi korak koji moramo da uradimo jeste konverzija labela (izlaza) u format pogodan za neuronsku mrežu (tj. klasa 1 će se konvertovati u [0, 1, 0, 0, 0, 0, 0, 0, 0, 0] itd.).

In [None]:
num_classes = 10
y_train = to_categorical(y_train, num_classes=num_classes)
y_test = to_categorical(y_test, num_classes=num_classes)

In [None]:
model = Sequential()

model.add(Dense(256, input_shape=(40, )))
model.add(Activation('relu'))
model.add(Dropout(0.5))

model.add(Dense(256))
model.add(Activation('relu'))
model.add(Dropout(0.5))

model.add(Dense(num_classes))
model.add(Activation('softmax'))

In [None]:
model.compile(loss='categorical_crossentropy', metrics=['accuracy'], optimizer='adam')

Vizuelizacija našeg modela sa brojem parametara koje je potrebno "istrenirati".

In [None]:
model.summary()

Kao pomoć prilikom treniranja možemo koristiti neki od [callback-ova iz Keras biblioteke](https://keras.io/callbacks/). U ovom slučaju, koristićemo **ModelCheckpoint** koji čuva model nakon svake epohe. Mi ćemo ga modifikovati tako da čuva samo poslednji najbolji model.

In [None]:
from keras.callbacks import ModelCheckpoint
from datetime import datetime

num_epochs = 100
batch_size = 32

checkpointer = ModelCheckpoint(filepath="models/best_weights.hdf5", verbose=1, save_best_only=True)

start = datetime.now()
model.fit(x_train, y_train, batch_size=batch_size, epochs=num_epochs, validation_data=(x_test, y_test), 
          callbacks=[checkpointer], verbose=1)

duration = datetime.now() - start
print("Training completed in: ", duration)

In [None]:
train_score = model.evaluate(x_train, y_train, verbose=1)
print("Training Accuracy: ", train_score[1])

In [None]:
test_score = model.evaluate(x_test, y_test, verbose=1)
print("Test Accuracy: ", test_score[1])

Model neuronske mreže je ostvario manju trening tačnost, ali je ostvario veću tačnost na testnom skupu podataka od SVM modela. Možemo zaključiti da je model neuronske mreže bolje "naučio" da generalizuje na novim (nevidljivim) podacima.