## Machine Learning

Programming tradisional memerintahkan mesin untuk melakukan suatu hal secara eksplisit. 

![prog.png](attachment:prog.png)

Machine learning (pembelajaran mesin) adalah sebuah ilmu yang mempelajari tentang bagaimana membuat mesin (komputer) dapat melakukan sesuatu tanpa diberikan perintah yang eksplisit. Menggunakan model statistik dan algoritma tertentu, komputer diberikan kemampuan untuk mengenali pola. Pola inilah yang digunakan sebagai modal untuk komputer dapat melakukan sesuatu.

Untuk dapat mengenali pola, maka komputer perlu diberikan pengalaman. Sama seperti manusia yang belajar melalui pengalaman dan mengambil pola dari kejadian tertentu. Pengalaman untuk komputer diberikan dalam bentuk data. Dalam kasus pengenalan suara, maka data yang diberikan adalah data suara. 

![ml.png](attachment:ml.png)

## Feature Engineering

Data spektrum bisa digunakan sebagai bahan inputan untuk pengenalan suara, bahkan seorang ahli bisa melihat suara dari spektrum yang digambarkannya. Untuk pengenalan suara oleh mesin, ukurannya bisa dianggap terlalu besar. Fitur yang terlalu banyak justru bisa mengurangi performa dari classifiernya baik karena overfitting atau karena waktu training yang lama. Hal ini disebut sebagai *Curse of Dimensionality* pada machine learning.

![curseofdim.png](attachment:curseofdim.png)

Kita perlu menentukan input yang representatif agar model yang kita buat bisa memiliki akurasi yang tinggi. Dari input tersebut, dipilih bagian yang menentukan klasifikasi model kita. Misalnya dalam pengenalan gambar kucing, hal yang paling menentukan seekor kucing adalah telinga, kumis, dan ekornya. Ini adalah fitur dari kucing. Tujuan kita adalah membuat mesin dapat mengenali bentuk telinga, bentuk kumis, dan bentuk ekor agar akurasi pengenal kucing kita meningkat. Hal inilah yang disebut sebagai feature engineering.

## Mel Frequency Cepstral Coefficient

Salah satu fitur yang digunakan dalam pengenalan audio adalah Mel Frequency Cepstral Coefficient (MFCC). Spektogram yang dihasilkan pada proses sebelumnya digunakan sebagai pita yang mewakili frekuensi distribusi. Setiap frekuensi dikelompokkan, baik secara linier maupun non linier. Sama seperti pada gambar equalizer berikut.

![equalizer.png](attachment:equalizer.png)

MFCC didapatkan melalui beberapa tahapan. FFT (untuk mendapatkan fitur seperti yang dibahas sebelumnya), Mel Scale Filtering (untuk mendapatkan Mel Spectrum), Transformasi Cosine (untuk mendapatkan koefisien Cepstral), dan penentuan fiturnya.

![mfcc.png](attachment:mfcc.png)

Mel Scale Filtering dimodelkan mengikuti cara kerja telinga manusia (cochlear) yang membedakan dengan ketat pada frekuensi rendah, dan longgar pada frekuensi tinggi.

Satuan frekuensi (f) yang digunakan pada FFT adalah Hz (getaran per detik). Satuan tersebut dapat diubah ke dalam skala Mel (m) dengan formula berikut :
$$m = 2595\ \log_{10}\left(1 + \frac{f}{700}\right)$$
$$f = 700\left(10^{\frac{m}{2595}}\ -\ 1\right)$$

Skala mel adalah skala perseptual dari pitch yang didengar. Perbandingannya dibuat dengan menyetarakan perseptual pitch sebesar 1000 mel sebagai nada sebesar 1000 Hz. Kata Mel diambil dari kata Melodi yang mengindikasikan bahwa skala ini berdasarkan perbandingan pitch. Skala ini diaplikasikan ke filter bank sebagai berikut

![mfcc-fb.jpg](attachment:mfcc-fb.jpg)

Setiap filter pada filter bank berbentuk segitiga dan bernilai 0 sampai 1. Pusatnya memiliki amplitudo 1 dan berkurang secara linier hingga 0 di ujung filter dan beririsan dengan filter sebelahnya. Lebar tiap filter diperbesar bertahap untuk menangkap frekuensi yang berbeda. Filter ini dapat dimodelkan secara matematis sebagai 

$$H_m(k) =
  \begin{cases}
      \hfill 0                                      \hfill & k < f(m - 1) \\
      \\
      \hfill \dfrac{k - f(m - 1)}{f(m) - f(m - 1)}  \hfill & f(m - 1) \leq k < f(m) \\
      \\
      \hfill 1                                      \hfill & k = f(m) \\
      \\
      \hfill \dfrac{f(m + 1) - k}{f(m + 1) - f(m)}  \hfill & f(m) < k \leq f(m + 1) \\
      \\
      \hfill 0                                      \hfill & k > f(m - 1) \\
  \end{cases}$$
  
Untuk mempelajari implementasinya lebih lanjut, bisa mengacu ke http://haythamfayek.com/2016/04/21/speech-processing-for-machine-learning.html

## Training Model

Machine learning pada data suara dapat dimanfaatkan untuk berbagai hal :
- pengenalan suara (speech)
- pengenalan pembicara (speaker)
- pendeteksi penyakit
- dll

Tergantung dengan data apa yang kita masukkan sebagai input dan label apa yang kita berikan sebagai outputnya. 

In [None]:
#install library yang dibutuhkan (kalo belum diinstall atau tidak terdeteksi)
!pip install pandas
!pip install sklearn
!pip install tensorflow

In [None]:
#import library
#note : scipy tidak bisa membaca file wav 24 bit. konversikan data suara ke 16 bit dulu

import numpy as np
import scipy.io.wavfile as wav
from scipy.fftpack import dct
from matplotlib import pyplot as plt
import sys
import csv
import pandas as pd
from sklearn.model_selection import train_test_split
import tensorflow as tf

In [None]:
#credit from Tirtadwipa Manunggal (https://github.com/linerocks)
def STFT(x, N = 512, overlap = 0.5) :
    if overlap > 0.5 :
        overlap = 0.5
    elif overlap < 0.1 :
        overlap = 0.1
    
    # Calculating frames
    hop_size     = int( np.floor(N * (1 - overlap)) )
    total_frames = int( np.ceil(x.size / hop_size) )
    
    # Zero padding
    x = np.append( x, np.zeros((total_frames + 1) * hop_size - x.size) )
    
    # STFT container
    result = np.empty( (total_frames, int(N/2)), dtype=np.float32 )
    
    # Window
    H = 0.54 - 0.46 *  np.cos(np.arange(0, N) * 2 * np.pi / (N - 1))
        
    # Building
    for i in range(total_frames) :
        hop_index    = i * hop_size
        chunk        = x[hop_index : hop_index + N]
        frame        = np.multiply(chunk, H)
        spectrum     = np.abs(np.fft.fft(frame))
        result[i, :] = spectrum[0:int(N/2)]
    
    return result   

In [None]:
#Create Filterbank, credit https://haythamfayek.com/2016/04/21/speech-processing-for-machine-learning.html
def filterbank(NFFT = 512, nfilt = 40, fs = 16000) :
    low_freq_mel = 0
    high_freq_mel = (2595 * np.log10(1 + (fs / 2) / 700))  # Convert Hz to Mel
    mel_points = np.linspace(low_freq_mel, high_freq_mel, nfilt + 2)  # Equally spaced in Mel scale
    hz_points = (700 * (10**(mel_points / 2595) - 1))  # Convert Mel to Hz
    bin = np.floor((NFFT + 1) * hz_points / fs)
    
    fbank = np.zeros((nfilt, int(np.floor(NFFT / 2))))
    for m in range(1, nfilt + 1):
        f_m_minus = int(bin[m - 1])   # left
        f_m = int(bin[m])             # center
        f_m_plus = int(bin[m + 1])    # right

        for k in range(f_m_minus, f_m):
            fbank[m - 1, k] = (k - bin[m - 1]) / (bin[m] - bin[m - 1])
        for k in range(f_m, f_m_plus):
            fbank[m - 1, k] = (bin[m + 1] - k) / (bin[m + 1] - bin[m])
    return fbank.T

In [None]:
#buka file suara
#cek windows atau linux
if(sys.platform == 'linux' or 'darwin'):
    lokasi = 'data/contoh.wav'
elif(sys.platform == 'win32' or 'win64'):
    lokasi = 'data\\contoh.wav'

fs, y_wicara = wav.read(lokasi)

plt.plot(y_wicara)
plt.show()

#frame size
N = 512

In [None]:
#Spectrum STFT langsung
spectrum = np.log(STFT(y_wicara,N))
plt.imshow(spectrum.T, origin='lower', aspect='auto', extent=[0, spectrum.size / fs, 0, 8000])
plt.title('Spectrogram')
plt.colorbar()

In [None]:
# Filterbank Spectrogram
spectrogram = np.dot(STFT(y_wicara), filterbank(N, nfilt=33, fs = fs))
spectrogram = 20 * np.log10(spectrogram)
plt.imshow(spectrogram.T, origin='lower', aspect='auto', extent=[0, spectrogram.size, 0, 8000])
plt.title('Spectrogram')
plt.colorbar()

## Discrete Cosine Transform

Langkah selanjutnya adalah menerapkan Transformasi Cosinus (Discrete Cosine Transform / DCT). Membuang $n$ buah koefisien dan liftering koefisien matriksnya. Lifter yang umum digunakan adalah 

$$l_i = 1 + \frac{D}{2}\sin\left(\frac{\pi i}{D}\right) $$

In [None]:
# Lifter untuk ncoeff = 13 dan D = 24
ncoeff = 13
D = 24
lifter = 1 + (D/2) + np.sin(np.pi * np.arange(ncoeff) / D)
plt.plot(lifter)

In [None]:
#Menghitung nilai MFCC
def mfcc(x, N = 512, ncoeff = 13, D = 24, fs = 16000):
    spectrogram = np.dot(STFT(x), filterbank(N, fs = fs))
    spectrogram = 20 * np.log10(spectrogram)
    mfcc = dct(spectrogram, type = 2, axis = 1, norm = 'ortho')[:, 1 : (ncoeff + 1)]
    lifter = 1 + (D/2) + np.sin(np.pi * np.arange(ncoeff) / D)
    mfcc = np.multiply(mfcc, lifter)
    return mfcc

In [None]:
#Menerapkan MFCC ke data wicara
MFCC = mfcc(y_wicara)
print(MFCC.shape)
plt.imshow(MFCC.T, origin='lower', aspect='auto')

MFCC kadang dilengkapi dengan fungsi delta (perubahan nilai koefisien) dan fungsi double delta (perubahan dari nilai deltanya) agar fitur yang digambarkan lebih kuat.

Cara perhitungan fungsi delta ($\Delta$) dan double delta ($\Delta^{2}$) lebih lanjut dapat dilihat pada referensi berikut. ref : https://www.mathworks.com/help/audio/ref/mfcc.html

In [None]:
#Fungsi delta
delta = np.diff(MFCC, axis=0)
print(delta.shape)
plt.imshow(delta.T, origin='lower', aspect='auto')

In [None]:
#Fungsi double delta
double_delta = np.diff(delta, axis=0)
print(double_delta.shape)
plt.imshow(double_delta.T, origin='lower', aspect='auto')

In [None]:
# Distribusi MFCC
fs, suara_mhsA = wav.read('data/Audio/a_60291.wav')
ncoeff = 12
mhsA_mfcc = mfcc(suara_mhsA, ncoeff=ncoeff)
for i in range(ncoeff):
    plt.subplot(4,3,i + 1)
    plt.hist(mhsA_mfcc[:,i], bins=50)

In [None]:
# Distribusi MFCC mahasiswa B
fs, suara_mhsB = wav.read('data/Audio/a_60191.wav')
ncoeff = 12
mhsB_mfcc = mfcc(suara_mhsB, ncoeff=ncoeff)
for i in range(ncoeff):
    plt.subplot(4,3,i + 1)
    plt.hist(mhsB_mfcc[:,i], bins=50)

## Data Preparation

In [None]:
# Data preparation
ncoeff = 13
with open('data/Audio/metadata.csv') as meta:
    reader = csv.reader(meta)
    next(reader, None)
    with open('data/data.csv', 'w') as data:
        data.write('file,mu0,mu1,mu2,mu3,mu4,mu5,mu6,mu7,mu8,mu9,mu10,mu11,mu12,id,speaker\n')
        for item in reader:
            data.write(item[0]+",")
            _, s = wav.read("data/Audio/" + item[0])
            feat = mfcc(s, ncoeff=ncoeff)
            for i in range(ncoeff):
                data.write("%.2f" %np.mean(feat[:,i]))
                data.write(",")
            data.write("%s,%s\n" %(item[2],item[4]))

**Gunakan library pandas untuk membuat dataframes**

In [None]:
features = pd.read_csv('data/data.csv')
features

**Menormalkan data**

In [None]:
col = features.columns[1:-2]
features[col] = features[col].apply(lambda x : (x - x.min()) / (x.max() - x.min()))

**Melihat ada apa saja label di 'id'**

In [None]:
features['id'].unique()

**Mentransformasikan label ke binary/numerik**

In [None]:
def transform_id(label) :
    if label == 'o' :
        return 0
    else :
        return 1

def transform_speaker(label) :
    if label == '6036' :
        return 0
    else :
        return 1

## Identifikasi Huruf "O"
**Apply the transformation function**

In [None]:
features['id'] = features['id'].apply(transform_id)

**Group input features**

In [None]:
input_features = features.drop(['file', 'id', 'speaker'], axis=1).values

**Group labels**

In [None]:
output_features = [ [i, -(i-1)] for i in features['id'].values]

**Split training and testing data**

In [None]:
X, X_test, Y, Y_test = train_test_split(input_features, output_features, test_size=0.3, random_state=42)

**Build our basic MLP**

In [None]:
import tensorflow.compat.v1 as tf
tf.disable_v2_behavior() 

# Parameters
learning_rate = 0.001
training_epochs = 1000
batch_size = 4
display_step = 50

# Network Parameters
n_hidden_1 = 10 # 1st layer number of features
n_hidden_2 = 10 # 2nd layer number of features
n_input = 13 # Number of feature
n_classes = 2 # Number of classes to predict

# tf Graph input
x = tf.placeholder("float", [None, n_input])
y = tf.placeholder("float", [None, n_classes])

# Create model
def multilayer_perceptron(x, weights, biases):
    # Hidden layer with RELU activation
    layer_1 = tf.add(tf.matmul(x, weights['h1']), biases['b1'])
    layer_1 = tf.nn.relu(layer_1)
    # Hidden layer with RELU activation
    layer_2 = tf.add(tf.matmul(layer_1, weights['h2']), biases['b2'])
    layer_2 = tf.nn.relu(layer_2)
    # Output layer with linear activation
    out_layer = tf.matmul(layer_2, weights['out']) + biases['out']
    return out_layer

# Store layers weight & bias
weights = {
    'h1': tf.Variable(tf.random_normal([n_input, n_hidden_1])),
    'h2': tf.Variable(tf.random_normal([n_hidden_1, n_hidden_2])),
    'out': tf.Variable(tf.random_normal([n_hidden_2, n_classes]))
}

biases = {
    'b1': tf.Variable(tf.random_normal([n_hidden_1])),
    'b2': tf.Variable(tf.random_normal([n_hidden_2])),
    'out': tf.Variable(tf.random_normal([n_classes]))
}

# Construct model
pred = multilayer_perceptron(x, weights, biases)

# Define loss and optimizer
cost = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(logits=pred, labels=y))
optimizer = tf.train.AdamOptimizer(learning_rate=learning_rate).minimize(cost)

# Initializing the variables
init = tf.global_variables_initializer()

**Train the model**

In [None]:
# Launch the graph

sess = tf.Session()

sess.run(init)
# Training cycle
for epoch in range(training_epochs):
    avg_cost = 0.
    total_batch = int(len(X)/batch_size)
    X_batches = np.array_split(X, total_batch)
    Y_batches = np.array_split(Y, total_batch)
    # Loop over all batches
    for i in range(total_batch):
        batch_x, batch_y = X_batches[i], Y_batches[i]
        # Run optimization op (backprop) and cost op (to get loss value)
        _, c = sess.run([optimizer, cost], feed_dict={x: batch_x,
                                                      y: batch_y})
        # Compute average loss
        avg_cost += c / total_batch
    # Display logs per epoch step
    if epoch % display_step == 0:
        print("Epoch:", '%04d' % (epoch+1), "cost=", "{:.9f}".format(avg_cost))
print("Optimization Finished!")

# Test model
correct_prediction = tf.equal(tf.argmax(pred, 1), tf.argmax(y, 1))
# Calculate accuracy
accuracy = tf.reduce_mean(tf.cast(correct_prediction, "float"))
print("Accuracy:", accuracy.eval({x: X_test, y: Y_test},sess))
global result 
result = tf.argmax(pred, 1).eval({x: X_test, y: Y_test},sess)

In [None]:
#Close session
sess.close()