**Inclass: Convolutional Neural Network**

<img src="assets/logo.png" width="150">
<br>

___

In [None]:
import random
import json
import numpy as np
import pandas as pd
import librosa, librosa.display
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.model_selection import train_test_split
import tensorflow as tf
import tensorflow.keras as keras

# Convolutional Neural Network

Convolutional Neural Network (CNN) saat ini merupakan arsitektur yang umum digunakan untuk menangani **data gambar**. Tetapi seperti yang telah disampaikan sebelumnya, bentuk data yang kita miliki pada hasil pemrosesan data audio mirip dengan bentuk data gambar. Tentunya hal ini membuat metode CNN menjadi relevan untuk digunakan.

## Convolution Concepts

Pada modul sebelumnya, kita telah belajar untuk mengklasifikasikan citra tangan-digit ke dalam kelas-kelasnya. Tapi ada masalah:

* Menggunakan dense layer, jumlah parameter yang akan dilatih sangat banyak.
* Terlalu banyak piksel yang tidak relevan digunakan sebagai input

Bagaimana jika kita dapat mengekstrak nilai yang relevan saja dan menghapus semua piksel yang tidak relevan? Dengan begitu jaringan kita akan memiliki fitur yang jauh lebih ringan namun dengan informasi yang relatif sama (atau bahkan lebih baik). Ini adalah saat konvolusi mengambil bagian. Silakan lihat arsitektur jaringan saraf convolutional di bawah ini:

![](https://drive.google.com/uc?export=view&id=1B753UW04KdjePCDbTdGr3JeVu01Cmbs4)

Berdasarkan ilustrasi, ada empat lapisan yang berbeda:

1. **Convolutional layer** untuk mengekstrak fitur penting dari data sebelum dimasukkan ke dalam dense layer. Data yang berbelit-belit mungkin berukuran **lebih kecil** tetapi **lebih kaya** informasi, sehingga menghasilkan pekerjaan yang lebih efektif untuk dense layer.

2. **Pooling layer** mengurangi ukuran gambar, hanya mempertahankan piksel yang relevan

3. **Flattening layer** mengonversi data gambar dua dimensi menjadi satu dimensi

4. **Fully-connected (dense) layer**, jaringan saraf dasar untuk klasifikasi

### 1. Convolutional Layer

- Sebuah konvolusi akan **mengekstraksi informasi yang penting** dari data menggunakan **filter**. Filter ini berfungsi seperti filter apa pun di dunia nyata, ia memiliki penggunaan khusus dan memiliki kepekaan terhadap cara yang sangat spesifik. 

- Misalnya, pikirkan filter UV untuk lensa kamera. Ini akan memblokir sinar UV untuk mengurangi warna biru yang berlebihan dari langit. Semakin banyak sinar UV di lapangan, semakin aktif filter ini untuk memberi tahu Anda bahwa ada lampu UV.
![](assets/convolution.gif)

- Secara matematis, proses feedforward dari jaringan saraf convolutional disebut **"cross correlation"**. Istilah konvolusi berasal dari fungsi turunannya ketika jaringan melakukan backpropagation. Di bawah ini adalah ilustrasi dan rumus matematika tentang bagaimana jaringan melakukan feedforward
$$ F \circ I (x,y) = \sum_{j=-N}^{N} \sum_{i=-N}^{N} F(i,j) \times I(x+i, y+j)$$

![convolutional](assets/conv-hackernoon.gif)

Penjelasan tentang Image Filtering bisa dilihat di [Google Slides](https://docs.google.com/presentation/d/10UidolXUlmxBesQVaQOEtrunddf7CwnG80wawiZtcxo/edit#slide=id.g115c109ac13_0_47)

In [None]:
# Create a single layer of convolution

my_conv_layer = keras.layers.Conv2D(
    input_shape=(___,___,___), # (height, width, deep) the deep is 1
    filters=___, # jumlah filter/kernel yang digunakan
    kernel_size=___, # ukuran dari filter
    strides=___, # steps of convolution
    padding='___', # DENGAN padding, jadi ukuran output SAMA dengan ukuran input
    activation='___', # activation function
)

Parameters ([Documentation of `Conv2D`](https://keras.io/api/layers/convolution_layers/convolution2d/)):

- `input_shape`: 
    + ukuran gambar input dalam format `(height, width, channel)`
- `filters`: 
    + berapa jumlah filter yang akan digunakan untuk menggulung (*convolve*) gambar
    + Semakin banyak filter, semakin besar kemungkinan untuk mempelajari fitur yang lebih spesifik
    + Jumlah ini setara dengan jumlah neuron dalam lapisan padat (`unit`)
- `kernel_size`: 
    + ukuran untuk setiap filter
    + Ukuran yang lebih besar akan menangkap lebih banyak informasi dan kemungkinan besar menggeneralisasi lebih baik daripada yang lebih kecil. 
    + Tetapi penelitian menunjukkan bahwa **ukuran kernel 3 dan 5** sangat kuat dalam hal kompleksitas algoritme. Tidak ada standar yang ketat dalam menentukan ukuran kernel.
    + Praktik terbaik adalah **menggunakan nilai ganjil kecil**. 
- `strides`: 
    + Besar langkah dalam memindahkan filter selama proses konvolusi
    + Langkah yang besar akan membuat langkah lebih besar dan membuat filter berpotensi melewatkan beberapa piksel yang berarti.
- `padding`:
    + ditambahkan jika kita ingin ukuran output sama dengan input dengan melakukan beberapa padding sesuai dengan ukuran filter.
        - `'valid'`: tanpa padding atau ukuran output tidak sama dengan input
        - `'same'`: menggunakan zero-padding pada batas gambar
- `activation`: fungsi aktivasi yang akan digunakan setelah input digabungkan
    
Di bawah ini adalah ilustrasi untuk `padding='same'` pada input 6x6:

![padding](assets/zero-padding.png)

Mari kita coba lihat kalau diaplikasikan ke data audio kita.

In [None]:
# Load the data
file_path = "data_input/genres_train/blues/blues.00050.wav"
signal, sample_rate = librosa.load(file_path)

# Make it as MFCC feature
MFCCs = librosa.feature.mfcc(signal, sample_rate, n_fft=2048, hop_length=512, n_mfcc=13)

Coba visualisasikan menggunakan `librosa.display.specshow()`

In [None]:
# Visualize it
plt.figure(figsize=(14,6))
librosa.display.specshow(MFCCs, sr=sample_rate, hop_length=512, x_axis = 'time')

Coba visualisasikan menggunakan `heatmap()` dari seaborn

In [None]:
# Visualize it with seaborn
sns.heatmap(MFCCs)

Agar bisa dimasukkan ke convolutional layer, kita akan ubah bentuknya/dimensinya dan dijadikan tipe fload
Mari kita ambil gambar pertama, bentuk ulang, dan ubah menjadi float.

Pastikan bentuk input dalam konvensi berikut:
`(1, HEIGHT, WIDTH, 1)`

Kedua nilai 1 di atas diperlukan sebagai bentuk yang diterima oleh `Conv2D`

In [None]:
# reshape dimension
input_mfcc = MFCCs.reshape(1, MFCCs.shape[0], MFCCs.shape[1], 1).astype('float')

# apply convolutional layer
output_conv = my_conv_layer(input_mfcc)
output_conv.shape

In [None]:
# check the result of convolutional output
first_filter_output = output_conv[0, :, :, 31]
sns.heatmap(first_filter_output, cmap='gray')

### 2. Pooling Layer

Ide dari pooling adalah untuk **meringkas dan menyederhanakan** fitur yang convolved dengan melakukan agregasi pada fitur yang convolved. Ingat bahwa kami ingin dense layer diberi dengan fitur kecil namun bermakna. 

Di bawah ini adalah contoh dari Max Pooling di mana fitur berbelit-belit diringkas menjadi data 2x2.

![](assets/maxpool_animation.gif)

In [None]:
# Create a single layer of pooling

my_pool_layer = keras.layers.MaxPooling2D(
    pool_size=(___, ___), # size of pooling
    strides=___, # steps of pooling
    padding='___' # WITHOUT padding
)

Parameters ([Documentation of `MaxPooling2D`](https://keras.io/api/layers/pooling_layers/max_pooling2d/):

- `pool_size` ekuivalen dengan `kernel_size` pada `Conv2D` yang akan menentukan seberapa besar kolam Anda
- `strides` dan `padding` sama seperti pada `Conv2D`

> Selain MaxPooling, ada beberapa fungsi bawaan untuk membantu Anda mengurangi fitur tersebut. Mengunjungi [Documentation on Pooling Layers](https://keras.io/api/layers/pooling_layers/)

#### 🔎 Knowledge Check: Pooling Output

Untuk melihat cara kerja pooling layer, kita dapat memasukkan input acak ke dalamnya. Gunakan bentuk array dari `output_conv`.

In [None]:
output_conv.shape

In [None]:
# input for pooling layer (generate random values)
input_pooling = tf.random.normal([1, 7, 647, 32]) # try to change the shape here
print("INPUT POOLING SHAPE:", input_pooling.shape)

# output for pooling layer
output_pooling = my_pool_layer(input_pooling)
print("OUTPUT POOLING SHAPE:", output_pooling.shape)

❓Cobalah bereksperimen pada nilai-nilai berikut dengan membuat beberapa perubahan padanya.

1. Jika kita mengubah bentuk variabel `input_pooling`, maka ___

2. Jika parameter `pool_size` diperbesar, maka ___

3. Jika parameter `strides` dinaikkan, maka ___

## Implement CNN in Keras

### Load Audio Data

In [None]:
def load_data(data_path):
    """Loads training dataset from json file.
        :param data_path (str): Path to json file containing data
        :return X (ndarray): Inputs
        :return y (ndarray): Targets
    """

    with open(data_path, "r") as fp:
        data = json.load(fp)

    # convert lists to numpy arrays
    X = np.array(data["mfcc"])
    y = np.array(data["labels"])

    print("Data succesfully loaded!")

    return  X, y

In [None]:
# load data
X, y = load_data("data.json")

# create train/test split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# Check type and shape
print('data type \t: ', type(X_train), type(y_train))
print('training size \t: ', X_train.shape, y_train.shape)
print('Test size \t: ', X_test.shape, y_test.shape)


### Creating Model Architecture

Tidak seperti data gambar, pada pengolahan data suara tidak terdapat augmentasi dan preprocessing karena nilai yang dipakai adalah nilai koefisien MFCC. Proses yang dilakukan setelah pemisahan data tentu membuat arsitektur CNN.

In [None]:
random.seed(722)
np.random.seed(722)
tf.random.set_seed(722)

# model initiation
model_cnn_genres = keras.Sequential()

# input layer
model_cnn_genres.add(keras.layers.InputLayer(input_shape=(___, ___, ___)))

# 1st conv layer
model_cnn_genres.add(keras.layers.Conv2D(filters=___, kernel_size=(___, ___), activation='___'))
model_cnn_genres.add(keras.layers.MaxPooling2D(pool_size=(___, ___), strides=___, padding='___'))

# 2nd conv layer
model_cnn_genres.add(keras.layers.Conv2D(filters=___, kernel_size=(___, ___), activation='___'))
model_cnn_genres.add(keras.layers.MaxPooling2D(pool_size=(___, ___), strides=___, padding='___'))

# flatten output and feed it into dense layer
model_cnn_genres.add(keras.layers.Flatten())
model_cnn_genres.add(keras.layers.Dense(units=___, activation='___'))
model_cnn_genres.add(keras.layers.Dropout(___))

# output layer
model_cnn_genres.add(keras.layers.Dense(units=___, activation='___'))

# compile model
optim = keras.optimizers.Adam(learning_rate=0.0001)
model_cnn_genres.compile(optimizer=___,
                        loss='___',
                        metrics=['___'])

model_cnn_genres.summary()

### Training Model

Setelah arsitektur CNN berhasil dibentuk, kita masuk ke proses training.

In [None]:
# train model
model_history = model_cnn_genres.fit(X_train, y_train, 
                    validation_data=(X_test, y_test), 
                    batch_size=32, 
                    epochs=10,
                    verbose = 1)

### Model Evaluation

Kita akan menggunakan data yang sama dengan data evaluasi model NN.

In [None]:
# path to json file that stores MFCCs and genre labels for each processed segment
# data_predict_path = "data_input/data_test.json"
data_predict_path = "data_test.json"

# load data
X_pred, y_pred = load_data(data_predict_path)

model_cnn_genres.evaluate(X_pred, y_pred, batch_size=32)

Kita juga akan membandingkan dengan perhitungan akurasi manual.

In [None]:
# melakukan prediksi dari data di X_pred lalu mengambil nilai dengan peluang paling tinggi
prediction = model_cnn_genres.predict(X_pred, batch_size=32, verbose=1)
prediction = prediction.argmax(axis=1)

# membuat dataframe untuk menyimpan data hasil prediksi dan data asli
compare = pd.DataFrame({'prediction': prediction, 
                        'observation': y_pred})

# membandingkan nilai dari kedua kolom
compare['comparison'] = np.where(compare['prediction'] == compare['observation'], True, False)

# mengeluarkan perhitungan akurasi dengan menghitung nilai True dari seluruh data
manual_accuracy = compare['comparison'].value_counts()[1]/len(prediction)
print("manual accuracy calculation: ", manual_accuracy)

Dan yang terakhir dengan bentuk yang sudah tidak disegmentasi

In [None]:
from collections import Counter

def take_mode(result, num_segments=10):
    """Function to take mode value from num_segments of data
        
    --Arguments--
        result: 
            Result from model prediction
        num_segments:
            The segments that we defined when we save and convert data with mfcc
    """
    new_result = []
    i = 0
    
    for i in range(int((len(result)+1)/num_segments)):
        new_result.append(Counter(result[(i*num_segments):((i+1)*num_segments)].tolist()).most_common()[0][0])
        i += 1
        
    return new_result

In [None]:
new_y = take_mode(y_pred)
new_pred = take_mode(prediction)

compare = pd.DataFrame({'prediction': new_pred, 
                        'observation': new_y})

compare['comparison'] = np.where(compare['prediction'] == compare['observation'], True, False)

manual_accuracy = compare['comparison'].value_counts()[1]/len(new_pred)
manual_accuracy

### Save Model

In [None]:
# model_cnn_genres.save('model/cnn_model.h5')

## Dive Deeper

Cobalah buat model dengan arsitektur Convolutional Neural Network yang berbeda, lalu coba juga melakukan hyperparameter tuning pada model yang dibuat. Apakah didapatkan hasil yang lebih baik?