<a href="https://colab.research.google.com/github/badrus123/compression-dl/blob/master/1_JST___MLP.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

![alt text](https://anvaqta.id/headerai.jpg)

# Bagian Baru

---
# Neural Network

Neural Network is almost always ilustrated as having the same computational work as in Human Brain, especially considering its main component: ***Neuron***.

---
## a. Neuron
Neuron Human  |  Neural Network Neuron
-- | --
![neuron](http://cs231n.github.io/assets/nn1/neuron.png) | ![neuron](http://cs231n.github.io/assets/nn1/neuron_model.jpeg)

Based on that concept and analogy, we can implement **forward pass function** of a neuron in `Python` as follow:
```python
def forward(self, inputs):
    """ assume inputs and weights are 1-D numpy arrays and bias is a number """
    cell_body_sum = np.sum(inputs * self.weights) + self.bias   # affine function
    firing_rate = 1.0 / (1.0 + math.exp(-cell_body_sum))        # sigmoid activation function
    return firing_rate
```

The basic computation inside a neuron is a weighted sum of its input. Neural Network then learn by modifying the weights in each neuron to minimize the output error.

To simplify the computation, all neurons are grouped in stacks called **layers**. Thus, all weights of neurons in a layer can be formed as a matrix.

---
## b. Single Layer Perceptron
Seperti yang sudah kalian pelajari, di dalam Jaringan Saraf Tiruan, pengetahuan yang dipelajari disimpan dalam bobot masing-masing neuron. Untuk mempermudah perhitungan, neuron dikumpulkan ke dalam kelompok-kelompok yang disebut layer sehingga bobot-bobot neuron dalam satu layer dapat dibentuk sebagai sebuah matrik.

Sebagai contoh, misalkan kita hanya menggunakan satu layer saja, atau yang biasa disebut sebagai ***Single-Layer Perceptron***, maka jaringan akan terlihat seperti ilustrasi di bawah.

![onelayer](https://image.ibb.co/fjR3oz/onelayer.png) 


Dari ilustrasi dapat dilihat bahwa Jaringan Saraf Tiruan dengan hanya satu layer tidak lain adalah fungsi regresi linier. 

Sudah kalian ketahui juga bahwa JST satu layer dengan pelatihan *gradient descent* yang terjadi adalah
* melakukan proses maju yang mengalikan input dengan bobot,
* kemudian melakukan proses mundur untuk mendapatkan gradien input dan gradien bobot

Jika kita tuliskan secara singkat, kode Single Layer Perceptron dalam bahasa python, kita hanya membutuhkan beberapa baris (menggunakan tensorflow)


In [0]:
!pip install tensorflow-gpu==2.0.0

Collecting tensorflow-gpu==2.0.0
[?25l  Downloading https://files.pythonhosted.org/packages/25/44/47f0722aea081697143fbcf5d2aa60d1aee4aaacb5869aee2b568974777b/tensorflow_gpu-2.0.0-cp36-cp36m-manylinux2010_x86_64.whl (380.8MB)
[K     |████████████████████████████████| 380.8MB 46kB/s 
Collecting tensorboard<2.1.0,>=2.0.0
[?25l  Downloading https://files.pythonhosted.org/packages/9b/a6/e8ffa4e2ddb216449d34cfcb825ebb38206bee5c4553d69e7bc8bc2c5d64/tensorboard-2.0.0-py3-none-any.whl (3.8MB)
[K     |████████████████████████████████| 3.8MB 42.3MB/s 
Collecting tensorflow-estimator<2.1.0,>=2.0.0
[?25l  Downloading https://files.pythonhosted.org/packages/fc/08/8b927337b7019c374719145d1dceba21a8bb909b93b1ad6f8fb7d22c1ca1/tensorflow_estimator-2.0.1-py2.py3-none-any.whl (449kB)
[K     |████████████████████████████████| 450kB 45.2MB/s 
[31mERROR: tensorflow 1.15.0 has requirement tensorboard<1.16.0,>=1.15.0, but you'll have tensorboard 2.0.0 which is incompatible.[0m
[31mERROR: tensorflow 1

In [0]:
import tensorflow as tf


def single_layer_model(neuron, height, width, dim):
    model = tf.keras.Sequential([
        tf.keras.layers.Flatten(input_shape = (height,width,dim)),
        tf.keras.layers.Dense(neuron),
        tf.keras.layers.Dense(1, activation = 'sigmoid')
    ])
    return model

In [0]:
model = single_layer_model(2048,28,28,1)

model.compile(loss='categorical_crossentropy',     
    optimizer='sgd',
    metrics=['accuracy'])

In [0]:
model.summary()

Model: "sequential_1"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
flatten_1 (Flatten)          (None, 784)               0         
_________________________________________________________________
dense_3 (Dense)              (None, 2048)              1607680   
_________________________________________________________________
dense_4 (Dense)              (None, 1)                 2049      
Total params: 1,609,729
Trainable params: 1,609,729
Non-trainable params: 0
_________________________________________________________________


---
## c. Multi Layer Perceptron
Dalam penggunaan Jaringan Saraf Tiruan, kita dapat menumpuk layer-layer neuron menjadi sebuah arsitektur baru yang disebut sebagai *Multi-layer Perceptron* (MLP). Layer-layer yang berada di antara layer input dan layer output disebut sebagai *hidden layer*

MLP dengan 2 layer neuron biasa disebut sebagai *2-layer neural net* atau *1-hidden-layer neural net*.
begitu pula untuk MLP dengan 3 layer biasa disebut sebagai *3-layer neural net* atau *2-hidden-layer neural net*. Seperti ilustrasi berikut

*2-layer NN* | *3-layer NN*
- | -
![2layerNN](https://image.ibb.co/dHnnFe/2layerNN.png) | ![3layerNN](https://image.ibb.co/iH18MK/3layerNN.png)

Di sini dapat kalian perhatikan bahwa sebenarnya, selama pelatihan, MLP mengulang-ulang proses yang dilakukan Single Layer Perceptron, baik pada proses maju dan mundur. Kita bisa saja menuliskan proses pelatihan yang spesifik untuk setiap model kedalaman jaringan.

Namun alangkah mudahnya jika kita bisa menuliskannya dalam suatu bentuk fungsi sehingga kita menjadi mudah menambah atau mengurangi jumlah kedalaman model


In [0]:
import tensorflow as tf

model = tf.keras.Sequential([
    tf.keras.layers.Flatten(input_shape = (28,28,1)),
    tf.keras.layers.Dense(512),
    tf.keras.layers.Dense(512),
    tf.keras.layers.Dense(1, activation = 'sigmoid')
])
model.summary()

Instructions for updating:
If using Keras pass *_constraint arguments to layers.
Model: "sequential"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
flatten (Flatten)            (None, 784)               0         
_________________________________________________________________
dense (Dense)                (None, 512)               401920    
_________________________________________________________________
dense_1 (Dense)              (None, 512)               262656    
_________________________________________________________________
dense_2 (Dense)              (None, 1)                 513       
Total params: 665,089
Trainable params: 665,089
Non-trainable params: 0
_________________________________________________________________


---
## d. Hidden Neuron
Now let's investigate the hidden neuron hyperparameter

In theory, more hidden neuron is better, more layer is also better.
But too much layer and neuron is wasteful on your resource since its heavier and much longer to train

Let's see if we train 20 hidden neuron using learning rate=0.01


The main problem with too many hidden neuron or hidden layer is overfitting

<p align="center"><img src="http://cs231n.github.io/assets/nn1/layer_sizes.jpeg" width="750" ></p>



---

---
## e. Bobot dan Bias
*2-layer NN* | *3-layer NN*
- | -
![2layerNN](https://image.ibb.co/dHnnFe/2layerNN.png) | ![3layerNN](https://image.ibb.co/iH18MK/3layerNN.png)

Setiap neuron pada MLP saling berhubungan yang ditandai dengan tanda panah pada gambar diatas. Tiap koneksi memiliki weight yang nantinya nilai dari tiap weight akan berbeda-beda.
Hidden layer dan output layer memiliki tambahan “input” yang biasa disebut dengan bias (Tidak disebutkan pada gambar diatas).
Sehingga pada arsitektur pertama terdapat 3x4 weight + 4 bias dan 4x2 weight + 2 bias. Total adalah 26 parameter yang pada proses training akan mengalami perubahan untuk mendapatkan hasil yang terbaik. Sedangkan pada arsitektur kedua terdapat 46 parameter.

---
## f. Fungsi Aktivasi
Fungsi aktivasi berguna untuk menentukan neuron mana yang aktif yang selanjutnya akan diteruskan ke layer berikutnya. Pada input tidak terdapat fungsi aktivasi, sedangkan pada output layer memiliki fungsi aktivasi yang berbeda-beda tergantung permasalahan yang diselesaikan

---
# Melatih Model Jaringan Syaraf Tiruan
Pada Supervised Learning menggunakan Neural Network, pada umumnya Learning terdiri dari 2 tahap, yaitu training dan evaluation. Namun kadang terdapat tahap tambahan yaitu testing, namun sifatnya tidak wajib.<br><br>
Pada tahap training setiap weight dan bias pada tiap neuron akan diupdate terus menerus hingga output yang dihasilkan sesuai dengan harapan. Pada tiap iterasi akan dilakukan proses evaluation yang biasanya digunakan untuk menentukan kapan harus menghentikan proses training (stopping point). <br><br>
Secara umum terdapat 2 proses training pada JST, yaitu **Forward Pass** dan **Backward Pass**

---
## a. Forward Pass
Forward pass atau biasa juga disebut forward propagation adalah proses dimana kita membawa data pada input melewati tiap neuron pada hidden layer sampai kepada output layer yang nanti akan dihitung errornya

![alt text](https://miro.medium.com/max/438/1*gYoJzQEMRFafH8AAt6KRNQ.jpeg)

Persamaan diatas adalah contoh forward pass pada arsitektur pertama (lihat gambar arsitektur diatas) yang menggunakan ReLU sebagai activation function. Dimana i adalah node pada input layer (3 node input), j adalah node pada hidden layer sedangkan h adalah output dari node pada hidden layer.

---
## b. Backward Pass
Error yang kita dapat pada forward pass akan digunakan untuk mengupdate setiap weight dan bias dengan learning rate tertentu.
Kedua proses diatas akan dilakukan berulang-ulang sampai didapatkan nilai weight dan bias yang dapat memberikan nilai error sekecil mungkin pada output layer (pada saat forward pass)



![alt text](https://miro.medium.com/max/983/1*bsjmNlxtISCrsYg1Jy7X3g.jpeg)

Pada gambar diatas, Forward Pass ditandai dengan tanda panah berwarna biru, sedangkan backward pass ditandai dengan tanda panah berwarna merah<br><br>

Dalam Supervised Learning, training data terdiri dari input dan output/target. Pada saat forward pass, input akan di-”propagate” menuju output layer dan hasil prediksi output akan dibandingakan dengan target dengan menggunakan sebuah fungsi yang biasa disebut dengan Loss Function.<br><br>

Loss function berperan penting, karena loss function bertugas untuk menentukan seberapa besar perubahan yang harus kita lakukan pada bobot

---
## c. Backpropagation
Backpropagation merupakan algoritma untuk mengupdate bobot dan bias pada jaringan syaraf tiruan. Simpelnya algoritma ini akan mengupdate bobot berdasarkan loss yang didapat saat forward pass

Tahap pertama yaitu hitung gradient dari loss function terhadap semua parameter yang ada dengan cara mencari partial derivative (turunan parsial) dari fungsi tersebut. Disini kita bisa menggunakan metode Chain Rule. Untuk yang masih bingung apa itu gradient, mungkin ilustrasi dibawah ini bisa membantu.
![alt text](https://miro.medium.com/max/330/1*dunz7C-rCGs1zajsYWI45w.gif)

Update semua parameter (weight dan bias) menggunakan ***Stochastic Gradient Descent (SGD)*** dengan mengurangi atau menambahkan nilai weight lama dengan “sebagian” (learning rate) dari nilai gradient yang sudah kita dapat.

![alt text](https://media3.giphy.com/media/4LiMmbAcvgTQs/200.webp?cid=790b7611166b897e023116721f89d7d0d7319d321fe6becd&rid=200.webp)



![alt text](https://scontent-lga3-1.cdninstagram.com/vp/dab1b53a1164891363449016f262a7a2/5E507CD2/t51.2885-15/e35/73169329_455297468217907_4492185464377407939_n.jpg?_nc_ht=scontent-lga3-1.cdninstagram.com&_nc_cat=107&dl=1)