# Dense layers

![](Image/Image8.jpg)

Dense layers 代表這個 layer 上的所有 nodes 都和前一個 layer 的所有 nodes 互相連接

## 例子

![](Image/Image9.jpg)

0.5 沒有 weight，表示是 bias。1 和 35 都是 inputs


**一個簡單的 densed neural network 的程式，有兩種做法：**

1. 利用矩陣乘法來計算 outputs (較底層 low level)
2. 利用 tensorflow 既有的 keras.layers.Dense 函數來實踐 (較頂層 high level)

![](Image/Image11.jpg)

**方法一**

In [6]:
import tensorflow as tf

# define input
inputs = tf.constant([[1.0, 35.0]])

# define weights
weights = tf.Variable([[-0.05], [-0.01]])

# define bias
bias = tf.Variable([0.5])

In [7]:
# multiply inputs (features) by the weights
products = tf.matmul(inputs, weights)    # 用矩陣乘法來求 inputs 和 weights 的內積

# add products with the bias
values = products + bias

# define dense layer with a activation function (sigmoid function)
dense = tf.keras.activations.sigmoid(values)

**方法二**

多層 hidden layers

![](Image/Image10.jpg)

In [None]:
# define input layer
inputs = tf.constant([[1.0, 35.0]])

# define first dense layer
dense1 = tf.keras.layers.Dense(10, activation='sigmoid')(inputs)

# define second dense layer
dense2 = tf.keras.layers.Dense(5, activation='sigmoid')(dense1)

# define output layer
outputs = tf.keras.layers.Dense(1, activation='sigmoid')(dense2)

# Activation Functions

有三個常用的 activation functions：

1. Sigmoid function
2. Relu
3. Softmax

### Sigmoid functions
![](Image/Image12.jpg)

主要用在 **binary** classification problems 的 output layer。

當使用 low level approach (linear algebra) 時，要用 tf.keras.activations.sigmoid() <br/>
當使用 high level approach (既有的 dense function) 時，要在 tf.keras.layers.Dense() 中 specify "sigmoid"


### Relu functions (Rectified linear unit)
![](Image/Image13.jpg)

通常在 output layer 以外的其他 layers (hidden layers) 中使用。

當使用 low level approach (linear algebra) 時，要用 tf.keras.activations.relu() <br/>
當使用 high level approach (既有的 dense function) 時，要在 tf.keras.layers.Dense() 中 specify "relu"


### Softmax functions

主要用在 **multi-class** classification problems 的 output layer。可以計算 multiclass 的 probabilities。

當使用 low level approach (linear algebra) 時，要用 tf.keras.activations.softmax() <br/>
當使用 high level approach (既有的 dense function) 時，要在 tf.keras.layers.Dense() 中 specify "softmax"

# Optimizers

有三種常用的 optimizers (minimisers)：

1. SGD (Stochastic)
2. RMS
3. Adam

![](Image/Image14.jpg)

### Stochastic Gradient Descent
是一種 improved gradient descent ，較不容易停在 local minima。

## Tensorflow implementation

### SGD
Learning rate 在訓練過程中是固定的，必須測試不同的 learning rates。如果 rate 太大，則下降速度快，但可能會跳過 global minima。

程式碼：tf.keras.optimizers.SGD(learning_rate)，learning_rate 為最重要的參數。

### RMS
不同的 features 的 learning rates 是不同的，因此當 features 數量很多的時候用 RMS 比較合理

程式碼：tf.keras.optimizers.RMSprop(learning_rate, momentum, decay)，有 learning_rate, momentum, decay 三個重要參數。

Momentum 就是運動量的意思，可以優化學習的速度。在同方向上的學習速度會變快，方向改變時學習速度變慢。

### Adam
提供更方便且簡單的選擇。

相似於 RMS，可以透過指定 beta1 這個參數來調整 momentum 和 decay。

## 建立一個 neural network 的程式碼演示

使用 credict card 的資料，包含 marital status, payment amount 等等 features 來預測 default 這個變數。

In [3]:
import pandas as pd

credict = pd.read_csv("Datasets/uci_credit_card.csv")
print(credict.head())
print(credict.shape)

   ID  LIMIT_BAL  SEX  EDUCATION  MARRIAGE  AGE  PAY_0  PAY_2  PAY_3  PAY_4  \
0   1    20000.0    2          2         1   24      2      2     -1     -1   
1   2   120000.0    2          2         2   26     -1      2      0      0   
2   3    90000.0    2          2         2   34      0      0      0      0   
3   4    50000.0    2          2         1   37      0      0      0      0   
4   5    50000.0    1          2         1   57     -1      0     -1      0   

   ...  BILL_AMT4  BILL_AMT5  BILL_AMT6  PAY_AMT1  PAY_AMT2  PAY_AMT3  \
0  ...        0.0        0.0        0.0       0.0     689.0       0.0   
1  ...     3272.0     3455.0     3261.0       0.0    1000.0    1000.0   
2  ...    14331.0    14948.0    15549.0    1518.0    1500.0    1000.0   
3  ...    28314.0    28959.0    29547.0    2000.0    2019.0    1200.0   
4  ...    20940.0    19146.0    19131.0    2000.0   36681.0   10000.0   

   PAY_AMT4  PAY_AMT5  PAY_AMT6  default.payment.next.month  
0       0.0       0.0   

In [12]:
import numpy as np

marriage = np.array(credict["MARRIAGE"], dtype = np.float32)
payment_amount = np.array(credict[["PAY_AMT1", "PAY_AMT2", "PAY_AMT3", "PAY_AMT4", "PAY_AMT5", "PAY_AMT6"]], dtype = np.float32)
target = np.array(credict['default.payment.next.month'], dtype = np.bool)

print(marriage)
print(payment_amount)
print(target)

[1. 2. 2. ... 2. 1. 1.]
[[    0.   689.     0.     0.     0.     0.]
 [    0.  1000.  1000.  1000.     0.  2000.]
 [ 1518.  1500.  1000.  1000.  1000.  5000.]
 ...
 [    0.     0. 22000.  4200.  2000.  3100.]
 [85900.  3409.  1178.  1926. 52964.  1804.]
 [ 2078.  1800.  1430.  1000.  1000.  1000.]]
[ True  True False ...  True  True  True]


In [11]:
# define neural network model
def model(bias, weights, features):
    return tf.keras.activations.sigmoid(tf.matmul(features, weights) + bias)

In [13]:
# define the loss function
def loss_function(bias, weights, features, targets):
    predictions = model(bias, weights, features)
    return tf.keras.lossess.binary_crossentropy(targets, predictions)

In [15]:
# initialise the optimizer
opt = tf.keras.optimizers.RMSprop(learning_rate = 0.01, momentum = 0.9)
opt.minimize(lambda: loss_function(bias, weights, payment_amount, target), var_list = [bias, weights])

InvalidArgumentError: In[0] mismatch In[1] shape: 6 vs. 2: [30000,6] [2,1] 0 0 [Op:MatMul]

In [None]:
# 預測最後的結果
final_predictions = model(bias, weights, features)

# 比較最後的結果 (binary classification problems 使用 confusion matrix)
confusion_matrix(target, final_predictions)

# Training a network in Tensorflow 可能的問題

## Initialisation
當函數的變數非常多的時候，如何指定 initial values 是個大問題。如果沒有選擇好的初始值，則容易卡在 local minima。

一般來說，最簡單的方法是利用 ones() 將所有變數初始化成 1。然而，這不是個好方法，因為各個函數的數量極並不是一樣的。有些可能極度小，有些可能非常大。因此，有一個方法，是用隨機方式產生變數的初始值。

隨機的方式為在以下的隨機分布中選取數值：

1. Normal distribution
2. Uniform distribution
3. Glorot Initializer

### Normal distribution 的 random initial values

In [16]:
import tensorflow as tf

# random normal variables
weights = tf.Variable(tf.random.normal([500, 500]))
print(weights.numpy())

[[ 0.7014304  -0.8746814  -0.81709063 ... -1.4385091   1.6383195
   0.4407463 ]
 [-2.1260412   0.7946293  -0.11950668 ... -0.8268652  -0.31346998
  -1.7032689 ]
 [-0.06066773  0.32732207  0.8462351  ... -1.0806044  -1.5447717
   0.19221427]
 ...
 [ 1.7832956   0.1683405   0.29741174 ... -0.38904557 -1.1219796
   1.2069103 ]
 [ 2.2026093   1.475204   -0.7525437  ... -1.2041426  -1.4553659
   0.48045155]
 [-1.3937607  -2.1176517   0.99334973 ...  1.340453    0.86729145
   1.4102954 ]]


### Truncated normal distribution 的 random initial values
Truncated normal values 會丟棄極度小或極度大的數值。

In [17]:
# truncated random normal variables
weights2 = tf.Variable(tf.random.truncated_normal([500, 500]))
print(weights2.numpy())

[[ 0.75754523 -0.6946054  -0.14187825 ... -0.03918338  0.11052865
  -0.8736046 ]
 [ 0.48655966 -1.4691384  -0.392127   ... -0.4000593  -0.06665671
  -0.48048642]
 [ 1.1485841   0.18432872  0.61014235 ... -0.8369745   0.6632963
  -0.92996764]
 ...
 [-0.07028735 -0.13742907 -0.13226186 ... -0.45888528 -1.4815992
   0.21029063]
 [ 0.19020243 -0.12102135  0.6180326  ...  0.08958569 -1.1149473
   1.2662982 ]
 [-0.786944    0.7597877   0.74569905 ...  0.817365   -0.62463707
  -1.8402792 ]]


### High level method

![](Image/Image15.jpg)

可以在 tf.keras.layers.Dense() 裡面傳入 kernel_initializer 這個參數來初始化 weights。如果沒有傳入任何有關 initialisation 的參數，則 default initializer 就是 Glorot Initializer。

## Overfitting

Training 的時候，過擬合的模型會太過符合 training data，導致 variance 高 (bias 低)。如下圖：

![](Image/Image16.jpg)

Testing 的時候，過擬合的模型因為太符合 training data，導致預測值與實際數值反而差很多，造成 **Out-of-sample** 的預測失準。如下圖：

![](Image/Image17.jpg)

解決過擬合的方式有：

1.  Dropout

### Dropout

隨機將 neural network 中的幾個 edges (連接 nodes 的線) 丟掉，讓模型不要那麼複雜。這樣可以讓模型不會太過依賴某些 nodes 的數值，導致太依賴某些 training data 的結果。如下圖：

![](Image/Image18.jpg)

### Implement Dropout in a network (演示)

In [19]:
import numpy as np
import tensorflow as tf

# define inputs
inputs = np.array(credict[["PAY_AMT1", "PAY_AMT2", "PAY_AMT3", "PAY_AMT4", "PAY_AMT5", "PAY_AMT6"]], dtype = np.float32)

In [20]:
# define dense layer 1
dense1 = tf.keras.layers.Dense(32, activation = "relu")(inputs) 

# define dense layer 2
dense2 = tf.keras.layers.Dense(16, activation = "relu")(dense1)

在將數值傳回 output layer 之前，加上 dropout layers (drop 25% 的 edges)

In [21]:
# apply dropout
Dropout1 = tf.keras.layers.Dropout(0.25)(dense2)

In [22]:
# define output layer
outputs = tf.keras.layers.Dense(1, activation = "sigmoid")(Dropout1)