**使用 Model Functional API 建立各種非線性堆疊網路**

In [1]:
%env KERAS_BACKEND=tensorflow #指定Keras的後端是tensorflow

env: KERAS_BACKEND=tensorflow


In [2]:
%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt

In [3]:
# Keras functions
from keras.models import Sequential
from keras.layers import Dense, Activation
from keras.optimizers import SGD

# Keras dataset
from keras.datasets import mnist

# Keras utilis function
from keras.utils import np_utils

In [22]:
(x_train, y_train), (x_test, y_test) = mnist.load_data()

In [23]:
x_train = x_train.reshape(60000, 784)
x_test = x_test.reshape(10000, 784)

In [24]:
print(x_train.shape, x_test.shape)

(60000, 784) (10000, 784)


In [25]:
y_train = np_utils.to_categorical(y_train, 10) #one-hot encoding
y_test = np_utils.to_categorical(y_test, 10)

**1. Model Functional API**

使用 Sequential 便足以建構大多數的神經網路，那是因為我們接觸的神經網路多為線性堆疊 (linear stack)。

除了輸入層需指定 input_dim 外，其餘隱藏層只需宣告，那是因為 Sequential 會認定上一層的輸出這一層的輸入。

因此，再建構線性堆疊的神經網路時，Sequential 便足以處理。

**Functional API 
當神經網路模型為非線性的複雜網路結構，如：**

- 多重輸出-多重輸入模型 (Multi-input and multi-output models)
- 分歧 (branch)
- 合併 (merge)
- 具重複/循環結構的模型，如: CycleGAN

Sequential 便不足以建構這類複雜結構的神經網路，以下介紹 Model Fnuctional API 的使用。

**Functional API 的操作流程如下：**

- 將層定義成明確的函數
- 透過層函數將變數連接
- 定義神經網路的輸入與輸出

In [10]:
from keras.models import Model

在 Model 的世界中，所有的神經網路層 (fully-connected, convolution, MaxPooling, LSTM, etc) 都被視作函數來操作，因此只需關心函數的輸入和輸出即可。

此外，為了讓神經網路的第一層從不需要輸入 input_dim，還需引進下面這個函數來代替 input_dim。 (此寫法亦可用在 Sequential)

In [11]:
from keras.layers import Input #把輸入層讀進來

手寫辨識模型是一個長得像這樣的函數

$$\hat{f} \colon \mathbb{R}^{784} \to \mathbb{R}^{10}$$
建立一個具有兩個隱藏層的神經網路來學習這個函數，攤開來看的話，如下：

$$\mathbb{R}^{784} \overset{f_1}{\to} \mathbb{R}^{500} \overset{f_2}{\to} \mathbb{R}^{500} \overset{f_3}{\to} \mathbb{R}^{10}$$$$x \overset{f_1}{\mapsto} h_1 \overset{f_2}{\mapsto} h_2 \overset{f_3}{\mapsto} y$$

其中，$f_1, f_2, f_3$ 代表的是全連結層所代表的函數，其他變數說明如下：

- $x$: 代表的是輸入模型的圖片向量，為 784 維的向量。
- $h_1$: $x$ 經過第一層隱藏層運算後得結果，即為 $f_1(x)$，為 500 維的向量。
- $h_2$: $h_1$ 經過第二層隱藏層運算後得結果，即為 $f_2(h_1)$，為 500 維的向量。
- $y$: $h_2$ 經過最後一層運算後得結果，即為 $f_3(h_2)$，為 10 維的向量，代表的是 $x$ 為哪個數字的機率。

In [12]:
f_1 = Dense(500, activation = 'sigmoid')
f_2 = Dense(500, activation = 'sigmoid')
f_3 = Dense(10, activation = 'softmax')

In [14]:
print(f_1)

<keras.layers.core.Dense object at 0x0000018DAE143048>


In [15]:
x = Input(shape=(784,)) #定義層前後關係，第一個變數必定以Input函數定義

In [16]:
print(x) #Tensor張量 / ?是batch size，一般會在訓練時指定 / 為32位的浮點數

Tensor("input_1:0", shape=(?, 784), dtype=float32)


$$h_1 = f_1(x), h_2 = f_2(h_1), y = f_3(h_2)$$

In [17]:
h_1 = f_1(x)
h_2 = f_2(h_1)
y = f_3(h_2)

In [18]:
#變數 h_1, h_2, y 是以張量 (tensor) 類別來表示
print(h_1)
print(h_2)
print(y)

Tensor("dense_1/Sigmoid:0", shape=(?, 500), dtype=float32)
Tensor("dense_2/Sigmoid:0", shape=(?, 500), dtype=float32)
Tensor("dense_3/Softmax:0", shape=(?, 10), dtype=float32)


In [26]:
model=Model(x,y) #x=輸入層 y=輸出的張量
model.summary()

Model: "model_2"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
input_1 (InputLayer)         (None, 784)               0         
_________________________________________________________________
dense_1 (Dense)              (None, 500)               392500    
_________________________________________________________________
dense_2 (Dense)              (None, 500)               250500    
_________________________________________________________________
dense_3 (Dense)              (None, 10)                5010      
Total params: 648,010
Trainable params: 648,010
Non-trainable params: 0
_________________________________________________________________


In [27]:
model.compile(loss='mse', optimizer=SGD(lr=0.1), metrics=['accuracy'])

In [28]:
model.fit(x_train, y_train, batch_size=100, epochs=5)


Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<keras.callbacks.callbacks.History at 0x18daf8ba948>

In [30]:
model.load_weights('NN_handwriting_weights.h5')

In [31]:
model.evaluate(x_test,y_test)



[0.010542385429143906, 0.9348999857902527]

**2.建立具分歧及合併結構的神經網路模型**

在模型之間增加一個分歧，且這個分歧在模型的輸出會合併，如下圖所示

![](branch-and-merge.png)

此模型為單一輸入、多重輸出的模型，是分歧模型最容易處理的一種。

其中，$f_1, f_2$ 同之前，$f_4:\mathbb{R}^{500}\to\mathbb{R}^{500}$ 的全連接層，但 Activation 改用 ReLu。

需注意的是，由於 $f_3$ 的定義域改變，為 $\mathbb{R}^{500}\times\mathbb{R}^{500}\to\mathbb{R}^{10}$ 函數，所以需要重新定義。

- $x$: 代表的是輸入模型的圖片向量，為 784 維的向量。
- $h_1$: $x$ 經過 $f_1$ 隱藏層運算後得結果，即為 $f_1(x)$，為 500 維的向量。
- $h_2$: $h_1$ 經過 $f_2$ 隱藏層運算後得結果，即為 $f_2(h_1)$，為 500 維的向量。

- $z$: $h_1$ 經過 $f_4$ 運算後得結果，即為 $f_4(h_1)$，為 500 維的向量。

- $y$: $h_2$ 和 $z$ 經過新的 $f_3$ 運算後得結果，即為 $f_3(h_2, z)$，為 10 維的向量，代表的是 $x$ 為哪個數字的機率。

因為上面已將 $f_4$ 及 $z$ 以外的變數定義好，只需定義 $f_3$, $f_4$ 及 $z$ 即可

In [35]:
from keras.layers import concatenate, add

In [32]:
f_4 = Dense(500, activation = 'relu')
z = f_4(h_1) #h_1 = f_1(x)

#new f_3
f_3 = Dense(10, activation = 'softmax')

In [34]:
y = f_3(h_2,z) #錯誤，不可放兩個tensor進去/y = f_3([h_2,z]) list of tensor也不行

TypeError: __call__() takes 2 positional arguments but 3 were given

In [36]:
#將多個獨立的層結合成一層
u = concatenate([h_2,z])
y = f_3(u)

In [37]:
model = Model(x,y)
model.summary() #dense_1 來自 input_1

Model: "model_3"
__________________________________________________________________________________________________
Layer (type)                    Output Shape         Param #     Connected to                     
input_1 (InputLayer)            (None, 784)          0                                            
__________________________________________________________________________________________________
dense_1 (Dense)                 (None, 500)          392500      input_1[0][0]                    
__________________________________________________________________________________________________
dense_2 (Dense)                 (None, 500)          250500      dense_1[0][0]                    
__________________________________________________________________________________________________
dense_4 (Dense)                 (None, 500)          250500      dense_1[0][0]                    
____________________________________________________________________________________________

**Branch-and-Merge 的注意要點如下：**

每一層分別定義成函數
- 分歧結構: 透過新的函數來定義新的變數。
- 合併結構: 要合併前，將所有要進入的變數都合併起來，才能進行之後的運算。

常見應用:

- 多重輸入-多重輸出模型。
- 當層函數為 $convolution$ 時，這樣的技巧可以實現 U-net 上的重要結構 multi-resolution fusion (多解析度融合，又稱 MRF)。
- ResNet 上的重要結構 skip connection (跳躍式傳遞)，亦可透過分歧-合併來實現，只是 ResNet 使用的是 $add$ 而非 concatenate。