# 使用Functional API 的函數建立新的神經網路，並加入分歧

In [1]:
%env KERAS_BACKEND=tensorflow

env: KERAS_BACKEND=tensorflow


In [2]:
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd 


In [3]:
from keras.models import Sequential
from keras.layers import Dense,Activation
from keras.optimizers import  SGD

Using TensorFlow backend.


## 原Sequential模型是的函數

In [4]:
model_Org = Sequential()
model_Org.add(Dense(200, input_dim=784))
model_Org.add(Activation("relu")) 
model_Org.add(Dense(75))
model_Org.add(Activation("relu")) #sigmoid
model_Org.add(Dense(10))
model_Org.add(Activation("softmax"))

model_Org.summary()

_________________________________________________________________
Layer (type)                 Output Shape              Param #   
dense_1 (Dense)              (None, 200)               157000    
_________________________________________________________________
activation_1 (Activation)    (None, 200)               0         
_________________________________________________________________
dense_2 (Dense)              (None, 75)                15075     
_________________________________________________________________
activation_2 (Activation)    (None, 75)                0         
_________________________________________________________________
dense_3 (Dense)              (None, 10)                760       
_________________________________________________________________
activation_3 (Activation)    (None, 10)                0         
Total params: 172,835
Trainable params: 172,835
Non-trainable params: 0
_________________________________________________________________


## 原Sequential模型是的函數

$$\hat{f} \colon \mathbb{R}^{784} \to \mathbb{R}^{10}$$

建立一個具有兩個隱藏層的神經網路函數如下：

$$\mathbb{R}^{784} \overset{f_1}{\to} \mathbb{R}^{200} \overset{f_2}{\to} \mathbb{R}^{75} \overset{f_3}{\to} \mathbb{R}^{10}$$

$$x \overset{f_1}{\mapsto} h_1 \overset{f_2}{\mapsto} h_2 \overset{f_3}{\mapsto} y$$

其中，$f_1, f_2, f_3$ 代表的是全連結層所代表的函數，其他變數如下：

* $x$: 代表的是輸入模型的圖片向量，為 784 維的向量。
* $h_1$: $x$ 經過第一層隱藏層運算後得結果，即為 $f_1(x)$，為 200 維的向量。
* $h_2$: $h_1$ 經過第二層隱藏層運算後得結果，即為 $f_2(h_1)$，為 75 維的向量。
* $y$: $h_2$ 經過最後一層運算後得結果，即為 $f_3(h_2)$，為 10 維的向量，代表的是 $x$ 為哪個數字的機率。

注意: 為了方便，我們將 `Dense(200)`, `Activation('sigmoid')` 兩個合併用 `Dense(75, activation='sigmoid')` 表示

# 使用 Functional API 的操作方式

In [5]:
from keras.models import Model
from keras.layers import Input

In [6]:
f_1 = Dense(200, activation='sigmoid')
f_2 = Dense(75, activation='sigmoid')
f_3 = Dense(10, activation='softmax')

In [7]:
x = Input(shape=(784,))

In [8]:
print(x)

Tensor("input_1:0", shape=(?, 784), dtype=float32)


In [9]:
h_1 = f_1(x)
h_2 = f_2(h_1)
y = f_3(h_2)

變數 $h_1, h_2, y$ 是以張量 (tensor) 類別來表示。

In [10]:
print(h_1)
print(h_2)
print(y)

Tensor("dense_4/Sigmoid:0", shape=(?, 200), dtype=float32)
Tensor("dense_5/Sigmoid:0", shape=(?, 75), dtype=float32)
Tensor("dense_6/Softmax:0", shape=(?, 10), dtype=float32)


透過 `Model` 將一個模型的輸入/輸出包裝起來，完成模型建立

In [11]:
model = Model(x, y)
model.summary()

_________________________________________________________________
Layer (type)                 Output Shape              Param #   
input_1 (InputLayer)         (None, 784)               0         
_________________________________________________________________
dense_4 (Dense)              (None, 200)               157000    
_________________________________________________________________
dense_5 (Dense)              (None, 75)                15075     
_________________________________________________________________
dense_6 (Dense)              (None, 10)                760       
Total params: 172,835
Trainable params: 172,835
Non-trainable params: 0
_________________________________________________________________


# 建立具分歧及合併結構的神經網路模型

In [12]:
from keras.layers import concatenate, add

在模型之間由75個神經元分歧個別50與25，且這個分歧在模型的輸出會合併，則神經網路的結構會變成：

<img src="branch-and-merge_final.png" alt="drawing" style="width: 400px;"/>

此模型為單一輸入、多重輸出的模型，是分歧模型最容易處理的一種。

其中，$f_1 $ 同之前
$f_2:\mathbb{R}^{200}\to\mathbb{R}^{50}$ 的全連接層，但 `Activation` 改用 `ReLu`。
$f_4:\mathbb{R}^{200}\to\mathbb{R}^{25}$ 的全連接層，但 `Activation` 改用 `ReLu`。

$f_3$ 的定義域改變，為 $\mathbb{R}^{50}\times\mathbb{R}^{25}\to\mathbb{R}^{10}$ 函數，所以需要重新定義。

* $x$: 代表的是輸入模型的圖片向量，為 784 維的向量。
* $h_1$: $x$ 經過 $f_1$ 隱藏層運算後得結果，即為 $f_1(x)$，為 200 維的向量。
* $h_2$: $h_1$ 經過 $f_2$ 隱藏層運算後得結果，即為 $f_2(h_1)$，為 75 維的向量。

* $z$: $h_1$ 經過 $f_4$ 運算後得結果，即為 $f_4(h_1)$，為 25 維的向量。
* $y$: $h_2$ 和 $z$ 經過新的 $f_3$ 運算後得結果，即為 $f_3(h_1, z)$，為 10 維的向量，代表的是 $x$ 為哪個數字的機率。

In [13]:
f_2 = Dense(50, activation='relu')
h_2 = f_2(h_1)

In [14]:
#f_2 = Dense(50, activation='relu')
f_4 = Dense(25, activation='relu')
#h_2 = f_2(h_1)
#y = f_3(h_2)
z = f_4(h_1)

# new f_3
f_3 = Dense(10, activation='softmax')

在這裡，我們將 $h_2$ 與 $z$ `concatenate` 接在一起，稱做 $u$。

In [15]:
u = concatenate([h_2, z])
y = f_3(u)

In [16]:
print(u)
print(y)

Tensor("concatenate_1/concat:0", shape=(?, 75), dtype=float32)
Tensor("dense_9/Softmax:0", shape=(?, 10), dtype=float32)


In [17]:
model = Model(x, y)
model.summary()

__________________________________________________________________________________________________
Layer (type)                    Output Shape         Param #     Connected to                     
input_1 (InputLayer)            (None, 784)          0                                            
__________________________________________________________________________________________________
dense_4 (Dense)                 (None, 200)          157000      input_1[0][0]                    
__________________________________________________________________________________________________
dense_7 (Dense)                 (None, 50)           10050       dense_4[0][0]                    
__________________________________________________________________________________________________
dense_8 (Dense)                 (None, 25)           5025        dense_4[0][0]                    
__________________________________________________________________________________________________
concatenat