# Neural Network : 신경망 모형

신경망 모형은 Warren McCulloch와 Walter Pitts가 (1943) 인간의 뇌를 수학적 모형으로 표현하여 인간처럼 판단을 수행하고자 하는 아이디어로 출발하였다.

이 아이디어는 $f(\sum(w_ix_i+b))$의 값이 y 값이 되도록 미지수 w 값을 구하고자 하는 것이다.

![NeuronCell.png](NeuronCell.png)
![NeuralModel.png](NeuralModel.png)

입력 X1, X2, X3 값에 각 가중치를 곱하는데 가중치가 크다는 것은 해당 자극이 신경을 활성화하는데중요한 자극이라는 의미이다. 즉, 원하는 결과가 어떤 자극에 의해 나타나는지를 가중치로 구하는 것이다. 이때 f는 활성함수(Activation function)이라고 한다.

신경망 모형에서 활성 함수를 Sigmoid를 사용할 경우, 신경망 모형은 Logistic Regression(Cox,1958) 모형이 된다. 서로 접근방법은 달랐지만 McCulloch-Pitts의 신경망 모형과 Cox의 로지스틱 회귀는 결국 같은 모형이다.

y는 종속변수이고, X1, X2, X3는 독립변수이다.
일반적으로 신경망에서는 X1~X3를 Feature, y를 hypothesis, t는 target 이라고 부른다.

![](NeuralModel.png)

$$Y=S(w_1x_1+w_2x_2+w_3x_3+b)$$

<br>

$$=\frac{1}{1+exp(-(w_1x_1+w_2x_2+w_3x_3+b))}$$

초기 신경망 모형은 Linear 한 모형으로 or, and 는 풀 수 있으나 xor는 풀 수 없어 많은 사람들이 xor문제에 집중하였다. 이후, 1969년 Minsky는 Hidden Layer를 사용하는 Multiple layer perceptron을 사용해 xor문제를 풀 수 있음을 증명했는데 문제는 MLP의 가중치를 구할 수 없다는 문제에 직면했다.

![or_and_xor.png](or_and_xor.png)

이후, 1974년 Backpropagation 알고리즘이 나와 MLP의 가중치를 구할 수 있게 되었으나 그 당시 주목받지 못하다가 1986년 Hinton에 다시 동일한 내용의 논문을 발표하면서 부터 다시 주목받기 시작했다. 이후, 10년 정도 Neural Network이 유행했으나 많은 단점을 노출하면서 다시 시들해 졌다.
단점으로는 대표적으로 Over-fitting과 layer의 수가 커질수록 학습이 안되는 문제가 있다.
2006, 2007년에 문제에 대한 솔루션이 나오면서 신경망 모형은 다시 Deep Learning이란 이름으로 Re-Branding하였다. 이후, 빅데이터 등 호재를 만나면서 특히, Image인식 분야에서 본격적으로 딥러닝의 시대를 열었다.

## 초기 신경망 모형
* $W$: Weight (가중치)
* $Y=S(WX+B)$: hypothesis by sigmoid (예측값; 예측한 값)
* $target$: target (예측대상)
* $error=Y-target$: 오차
* $$W := W - X^T \cdot error \cdot S'(Y)$$




In [1]:
# OR Operation using early neural network model
import numpy as np

def sigmoid(x):
    return 1/(1+np.exp(-x))

def deriv_sigmoid(x):
    e=np.exp(x)
    return (-e/(1+e))

X = np.array([[1,0,0],[1,0,1],[1,1,0],[1,1,1]])
W = np.array([-0.99,-0.16,0.44]).reshape(3,1)
target = (X[:,1]|X[:,2]).reshape(4,1)

for i in range (1000):
    Y = sigmoid(np.dot(X,W))
    error = Y-target
    W += np.dot(X.T, error*deriv_sigmoid(Y))

print(Y)
print(target)

[[0.01000965]
 [0.99724653]
 [0.99724627]
 [0.99999992]]
[[0]
 [1]
 [1]
 [1]]


## Perceptron (rosenblatt, 1953)
* $w_i$: Weight (가중치)
* $y=
\begin{cases} 
    0 & \,\, (W^TX+b<=0)\\
    1 & \,\, (W^TX+b>0)
\end{cases}$
* $f(net)$: y value calculated through network
* $t-f(net)$: error
* $\eta$: learning rate
* $$w_i := w_i + \eta x_i (t-f(net))$$

In [2]:
# AND Operation using Perceptron
import numpy as np

def fnet(Y):
    for i in range(4):
        Y[i] = 1 if Y[i]>0 else 0
    return Y

X = np.array([[1,0,0],[1,0,1],[1,1,0],[1,1,1]])
W = np.array([-0.99,-0.16,0.44]).reshape(3,1)
T = (X[:,1]&X[:,2]).reshape(4,1)
eta = 0.1

for i in range (10):
    Y = np.dot(X,W)
    W += eta * np.dot(X.T, T - fnet(Y))
    print(i,": | Y =",Y.reshape(-1))
print(Y.reshape(-1))
print(T.reshape(-1))

0 : | Y = [0. 0. 0. 0.]
1 : | Y = [0. 0. 0. 0.]
2 : | Y = [0. 0. 0. 0.]
3 : | Y = [0. 1. 0. 1.]
4 : | Y = [0. 0. 0. 0.]
5 : | Y = [0. 1. 0. 1.]
6 : | Y = [0. 0. 0. 1.]
7 : | Y = [0. 0. 0. 1.]
8 : | Y = [0. 0. 0. 1.]
9 : | Y = [0. 0. 0. 1.]
[0. 0. 0. 1.]
[0 0 0 1]


# Implement Hidden Layer

The deep learning model is a model that extends the hidden layer to two or more in the neural network model.

![HiddenLayer1.png](HiddenLayer1.png)

With $n$ of given datasets,

$size(X)= n \times n_X$<br>
$size(W_1)= n_X \times n_{H_1}$<br>
$size(H_1)= n \times n_{H_1}$<br>
$size(W_2)= n_{H_1} \times n_{H_2}$<br>
$size(H_2)= n \times n_{H_2}$<br>
$size(W_3)= n_{H_2} \times 1$<br>
$size(Y)= n \times 1$

XOR Operation realization was impossible with early neural network model. But it can be realized by **implementing hideen layer**.

XOR Operation
* has 2 inputs and 1 output.
* Assume that it has 1 hidden layer with 3 nodes.
* then $W_1$ is 2x3 matrix (consist of 6 wires)
* and $W_2$ is 3x1 matrix (consist of 3 wires)
* $H=X \cdot W_1+B_1$
* $Y=H \cdot W_2+B_2$

![HiddenLayer2.png](HiddenLayer2.png)

In [4]:
# XOR Operation using Hidden Layer (with given proper bias and weight)

import math
import numpy as np

def Sigmoid(x):
    return 1/(1+np.exp(-x))

X=np.array([[0,0], [0,1], [1,0], [1,1]])
W1=np.array([[-2, 5, 4], [ 3, 6, 3]])
B1=np.array([2, -2, -5])
W2=np.array([[-4], [ 8], [-8]])
H=Sigmoid(np.dot(X,W1)+B1)
Y=Sigmoid(np.dot(H,W2))

print (Y)

[[0.06766597]
 [0.94927397]
 [0.96979454]
 [0.0542867 ]]


Then XOR Design Problem falls into finding 'Weight $W$'
Proper weight can be found by **Backpropagation**

# Backpropagation

Find the proper Weight $W$ and Bias $B$ for XOR Designed above.
For $g(x)=\frac{1}{1+e^{-x}}$, define as $H=g(X \cdot W_1 + B_1)$, $Y=g(H \cdot W_2)$, $T: Target Value$

The matrix transformation and Cost function are as follows: 


$$X \xrightarrow{W_1} H \xrightarrow{W_2} Y, \quad Cost = \frac{1}{2}(Y-T)^2$$


* $X$: $n \times 2$
* $W_1$: $2 \times 3$
* $H$: $n \times 3$
* $W_2$: $3 \times 1$
* $Y$: $1 \times 1$

Considering **Gradient Descent Method**, Weight $W_1$ and $W_2$ follow


$$W_1 := W_1 - \lambda \frac{\partial}{\partial W_1} Cost$$

<br>

$$W_2 := W_2 - \lambda \frac{\partial}{\partial W_2} Cost$$


(Note that $W^+$ is updated W)

(remind: $\frac{d}{dY}Cost = Y-T$, $\frac{d}{dx}g(x) = \frac{e^{-x}}{(1+e^{-x})^2} = g(x) \cdot (1-g(x))$)

(Keep in mind that we should check sizes of matrices in every single step in order to check validity of matrix product)
<br><br><br>


$\frac{\partial Cost}{\partial W_2}$ can be solved as:


$$\frac{\partial Cost}{\partial W_2} = \frac{d Cost}{dY} \cdot \frac{\partial Y}{\partial W_2} = (Y-T) \frac{\partial}{\partial W_2} g(H \cdot W_2)$$

<br>

$$= (Y-T) g(H \cdot W_2)(1-g(H \cdot W_2)) \frac{d (H \cdot W_2)}{d W_2}$$

<br>

$$= H^T (Y-T) g(H \cdot W_2)(1-g(H \cdot W_2))$$

<br>

$$= H^T (Y-T) Y(1-Y)$$


Define as $\delta_Y := (Y-T) Y(1-Y)$, then


$$\frac{\partial Cost}{\partial W_2} = H^T \delta_Y$$

<br>

$$\therefore W_2 := W_2 - \lambda H^T \delta_Y$$


and for $\frac{\partial Cost}{\partial W_1}$,


$$\frac{\partial Cost}{\partial W_1} = \frac{d Cost}{dY} \cdot \frac{\partial Y}{\partial W_1} = (Y-T) \frac{\partial}{\partial W_1} g(H \cdot W_2)$$

<br>

$$= (Y-T) \cdot \frac{\partial g(H \cdot W_2)}{\partial (H \cdot W_2)} \cdot \frac{\partial (H \cdot W_2)}{\partial H} \cdot \frac{\partial H}{\partial W_1}$$

<br>

$$= (Y-T) g(H \cdot W_2) (1-g(H \cdot W_2)) \cdot {W_2}^T \cdot \frac{\partial}{\partial W_1} g(X \cdot W_1 + B_1)$$

<br>

$$= (Y-T) Y (1-Y) \cdot {W_2}^T \cdot g(X \cdot W_1 + B_1) (1-g(X \cdot W_1 + B_1) )\frac{\partial(X \cdot W_1 + B_1)}{\partial W_1}$$

<br>

$$= X^T (Y-T) Y (1-Y) \cdot {W_2}^T \cdot H (1-H)$$


Define as $\delta_H := (Y-T) Y(1-Y) \cdot {W_2}^T \cdot H (1-H) = \delta_Y \cdot {W_2}^T \cdot H (1-H) $, then


$$\frac{\partial Cost}{\partial W_1} = X^T \delta_H$$

<br>

$$\therefore W_1 := W_1 - \lambda X^T \delta_H$$


Also, in simillar process, (proof omitted)


$$B_1 := B_1 - \lambda \delta_H$$

In [53]:
# XOR Operation using Hidden Layer (Finding bias and weight using Backpropagation)

import numpy as np

def sigmoid(x):
    return 1/(1+np.exp(-x))

lamda = 1
X = np.array([[0,0],[0,1],[1,0],[1,1]])
T = np.array([[0],[1],[1],[0]])
b1 = 2 * np.random.rand(1,3) - 1    # (0~1) -> (0~2) -> (-1~1)
W1 = 2 * np.random.rand(2,3) - 1    # random in range (-1,1)
W2 = 2 * np.random.rand(3,1) - 1

for i in range(0,1000):
    H = sigmoid(np.dot(X,W1)+b1)
    Y = sigmoid(np.dot(H,W2))

    deltaY = np.multiply(Y-T,np.multiply(Y,(1-Y)))
    temp = np.multiply(W2.T,np.multiply(H,(1-H)))
    deltaH = deltaY * temp

    W2 -= np.dot(H.T,lamda*deltaY)
    W1 -= np.dot(X.T, lamda*deltaH)
    b1 = b1 - lamda*deltaH

print(Y)
print("b1: ",b1)
print("W1: ",W1)
print("W2: ",W2)

[[0.01812534]
 [0.98257188]
 [0.98047371]
 [0.01830072]]
b1:  [[-1.93444526  2.01417724 -0.99103309]
 [ 1.62960896 -2.86126629  0.45754984]
 [ 2.61223988 -1.98303732 -0.13467264]
 [-1.42536695  2.2972015  -0.05934399]]
W1:  [[-0.62177544 -0.56411775 -0.61059158]
 [ 0.25692385  0.61102013  0.19016233]]
W2:  [[ 4.58260684]
 [-5.44897151]
 [ 0.87246938]]


## Extension of Backpropagation (Multiple Hidden Layer)

As we derived update equation of weight for XOR operation above, **Backpropagation** can be extended to multiple hidden layer.

See below example for 3-hidden layer:


$$X \xrightarrow{W_1} H_1 \xrightarrow{W_2} H_2 \xrightarrow{W_3} H_3 \xrightarrow{W_4} Y$$

<br>

$$\quad \quad \quad \delta_1 \xleftarrow{\quad} \delta_2 \xleftarrow{\quad} \delta_3 \xleftarrow{\quad} \delta_Y$$

<br>

$$\delta_Y = (Y-T) \cdot Y(1-Y), \quad W_4 := W_4 - \lambda \cdot {H_3}^T \cdot \delta_Y$$

<br>

$$\delta_3 = \delta_Y \cdot {W_4}^T \cdot H_3 (1-H_3), \quad W_3 := W_3 - \lambda \cdot {H_2}^T \cdot \delta_3$$

<br>

$$\delta_2 = \delta_3 \cdot {W_3}^T \cdot H_2 (1-H_2), \quad W_2 := W_2 - \lambda \cdot {H_1}^T \cdot \delta_2$$

<br>

$$\delta_1 = \delta_2 \cdot {W_2}^T \cdot H_1 (1-H_1),  \quad W_1 := W_1 - \lambda \cdot X^T \cdot \delta_1$$