## Non-linear data

만약 현실세계의 데이터를 받아본다면, 선형 classifier가 결정되긴 매우 힘들다. 때문에 input 대신에 새로운 기저함수 $\theta(x)$를 사용하면 XOR 문제 등 비선형 문제를 해결 가능하다.
<br>

이러한 input을 새로운 기저함수를 통해 변형시키는 것은 MLP(Multi-Layer Perceptron)과 같은 원리이다.

$$
z = \sigma \left( \sum_{j=1}^M w \sigma \left(w_{j}^{(1)} x + b_j^{(1)} \right)  + b \right)
$$

$$
\sigma(x) = \frac{1}{1+e^{-x}}
$$

- $w_{j}^{(1)},b_j^{(1)}$ : 기저 함수의 모양 조절
- $w,b$ 결정함수, 즉 classifier의 모양조절

### Universal Approximation Theorem

layer를 충분히 많이 사용하면, 어떠한 형태의 함수와도 유사한 형태의 함수 $z(x)$를 만들 수 있다고 한다.

### Neural Network Architecture

이러한 뉴럴넷 아키텍처는 마치 모형들의 결합인, 앙상블 모형과도 같다. 각각의 기저함수가 적용된 모형을 새로운 input으로 생각하며, 그들의 weight를 결정한다. 즉 input layer 그리고 weight 가 적용하여 hidden layer를 구성하며, 마지막으로 activate function을 지나서 최종적인 ouput layer가 산출되는 구조이다.

![NN](./img/05.nn.png)

출력 계층이 만약 복수개의 출력 뉴런을 가지게 된다면, 각 출력클래스는 조건부 확률을 반환하게 설계할수 있다는 점이다.

![DNN](./img/05.dnn.png)

### FeedForward

![ff](./img/05.ff.png)

$$
z^{(1)} = \sigma \left( {W^{(1)}} x + b^{(1)} \right)
$$

![ff](./img/05.ff1.png)

$$
z^{(2)} = \sigma \left( {W^{(1)}}{z^{(1)}} + b^{(2)} \right)
$$

![ff](./img/05.ff2.png)

$$
\hat{y} = z^{(3)} = \sigma \left( {W^{(3)}} z^{(2)} + b^{(3)} \right)
$$

In [9]:
import numpy as np

def sigmoid(x):
    """
    Calculate sigmoid
    """
    return 1/(1+np.exp(-x))

# Network size
N_input = 4
N_hidden = 3
N_output = 2

np.random.seed(42)
# Make some fake data
X = np.random.randn(4)

weights_input_to_hidden = np.random.normal(0, scale=0.1, size=(N_input, N_hidden))
weights_hidden_to_output = np.random.normal(0, scale=0.1, size=(N_hidden, N_output))


# TODO: Make a forward pass through the network

hidden_layer_in = np.dot(X, weights_input_to_hidden)
hidden_layer_out = sigmoid(hidden_layer_in)

print('Hidden-layer Output:',hidden_layer_out)

output_layer_in = np.dot(hidden_layer_out, weights_hidden_to_output)
output_layer_out = sigmoid(output_layer_in)

print('Output-layer Output:',output_layer_out)

Hidden-layer Output: [0.41492192 0.42604313 0.5002434 ]
Output-layer Output: [0.49815196 0.48539772]


### Error function in Multi-Class

신경망의 오차함수는 조건부 확률이라는 실수 값을 출력해야한다. 따라서, 일반적으로 제곱합을 사용한다.

$$
\begin{eqnarray}  E(w,b) = \sum_{i=1}^N E_i(w,b) =  \sum_{i=1}^N \| y_i - z_i^{(L)}(w,b) \|^2 
\end{eqnarray}
$$

$$
\begin{eqnarray}
  w_{k+1}  &=& w_{k} - \alpha \frac{\partial E}{\partial w} \\
  b_{k+1} &=& b_{k} - \alpha \frac{\partial E}{\partial b}
\end{eqnarray}
$$



$$
\begin{eqnarray}   \frac{\partial E}{\partial w_{i}} = -(y-\hat{y})f'(h)x_{i}
\end{eqnarray}
$$

$$
\begin{eqnarray}
w_{k+1}  &=& w_{k} - \alpha \delta x_{i} 
\end{eqnarray}
$$


### Define Error Term

$$
\begin{eqnarray}  \delta = (y-\hat{y})f'(h)
\end{eqnarray}
$$



### 코드구현

In [6]:
import numpy as np

def sigmoid(x):
    return 1/(1+np.exp(-x))

def sigmoid_prime(x):
    return sigmoid(x) * (1 - sigmoid(x))

learnrate = 0.5
x = np.array([1, 2, 3, 4])
y = np.array(0.5)

# Initial weights
w = np.array([0.5, -0.5, 0.3, 0.1])

In [7]:
h = np.dot(x, w)
nn_output = sigmoid(h)
error = y - nn_output
error_term = error * sigmoid_prime(h)
del_w = learnrate * error_term * x

print('Neural Network output:',nn_output)
print('Amount of Error:',error)
print('Change in Weights:',del_w)

Neural Network output: 0.6899744811276125
Amount of Error: -0.1899744811276125
Change in Weights: [-0.02031869 -0.04063738 -0.06095608 -0.08127477]


### Backpropagation

오차로부터 발견한 새로운 정보를 각 layer 에 전달해 주기 위해서는 hidden layer들의 weight를 업데이트 해주어야한다. 

### 코드구현

In [10]:
import numpy as np


def sigmoid(x):
    """
    Calculate sigmoid
    """
    return 1 / (1 + np.exp(-x))


x = np.array([0.5, 0.1, -0.2])
target = 0.6
learnrate = 0.5

weights_input_hidden = np.array([[0.5, -0.6],
                                 [0.1, -0.2],
                                 [0.1, 0.7]])

weights_hidden_output = np.array([0.1, -0.3])

## Forward pass
hidden_layer_input = np.dot(x, weights_input_hidden)
hidden_layer_output = sigmoid(hidden_layer_input)

output_layer_in = np.dot(hidden_layer_output, weights_hidden_output)
output = sigmoid(output_layer_in)

## Backwards pass
## TODO: Calculate output error
error = target - output

# TODO: Calculate error term for output layer
output_error_term = error * output * (1 - output)

# TODO: Calculate error term for hidden layer
hidden_error_term = np.dot(output_error_term, weights_hidden_output) * \
                    hidden_layer_output * (1 - hidden_layer_output)

# TODO: Calculate change in weights for hidden layer to output layer
delta_w_h_o = learnrate * output_error_term * hidden_layer_output

# TODO: Calculate change in weights for input layer to hidden layer
delta_w_i_h = learnrate * hidden_error_term * x[:, None]

print('Change in weights for hidden layer to output layer:')
print(delta_w_h_o)
print('Change in weights for input layer to hidden layer:')
print(delta_w_i_h)

Change in weights for hidden layer to output layer:
[0.00804047 0.00555918]
Change in weights for input layer to hidden layer:
[[ 1.77005547e-04 -5.11178506e-04]
 [ 3.54011093e-05 -1.02235701e-04]
 [-7.08022187e-05  2.04471402e-04]]
