# Neural Network

<img src='https://i.imgur.com/8u63SVT.png' width=100%>

입력 X1, X2, X3 값에 각 가중치를 곱하는데 가중치가 크다는 것은 해당 자극이 신경을 활성화하는데 중요한 자극이라는 의미이다. 즉, 원하는 결과가 어떤 자극에 의해 나타나는지를 가중치로 구하는 것이다.

초기 신경망 모형은 Linear한 모형<br>
--> or, and는 풀 수 있으나 xor은 풀 수 없다<br>
--> Hidden Layer를 사용하는 Multiple Layer Perceptron을 사용해 xor 해결<br>
--> MLP의 가중치를 구할 수 없다<br>
--> backpropagation 알고리즘으로 MLP의 가중치를 구하는 문제 해결<br>
--> Over-fitting 문제, layer가 커질수록 학습이 안되는 문제<br>
--> ReLU, Kernel Initialization, Dropout, BatchNormalization으로 해결

# XOR

XOR(x1,x2) = AND(OR(x1, x2),NAND(x1, x2))

<img src="https://i.imgur.com/cQFdJq7.jpg" width="100%">

In [0]:
# xor.ipynb
import math
import numpy as np

def Sigmoid(x):
    return 1/(1+np.exp(-x))

x = np.array([[0,0],                            # (4,2)
              [0,1],
              [1,0],
              [1,1]])

w1 = np.array([[-2, 5, 4],                      # (2,3)
               [ 3, 6, 3]])

b1 = np.array([2, -2, -5])                      # (1,3)

w2 = np.array([[-4],                            # (3,1)
               [ 8],
               [-8]])

h = Sigmoid(np.dot(x,w1)+b1)                    # (4,2)*(2,3)+(1,3)=(4,3)
y = Sigmoid(np.dot(h,w2))                       # (4,3)*(3,1)=(4,1)
print (y)

[[0.06766597]
 [0.94927397]
 [0.96979454]
 [0.0542867 ]]


# Backpropagation

앞서 구한 delta 값을 이용하여 다음의 delta 값을 계산하는 원리로 출력층에서 입력층으로 역으로 가중값을 보정 전파 할 수 있음을 보일 수 있다.

<img src="https://i.imgur.com/CEQ6mqx.jpg" width="100%">

<img src="https://i.imgur.com/2TtETCi.png" width="100%">

<img src="https://i.imgur.com/GJwoZy9.png" width="100%">

<img src="https://i.imgur.com/pvSJ8xJ.png" width="100%">

<img src="https://i.imgur.com/cd39Lw9.png" width="100%">

In [0]:
# xor1.ipynb
import numpy as np
def Sigmoid(x):
    return 1/(1+np.exp(-x))

lamda = 1
x=np.array([[0,0],[0,1],[1,0],[1,1]])
t=np.array([[0],[1],[1],[0]])

w1=2*np.random.rand(2,3)-1          # -1 ~ 1
b1=2*np.random.rand(1,3)-1          # -1 ~ 1
w2=2*np.random.rand(3,1)-1          # -1 ~ 1

w1, b1, w2

(array([[-0.95502897, -0.10115515, -0.4109373 ],
        [-0.0604845 , -0.89544419,  0.47100726]]),
 array([[-0.51730176, -0.15551825,  0.3934197 ]]),
 array([[ 0.64137807],
        [-0.33651734],
        [-0.46654634]]))

In [0]:
for i in range(0,1000):
    h=Sigmoid(np.dot(x,w1)+b1)
    y=Sigmoid(np.dot(h,w2)) # dot(): matrix multiplication.
    deltaY= np.multiply(y-t,np.multiply(y,(1-y))) # multiply(): Multiply arguments element-wise.
    temp = np.multiply(w2.transpose(),np.multiply(h,(1-h)))
    deltaH = deltaY * temp
    w2=w2-np.dot(h.transpose(),lamda*deltaY)
    w1=w1-np.dot(x.transpose(),lamda*deltaH)
    b1=b1-lamda*deltaH
print (y)

[[0.01607888]
 [0.9819435 ]
 [0.98196683]
 [0.01780796]]


In [0]:
# XOR_NN_TF2.ipynb

import tensorflow as tf
import numpy as np

In [0]:
x = np.array([[0,0],[0,1],[1,0],[1,1]]).astype('float32')
y = np.array([[0],[1],[1],[0]]).astype('float32')
x, y

(array([[0., 0.],
        [0., 1.],
        [1., 0.],
        [1., 1.]], dtype=float32), array([[0.],
        [1.],
        [1.],
        [0.]], dtype=float32))

<img src="https://i.imgur.com/25JnIFQ.jpg" width="100%">

In [0]:
# optimizer='sgd’ 라고 하면 learning rate를 지정할 수 없어서
# sgd = tf.keras.optimizers.SGD(learning_rate=0.1)와 같이 sgd 변수를 만들고 진행하자.

from tensorflow.keras import layers
model = tf.keras.Sequential()
model.add(layers.Dense(3, activation='sigmoid', input_dim=2))
model.add(layers.Dense(1, activation='sigmoid'))
sgd = tf.keras.optimizers.SGD(learning_rate=0.1)
model.compile(optimizer=sgd,loss='binary_crossentropy',metrics=['accuracy'])

In [0]:
model.summary()

Model: "sequential"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
dense (Dense)                (None, 3)                 9         
_________________________________________________________________
dense_1 (Dense)              (None, 1)                 4         
Total params: 13
Trainable params: 13
Non-trainable params: 0
_________________________________________________________________


In [0]:
model.fit(x, y, epochs=10000, batch_size=4, verbose=0)  # default batch_size: 32
model.evaluate(x, y)



[0.013456800021231174, 1.0]

In [0]:
predicted = model.predict(x)
predicted

array([[0.00349279],
       [0.9827073 ],
       [0.9880476 ],
       [0.02064393]], dtype=float32)

# Quiz

1. 시그모이드함수의 미분값은?
 * S(x)(1-S(x))

2. Backpropagation에서 Back의 의미는?
 * 신경망에서 우측결과로 좌측 값을 계산한다.