---
## 0. 간단한 신경망 구조

<img src='./imgs/신경망.png' width='500'/>

---

## 1. 뉴런 만들기

+ sigmoid : S형태의 곡선
+ ReLU (Rectified Linear Unit ) : 정류된 선형함수
   - 딥러닝에서 선형함수는 y=x라는 식으로 정의할 수 있는 입력과 출력이 동일한 함수를 의미하는데, 이 함수를 정류해서(rectify)해서 음수 값을 0으로 만든 것이다.
    
<img src='./imgs/sigmoid_relu.png'>



<img src='./imgs/활성화함수1.png' width='400' height='250'>



## (1) 입력이 1일 때 기대출력이 0이 되는 뉴런을 만든다면

In [1]:
# (1) sigmoid 함수
import math
def sigmoid(x):
    return 1 / (1 + math.exp(-x))

In [2]:
# (2) 뉴런의 입력과 출력 정의
#    입력이 1일 때 기대출력이 0이 되는 뉴런을 만든고자 하는데
import tensorflow as tf

x = 1
y = 0
w = tf.random.normal([1],0,1)
output = sigmoid(x * w)
print(output)
# 실제 출력 output은 기대출력 0과 차이가 있는데 이를 error라고 한다.
# error = 0 - output  (ex -0.84)
# 뉴런의 학습은 이 에러가 0에 가까워지게 하여 기댓값과 가까운 출력을 얻는 것이다.

0.6672631746944219


---

### [참고] 경사하강법

- 오차와 기울기의 관계를 그래프로 그려보면, 어느 한 기울기에서 오차가 최소인 점을 알 우 싱다.
- 그 점은 기울이가 0인 점이다.
- 즉, 오차가 최소인 점을 알아낼려면 기울기가 0인 점을 찾아내면 된다
- 그래서 어느 한 점을 정해두고 정해둔 학습률과 함께 미문을 하면서 이동하다보면 오차가 최소인 점을 찾게 되는데, 마치 경사를 타고 내려가는 것처럼 보여져서 이 방법을 "경사하강법"이라고 한다


<img src='./imgs/경사하강법1.png' width='500'>
<img src='./imgs/경사하강법2.png' width='500'>



In [3]:
# (3) 경사 하강법을 이용한 뉴런의 학습
#    결국 w 값을 변화시켜서 원하는 결과를 찾아야 한다.
#    경사하강법 (Gradient Descent) : w = w + x * a(alpha) * error
#    w에 입력값(x)과 학습률(a:alpha)와 에러(error)를 곱한것을 더해주는 것이다.
#    학습률 a는 w를 업데이트 하는 정도로 설정하되, 큰 값으로 설정하면 과도한 학습으로 적정 수치를 벗어날 수 있고,
#    너무 작은 값으로 설정하면 학습 속도가 느려질 수 있다
#    여기서는 a=0.1로 설정한다

x = 1
y = 0
w = tf.random.normal([1],0,1)
for i in range(1000):
    output = sigmoid(x * w)
    error = y - output
    w = w + x * 0.1 * error
    
    if i % 100 == 99:
        print(i, error, output)

99 -0.10597121186116461 0.10597121186116461
199 -0.05339513476368901 0.05339513476368901
299 -0.03531489896177166 0.03531489896177166
399 -0.026296903454351577 0.026296903454351577
499 -0.02091857467369229 0.02091857467369229
599 -0.017354086691686223 0.017354086691686223
699 -0.014821208278808819 0.014821208278808819
799 -0.012930042512630071 0.012930042512630071
899 -0.011464759276350782 0.011464759276350782
999 -0.010296490513756255 0.010296490513756255


## (2) 입력값 x=0 일 때 출력값 y=1 을 얻는 뉴런의 학습 (위와 반대로)

In [4]:

x = 0
y = 1
w = tf.random.normal([1],0,1)

for i in range(1000):
    output = sigmoid(x * w)
    error = y - output
    w = w + x * 0.1 * error
    
    if i % 100 == 99:
        print(i, error, output)

# error값도 출력값도 0,5로 변하지 않다. x=0이기 때문이다.
# 이럴 경우 편향(bias)를 뉴런에 넣는다. 그래서 입력값으로 0을 받았을 때 뉴런이 아무것도 배우지 못하는 상황을 방지한다.
# 보편적으로 편향의 입력을 1로 넣는다.
# Y = f (X*w + 1 * b)

99 0.5 0.5
199 0.5 0.5
299 0.5 0.5
399 0.5 0.5
499 0.5 0.5
599 0.5 0.5
699 0.5 0.5
799 0.5 0.5
899 0.5 0.5
999 0.5 0.5


## (3) 편향 (bias)

[ 편향을 더해진 뉴런의 계산식 ]

<img src='./imgs/활성화함수2.png' width='400' height='250'>

[ 참고 ] [편향(bias)에 대해](https://blog.ncsoft.com/%ea%b2%8c%ec%9e%84-%eb%94%94%ec%9e%90%ec%9d%b8-%eb%a0%88%eb%b2%a8%ec%97%85-6-%ec%97%91%ec%85%80%eb%a1%9c-%ec%89%bd%ea%b2%8c-%ec%9d%b4%ed%95%b4%ed%95%98%eb%8a%94-%eb%94%a5%eb%9f%ac%eb%8b%9d-bias/)


In [5]:
# (5) x=0 일 때 y=1 을 얻는 뉴런의 학습에 편향을 더함
# 보편적으로 편향의 입력을 1로 넣는다.
# Y = f (X*w + 1 * b)

x = 0
y = 1
w = tf.random.normal([1],0,1)
b = tf.random.normal([1],0,1)

for i in range(1000):
    output = sigmoid(x * w + 1 * b)
    error = y - output
    w = w + x * 0.1 * error
    b = b + 1 * 0.1 * error
    
    if i % 100 == 99:
        print(i, error, output)

# 결과적으로 error는 0에 가까워지고, output 기대출력은 1에 가까워진다.

99 0.09999800088411948 0.9000019991158805
199 0.0517536231750354 0.9482463768249646
299 0.034576664896309395 0.9654233351036906
399 0.0258818541625101 0.9741181458374899
499 0.020653736972079173 0.9793462630279208
599 0.017170817546235284 0.9828291824537647
699 0.014687008276006774 0.9853129917239932
799 0.012827601127748056 0.9871723988722519
899 0.011384065540136157 0.9886159344598638
999 0.010231276396311162 0.9897687236036888


---
## 2. 신경망 네트워크 (1) AND

<img src='./imgs/xor.jpg' width='500' height='300'>

<img src='./imgs/활성화함수3.png' width='400' height='250'>

In [6]:
# (1) 첫번째 신경망 네트워크 : AND
import numpy as np
x = np.array([[1,1], [1,0], [0,1], [0,0]])
y = np.array([[1], [0], [0], [0]])
w = tf.random.normal([2],0,1)  # shape=2 (w 2개 필요),   mean=0.0,   stddev=1.0,
b = tf.random.normal([1],0,1)
b_x = 1


# w, b 값 확인
# print('w:', w)
# print('b:', b)
# 보편적으로 편향의 입력을 1로 넣는다.
# y = f (x*w + 1 * b)

for i in range(2000):
    error_sum = 0
    for j in range(4):
        output = sigmoid(np.sum(x[j]*w)+b_x*b)
        error = y[j][0] - output
        w = w + x[j] * 0.1 * error
        b = b + b_x * 0.1 * error
        error_sum += error
        
    if i % 200 == 199:
        print(i, error_sum)

199 -0.11639897751477032
399 -0.06779792238405273
599 -0.04773766726429059
799 -0.03672825326192064
999 -0.029788600011100806
1199 -0.0250240647365181
1399 -0.02155707187386537
1599 -0.0189242339159136
1799 -0.016856677310085645
1999 -0.015192819222059428


In [7]:
#  (2) AND 네트워크의 평가
for i in range(4):
    print('X:', x[i], 'Y:', y[i], 'Output:', sigmoid(np.sum(x[i]*w)+b))
    
# 마지막 결과값은 지수값이다.    

X: [1 1] Y: [1] Output: 0.9645315026178758
X: [1 0] Y: [0] Output: 0.025132418939323536
X: [0 1] Y: [0] Output: 0.025210074870733606
X: [0 0] Y: [0] Output: 2.45169975831276e-05


## 2. 신경망 네트워크 : (2) OR

In [8]:
# (1) 두번째 신경망 네트워크 : OR
import numpy as np
x = np.array([[1,1], [1,0], [0,1], [0,0]])
y = np.array([[1], [1], [1], [0]])
w = tf.random.normal([2],0,1)
b = tf.random.normal([1],0,1)
b_x = 1

for i in range(2000):
    error_sum = 0
    for j in range(4):
        output = sigmoid(np.sum(x[j]*w)+b_x*b)
        error = y[j][0] - output
        w = w + x[j] * 0.1 * error
        b = b + b_x * 0.1 * error
        error_sum += error
        
    if i % 200 == 199:
        print(i, error_sum)

199 -0.04507016247424514
399 -0.024548026080317795
599 -0.01677428211794542
799 -0.01269955781771262
999 -0.010200403290649071
1199 -0.008514505355032995
1399 -0.00730262450443428
1599 -0.00638969062357992
1799 -0.005678707176270285
1999 -0.005107635840061034


In [9]:
# (2) OR 네트워크의 평가
for i in range(4):
    print('X:', x[i], 'Y:', y[i], 'Output:', sigmoid(np.sum(x[i]*w)+b))

X: [1 1] Y: [1] Output: 0.9999972736337336
X: [1 0] Y: [1] Output: 0.9898611022244277
X: [0 1] Y: [1] Output: 0.9898601642066952
X: [0 0] Y: [0] Output: 0.025326267414769028


## 3. 세번째 신경망 네트워크 : (3) XOR

In [10]:
# (1) 세번째 신경망 네트워크 : XOR
import numpy as np
x = np.array([[1,1], [1,0], [0,1], [0,0]])
y = np.array([[0], [1], [1], [0]])
w = tf.random.normal([2],0,1)
b = tf.random.normal([1],0,1)
b_x = 1

for i in range(2000):
    error_sum = 0
    for j in range(4):
        output = sigmoid(np.sum(x[j]*w)+b_x*b)
        error = y[j][0] - output
        w = w + x[j] * 0.1 * error
        b = b + b_x * 0.1 * error
        error_sum += error
        
    if i % 200 == 199:
        print(i, error_sum)

199 0.004100338290069838
399 0.00016667215847199213
599 6.776512051942518e-06
799 2.671139394117006e-07
999 3.7228422566926156e-09
1199 1.8614210173240053e-09
1399 1.8614210173240053e-09
1599 1.8614210173240053e-09
1799 1.8614210173240053e-09
1999 1.8614210173240053e-09


In [11]:
# (2) XOR 네트워크의 평가
for i in range(4):
    print('X:', x[i], 'Y:', y[i], 'Output:', sigmoid(np.sum(x[i]*w)+b))

X: [1 1] Y: [0] Output: 0.5128176323940516
X: [1 0] Y: [1] Output: 0.5128176314633411
X: [0 1] Y: [1] Output: 0.4999999990686774
X: [0 0] Y: [0] Output: 0.49999999813735485


In [12]:
# (3) XOR 네트워크의 w, b 값 확인
print('w:', w)
print('b:', b)


w: tf.Tensor([5.1281769e-02 3.7252903e-09], shape=(2,), dtype=float32)
b: tf.Tensor([-7.450581e-09], shape=(1,), dtype=float32)


[ 결과 분석 ] 

1. w는 약 0.512, 0.000000003725 이고, b는 -0.000000000745 이다.

    w에 x값들이 순차적으로 곱해지기 때문에 첫번째 입력값이 두번째입력보다 큰 영향을 끼치고
    편향(b)는 두번째 입력과 미슷하게 거의 영향이 없는 것을 알 수 있다.
    
2. 결과 output을 보면 별 차이가 없음을 알 수 있다  


* 인공지능(퍼셉트론)에서의 XOR 문제  
<img src='./imgs/xor.jpg' width='500' height='300'>
<img src='./imgs/xor2.jpg' width='500' height='300'>

[출처] [모두의 딥러닝](https://thebook.io/080228/part03/ch06/03/)

