In [1]:
import tensorflow as tf
import math
import numpy as np

print(tf.__version__)

2.10.0


#### OR연산 텐서플로로 네트워크 구축하기

In [2]:
def sigmoid(x):
    return 1 / (1 + math.exp(-x))

In [3]:
# OR 연산은 입력값 둘 중의 하나만 True여도 출력값이 True인 연산이다.
# x = [[1,1],[1,0],[0,1],[0,0]] --> y = [[1],[1],[1],[0]] 
# 입력값이 2차원이므로 가중치역시 2차원이다. 절편은 그냥 1차원이고 1로 한다.
# 활성화함수로 sigmoid를 사용한다.

x = np.array([[1,1],[1,0],[0,1],[0,0]])
y = np.array([[1],[1],[1],[0]])
w = tf.random.normal([2], 0, 1)
b = tf.random.normal([1], 0, 1)
b_x = 1

for i in range(2000):
    error_sum = 0
    for j in range(4):
        output = sigmoid(np.sum(x[j] * w) + b_x * b)
        error = y[j][0] - output
        w = w + x[j] * 0.1 * error
        b = b + b_x * 0.1 * error
        error_sum += error
        
    if i % 200 == 199:
        print(f"시행횟수 : {i:4d},   오차합 : {error_sum:3f}")

시행횟수 :  199,   오차합 : -0.051247
시행횟수 :  399,   오차합 : -0.026316
시행횟수 :  599,   오차합 : -0.017596
시행횟수 :  799,   오차합 : -0.013170
시행횟수 :  999,   오차합 : -0.010504
시행횟수 : 1199,   오차합 : -0.008726
시행횟수 : 1399,   오차합 : -0.007458
시행횟수 : 1599,   오차합 : -0.006509
시행횟수 : 1799,   오차합 : -0.005773
시행횟수 : 1999,   오차합 : -0.005184


In [4]:
print(f"가중치 : {[np.round(x, 4) for x in w]},   절편 : {np.round(b, 4)}")

가중치 : [8.2032, 8.1998],   절편 : [-3.6352]


In [5]:
w[0] + w[1]

<tf.Tensor: shape=(), dtype=float32, numpy=16.40298>

In [6]:
# 이렇게 학습시킨 네트워크가 정상적으로 작동하는지 평가해보자.
print(f"학습시킨 가중치 : {[np.round(x, 4) for x in w]},   편차 : {np.round(b, 4)}")

for i in range(4):
    print(f"X : {x[i]},    Y : {y[i][0]},\
    중간계산 : {np.sum(x[i]*w)+b_x*b[0]:3f},   Output : {np.round(sigmoid(np.sum(x[i] * w) + b_x * b), 5)}")

학습시킨 가중치 : [8.2032, 8.1998],   편차 : [-3.6352]
X : [1 1],    Y : 1,    중간계산 : 12.767791,   Output : 1.0
X : [1 0],    Y : 1,    중간계산 : 4.567986,   Output : 0.98973
X : [0 1],    Y : 1,    중간계산 : 4.564615,   Output : 0.98969
X : [0 0],    Y : 0,    중간계산 : -3.635190,   Output : 0.0257


#### XOR연산 텐서플로로 네트워크 구축하기

In [7]:
# XOR 연산은 입력값 둘의 값들이 다르면 출력값이 True, 같으면 출력값이 False인 연산이다.
# x = [[1,1],[1,0],[0,1],[0,0]] --> y = [[1],[1],[1],[0]] 
# 입력값이 2차원이므로 가중치역시 2차원이다. 절편은 그냥 1차원이고 1로 한다.
# 활성화함수로 sigmoid를 사용한다.

x = np.array([[1,1],[1,0],[0,1],[0,0]])
y = np.array([[0],[1],[1],[0]])
w = tf.random.normal([2], 0, 1)
b = tf.random.normal([1], 0, 1)
b_x = 1

for i in range(2000):
    error_sum = 0
    for j in range(4):
        output = sigmoid(np.sum(x[j] * w) + b_x * b)
        error = y[j][0] - output
        w = w + x[j] * 0.1 * error
        b = b + b_x * 0.1 * error
        error_sum += error
        
    if i % 200 == 199:
        print(f"시행횟수 : {i:4d},   오차합 : {error_sum:3f}")

시행횟수 :  199,   오차합 : 0.004066
시행횟수 :  399,   오차합 : 0.000165
시행횟수 :  599,   오차합 : 0.000007
시행횟수 :  799,   오차합 : 0.000000
시행횟수 :  999,   오차합 : 0.000000
시행횟수 : 1199,   오차합 : 0.000000
시행횟수 : 1399,   오차합 : 0.000000
시행횟수 : 1599,   오차합 : 0.000000
시행횟수 : 1799,   오차합 : 0.000000
시행횟수 : 1999,   오차합 : 0.000000


##### 위에서 보면 에러값은 점점 줄어들다가 어느 순간 변하지 않는다. 이렇게 학습시킨 네트워크를 평가하기 위해 sigmoid함수의 인자값을 중간계산이라는 이름으로 출력해보자.

In [8]:
# 이렇게 학습시킨 네트워크가 정상적으로 작동하는지 평가해보자.
print(f"학습시킨 가중치 : {[np.round(x, 4) for x in w]},   편차 : {np.round(b, 4)}")

for i in range(4):
    print(f"X : {x[i]},    Y : {y[i][0]},\
    중간계산 : {np.sum(x[i]*w)+b_x*b[0]:3f},   Output : {np.round(sigmoid(np.sum(x[i] * w) + b_x * b[0]), 5)}")

학습시킨 가중치 : [0.0513, 0.0],   편차 : [-0.]
X : [1 1],    Y : 0,    중간계산 : 0.051282,   Output : 0.51282
X : [1 0],    Y : 1,    중간계산 : 0.051282,   Output : 0.51282
X : [0 1],    Y : 1,    중간계산 : -0.000000,   Output : 0.5
X : [0 0],    Y : 0,    중간계산 : -0.000000,   Output : 0.5


##### 위의 결과값을 보면 Y와 Output값간에 큰 차이가 있어 보인다. X가 변해도 Output값은 0.5근처에서 머물고 있다. 왜 이럴까를 알아내기 위해서 가중치와 편향을 살펴보기로 하자.

In [9]:
print(f"가중치 : {[np.round(x, 5) for x in w]},   편향 : {np.round(b[0], 7)}")

가중치 : [0.05128, 0.0],   편향 : -0.0


##### 가중치의 첫번째 값이 두번째 값보다 더 큰 영향을 끼치는데 반해 두번째 값과 편향의 영향은 아주 미미함을 볼수 있다. 결과적으로 X의 첫번째 값이 1인 경우와 0인경우에 따라 중간계산값과 Output값이 달라짐을 알 수 있다.<br><br>현재의 XOR 네트워크는 어떤 일을 하려는지 명확하지 않다. 가중치 w1이 w2에 비해 좀 더 큰 값을 가지고 있기는 하지만 중간 계산값은 0에 가까워지고 sigmoid함수를 취한 값은 0.5에 가까워질 뿐입니다.<br><br>이것이 바로 첫번째 인공지능의 겨울을 불러온 것으로 잘 알려진 XOR문제(XOR Problem)이다. 하나의 퍼셉트론으로는 간단한 XOR연산자도 만들어낼 수 없다는 것을 <<Perceptron>>이라는 책에서 Marvin Minski와 Seymour Papert가 증명해냈다.<br><br>그럼 그 해결책은 무엇일까? 바로 여러 개의 퍼셉트론을 사용하는 것이다. 여러개의 퍼셉트론을 사용하면 XOR문제를 포함한 어떤 Boolean Function(정수를 넣었을 때 0 또는 1이 출력되는 함수)이든지 풀 수 있다는 것을 언급하고 있다.

##### 지금부터 세 개의 퍼셉트론과 뉴런을 사용해 보자. 코드가 복잡해지는 걸 막기 위해 tf.keras를 사용한다.

In [10]:
# 두개의 Dense layer로 구성되어 있고 그 중 첫번째 레이어에는 2개의 뉴런, 두번째 레이어에는 한개의 뉴런이 있다.
import numpy as np
x = np.array([[1,1],[1,0],[0,1],[0,0]])
y = np.array([[0],[1],[1],[0]])

# tf.keras에는 딥러닝 계산을 간편하게 하기 위한 추상적인 클래스인 model이 있다. 쉽게 말해서 딥러닝 계산을 위한 
# 함수와 변수의 묶음이라고 생각하면 된다. model은 딥러닝을 계산하는 가장 핵심적인 단위이다.
# model에서 가장 많이 사용하는 구조가 tf.keras.Sequential 구조이다. 영어의 뜻 그대로 순차적으로 뉴런과 뉴런이 
# 합쳐진 단위인 레이어를 일직선으로 배치한 것이다. 시퀀셜 네트워크 또는 시퀀셜 모델이라고 한다.

# tf.keras.layers.Dense는 model에서 사용하는 레이어를 정의하는 명령어이다. Dense는 가장 기본적인 레이어로서 
# 레이어의 입력과 출력사이에 있는 모든 뉴런이 서로 연결되는 레이어이다. 

model = tf.keras.Sequential([
    tf.keras.layers.Dense(units=2, activation='sigmoid', input_shape=(2,)),
    tf.keras.layers.Dense(units=1, activation='sigmoid')
])
