In [1]:
import tensorflow as tf
import math
import numpy as np

print(tf.__version__)

2.10.0


#### OR연산 텐서플로로 네트워크 구축하기

In [2]:
def sigmoid(x):
    return 1 / (1 + math.exp(-x))

In [3]:
# OR 연산은 입력값 둘 중의 하나만 True여도 출력값이 True인 연산이다.
# x = [[1,1],[1,0],[0,1],[0,0]] --> y = [[1],[1],[1],[0]] 
# 입력값이 2차원이므로 가중치역시 2차원이다. 절편은 그냥 1차원이고 1로 한다.
# 활성화함수로 sigmoid를 사용한다.

x = np.array([[1,1],[1,0],[0,1],[0,0]])
y = np.array([[1],[1],[1],[0]])
w = tf.random.normal([2], 0, 1)
b = tf.random.normal([1], 0, 1)
b_x = 1

for i in range(2000):
    error_sum = 0
    for j in range(4):
        output = sigmoid(np.sum(x[j] * w) + b_x * b)
        error = y[j][0] - output
        w = w + x[j] * 0.1 * error
        b = b + b_x * 0.1 * error
        error_sum += error
        
    if i % 200 == 199:
        print(f"시행횟수 : {i:4d},   오차합 : {error_sum:3f}")

시행횟수 :  199,   오차합 : -0.045140
시행횟수 :  399,   오차합 : -0.024469
시행횟수 :  599,   오차합 : -0.016728
시행횟수 :  799,   오차합 : -0.012671
시행횟수 :  999,   오차합 : -0.010182
시행횟수 : 1199,   오차합 : -0.008502
시행횟수 : 1399,   오차합 : -0.007293
시행횟수 : 1599,   오차합 : -0.006382
시행횟수 : 1799,   오차합 : -0.005673
시행횟수 : 1999,   오차합 : -0.005103


In [4]:
print(f"가중치 : {[np.round(x, 4) for x in w]},   절편 : {np.round(b, 4)}")

가중치 : [8.2327, 8.2339],   절편 : [-3.6512]


In [5]:
w[0] + w[1]

<tf.Tensor: shape=(), dtype=float32, numpy=16.466633>

In [6]:
# 이렇게 학습시킨 네트워크가 정상적으로 작동하는지 평가해보자.
print(f"학습시킨 가중치 : {[np.round(x, 4) for x in w]},   편차 : {np.round(b, 4)}")

for i in range(4):
    print(f"X : {x[i]},    Y : {y[i][0]},\
    중간계산 : {np.sum(x[i]*w)+b_x*b[0]:3f},   Output : {np.round(sigmoid(np.sum(x[i] * w) + b_x * b), 5)}")

학습시킨 가중치 : [8.2327, 8.2339],   편차 : [-3.6512]
X : [1 1],    Y : 1,    중간계산 : 12.815409,   Output : 1.0
X : [1 0],    Y : 1,    중간계산 : 4.581475,   Output : 0.98986
X : [0 1],    Y : 1,    중간계산 : 4.582708,   Output : 0.98988
X : [0 0],    Y : 0,    중간계산 : -3.651224,   Output : 0.0253


#### XOR연산 텐서플로로 네트워크 구축하기

In [7]:
# XOR 연산은 입력값 둘의 값들이 다르면 출력값이 True, 같으면 출력값이 False인 연산이다.
# x = [[1,1],[1,0],[0,1],[0,0]] --> y = [[1],[1],[1],[0]] 
# 입력값이 2차원이므로 가중치역시 2차원이다. 절편은 그냥 1차원이고 1로 한다.
# 활성화함수로 sigmoid를 사용한다.

x = np.array([[1,1],[1,0],[0,1],[0,0]])
y = np.array([[0],[1],[1],[0]])
w = tf.random.normal([2], 0, 1)
b = tf.random.normal([1], 0, 1)
b_x = 1

for i in range(2000):
    error_sum = 0
    for j in range(4):
        output = sigmoid(np.sum(x[j] * w) + b_x * b)
        error = y[j][0] - output
        w = w + x[j] * 0.1 * error
        b = b + b_x * 0.1 * error
        error_sum += error
        
    if i % 200 == 199:
        print(f"시행횟수 : {i:4d},   오차합 : {error_sum:3f}")

시행횟수 :  199,   오차합 : -0.006918
시행횟수 :  399,   오차합 : -0.000281
시행횟수 :  599,   오차합 : -0.000011
시행횟수 :  799,   오차합 : -0.000000
시행횟수 :  999,   오차합 : 0.000000
시행횟수 : 1199,   오차합 : 0.000000
시행횟수 : 1399,   오차합 : 0.000000
시행횟수 : 1599,   오차합 : 0.000000
시행횟수 : 1799,   오차합 : 0.000000
시행횟수 : 1999,   오차합 : 0.000000


##### 위에서 보면 에러값은 점점 줄어들다가 어느 순간 변하지 않는다. 이렇게 학습시킨 네트워크를 평가하기 위해 sigmoid함수의 인자값을 중간계산이라는 이름으로 출력해보자.

In [8]:
# 이렇게 학습시킨 네트워크가 정상적으로 작동하는지 평가해보자.
print(f"학습시킨 가중치 : {[np.round(x, 4) for x in w]},   편차 : {np.round(b, 4)}")

for i in range(4):
    print(f"X : {x[i]},    Y : {y[i][0]},\
    중간계산 : {np.sum(x[i]*w)+b_x*b[0]:3f},   Output : {np.round(sigmoid(np.sum(x[i] * w) + b_x * b[0]), 5)}")

학습시킨 가중치 : [0.0513, -0.0],   편차 : [0.]
X : [1 1],    Y : 0,    중간계산 : 0.051282,   Output : 0.51282
X : [1 0],    Y : 1,    중간계산 : 0.051282,   Output : 0.51282
X : [0 1],    Y : 1,    중간계산 : -0.000000,   Output : 0.5
X : [0 0],    Y : 0,    중간계산 : 0.000000,   Output : 0.5


##### 위의 결과값을 보면 Y와 Output값간에 큰 차이가 있어 보인다. X가 변해도 Output값은 0.5근처에서 머물고 있다. 왜 이럴까를 알아내기 위해서 가중치와 편향을 살펴보기로 하자.

In [9]:
print(f"가중치 : {[np.round(x, 5) for x in w]},   편향 : {np.round(b[0], 7)}")

가중치 : [0.05128, -0.0],   편향 : 0.0


##### 가중치의 첫번째 값이 두번째 값보다 더 큰 영향을 끼치는데 반해 두번째 값과 편향의 영향은 아주 미미함을 볼수 있다. 결과적으로 X의 첫번째 값이 1인 경우와 0인경우에 따라 중간계산값과 Output값이 달라짐을 알 수 있다.<br><br>현재의 XOR 네트워크는 어떤 일을 하려는지 명확하지 않다. 가중치 w1이 w2에 비해 좀 더 큰 값을 가지고 있기는 하지만 중간 계산값은 0에 가까워지고 sigmoid함수를 취한 값은 0.5에 가까워질 뿐입니다.<br><br>이것이 바로 첫번째 인공지능의 겨울을 불러온 것으로 잘 알려진 XOR문제(XOR Problem)이다. 하나의 퍼셉트론으로는 간단한 XOR연산자도 만들어낼 수 없다는 것을 <<Perceptron>>이라는 책에서 Marvin Minski와 Seymour Papert가 증명해냈다.<br><br>그럼 그 해결책은 무엇일까? 바로 여러 개의 퍼셉트론을 사용하는 것이다. 여러개의 퍼셉트론을 사용하면 XOR문제를 포함한 어떤 Boolean Function(정수를 넣었을 때 0 또는 1이 출력되는 함수)이든지 풀 수 있다는 것을 언급하고 있다.

##### 지금부터 세 개의 퍼셉트론과 뉴런을 사용해 보자. 코드가 복잡해지는 걸 막기 위해 tf.keras를 사용한다.

In [17]:
# 두개의 Dense layer로 구성되어 있고 그 중 첫번째 레이어에는 2개의 뉴런, 두번째 레이어에는 한개의 뉴런이 있다.
import numpy as np
x = np.array([[1,1],[1,0],[0,1],[0,0]])
y = np.array([[0],[1],[1],[0]])

# tf.keras에는 딥러닝 계산을 간편하게 하기 위한 추상적인 클래스인 model이 있다. 쉽게 말해서 딥러닝 계산을 위한 
# 함수와 변수의 묶음이라고 생각하면 된다. model은 딥러닝을 계산하는 가장 핵심적인 단위이다.
# model에서 가장 많이 사용하는 구조가 tf.keras.Sequential 구조이다. 영어의 뜻 그대로 순차적으로 뉴런과 뉴런이 
# 합쳐진 단위인 레이어를 일직선으로 배치한 것이다. 시퀀셜 네트워크 또는 시퀀셜 모델이라고 한다.

# tf.keras.layers.Dense는 model에서 사용하는 레이어를 정의하는 명령어이다. Dense는 가장 기본적인 레이어로서 
# 레이어의 입력과 출력사이에 있는 모든 뉴런이 서로 연결되는 레이어이다.
# units는 레이어를 구성하는 뉴런의 수를 정의한다. 뉴런이 많을수록 성능은 좋아지지만 계산량이 많아지고
# 메모리도 많이 차지하게 된다. activation은 활성화함수로서 sigmoid를 사용한다.
# input_shape는 시퀀셜 모델의 첫번째 레이어에서만 정의하는데 입력의 차원수가 어떻게 되는지를 정의한다. 
# 여기서는 각 데이터가 [1,1], [1,0]처럼 2개의 입력을 받는 1차원 array이기 때문에 (2,)가 된다(x[0].shape = (2,)).
# 네트워크 구조에서 실선으로 그려진 화살표는 가중치를 나타낸다.
# 보통 Dense레이어의 파라미터 수는 (입력측 뉴런의 수 + 1) * (출력측 뉴런의 수)이다.

model = tf.keras.Sequential([
    tf.keras.layers.Dense(units=2, activation='sigmoid', input_shape=(2,)),
    tf.keras.layers.Dense(units=1, activation='sigmoid')
])

# 다음은 model이 실제로 동작할 수 있도록 준비하는 명령어이다.
# 최적화 함수(optimizer)는 딥러닝이 학습식을 정의하는 부분이다. 원래는 미분과 복잡한 수학을 이용해야 하지만 
# tf.keras에서는 이렇게 미리 정의된 최적화 함수를 불러오는 것으로 바로 사용할 수 있다.
# SGD는 확률적 경사 하강법(Stochastic Gradient Descent)의 약자이며, 가중치를 업데이트할 때 미분을 통해 기울기를 
# 구한 다음 기울기가 낮은 쪽으로 업데이트하겠다는 뜻이고 확률적(Stochactic)은  전체를 한번에 계산하지 않고
# 확률적으로 일부 샘플을 구해서 조금씩 나눠서 계산하겠다는 뜻이다. 
# 손실(loss)은  앞에서 살펴본 error과 비슷한 개념이다. 딥러닝을 이 손실을 줄이는 방향으로 학습을 진행한다.
# mse는 평균 제곱 오차(Mean Squared Error)의 약자로서 기대출력에서 실제출력을 뺀 뒤에 제곱한 값들을 평균하는 것이다.
# 앞에서 사용했던 에러 식 error = y - output과 비슷한 기능을 한다.


##### $$Mean~Squared~Error = \frac{1}{n}{\sum_{k=1}^{n}}(y_k - output_k)^2$$

In [18]:
model.compile(optimizer=tf.keras.optimizers.SGD(learning_rate=0.1), loss='mse')

In [19]:
# 이번에 나오는 것은 현재 네트워크 구조를 알아보기 쉽게 출력하는 기능이다. 
# 실행시 에러 메시지가 표시되면 뭔가 문제가 있는 것이다.

model.summary()

Model: "sequential_1"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 dense_2 (Dense)             (None, 2)                 6         
                                                                 
 dense_3 (Dense)             (None, 1)                 3         
                                                                 
Total params: 9
Trainable params: 9
Non-trainable params: 0
_________________________________________________________________


In [20]:
# 이제 네트워크를 실제로 학습시켜볼 차례이다.
# model.fit() 함수는 앞의 예제에서 for문을 실행한 것처럼 epochs에 지정된 횟수만큼 학습시킨다.
# batch_size는 한번에 학습시키는 데이터의 수인데 여기선 1로 해서 입력을 넣었을 때 정확한 값을 출력하는지 확인한다.

history = model.fit(x, y, epochs=2000, batch_size=1)

Epoch 1/2000
Epoch 2/2000
Epoch 3/2000
Epoch 4/2000
Epoch 5/2000
Epoch 6/2000
Epoch 7/2000
Epoch 8/2000
Epoch 9/2000
Epoch 10/2000
Epoch 11/2000
Epoch 12/2000
Epoch 13/2000
Epoch 14/2000
Epoch 15/2000
Epoch 16/2000
Epoch 17/2000
Epoch 18/2000
Epoch 19/2000
Epoch 20/2000
Epoch 21/2000
Epoch 22/2000
Epoch 23/2000
Epoch 24/2000
Epoch 25/2000
Epoch 26/2000
Epoch 27/2000
Epoch 28/2000
Epoch 29/2000
Epoch 30/2000
Epoch 31/2000
Epoch 32/2000
Epoch 33/2000
Epoch 34/2000
Epoch 35/2000
Epoch 36/2000
Epoch 37/2000
Epoch 38/2000
Epoch 39/2000
Epoch 40/2000
Epoch 41/2000
Epoch 42/2000
Epoch 43/2000
Epoch 44/2000
Epoch 45/2000
Epoch 46/2000
Epoch 47/2000
Epoch 48/2000
Epoch 49/2000
Epoch 50/2000
Epoch 51/2000
Epoch 52/2000
Epoch 53/2000
Epoch 54/2000
Epoch 55/2000
Epoch 56/2000
Epoch 57/2000
Epoch 58/2000
Epoch 59/2000
Epoch 60/2000
Epoch 61/2000
Epoch 62/2000
Epoch 63/2000
Epoch 64/2000
Epoch 65/2000
Epoch 66/2000
Epoch 67/2000
Epoch 68/2000
Epoch 69/2000
Epoch 70/2000
Epoch 71/2000
Epoch 72/2000
E

In [21]:
# 학습이 끝나면 네트워크를 평가해볼 수 있다.
# model.predict() 함수에 입력을 넣으면 네트워크의 출력을 알 수 있다. 
# 첫번째와 네번째는 0에 가깝고, 두번째와 세번째는 1에 가깝게 나온걸 보면 XOR연산을 잘 수행하고 있는 걸 알 수 있다.
model.predict(x)



array([[0.09094502],
       [0.8782233 ],
       [0.90787137],
       [0.10485565]], dtype=float32)