# 딥러닝을 이용해서 XOR 문제 해결

### external function (sigmoid, numerical_derivative)

In [1]:
import numpy as np

In [2]:
# 시그모이드 함수
def sigmoid(x):
    return 1/(1+np.exp(-x))



# 수치미분 함수
def numerical_derivative(f,x): # x에 변수가 여러개
    delta_x = 1e-4
    grad = np.zeros_like(x)
    # 주어진 어레이와 같은 형태와 타입을 갖는 0으로 채워진 어레이를 반환
    # grad는 계산된 수치미분 값을 저장할 변수
    it = np.nditer(x,flags=['multi_index'],op_flags=['readwrite'])
    #  op_flags를 이용하면 기본값은 읽기 전용이지만 읽기/쓰기 또는 
    # 쓰기 전용 모드로 설정할 수 있다
    # multi_index는 뭐지..?
    while not it.finished:
        idx = it.multi_index
        
        tmp_val = x[idx]
        # x의 원본값이 변화되는 것을 막고자 임시변수 tmp_val 이라는 곳에
        # 원본값을 저장해두고 있다
        x[idx] = float(tmp_val) + delta_x
        fx1 = f(x) # f(x+delta_X)
        
        x[idx]=tmp_val - delta_x
        fx2 = f(x) # f(x-delta_X)
        grad[idx] = (fx1 - fx2) / (2*delta_x)
        
        x[idx] = tmp_val
        it.iternext()
    
    return grad

### LogicGate class

In [7]:
class LogicGate:
    def __init__(self, gate_name, xdata, tdata):
        
        self.name = gate_name
        
        # 입력 데이터, 정답 데이터 초기화
        # 입력 데이터와 정답 데이터를 처리하는 작엄을 batch 작업이라한다
        self.__xdata = xdata.reshape(4,2)
        self.__tdata = tdata.reshape(4,1)
        
        # 2층(입력층과 은닉층 사이)가중치 W, 바이어스 b 초기화
        # 한번에 입력되는 데이터 2개
        # 은닉층 노드는 6개로 가정
        self.__W2 = np.random.rand(2,6)
        self.__b2 = np.random.rand(6)
        
        # 3층(은닉층과 출력층 사이)
        # 은닉층의 노드수 : 6개
        # 출력층의 노드수 : 1개
        self.__W3 = np.random.rand(6,1)
        self.__b3 = np.random.rand(1)
        
        # 학습률 learning rate 초기화
        self.__learning_rate = 1e-2
        
        print(self.name + " object is created")
        
    def feed_forward(self):
        delta = 1e-7
        z2 = np.dot(self.__xdata, self.__W2) + self.__b2
        a2 = sigmoid(z2)
        
        z2 = np.dot(a2, self.__W3) + self.__b3
        y = a3 = sigmoid(z2)
        
        #cross - entropy
        return -np.sum(self.__tdata*np.log(y+delta)+(1-self.__tdata)*np.log((1-y)+delta))
    
    def loss_val(self):
        delta = 1e-7
        z2 = np.dot(self.__xdata, self.__W2) + self.__b2
        a2 = sigmoid(z2)
        
        z2 = np.dot(a2, self.__W3) + self.__b3
        y = a3 = sigmoid(z2)
        
        #cross - entropy
        return -np.sum(self.__tdata*np.log(y+delta)+(1-self.__tdata)*np.log((1-y)+delta))
    
    
    def train(self):
        f = lambda x : self.feed_forward()
        print("Initial loss value = ", self.loss_val())

        for step in range(10001):

            # 은닉층이 여러개 이기 때문에 가중치와 바이어스도 여러개 초기화
            self.__W2 -= self.__learning_rate*numerical_derivative(f,self.__W2)
            self.__b2 -= self.__learning_rate*numerical_derivative(f,self.__b2)
            self.__W3 -= self.__learning_rate*numerical_derivative(f,self.__W3)
            self.__b3 -= self.__learning_rate*numerical_derivative(f,self.__b3)
            
            if(step % 400 == 0):
                print("step = ", step )
                print("loss_value = ", self.loss_val())
                    
    # 학습을 모두 마친 후, 임의의 데이터에 대해 미래 값 예측 함수
    def predict(self, x_data):

        z2=np.dot(x_data,self.__W2)+self.__b2
        a2=sigmoid(z2)
        
        z3 = np.dot(a2,self.__W3)+self.__b3
        y = a3 = sigmoid(z3)

        if y>0.5:
            result = 1
        else:
            result = 0
        return y, result

### AND GATE 검증 - 딥러닝 버전

In [6]:
# AND GATE 객체 생성 및 training

xdata = np.array([[0,0],[0,1],[1,0],[1,1]])
tdata = np.array([0,0,0,1])

and_obj = LogicGate("AND", xdata, tdata)

and_obj.train()

AND object is created
Initial loss value =  11.72063812811218
step =  0
error_value =  11.382290453642819
step =  400
error_value =  2.214157850049424
step =  800
error_value =  2.062999279987834
step =  1200
error_value =  1.8482319764911073
step =  1600
error_value =  1.5552401042747799
step =  2000
error_value =  1.213283503213511
step =  2400
error_value =  0.8907881089631187
step =  2800
error_value =  0.6440247348054849
step =  3200
error_value =  0.4744899228369944
step =  3600
error_value =  0.3604872998410315
step =  4000
error_value =  0.28261810600467996
step =  4400
error_value =  0.22791469852654195
step =  4800
error_value =  0.18830101368044944
step =  5200
error_value =  0.15877851741368276
step =  5600
error_value =  0.13620035694685537
step =  6000
error_value =  0.11853507655608056
step =  6400
error_value =  0.1044353613326193
step =  6800
error_value =  0.09298377074517661
step =  7200
error_value =  0.08353997710477838
step =  7600
error_value =  0.075646824805486

In [8]:
test_data = np.array([[0,0],[0,1],[1,1],[1,0]])

for data in test_data:
    print(and_obj.predict(data))

(array([0.00018686]), 0)
(array([0.0119545]), 0)
(array([0.97804638]), 1)
(array([0.01250364]), 0)


### XOR GATE 검증 - 딥러닝 버전

In [10]:
# XOR GATE 객체 생성 및 training

xdata = np.array([[0,0],[0,1],[1,0],[1,1]])
tdata = np.array([0,1,1,0])

xor_obj = LogicGate("XOR", xdata, tdata)

xor_obj.train()

XOR object is created
Initial loss value =  5.696271135977234
step =  0
loss_value =  5.565936624381372
step =  400
loss_value =  2.7672290875993824
step =  800
loss_value =  2.761450680901325
step =  1200
loss_value =  2.7544318131820393
step =  1600
loss_value =  2.745376074362542
step =  2000
loss_value =  2.7332099558562573
step =  2400
loss_value =  2.716487234023885
step =  2800
loss_value =  2.6933098232983728
step =  3200
loss_value =  2.661315312731451
step =  3600
loss_value =  2.6178704120010563
step =  4000
loss_value =  2.560739521405524
step =  4400
loss_value =  2.489353155586027
step =  4800
loss_value =  2.405934957807067
step =  5200
loss_value =  2.31504189788566
step =  5600
loss_value =  2.2214156701263663
step =  6000
loss_value =  2.12794322081186
step =  6400
loss_value =  2.034989393731674
step =  6800
loss_value =  1.9407043922006018
step =  7200
loss_value =  1.8414790761196458
step =  7600
loss_value =  1.7325132458593555
step =  8000
loss_value =  1.6095547

In [11]:
test_data = np.array([[0,0],[0,1],[1,0],[1,1]])

for data in test_data:
    print(xor_obj.predict(data))

(array([0.11477826]), 0)
(array([0.77895381]), 1)
(array([0.81603716]), 1)
(array([0.29210625]), 0)
