In [2]:
import numpy as np

X = np.array([ [0,0,1],[0,1,1],[1,0,1],[1,1,1] ])
y = np.array([[0,1,1,0]]).T

alpha,hidden_dim= (0.5,4)
synapse_0 = 2*np.random.random((3,hidden_dim))-1
synapse_1 = 2*np.random.random((hidden_dim,1))-1

for j in range(60000):
    layer_1 = 1/(1+np.exp(-(np.dot(X, synapse_0))))
    layer_2 = 1/(1+np.exp(-(np.dot(layer_1, synapse_1))))
    layer_2_delta = (layer_2-y)*(layer_2*(1-layer_2))
    layer_1_delta = layer_2_delta.dot(synapse_1.T)*(layer_1*(1-layer_1))
    synapse_1 -= (alpha * layer_1.T.dot(layer_2_delta))
    synapse_0 -= (alpha * X.T.dot(layer_1_delta))
    
print (synapse_0)


[[ 0.67629417 -7.11479458  4.04852302 -4.10503491]
 [-2.99234148 -6.24137877 -2.65828596 -5.54768534]
 [ 0.38732895  2.87492023  2.07001904  7.05634777]]


In [16]:
import numpy as np # 1번째 줄

# 시그모이드 비선형을 계산한다. 
def sigmoid(x): # 4번째 줄
    output = 1/(1+np.exp(-x)) # 5번째 줄
    return output # 6번째 줄

# 시그모이드 함수 결과값을 미분값으로 전환하기.
def sigmoid_output_to_derivative(output): # 9번째 줄
    return output*(1-output)

# 인풋 데이터 셋
X = np.array([ [0,1], # 13번째 줄
                [0,1],
                [1,0],
                [1,0] ])

# 결과 데이터 셋
y = np.array([[0,0,1,1]]).T # 19번째 줄 

# 실험의 편의를 위해 항상 같은 값이 나오게 함
np.random.seed(1) # 23번째 줄

# 웨이트들을 평균 0인 수들로 무작위로 초기화
synapse_0 = 2*np.random.random((2,1))-1 # 26번째 줄

for iter in range(10000): # 28번째 줄

    # 먼저 전파하기 # 30번째줄
    layer_0 = X 
    layer_1 = sigmoid(np.dot(layer_0, synapse_0))
                      
    # 얼마나 놓쳤을까? # 34번째줄
    layer_1_error = layer_1 - y

    # l1 안에서 값에서의 시그모이드 경사와 놓친 값들을 곱해주기 # 37번째 줄
    layer_1_delta = layer_1_error * sigmoid_output_to_derivative(layer_1) # 39번째 줄
    synapse_0_derivative = np.dot(layer_0.T, layer_1_delta)

    # 웨이트 업데이트
    synapse_0 -= synapse_0_derivative

print ('트레이닝 후 결과는')
print (layer_1)


트레이닝 후 결과는
[[ 0.00505119]
 [ 0.00505119]
 [ 0.99494905]
 [ 0.99494905]]


In [None]:
import numpy as np

alphas = [0.001, 0.01, 0.1, 1, 10, 100, 1000]

# 시그모이드 비선형성을 사용해서 계산한다. 

def sigmoid(x): 
    output = 1/(1+np.exp(-x))
    return output

# 시그모이드 함수의 결과값을 이용해 미분값으로 변환한다. 

def sigmoid_output_to_derivative(output):
    return output*(1-output)

X = np.array([[0,0,1],
             [0,1,1],
              [1,0,1],
              [1,1,1]
             ])

y = np.array([[0],
             [1],
             [1],
             [0]])

for alpha in alphas:
    print ("\n알파값을 이용한 트레이닝 "+ str(alpha))
    np.random.seed(1)

    # 랜덤적으로 웨이트값들을 평균 0으로 초기화시킨다.
    synapse_0 = 2*np.random.random((3,4)) - 1 
    synapse_1 = 2*np.random.random((4,1)) - 1
    
    for j in range(60000):
        # 레이어 0, 1, 2로 값을 준다.
        layer_0 = X
        layer_1 = sigmoid(np.dot(layer_0, synapse_0)) 
        layer_2 = sigmoid(np.dot(layer_1, synapse_1))
        
        # 얼마나 놓쳤을까?
        layer_2_error = layer_2 - y
        
        if (j%10000) == 0:
            print ("에러 후 " + str(j) + "반복 횟수" + str(np.mean(np.abs(layer_2_error))))
        
        # 타겟 내의 방향은 무엇인가요?
        # 정말 확신할 수 있나요? 그렇다면 많이 바꾸면 안된다. 
        
        layer_2_delta = layer_2_error*sigmoid_output_to_derivative(layer_2)
        
        
        # (웨이트에 따르면) 얼마나 각각의 l1 값들은 l2에러에 기여했을까? 
        layer_1_error = layer_2_delta.dot(synapse_1.T)
        
        # l1 타겟 내의 방향은 무엇인가요?
        # 정말 확신할 수 있나요?
        
        layer_1_delta = layer_1_error * sigmoid_output_to_derivative(layer_1)
        
        ##### 여기가 중요!!! 바뀐 부분
        synapse_1 -= alpha * (layer_1.T.dot(layer_2_delta))
        synapse_0 -= alpha * (layer_0.T.dot(layer_1_delta))
        
       
        

In [3]:
import numpy as np

alphas = [0.001, 0.01, 0.1, 1, 10, 100, 1000]

# 시그모이드 비선형성을 사용해서 계산한다. 
def sigmoid(x): 
    output = 1/(1+np.exp(-x))
    return output

# 시그모이드 함수의 결과값을 이용해 미분값으로 변환한다. 
def sigmoid_output_to_derivative(output):
    return output*(1-output)

X = np.array([[0,0,1],
             [0,1,1],
              [1,0,1],
              [1,1,1]
             ])

y = np.array([[0],
             [1],
             [1],
             [0]])

for alpha in alphas:
    print ("\n알파값을 이용한 트레이닝 "+ str(alpha))
    np.random.seed(1)
    
    # 랜덤적으로 웨이트값들을 평균 0으로 초기화시킨다.
    synapse_0 = 2*np.random.random((3,4)) - 1 
    synapse_1 = 2*np.random.random((4,1)) - 1
    
    prev_synapse_0_weight_update = np.zeros_like(synapse_0)
    prev_synapse_1_weight_update = np.zeros_like(synapse_1)
    
    synapse_0_direction_count = np.zeros_like(synapse_0)
    synapse_1_direction_count = np.zeros_like(synapse_1)
    
    for j in range(60000):
        # 레이어 0, 1, 2로 값을 준다.
        layer_0 = X
        layer_1 = sigmoid(np.dot(layer_0, synapse_0)) 
        layer_2 = sigmoid(np.dot(layer_1, synapse_1))
        
        # 얼마나 target 값들을 놓쳤을까?
        layer_2_error = y - layer_2
        
        if (j%10000) == 0:
            print ( "에러: " + str(np.mean(np.abs(layer_2_error))) ) 
        
    
        # 타겟 내의 방향은 무엇일까?
        # 우리가 정말 맞을까? 만약, 그렇다면 많이 바꾸지 않아야한다. 
        layer_2_delta = layer_2_error * sigmoid_output_to_derivative(layer_2)
    
        # (웨이트에 의하면) 각각의 l1 값들은 얼마나 l2에러에 영향을 미쳤을까?
        layer_1_error = layer_2_delta.dot(synapse_1.T)
        
        # 타겟 l1 내의 방향은 무엇일까?
        # 우리가 정말 맞을까? 만약, 그렇다면 많이 바꾸지 않아야한다. 
        layer_1_delta = layer_1_error * sigmoid_output_to_derivative(layer_1)
        
        synapse_1_weight_update = (layer_1.T.dot(layer_2_delta))
        synapse_0_weight_update = (layer_0.T.dot(layer_1_delta))
    

        if (j > 0):
            synapse_0_direction_count += np.abs(((synapse_0_weight_update > 0)+0) - ((prev_synapse_0_weight_update > 0) + 0))
            synapse_1_direction_count += np.abs(((synapse_1_weight_update > 0)+0) - ((prev_synapse_1_weight_update > 0) + 0))  
            
        synapse_1 += alpha * synapse_1_weight_update
        synapse_0 += alpha * synapse_0_weight_update
        
        prev_synapse_0_weight_update = synapse_0_weight_update
        prev_synapse_1_weight_update = synapse_1_weight_update
        
    print ("synaspe 0은 \n", synapse_0)
    
    print ("synapse 0 방향변화를 업데이트하면, \n", synapse_0_direction_count)
    
    print ("Synapse 1은 \n ", synapse_1)
    
    print ("synapse 1 방향변화를 업데이트하면, \n ", synapse_1_direction_count)


알파값을 이용한 트레이닝 0.001
에러: 0.496410031903
에러: 0.495164025493
에러: 0.493596043188
에러: 0.491606358559
에러: 0.489100166544
에러: 0.485977857846
synaspe 0은 
 [[-0.28448441  0.32471214 -1.53496167 -0.47594822]
 [-0.7550616  -1.04593014 -1.45446052 -0.32606771]
 [-0.2594825  -0.13487028 -0.29722666  0.40028038]]
synapse 0 방향변화를 업데이트하면, 
 [[ 0.  0.  0.  0.]
 [ 0.  0.  0.  0.]
 [ 1.  0.  1.  1.]]
Synapse 1은 
  [[-0.61957526]
 [ 0.76414675]
 [-1.49797046]
 [ 0.40734574]]
synapse 1 방향변화를 업데이트하면, 
  [[ 1.]
 [ 1.]
 [ 0.]
 [ 1.]]

알파값을 이용한 트레이닝 0.01
에러: 0.496410031903
에러: 0.457431074442
에러: 0.359097202563
에러: 0.239358137159
에러: 0.143070659013
에러: 0.0985964298089
synaspe 0은 
 [[ 2.39225985  2.56885428 -5.38289334 -3.29231397]
 [-0.35379718 -4.6509363  -5.67005693 -1.74287864]
 [-0.15431323 -1.17147894  1.97979367  3.44633281]]
synapse 0 방향변화를 업데이트하면, 
 [[ 1.  1.  0.  0.]
 [ 2.  0.  0.  2.]
 [ 4.  2.  1.  1.]]
Synapse 1은 
  [[-3.70045078]
 [ 4.57578637]
 [-7.63362462]
 [ 4.73787613]]
synapse 1 방향변화를 업데이트하면

In [1]:
import numpy as np

alphas = [0.001, 0.01, 0.1, 1, 10, 100, 1000]
hiddenSize = 32

# 시그모이드 비선형성을 사용해서 계산한다. 
def sigmoid(x): 
    output = 1/(1+np.exp(-x))
    return output

# 시그모이드 함수의 결과값을 이용해 미분값으로 변환한다. 
def sigmoid_output_to_derivative(output):
    return output*(1-output)

X = np.array([[0,0,1],
             [0,1,1],
              [1,0,1],
              [1,1,1]
             ])

y = np.array([[0],
             [1],
             [1],
             [0]])

for alpha in alphas:
    print ("\n알파값을 이용한 트레이닝 "+ str(alpha))
    np.random.seed(1)
    
    # 랜덤적으로 웨이트값들을 평균 0으로 초기화시킨다.
    synapse_0 = 2*np.random.random((3, hiddenSize)) - 1
    synapse_1 = 2*np.random.random((hiddenSize, 1)) - 1
    
    for j in range(60000):
        # 레이어 0, 1, 2로 값을 준다.
        layer_0 = X
        layer_1 = sigmoid(np.dot(layer_0, synapse_0)) 
        layer_2 = sigmoid(np.dot(layer_1, synapse_1))
        
        # 얼마나 target 값들을 놓쳤을까?
        layer_2_error = layer_2 - y
        if (j % 10000) == 0:
            print("에러 이후 " + str(j) + " 반복 후: " + str(np.mean(np.abs(layer_2_error))))

        
        # 타겟 내의 방향은 무엇일까?
        # 우리가 정말 맞을까? 만약, 그렇다면 많이 바꾸지 않아야한다. 
        layer_2_delta = layer_2_error * sigmoid_output_to_derivative(layer_2)
        
        # (웨이트에 의하면) 각각의 l1 값들은 얼마나 l2에러에 영향을 미쳤을까?
        layer_1_error = layer_2_delta.dot(synapse_1.T)
        
        # 타겟 l1 내의 방향은 무엇일까?
        # 우리가 정말 맞을까? 만약, 그렇다면 많이 바꾸지 않아야한다. 
        layer_1_delta = layer_1_error * sigmoid_output_to_derivative(layer_1)
        
        synapse_1 -= alpha * (layer_1.T.dot(layer_2_delta))
        synapse_0 -= alpha * (layer_0.T.dot(layer_1_delta))
        
    


알파값을 이용한 트레이닝 0.001
에러 이후 0 반복 후: 0.496439922501
에러 이후 10000 반복 후: 0.491049468129
에러 이후 20000 반복 후: 0.484976307027
에러 이후 30000 반복 후: 0.477830678793
에러 이후 40000 반복 후: 0.46903846539
에러 이후 50000 반복 후: 0.458029258565

알파값을 이용한 트레이닝 0.01
에러 이후 0 반복 후: 0.496439922501
에러 이후 10000 반복 후: 0.356379061648
에러 이후 20000 반복 후: 0.146939845465
에러 이후 30000 반복 후: 0.0880156127416
에러 이후 40000 반복 후: 0.065147819275
에러 이후 50000 반복 후: 0.0529658087026

알파값을 이용한 트레이닝 0.1
에러 이후 0 반복 후: 0.496439922501
에러 이후 10000 반복 후: 0.0305404908386
에러 이후 20000 반복 후: 0.0190638725334
에러 이후 30000 반복 후: 0.0147643907296
에러 이후 40000 반복 후: 0.0123892429905
에러 이후 50000 반복 후: 0.0108421669738

알파값을 이용한 트레이닝 1
에러 이후 0 반복 후: 0.496439922501
에러 이후 10000 반복 후: 0.00736052234249
에러 이후 20000 반복 후: 0.00497251705039
에러 이후 30000 반복 후: 0.00396863978159
에러 이후 40000 반복 후: 0.00338641021983
에러 이후 50000 반복 후: 0.00299625684932

알파값을 이용한 트레이닝 10
에러 이후 0 반복 후: 0.496439922501
에러 이후 10000 반복 후: 0.00225968506897
에러 이후 20000 반복 후: 0.00153982104092
에러 이후 30000 반복