In [1]:
import numpy as np

X = np.array([ [0,0,1],[0,1,1],[1,0,1],[1,1,1] ])
y = np.array([[0,1,1,0]]).T

alpha,hidden_dim= (0.5,4)
synapse_0 = 2*np.random.random((3,hidden_dim))-1
synapse_1 = 2*np.random.random((hidden_dim,1))-1

for j in range(60000):
    layer_1 = 1/(1+np.exp(-(np.dot(X, synapse_0))))
    layer_2 = 1/(1+np.exp(-(np.dot(layer_1, synapse_1))))
    layer_2_delta = (layer_2-y)*(layer_2*(1-layer_2))
    layer_1_delta = layer_2_delta.dot(synapse_1.T)*(layer_1*(1-layer_1))
    synapse_1 -= (alpha * layer_1.T.dot(layer_2_delta))
    synapse_0 -= (alpha * X.T.dot(layer_1_delta))
    
print (synapse_0)


[[-3.48200334 -5.97502112 -5.78805802  1.53827965]
 [ 4.84653739 -3.63623586 -7.150584    2.0106567 ]
 [ 2.63142419  6.91539118  2.85681316  0.66437678]]


## <2레이어 뉴럴네트워크>

In [2]:
import numpy as np 

# 시그모이드 비선형을 계산
def sigmoid(x): 
    output = 1/(1+np.exp(-x)) 
    return output 

# 시그모이드 함수 결과값을 미분값으로 전환
def sigmoid_output_to_derivative(output):
    return output*(1-output)

# 인풋 데이터 셋
X = np.array([ [0,1], 
                [0,1],
                [1,0],
                [1,0] ])

# 결과 데이터 셋
y = np.array([[0,0,1,1]]).T 

# 실험의 편의를 위해 항상 같은 값이 나오게 함
np.random.seed(1) 

# 웨이트들을 평균 0인 수들로 무작위로 초기화
synapse_0 = 2*np.random.random((2,1))-1 

for iter in range(10000): 

    # 먼저 전파하기 
    layer_0 = X 
    layer_1 = sigmoid(np.dot(layer_0, synapse_0))
                      
    # 얼마나 놓쳤을까? 
    layer_1_error = layer_1 - y

    # l1 안에서 값에서의 시그모이드 경사와 놓친 값들을 곱해주기 
    layer_1_delta = layer_1_error * sigmoid_output_to_derivative(layer_1) 
    synapse_0_derivative = np.dot(layer_0.T, layer_1_delta)

    # 웨이트 업데이트
    synapse_0 -= synapse_0_derivative

print ('트레이닝 후 결과는')
print (layer_1)


트레이닝 후 결과는
[[0.00505119]
 [0.00505119]
 [0.99494905]
 [0.99494905]]


##  <경사하강법 향상시키기>
#### * 현재 “x” 위치의 “경사”를 계산
#### * 맨 밑 두 줄 x 값을 경사의 -값으로 바꿈 (x=x-slope)
#### * 경사가 0이 될 때까지 반복

In [3]:
import numpy as np

alphas = [0.001, 0.01, 0.1, 1, 10, 100, 1000]

# 시그모이드 비선형성을 사용해서 계산

def sigmoid(x): 
    output = 1/(1+np.exp(-x))
    return output

# 시그모이드 함수의 결과값을 이용해 미분값으로 변환

def sigmoid_output_to_derivative(output):
    return output*(1-output)

X = np.array([[0,0,1],
             [0,1,1],
              [1,0,1],
              [1,1,1]
             ])

y = np.array([[0],
             [1],
             [1],
             [0]])

for alpha in alphas:
    print ("\n알파값을 이용한 트레이닝 "+ str(alpha))
    np.random.seed(1)

    # 랜덤적으로 웨이트값들을 평균 0으로 초기화
    synapse_0 = 2*np.random.random((3,4)) - 1 
    synapse_1 = 2*np.random.random((4,1)) - 1
    
    for j in range(60000):
        # 레이어 0, 1, 2로 값을 부여
        layer_0 = X
        layer_1 = sigmoid(np.dot(layer_0, synapse_0)) 
        layer_2 = sigmoid(np.dot(layer_1, synapse_1))
        
        # 얼마나 놓쳤을까?
        layer_2_error = layer_2 - y
        
        if (j%10000) == 0:
            print ("에러 후 " + str(j) + "반복 횟수" + str(np.mean(np.abs(layer_2_error))))
        
        # 타겟 내의 방향은 무엇인가요?
        # 정말 확신할 수 있나요? 그렇다면 많이 바꾸면 안된다. 
        
        layer_2_delta = layer_2_error*sigmoid_output_to_derivative(layer_2)
        
        
        # (웨이트에 따르면) 얼마나 각각의 l1 값들은 l2에러에 기여했을까? 
        layer_1_error = layer_2_delta.dot(synapse_1.T)
        
        # l1 타겟 내의 방향은 무엇인가요?
        # 정말 확신할 수 있나요?
        
        layer_1_delta = layer_1_error * sigmoid_output_to_derivative(layer_1)
        
        ##### 여기가 중요!!! 바뀐 부분
        synapse_1 -= alpha * (layer_1.T.dot(layer_2_delta))
        synapse_0 -= alpha * (layer_0.T.dot(layer_1_delta))
        
       
        


알파값을 이용한 트레이닝 0.001
에러 후 0반복 횟수0.49641003190272537
에러 후 10000반복 횟수0.49516402549338606
에러 후 20000반복 횟수0.4935960431880486
에러 후 30000반복 횟수0.4916063585594306
에러 후 40000반복 횟수0.48910016654420474
에러 후 50000반복 횟수0.48597785784615843

알파값을 이용한 트레이닝 0.01
에러 후 0반복 횟수0.49641003190272537
에러 후 10000반복 횟수0.45743107444190134
에러 후 20000반복 횟수0.359097202563399
에러 후 30000반복 횟수0.23935813715897253
에러 후 40000반복 횟수0.1430706590133703
에러 후 50000반복 횟수0.09859642980892719

알파값을 이용한 트레이닝 0.1
에러 후 0반복 횟수0.49641003190272537
에러 후 10000반복 횟수0.042888017000115755
에러 후 20000반복 횟수0.02409899422852161
에러 후 30000반복 횟수0.018110652146797843
에러 후 40000반복 횟수0.014987616272210912
에러 후 50000반복 횟수0.013014490538142586

알파값을 이용한 트레이닝 1
에러 후 0반복 횟수0.49641003190272537
에러 후 10000반복 횟수0.008584525653247159
에러 후 20000반복 횟수0.0057894598625078085
에러 후 30000반복 횟수0.004629176776769985
에러 후 40000반복 횟수0.003958765280273649
에러 후 50000반복 횟수0.0035101225678616766

알파값을 이용한 트레이닝 10
에러 후 0반복 횟수0.49641003190272537
에러 후 10000반복 횟수0.003129388763011837
에러 후 200

In [4]:
import numpy as np

alphas = [0.001, 0.01, 0.1, 1, 10, 100, 1000]

# 시그모이드 비선형성을 사용해서 계산
def sigmoid(x): 
    output = 1/(1+np.exp(-x))
    return output

# 시그모이드 함수의 결과값을 이용해 미분값으로 변환 
def sigmoid_output_to_derivative(output):
    return output*(1-output)

X = np.array([[0,0,1],
             [0,1,1],
              [1,0,1],
              [1,1,1]
             ])

y = np.array([[0],
             [1],
             [1],
             [0]])

for alpha in alphas:
    print ("\n알파값을 이용한 트레이닝 "+ str(alpha))
    np.random.seed(1)
    
    # 랜덤적으로 웨이트값들을 평균 0으로 초기화
    synapse_0 = 2*np.random.random((3,4)) - 1 
    synapse_1 = 2*np.random.random((4,1)) - 1
    
    prev_synapse_0_weight_update = np.zeros_like(synapse_0)
    prev_synapse_1_weight_update = np.zeros_like(synapse_1)
    
    synapse_0_direction_count = np.zeros_like(synapse_0)
    synapse_1_direction_count = np.zeros_like(synapse_1)
    
    for j in range(60000):
        # 레이어 0, 1, 2로 값을 부여
        layer_0 = X
        layer_1 = sigmoid(np.dot(layer_0, synapse_0)) 
        layer_2 = sigmoid(np.dot(layer_1, synapse_1))
        
        # 얼마나 target 값들을 놓쳤을까?
        layer_2_error = y - layer_2
        
        if (j%10000) == 0:
            print ( "에러: " + str(np.mean(np.abs(layer_2_error))) ) 
        
    
        # 타겟 내의 방향은 무엇일까?
        # 우리가 정말 맞을까? 만약, 그렇다면 많이 바꾸지 않아야한다. 
        layer_2_delta = layer_2_error * sigmoid_output_to_derivative(layer_2)
    
        # (웨이트에 의하면) 각각의 l1 값들은 얼마나 l2에러에 영향을 미쳤을까?
        layer_1_error = layer_2_delta.dot(synapse_1.T)
        
        # 타겟 l1 내의 방향은 무엇일까?
        # 우리가 정말 맞을까? 만약, 그렇다면 많이 바꾸지 않아야한다. 
        layer_1_delta = layer_1_error * sigmoid_output_to_derivative(layer_1)
        
        synapse_1_weight_update = (layer_1.T.dot(layer_2_delta))
        synapse_0_weight_update = (layer_0.T.dot(layer_1_delta))
    

        if (j > 0):
            synapse_0_direction_count += np.abs(((synapse_0_weight_update > 0)+0) - ((prev_synapse_0_weight_update > 0) + 0))
            synapse_1_direction_count += np.abs(((synapse_1_weight_update > 0)+0) - ((prev_synapse_1_weight_update > 0) + 0))  
            
        synapse_1 += alpha * synapse_1_weight_update
        synapse_0 += alpha * synapse_0_weight_update
        
        prev_synapse_0_weight_update = synapse_0_weight_update
        prev_synapse_1_weight_update = synapse_1_weight_update
        
    print ("synaspe 0은 \n", synapse_0)
    
    print ("synapse 0 방향변화를 업데이트하면, \n", synapse_0_direction_count)
    
    print ("Synapse 1은 \n ", synapse_1)
    
    print ("synapse 1 방향변화를 업데이트하면, \n ", synapse_1_direction_count)


알파값을 이용한 트레이닝 0.001
에러: 0.49641003190272537
에러: 0.49516402549338606
에러: 0.4935960431880486
에러: 0.4916063585594306
에러: 0.48910016654420474
에러: 0.48597785784615843
synaspe 0은 
 [[-0.28448441  0.32471214 -1.53496167 -0.47594822]
 [-0.7550616  -1.04593014 -1.45446052 -0.32606771]
 [-0.2594825  -0.13487028 -0.29722666  0.40028038]]
synapse 0 방향변화를 업데이트하면, 
 [[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [1. 0. 1. 1.]]
Synapse 1은 
  [[-0.61957526]
 [ 0.76414675]
 [-1.49797046]
 [ 0.40734574]]
synapse 1 방향변화를 업데이트하면, 
  [[1.]
 [1.]
 [0.]
 [1.]]

알파값을 이용한 트레이닝 0.01
에러: 0.49641003190272537
에러: 0.45743107444190134
에러: 0.359097202563399
에러: 0.23935813715897253
에러: 0.1430706590133703
에러: 0.09859642980892719
synaspe 0은 
 [[ 2.39225985  2.56885428 -5.38289334 -3.29231397]
 [-0.35379718 -4.6509363  -5.67005693 -1.74287864]
 [-0.15431323 -1.17147894  1.97979367  3.44633281]]
synapse 0 방향변화를 업데이트하면, 
 [[1. 1. 0. 0.]
 [2. 0. 0. 2.]
 [4. 2. 1. 1.]]
Synapse 1은 
  [[-3.70045078]
 [ 4.57578637]
 [-7.63362462]
 [ 4.7378761

## <히든 레이어의 크기들을 파라미터화 하기>

#### → 히든레이어의 크기를 키우는 것이 가능하다면, 각각의 반복 또한 수렴하는 검색범위를 증가시킬 수 있음 

#### * 알파값이 매우 작으면, 미분하더라도 방향은 거의 바뀌지 않음
#### * 알파값이 최적값이라면, 미분하면서 방향이 여러번 바뀜
#### * 알파값이 매우 커지면, 미분하면서 방향이 중간값으로 바뀜
#### * 알파값이 매우 작으면, 웨이트 또한 상당히 작아지면서 마무리됨
#### * 알파값이 매우 커지면, 웨이트 또한 매우 커짐


In [3]:
import numpy as np

alphas = [0.001, 0.01, 0.1, 1, 10, 100, 1000]
hiddenSize = 32

# 시그모이드 비선형성을 사용해서 계산
def sigmoid(x): 
    output = 1/(1+np.exp(-x))
    return output

# 시그모이드 함수의 결과값을 이용해 미분값으로 변환
def sigmoid_output_to_derivative(output):
    return output*(1-output)

X = np.array([[0,0,1],
             [0,1,1],
              [1,0,1],
              [1,1,1]
             ])

y = np.array([[0],
             [1],
             [1],
             [0]])

for alpha in alphas:
    print ("\n알파값을 이용한 트레이닝 "+ str(alpha))
    np.random.seed(1)
    
    # 랜덤적으로 웨이트값들을 평균 0으로 초기화
    synapse_0 = 2*np.random.random((3, hiddenSize)) - 1
    synapse_1 = 2*np.random.random((hiddenSize, 1)) - 1
    
    for j in range(60000):
        # 레이어 0, 1, 2로 값을 부여
        layer_0 = X
        layer_1 = sigmoid(np.dot(layer_0, synapse_0)) 
        layer_2 = sigmoid(np.dot(layer_1, synapse_1))
        
        # 얼마나 target 값들을 놓쳤을까?
        layer_2_error = layer_2 - y
        if (j % 10000) == 0:
            print("에러 이후 " + str(j) + " 반복 후: " + str(np.mean(np.abs(layer_2_error))))

        
        # 타겟 내의 방향은 무엇일까?
        # 우리가 정말 맞을까? 만약, 그렇다면 많이 바꾸지 않아야한다. 
        layer_2_delta = layer_2_error * sigmoid_output_to_derivative(layer_2)
        
        # (웨이트에 의하면) 각각의 l1 값들은 얼마나 l2에러에 영향을 미쳤을까?
        layer_1_error = layer_2_delta.dot(synapse_1.T)
        
        # 타겟 l1 내의 방향은 무엇일까?
        # 우리가 정말 맞을까? 만약, 그렇다면 많이 바꾸지 않아야한다. 
        layer_1_delta = layer_1_error * sigmoid_output_to_derivative(layer_1)
        
        synapse_1 -= alpha * (layer_1.T.dot(layer_2_delta))
        synapse_0 -= alpha * (layer_0.T.dot(layer_1_delta))
        
    


알파값을 이용한 트레이닝 0.001
에러 이후 0 반복 후: 0.49643992250078794
에러 이후 10000 반복 후: 0.49104946812904954
에러 이후 20000 반복 후: 0.4849763070274596
에러 이후 30000 반복 후: 0.4778306787926556
에러 이후 40000 반복 후: 0.4690384653902826
에러 이후 50000 반복 후: 0.458029258565275

알파값을 이용한 트레이닝 0.01
에러 이후 0 반복 후: 0.49643992250078794
에러 이후 10000 반복 후: 0.35637906164802124
에러 이후 20000 반복 후: 0.14693984546476
에러 이후 30000 반복 후: 0.08801561274158767
에러 이후 40000 반복 후: 0.06514781927504912
에러 이후 50000 반복 후: 0.052965808702569714

알파값을 이용한 트레이닝 0.1
에러 이후 0 반복 후: 0.49643992250078794
에러 이후 10000 반복 후: 0.030540490838555055
에러 이후 20000 반복 후: 0.01906387253341843
에러 이후 30000 반복 후: 0.014764390729581685
에러 이후 40000 반복 후: 0.012389242990471297
에러 이후 50000 반복 후: 0.010842166973777436

알파값을 이용한 트레이닝 1
에러 이후 0 반복 후: 0.49643992250078794
에러 이후 10000 반복 후: 0.00736052234249372
에러 이후 20000 반복 후: 0.004972517050388168
에러 이후 30000 반복 후: 0.003968639781590644
에러 이후 40000 반복 후: 0.003386410219831655
에러 이후 50000 반복 후: 0.002996256849322485

알파값을 이용한 트레이닝 10
에러 이후 0 