## 학습정리

### 18장. 신경망
* 인공신경망(artificial neural network, 신경망) : 뇌의 동작에서 영감을 받은 예측 모델
    * 뇌 : 뉴런의 집합
        * 각 뉴런이 다른 뉴런이 출력한 결과를 입력 받아 특정 연산을 수행
        * 계산 결과가 특정 임계치를 넘으면 활성화, 넘지 않으면 비활성화
    * 인공신경망 : 인공 뉴런으로 구성
        * 입력값을 받아 계산을 수행
        * 신경망의 활용분야 : 필기인식, 얼굴 인식 등 딥러닝에서 활발하게 활용
        * 대부분의 신경망은 블랙박스(black box)이다. : 어떻게 문제를 풀고 있는지 제대로 이해하기도, 학습시키기도 어려움
        * 인공지능(artificial intelligence)을 만들어 기술적 특이점(Singularity)을 앞당기고자 할 때는 신경망도 좋은 선택
  
####  18.1 퍼셉트론
* 퍼셉트론(perceptron) : n개의 이진수(binary)가 하나의 뉴런을 통과해서 가중합이 0보다 크면 활성화되는 가장 간단한 신경망 구조
    * x를 초평면(hyperplane)으로 구분된 두 개의 공간으로 분리
    * 가중치(weights)를 변경해서 여러 문제를 풀 수 있음
        * ex) 논리게이트 만들기 
        * AND게이트 : 입력값이 모두 1이면 1을 반환, 하나라도 1이 아니면 0을 반환 
        * OR 게이트 : 입력값이 1을 하나라도 갖고 있으면 1을 반환
        * NOT 게이트 : 1을 0으로, 0을 1으로 변환
        * XOR 게이트 : 1이 1개일 때 1을 반환, 나머지 0 반환 
            * 단일 퍼셉트론으로는 풀 수 없음
            * AND,OR게이트로 XOR게이트를 구할 수 있음 : or이지만 and는 아님 

####  18.2 순방향 신경망
* 인공신경망으로 뇌를 묘사하기
    * 구성 : 한 방향으로 연결된 개별 층(layer)으로 추상화하는 것이 일반적
       * 입력층(input layer) : 입력값을 받아 그대로 다음층으로 값을 전송
       * 은닉층(hidden layer)
       * 출력층(output layer)
    * 퍼셉트론과 마찬가지로 각 뉴런에는 가중치와 편향이 존재 
        * 여기서는 표현을 단순화 하기 위해 편향을 가중치 벡터 끝에 덧붙이고 항상 1의 값을 가지는 편향의 입력값을 사용
    * 각 뉴런 : 퍼셉트론과 마찬가지로 입력값과 가중치의 곱을 합함
    * 그 값에 step_function을 적용하지 않고 조금 더 부드러운 모양의 시그모이드(sigmoid)함수를 적용
        * sigmoid 함수 : step_function을 근사한 매끄러운 곡선
        * $\frac{1}{1+e^{-t}}$
        * sigmoid를 쓰는 이유 : 미적분을 사용하기 위해서는 매끄러운 함수(smooth funcion)를 사용해야함
    * 여러 뉴런으로 각 층을 구성, 여러 층으로 최종 신경망을 표현
        * 출력층 : 은닉층에서 받은 값을 '두번 째 입력값'으로 계산
        * 은닉층 : 입력의 특성(feature)을 계산, 출력층은 그 특성을 알맞게 조합 
        
####  18.3 역전파
* 각 뉴런이 어떤 역할을 하는지 알 수 없기 떄문에 신경망을 수동으로 만들지는 않음
    * 대신 데이터를 이용해서 신경망을 학습시킴
* 역전파(backpropagation) : 신경망을 학습시킬 때 일반적으로 사용되는 방법
    * 경사 하강법 또는 그 변이가 사용됨
* 역전파 과정    
    * 입력 벡터와 출력 벡터로 구성된 학습데이터가 주어졌다고 가정
        * ex) xor_network : 입력벡터 : [1,0], 출력벡터 : [1]
    * 가중치 조정 알고리즘을 학습 데이터에 수렵할 때까지 반복적으로 적용  
        1. 입력 벡터에 대해 feed_forward를 수행, 모든 뉴런의 출력값을 계산
        2. 결괏값을 알기 때문에, 오류의 제곱의 합인 손실(loss)을 계산
        3. 출력층 뉴런의 가중치에 따라 손실의 그래디언트를 계산
        4. 은닉층 뉴런의 그래디언트를 계산하기 위해 출력층의 그래디언트와 오류를 뒤로 '전파'한다
        5. 경사 하강법을 한번 진행
   
####  18.4 예시 : Fizz Buzz
* Fizz Buzz 문제 : 유명한 프로그래밍 챌린지 
    * 1부터 100까지의 숫자 중에서 
    * 3으로 나눠진다면 "fizz"를 출력
    * 5로 나눠지면 "buzz"를 출력 
    * 15로 나눠지면 "fizzbuzz"를 출력
* 신경망을 사용하기 위해서는 정수를 벡터 형태로 변환

####  18.5 더 공부해 보고 싶다면 
* 19장 딥러닝
* 텐서플로로 Fizz Buzz풀기 

## code

In [1]:
# 퍼셉트론 : x를 초평면으로 구분된 두 공간으로 분리 
from typing import List
import numpy as np
Vector = List[float]

def step_function(x: float) -> float :
    return 1.0 if x >= 0 else 0.0             # 0보다 클때 1 아니면 0 출력

def perceptron_output(weights : Vector, bias : float, x: Vector) -> float :
    """퍼셉트론이 활성화 되면 1, 아니면 0을 반환"""
    calculation = np.dot(weights, x) + bias      # c = wx + b 
    return step_function(calculation)            # c가 0보다 크면 1 아니면 0 


In [2]:
# AND 게이트 : 입력값이 모두 1이면 1을 반환, 하나라도 1이 아니면 0을 반환 
and_weights = [2.,2]
and_bias = -3.
print(perceptron_output(and_weights, and_bias, [1,1]))  # 2+2-3 =1
print(perceptron_output(and_weights, and_bias, [0,1]))  # 2+0-3 =-1 : 0출력
print(perceptron_output(and_weights, and_bias, [1,0]))  # -1 : 0
print(perceptron_output(and_weights, and_bias, [0,0]))  # -3 : 0

1.0
0.0
0.0
0.0


In [3]:
# OR 게이트 : 입력값이 1을 하나라도 갖고 있으면 1을 반환
or_weights = [2.,2]
or_bias = -1.
print(perceptron_output(or_weights, or_bias, [1,1]))  
print(perceptron_output(or_weights, or_bias, [0,1])) 
print(perceptron_output(or_weights, or_bias, [1,0])) 
print(perceptron_output(or_weights, or_bias, [0,0])) 

1.0
1.0
1.0
0.0


In [5]:
# NOT 게이트 : 1을 0으로, 0을 1으로 변환
not_weights = [-2.]
not_bias = 1.

print(perceptron_output(not_weights, not_bias, [0]))
print(perceptron_output(not_weights, not_bias, [1]))

1.0
0.0


In [7]:
# 논리 게이트를 만들기 위해 꼭 뉴런을 사용할 필요는 없음 
# XOR 게이트 : 1이 1개일 때 1을 반환, 나머지 0 반환
and_gate = min
or_gate = max
xor_gate = lambda x,y : 0 if x == y else 1


In [8]:
# sigmoid
import math

def sigmoid(t: float) -> float :
    return 1/ (1 + math.exp(-t))

def neuron_output(weights : Vector, inputs : Vector) -> float :
    # weights에는 편향이 포함, inputs는 1을 포함 -> wx+b -> dot[w,b]*[x,1] 
    return sigmoid(np.dot(weights, inputs))


In [6]:
# 신경망 구현
def feed_forward(neural_network : List[List[Vector]], input_vector : Vector) -> List[Vector] :
    """신경망에 입력 벡터를 전달, 모든 층의 결괏값을 반환"""
    outputs : List[Vector] = []
    
    for layer in neural_network :
        input_with_bias = input_vector + [1]
        output = [neuron_output(neuron, input_with_bias) for neuron in layer]
        outputs.append(output)
        
        # 이번 층의 결괏값은 다음 층의 입력값이 됨
        input_vector = output
    return outputs


In [17]:
[1,1]+[1]

[1, 1, 1]

In [16]:
# XOR게이트 구현
# neuron_output이 0또는 1에 아주 가까운 값을 가질 수 있도록 가중치의 크기를 키워줌
                                            
xor_network = [# 은닉층
                [[20., 20, -30],  # and 뉴런
                [20., 20, -10]],  # or 뉴런
              # 출력층  
              [[-60., 60, -30]]] # 1번째 입력값이 아닌 2번째 입력값을 받는 뉴런

# 순방향 신경망은 모든 층에 대한 결과를 계산하기 때문에
# [-1] (마지막 항)은 '최종 결과'를, [0]은 해당 벡터에서 '값'을 반환
print(feed_forward(xor_network, input_vector = [0,0])[-1][0]) # 0
print(feed_forward(xor_network, input_vector = [1,0])[-1][0]) # 1  
print(feed_forward(xor_network, input_vector = [0,1])[-1][0]) # 1
print(feed_forward(xor_network, input_vector = [1,1])[-1][0]) # 0

9.38314668300676e-14
0.9999999999999059
0.9999999999999059
9.383146683006828e-14


In [43]:
# gradient 계산 함수

def sqerror_gradients(network : List[List[Vector]], 
                      input_vector : Vector, 
                      target_vector : Vector) -> List[List[Vector]] :
    """신경망, 입력 벡터, 출력 벡터가 주어졌다고 가정,
    예측값을 출력, 가중치에 대한 loss의 제곱으로 그래디언트를 계산 """
    
    # 순방향 전파
    hidden_outputs, outputs = feed_forward(network, input_vector)
    
    # 함수를 적용하기 전 출력층 뉴런의 가중치에 따른 그래디언트
    output_deltas = [output*(1-output)*(output-target)
                    for output,target in zip(outputs,target_vector)]
    
    # 출력층 뉴런의 가중치에 따른 그래디언트
    output_grads = [[output_deltas[i]*hidden_output
                    for hidden_output in hidden_outputs + [1]]
                   for i, output_neuron in enumerate(network[-1])]
    
    # 함수를 적용하기 전 은닉층 뉴런의 가중치에 따른 그래디언트 
    hidden_deltas = [hidden_output*(1-hidden_output)*
                     np.dot(output_deltas,[n[i] for n in network[-1]])
                    for i, hidden_output in enumerate(hidden_outputs)]
    
    # 은닉층 뉴런의 가중치에 대한 그래디언트
    hidden_grads = [[hidden_deltas[i]*input for input in input_vector +[1]]
                   for i, hidden_neuron in enumerate(network[0])]

    return [hidden_grads, output_grads]


In [22]:
# 신경망 학습시키기 XOR네트워크사용
import random
random.seed(0)
# 학습 데이터
xs = [[0.,0],[0.,1],[1.,0],[1.,1]]
ys = [[0.],[1.],[1.],[0.]]

# 임의의 가중치로 네트워크를 초기화
network = [# 은닉층 : 2개 입력 -> 2개 출력
            [[random.random() for _ in range(2+1)],[random.random() for _ in range(2+1)]],
             # 출력층 : 2개 입력 -> 1개 출력
             [[random.random() for _ in range(2+1)]]]
    

In [44]:
# gradient_step
def gradient_step(v: Vector, gradient: Vector, step_size : float) -> Vector :
    """v에서 step_size만큼 이동하기"""
    step = np.dot(step_size, gradient)
    return np.sum([v,step],axis = 0) # add(v,step)

In [46]:
# 경사 하강법으로 신경망을 학습
# 파라미터 벡터 별로 그래디언트가 존재하기 때문에 각가에 대해 gradient_step을 호출
from typing import Callable
import tqdm
learning_rate = 1.0
# 네트워크 학습
for epoch in tqdm.trange(20000, desc="neural net for xor") :
    for x,y in zip(xs,ys) :
        gradients = sqerror_gradients(network, x, y)
        # 각 층의 각 뉴런에 대해 gradient step을 취한다
        network = [[gradient_step(neuron, grad, -learning_rate)
                   for neuron,grad in zip(layer, layer_grad)]
                  for layer, layer_grad in zip(network,gradients)]
        

neural net for xor: 100%|██████████| 20000/20000 [00:05<00:00, 3590.81it/s]


In [47]:
# XOR
print(feed_forward(network, input_vector = [0,0])[-1][0]) # 0
print(feed_forward(network, input_vector = [1,0])[-1][0]) # 1  
print(feed_forward(network, input_vector = [0,1])[-1][0]) # 1
print(feed_forward(network, input_vector = [1,1])[-1][0]) # 0

0.009033699537611711
0.9923280275107558
0.9923292625479107
0.007855695468228051


In [48]:
#최종 학습된 신경망
network

[[array([ 6.95350561,  6.95278579, -3.1484762 ]),
  array([ 5.11589944,  5.11540788, -7.83960343])],
 [array([ 10.96170583, -11.63060535,  -5.14422906])]]

In [50]:
# Fizz Buzz문제 
# 출력 값을 벡터 형태로 변환
# 4가지 출력값이 있기 떄문에 0,1로 이루어진 4차원 벡터 생성 
def fizz_buzz_encode(x : int) -> Vector :
    if x % 15 == 0 :
        return [0,0,0,1]       # fizzbuzz
    elif x % 5 == 0 :
        return [0,0,1,0]       # buzz
    elif x % 3 == 0 :
        return [0,1,0,0]       # fizz
    else:
        return [1,0,0,0]


In [52]:
print(fizz_buzz_encode(2))
print(fizz_buzz_encode(6))
print(fizz_buzz_encode(10))
print(fizz_buzz_encode(30))

[1, 0, 0, 0]
[0, 1, 0, 0]
[0, 0, 1, 0]
[0, 0, 0, 1]


In [51]:
# 입력값 변환 : 각 입력값을 이진수로 표현
def binary_encode(x : int) -> Vector :
    binary : List[float] = []
    
    for i in range(10) :
        binary.append(x % 2)
        x = x // 2
    
    return binary


In [53]:
print(binary_encode(0))
print(binary_encode(1))
print(binary_encode(10))
print(binary_encode(101))
print(binary_encode(999))

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[1, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[0, 1, 0, 1, 0, 0, 0, 0, 0, 0]
[1, 0, 1, 0, 0, 1, 1, 0, 0, 0]
[1, 1, 1, 0, 0, 1, 1, 1, 1, 1]


In [54]:
# 1 부터 100까지의 숫자에 대해 결과를 산출하는 것이 목표
# 101부터 1023(10개의 이진수로 표현할 수 있는 가장 큰 수)로 학습
xs = [binary_encode(n) for n in range(101,1024)]
ys = [fizz_buzz_encode(n) for n in range(101,1024)]

In [56]:
# 임의의 가중치로 초기화 된 신경망 생성
# 10개의 입력뉴런(10차원 벡터)과 4개의 출력 뉴런(4차원 벡터)
# 은닉층은 25개 뉴런으로 구성, 차원을 쉽게 바꿀 수 있도록 변수로 생성

NUM_HIDDEN = 25

network = [ 
    # 은닉층 : 10개 입력 -> NUM_HIDDEN 출력
    [[random.random() for _ in range(10 + 1)] for _ in range(NUM_HIDDEN)],
    
    # 출력층 : NUM_HIDDEN 입력 -> 4개 출력
    [[random.random() for _ in range(NUM_HIDDEN + 1)] for _ in range(4)]]


In [57]:
# 학습과정에서 오차 제곱의 합을 계산 
# squared distance(a,b) : scipy.distance.euclidean(a,b)
from scipy.spatial import distance

learning_rate = 1.0

with tqdm.trange(500) as t :
    for epoch in t:
        epoch_loss = 0.0
        
        for x,y in zip(xs,ys) :
            predicted = feed_forward(network, x)[-1]
            epoch_loss += distance.euclidean(predicted, y)
            gradients = sqerror_gradients(network, x, y)
            
            # 각 층의 각 뉴런에 대해 매 그래디언트 만큼 이동
            network = [[gradient_step(neuron, grad, -learning_rate)
                       for neuron, grad in zip(layer, layer_grad)]
                      for layer, layer_grad in zip(network, gradients)]
        
        t.set_description(f"fizz buzz (loss : {epoch_loss : .2f})")
        

fizz buzz (loss :  58.79): 100%|██████████| 500/500 [05:29<00:00,  1.52it/s] 


In [58]:
# 리스트 안의 가장 큰 값의 인덱스를 반환해서 하나의 예측값으로 출력해야함
def argmax(xs : list) -> float :
    """최댓값의 인덱스를 반환"""
    return max(range(len(xs)), key = lambda i : xs[i])


In [59]:
print(argmax([0,-1]))
print(argmax([-1,0]))
print(argmax([-1,10,5,20,-3]))

0
1
3


In [62]:
# 예측
num_correct = 0
for n in range(1,101) :
    x = binary_encode(n)
    predicted = argmax(feed_forward(network, x)[-1])
    actual = argmax(fizz_buzz_encode(n))
    labels = [str(n), "fizz","buzz","fizpredicted"]
    print(n,labels[predicted], labels[actual])
    
    if predicted == actual :
        num_correct += 1
    
print(num_correct, "/", 100)

1 1 1
2 2 2
3 fizz fizz
4 4 4
5 buzz buzz
6 fizz fizz
7 7 7
8 8 8
9 fizz fizz
10 buzz buzz
11 11 11
12 fizz fizz
13 13 13
14 14 14
15 fizpredicted fizpredicted
16 16 16
17 17 17
18 fizz fizz
19 19 19
20 buzz buzz
21 fizz fizz
22 22 22
23 23 23
24 fizz fizz
25 buzz buzz
26 26 26
27 fizz fizz
28 28 28
29 29 29
30 fizpredicted fizpredicted
31 31 31
32 32 32
33 fizz fizz
34 34 34
35 buzz buzz
36 fizz fizz
37 37 37
38 38 38
39 fizz fizz
40 buzz buzz
41 41 41
42 fizz fizz
43 43 43
44 44 44
45 fizpredicted fizpredicted
46 46 46
47 47 47
48 fizz fizz
49 49 49
50 buzz buzz
51 fizz fizz
52 52 52
53 53 53
54 fizz fizz
55 buzz buzz
56 56 56
57 fizz fizz
58 58 58
59 59 59
60 fizpredicted fizpredicted
61 61 61
62 62 62
63 fizz fizz
64 64 64
65 buzz buzz
66 fizz fizz
67 67 67
68 68 68
69 fizz fizz
70 buzz buzz
71 71 71
72 fizz fizz
73 73 73
74 74 74
75 fizpredicted fizpredicted
76 76 76
77 buzz 77
78 fizz fizz
79 79 79
80 buzz buzz
81 fizz fizz
82 82 82
83 83 83
84 fizz fizz
85 85 buzz
86 86 86
87 fi