## <b>■ 5장. 오차역전파</b>
### <b>■ 계산그래프 (p.148)</b>
    순전파와 역전파에 계산과정을 그래프로 나타내는 방법
    
    계산 그래프의 장점
        1. 국소적 계산을 할 수 있다.
        2. 국소적 계산이란 전체에 어떤 일이 벌어지든 상관없이 자신과 관련된 정보만으로 다음의 결과를 출력할 수 있다.
![fig5-4](dl_images/fig5-4(e).png)

    4000원이라는 숫자가 어떻게 계산 되었느냐와는 상관없이 
    사과가 어떻게 200원이 되었는가만 신경쓰면 된다는 것이 국소적 계산
    
### <b>■ 왜 계산 그래프로 문제를 해결하는가?</b>
    전체가 아무리 복잡해도 각 노드에서 단순한 계산에 집중하여 문제를 단순화 시킬 수 있다.
    
### <b>■ 실제로 계산 그래프를 사용하는 가장 큰 이유는?</b>
    역전파를 통해서 미분을 효율적으로 계산할 수 있는 점에 있다.
    
    활성화 함수          ->          출력층 함수           ->        오차함수
        시그모이드 함수                   소프트맥스 함수                교차 엔트로피 오차 함수
        ReLU  함수                       항등 함수                      평균제곱오차 함수
        
    가중치(w1)에 변화가 생겼을 때 오차는 얼마나 달라지는지?
    사과 값이 '아주 조금' 올랐을 때 '지불금액'이 얼마나 증가하는지 알고 싶다면?
$$ {{\partial (지불금액)} \over \partial (사과값)} $$
<center><b>지불금액의 사과값으로 편미분하면 알 수 있다.</b></center>
    
![사과계산](http://cfile262.uf.daum.net/image/99D26B3C5F2BBCC328C605)

### ※ 문제73. 곱셈계층을 파이썬으로 구현하시오

In [1]:
class MulLayer:
    def __init__(self):
        self.x = None
        self.y = None
    
    def forward(self, x, y):
        self.x = x
        self.y = y
        out = x * y
        
        return out
    
    def backward(self, dout):
        dx = dout * self.y
        dy = dout * self.x
        return dx, dy

![fig5-12](dl_images/fig5-12(e).png)

### ※ 문제74. 위에서 만든 곱셈 클래스를 객체화 시켜서 아래의 사과 가격의 총 가격을 구하시오

In [2]:
mul = MulLayer()
apple = 100
apple_num = 2
tax = 1.1
mul.forward(mul.forward(apple, apple_num),tax)

220.00000000000003

### ※ 문제75. 덧셈계층 클래스를 파이썬으로 구현하시오 (p.163)

In [3]:
class AddLayer:
    def __init__(self):
        pass
    
    def forward(self, x, y):
        self.x = x
        self.y = y
        out = x + y
        
        return out
    
    def backward(self, dout):
        dx = dout
        dy = dout
        return dx, dy

![fig5-9](dl_images/fig5-9(e).png)

### ※ 문제76. (점심시간 문제) 위에서 만든 곱셈 클래스와 덧셈 클래스를 이용해서 그림 5-17의 (p.163) 신경망을 구현하시오
![fig5-17](dl_images/fig5-17(e).png)

In [6]:
class AddLayer:
    def __init__(self):
        pass
    
    def forward(self, x, y):
        self.x = x
        self.y = y
        out = x + y
        
        return out
    
    def backward(self, dout):
        dx = dout
        dy = dout
        return dx, dy
    
class MulLayer:
    def __init__(self):
        self.x = None
        self.y = None
    
    def forward(self, x, y):
        self.x = x
        self.y = y
        out = x * y
        
        return out
    
    def backward(self, dout):
        dx = dout * self.y
        dy = dout * self.x
        return dx, dy
    
add_l = AddLayer()
mul_l = MulLayer()
apple = 100
apple_num = 2
orange = 150
orange_num = 3
tax = 1.1

apple_price = mul_l.forward(apple, apple_num)
orange_price = mul_l.forward(orange, orange_num)
price = add_l.forward(apple_price, orange_price)
total = mul_l.forward(price, tax)
print(total)

715.0000000000001


### <b>■ 활성화 함수 계층 구현하기 (p.165)</b>
    1. 계산 그래프
        - 덧셈 그래프
        - 곱셈 그래프
        - ReLU 함수 그래프
        - 시그모이드 함수 그래프
        - 교차 엔트로피 오차 함수 그래프(부록)
        - 오차제곱합 함수 그래프(부록)
        
    계산 그래프를 보면서 확인
    
### <b>■ 활성화 함수 계층 구현하기</b>
### □ ReLU 계층 클래스 생성
    0보다 큰 값이 입력되면 그 값을 그대로 출력하고 0이거나 0보다 작은 값이 입력되면 0을 출력
    
    1. copy 모듈 사용법
    2. x[x<=0] 의 의미

In [10]:
# 예제1. copy 모듈 사용법
a = [1,2,3]
b = a
print(b)

a[1] = 6
print(a)
print(b) # 같은 메모리의 내용을 보기 때문에 a와 같은 값을 출력

[1, 2, 3]
[1, 6, 3]
[1, 6, 3]


In [12]:
from copy import copy
a = [1,2,3]
b = a.copy() # b는 별도의 객체
print(b)

a[1] = 6
print(a)
print(b)

[1, 2, 3]
[1, 6, 3]
[1, 2, 3]


In [14]:
# 예제2. x[x<=0]의 의미
import numpy as np
x = np.array([1.0, -0.5, -2.0, 3.0]).reshape(2,2)
print(x)

mask = (x<=0)
print(mask)

out = x.copy()
out[mask] = 0 #mask의 True인 곳에 0을 할당
print(out)

[[ 1.  -0.5]
 [-2.   3. ]]
[[False  True]
 [ True False]]
[[1. 0.]
 [0. 3.]]


### ※ 문제77. 책 166페이지의 ReLU 클래스를 생성하시오

In [17]:
import numpy as np

class Relu:
    def __init__(self):
        self.mask = None
    
    def forward(self, x):
        self.mask = (x<=0)
        out = x.copy()
        out[mask] = 0
        
        return out
    
    def backward(self, dout):
        dout[self.mask] = 0
        dx = dout
        
        return dx
    
x = np.array([1.0, -0.5, -2.0, 3.0]).reshape(2,2)
relu = Relu()
print(relu.forward(x))

dout = np.array([2.0, 3.0, -3.0, -4.0]).reshape(2,2)
print(relu.backward(dout))

[[1. 0.]
 [0. 3.]]
[[ 2.  0.]
 [ 0. -4.]]


### <b>■ 시그모이드 함수 계산그래프</b>

![sigmoid_cal_graph](http://cfile288.uf.daum.net/image/99E007455F2C88430A2BA6)
![fig5-20](dl_images/fig5-20(e).png)

### ※ 문제78. sigmoid 계산 그래프를 보고 sigmoid 클래스를 생성하시오

In [18]:
class Sigmoid:
    def __init__(self):
        self.out = None
        
    def forward(self, x):
        out = 1 / (1+np.exp(-x))
        self.out = out
        
        return out
    
    def backward(self, dout):
        dx = dout * (1 - self.out) * self.out
        
        return dx

### ※ 문제79. 위에서 만든 sigmoid 클래스를 객체화 시켜서 순전파와 역전파를 각각 실행해보시오

In [20]:
sig = Sigmoid()

x = np.array([1.0, -0.5, -2.0, 3.0]).reshape(2,2)
print(sig.forward(x))

dout = np.array([2.0, 3.0, -3.0, -4.0]).reshape(2,2)
print(sig.backward(dout))

[[0.73105858 0.37754067]
 [0.11920292 0.95257413]]
[[ 0.39322387  0.70501114]
 [-0.31498076 -0.18070664]]


### <b>■ 어파인(Affine) 계층 (p.170)</b>
    신경망의 순전파 때 수행하는 행렬의 내적을 기하학에서는 어파인 변환
    신경망에서 입력값과 가중치의 내적의 합에 바이어스를 더하는 층을 Affine 계층이라 해서 구현
    
    지금까지의 계산 그래프는 노드 사이에 '스칼라값'이 흘렀는데 
    이에 반해 이번에는 '행렬'이 흐르고 있어서 Affine 계층 구현이 필요함
![fig5-27](dl_images/fig5-27(e).png)

![affine1](http://cfile245.uf.daum.net/image/99D60B355F2C8A800BB0FE)
![affine2](http://cfile272.uf.daum.net/image/99D651355F2C8A810BB76E)
![affine3](http://cfile260.uf.daum.net/image/99D72B355F2C8A810B5364)
![affine4](http://cfile260.uf.daum.net/image/99D781355F2C8A810A8554)


### ※ 문제80. (오늘의 마지막 문제) 책 175페이지 아래에 있는 Affine 클래스를 생성하고 입력 전파를 흘려보내시오
```python
x = np.array([1,2,3,4]).reshape(2,2)
W = np.array([1,3,5,2,4,6]).reshape(2,3)
b = np.array([1,1,1])
```

In [27]:
class Affine:
    def __init__(self, W, b):
        self.W = W
        self.b = b
        self.x = None
        self.dW = None
        self.db = None
        
    def forward(self, x):
        self.x = x
        out = np.dot(x, self.W) + self.b
        
        return out
    
    def backward(self, dout):
        dx = np.dot(dout, self.W.T)
        self.dW = np.dot(self.x.T, dout)
        self.db = np.sum(dout, axis=0)
        
        return dx

x = np.array([1,2,3,4]).reshape(2,2)
W = np.array([1,3,5,2,4,6]).reshape(2,3)
b = np.array([1,1,1])
    
affine_layer = Affine(W,b)
print(affine_layer.forward(x))

[[ 6 12 18]
 [12 26 40]]
