# 제 4고지. 신경망 만들기

- 지금까지는 변수로 스칼라만 취급했습니다. 그러나 머신러닝에서는 텐서(다차원배열)가 주역입니다. 
- 이번 제4고지의 목표는 DeZero를 머신러닝용으로, 특히 신경망을 잘 다루도록 확장하는 것입니다. 
- 그 첫걸음은 텐서를 사용해 계산하기 입니다. 
- 머신러닝에서 미분을 계산하는 작업은 복잡해지기 쉽습니다. 
- 그러나 DeZero는 이미 자동 미분의 기초를 제공하기 때문에 앞으로 할 작업도 기술적으로는 그다지 어렵지 않습니다. 
- 그 다음은 DeZero의 자동 미분 위에 머신러닝에 필요한 함수와 기능을 추가하는 것이 주된 작업입니다. 
- 이 작업이 끝나면 머신러닝 문제를 몇 가지 풀어보면서 DeZero의 실력을 확인해 보겠습니다. 
- 이번 고지는 지금까지 시간을 들여 만들어온 DeZero가 딥러닝(신경망)분야에서 꽃피는 무대입니다. 
- 고지를 정복할 무렵에는 DeZero가 '딥러닝 프레임워크'라고 불러도 좋을 만큼 성장해 있을 것입니다. 

# 37. 텐서를 다루다

- 지금까지는 변수로 주로 '스칼라'를 다뤘는데, 머시러닝 데이터로는 벡터나 행렬 등의 '텐서'가 주로 쓰입니다. 
- 이번 단계에서는 텐서를 사용할 때의 주의점을 알아보면서 DeZero 확장을 준비합니다. 

## 37.1 원소별 계산

- 지금까지 add, mul, div, sin 등 DeZero 함수를 구현하면서 아래 예시와 같이 입력과 출력이 모두 '스칼라'라고 가정했습니다. 

In [5]:
import numpy as np
import dezero.functions as F
from dezero import Variable

x = Variable(np.array(1.0))  # x가 단일값인 스칼라(정확하게는 0차원의 ndarray 인스턴스)
y = F.sin(x)
print(y)

variable(0.8414709848078965)


- x가 텐서일 경우, 가령 행렬이라면 어떻게 될까요?

In [7]:
x = Variable(np.array([[1, 2, 3], [4, 5, 6]]))
y = F.sin(x)             
print(y)      

variable([[ 0.84147098  0.90929743  0.14112001]
          [-0.7568025  -0.95892427 -0.2794155 ]])


- 이와 같이 sin 함수가 x의 원소 각각에 적용되므로, 입력과 출력 텐서의 형상은 (2,3)으로 바뀌지 않습니다. 
- 이처럼 지금까지 구현한 DeZero 함수들은 원소별 계산이 이루어집니다. 
- 다른 예로, 덧셈에서도 원소별 계산이 이루어집니다. 

In [8]:
x = Variable(np.array([[1, 2, 3], [4, 5, 6]]))
c = Variable(np.array([[10, 20, 30], [40, 50, 60]]))
y = x + c
print(y)   

variable([[11 22 33]
          [44 55 66]])


- 만약 x와 c의 형상이 다르면 자동으로 데이터를 복사해서 같은 형상의 텐서로 변환해 주는 기능으로 브로드캐스트(broadcase) 기능이 있습니다.

## 37.2 텐서 사용 시의 역전파

- 텐서를 사용한 계산에 역전파를 적용하려면 무엇을 바꿔야 할까요?
- 지금까지 구현한 함수들은 '텐서'를 이용해 계산해도 역전파 코드가 문제없이 작동했습니다. 그 이유는...
    - 그동안 '스칼라'를 대상으로 역전파를 구현했습니다. 
    - 지금까지 구현한 DeZero 함수에 '텐서'를 건네면 텐서의 원소마다 '스칼라'로 계산합니다. 
    - 텐서의 원소별 '스칼라' 계산이 이루어지면 '스칼라'를 가정해 구현한 역전파는 '텐서'의 원소별 계산에서도 성립합니다. 
- 이상의 논리로부터 원소별 계산을 수행하는 DeZero 함수들은 '텐서'를 사용한 계산에도 역전파를 올바르게 해낼 것임을 유추할 수 있습니다.     

![title](image/그림37-1.png)

In [None]:
## 37.3 [보충] 텐서 사용 시의 역전파
- 

![title](image/식37.1.png)

![title](image/식37.2.png)

![title](image/식37.3.png)

In [None]:
if '__file__' in globals():
    import os, sys
    sys.path.append(os.path.join(os.path.dirname(__file__), '..'))
import numpy as np
from dezero import Variable
import dezero.functions as F

x = Variable(np.array([[1, 2, 3], [4, 5, 6]]))
c = Variable(np.array([[10, 20, 30], [40, 50, 60]]))
t = x + c
y = F.sum(t)

y.backward(retain_grad=True)
print(y.grad)
print(t.grad)
print(x.grad)
print(c.grad)


In [None]:
# 38. 형상 변환 함수

In [None]:
## 38.1 reshape 함수 구현
- 

![title](image/그림38-1.png)

![title](image/그림38-2.png)

In [None]:
## 38.2 Variable에서 reshape 사용하기
- 

![title](image/그림38-3.png)

In [None]:
## 38.3 행렬의 전치
- 

In [None]:
## 38.4 [보충] 실제 transpose 함수
- 

![title](image/그림38-4.png)

In [None]:
if '__file__' in globals():
    import os, sys
    sys.path.append(os.path.join(os.path.dirname(__file__), '..'))
import numpy as np
from dezero import Variable
import dezero.functions as F

x = Variable(np.array([[0, 1, 2], [3, 4, 5]]))
y = F.reshape(x, (6,))  # y = x.reshape(6)
y.backward(retain_grad=True)
print(x.grad)


x = Variable(np.array([[1, 2, 3], [4, 5, 6]]))
y = F.transpose(x)  # y = x.T
y.backward()
print(x.grad)


In [None]:
# 39. 합계 함수
- 

In [None]:
## 39.1 sum 함수의 역전파
- 

![title](image/그림39-1.png)

![title](image/그림39-2.png)

![title](image/그림39-3.png)

In [None]:
## 39.2 sum 함수 구현
- 

In [None]:
## 39.3 axis와 keepdims
- 
![title](image/그림38-4.png)

![title](image/그림38-5.png)

In [None]:
if '__file__' in globals():
    import os, sys
    sys.path.append(os.path.join(os.path.dirname(__file__), '..'))
import numpy as np
from dezero import Variable
import dezero.functions as F

x = Variable(np.array([1, 2, 3, 4, 5, 6]))
y = F.sum(x)
y.backward()
print(y)
print(x.grad)

x = Variable(np.array([[1, 2, 3], [4, 5, 6]]))
y = F.sum(x)
y.backward()
print(y)
print(x.grad)

x = Variable(np.array([[1, 2, 3], [4, 5, 6]]))
y = F.sum(x, axis=0)
y.backward()
print(y)
print(x.grad)

x = Variable(np.random.randn(2, 3, 4, 5))
y = x.sum(keepdims=True)
print(y.shape)

In [None]:
# 40. 브로드캐스트 함수

In [None]:
## 40.1 broadcast_to 함수와 sum_to 함수(넘파이 버전)
- 

![title](image/그림40-1.png)

![title](image/그림40-2.png)

In [None]:
## 40.2 broadcast_to 함수와 sum_to 함수(DeZero 버전)
- 

In [None]:
## 40.3 브로드캐스트 대응
- 

In [None]:
if '__file__' in globals():
    import os, sys
    sys.path.append(os.path.join(os.path.dirname(__file__), '..'))
import numpy as np
from dezero import Variable

x0 = Variable(np.array([1, 2, 3]))
x1 = Variable(np.array([10]))
y = x0 + x1
print(y)

y.backward()
print(x1.grad)

In [None]:
## 41. 행렬의 곱
- 

In [None]:
## 41.1 벡터의 내적과 행렬이 곱
- 

![title](image/식41.1.png)

![title](image/그림41-1.png)

In [None]:
## 41.2 행렬의 형상 체크
- 

![title](image/그림41-2.png)

In [None]:
## 41.3 행렬 곱이 역전파
- 

![title](image/그림41-3.png)

![title](image/그림41-4.png)

![title](image/그림41-5.png)

![title](image/그림40-6.png)

In [None]:
if '__file__' in globals():
    import os, sys
    sys.path.append(os.path.join(os.path.dirname(__file__), '..'))
import numpy as np
from dezero import Variable
import dezero.functions as F

x = Variable(np.random.randn(2, 3))
w = Variable(np.random.randn(3, 4))
y = F.matmul(x, w)
y.backward()

print(x.grad.shape)
print(w.grad.shape)


In [None]:
# 42. 선형 회귀
- 

In [None]:
## 42.1 토이 데이터셋
- 

![title](image/그림42-1.png)

In [None]:
## 42.2 선형 회귀 이론
- 

![title](image/그림42-2.png)

![title](image/식42.1.png)

In [None]:
## 42.3 선형 회귀 구현
- 

![title](image/그림42-3.png)

![title](image/그림42-4.png)

![title](image/그림42-5.png)


In [None]:
## 42.4 [보충] DeZero의 mean_sqaured_error 함수
- 

![title](image/그림42-6.png)

![title](image/그림42-7.png)

In [None]:
if '__file__' in globals():
    import os, sys
    sys.path.append(os.path.join(os.path.dirname(__file__), '..'))
import numpy as np
import matplotlib.pyplot as plt
from dezero import Variable
import dezero.functions as F

# Generate toy dataset
np.random.seed(0)
x = np.random.rand(100, 1)
y = 5 + 2 * x + np.random.rand(100, 1)
x, y = Variable(x), Variable(y)

W = Variable(np.zeros((1, 1)))
b = Variable(np.zeros(1))


def predict(x):
    y = F.matmul(x, W) + b
    return y


def mean_squared_error(x0, x1):
    diff = x0 - x1
    return F.sum(diff ** 2) / len(diff)


lr = 0.1
iters = 100

for i in range(iters):
    y_pred = predict(x)
    loss = mean_squared_error(y, y_pred)

    W.cleargrad()
    b.cleargrad()
    loss.backward()

    # Update .data attribute (No need grads when updating params)
    W.data -= lr * W.grad.data
    b.data -= lr * b.grad.data
    print(W, b, loss)


# Plot
plt.scatter(x.data, y.data, s=10)
plt.xlabel('x')
plt.ylabel('y')
y_pred = predict(x)
plt.plot(x.data, y_pred.data, color='r')
plt.show()
