# CH2. 예제로 배우는 파이토치

### 파이토치의 두 가지 특징

1. **Tensor**: Numpy와 비슷하지만, GPU상에서 연산이 가능한 Tensor

2. **자동미분**: 신경망 구성을 구성하고 학습하는 과정





## 1. Numpy
Numpy를 통해 아래와 같은 신경망을 구현해보자


![python image](https://upload.wikimedia.org/wikipedia/commons/thumb/4/46/Colored_neural_network.svg/600px-Colored_neural_network.svg.png)


In [1]:
import numpy as np

#batch size, input, hidden, output
N, D_in, H, D_out = 64, 1000, 100, 10

# input & output 생성
x = np.random.randn(N, D_in)
y = np.random.randn(N, D_out)

print("x.shape = {} // y.shape = {}".format(x.shape, y.shape))
#print("y.head =",y[:5 , ])

x.shape = (64, 1000) // y.shape = (64, 10)


In [2]:
# weight initalization
w1 = np.random.randn(D_in, H)
w2 = np.random.randn(H, D_out)

print("w1.shape = {} // w2.shape = {}".format(w1.shape, w2.shape))

w1.shape = (1000, 100) // w2.shape = (100, 10)


In [3]:
learning_rate = 1e-6

for t in range(500):
    #layer 1
    h = x.dot(w1)  # (64*1000)`(1000*100) --> 64*100
    
    #layer 2
    h_relu = np.maximum(h,0)
    
    #layer 3
    y_pred = h_relu.dot(w2)
    
    #loss 계산
    loss = np.square(y_pred - y).sum() # LSM (least-square Method)
    if t % 100 == 99:
        print(t+1, loss)
    
    ## back-probagation
    grad_y_pred = 2.0 * (y_pred - y)
    grad_w2 = h_relu.T.dot(grad_y_pred)
    
    grad_h_relu = grad_y_pred.dot(w2.T)
    grad_h = grad_h_relu.copy()
    grad_h[h<0] = 0
    
    grad_w1 = x.T.dot(grad_h)
    
    w1 -= learning_rate * grad_w1
    w2 -= learning_rate * grad_w2
    


100 447.9111573921356
200 3.6228885515633356
300 0.04720702154187747
400 0.0006843789158091561
500 1.031343897736756e-05


## 참고: 전체 흐름
![python image](https://taewanmerepo.github.io/2017/12/whytranspose/010.jpg)

In [4]:
from sklearn.metrics import r2_score
print("accuracy = ",r2_score(y_pred, y))

accuracy =  0.9999999822522957


## 3. Tensors

* Numpy와는 달리, Tensor는 GPU연산을 가능하게 함 --> 50배 이상의 속도향상

In [19]:
import torch

dtype = torch.float
#device = torch.device("cpu")
# device = torch.device("cuda:0") # GPU에서 실행하려면 이 주석을 제거하세요.
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

# N은 배치 크기이며, D_in은 입력의 차원입니다;
# H는 은닉층의 차원이며, D_out은 출력 차원입니다.
N, D_in, H, D_out = 64, 1000, 100, 10

# 무작위의 입력과 출력 데이터를 생성합니다.
x = torch.randn(N, D_in, device=device, dtype=dtype)
y = torch.randn(N, D_out, device=device, dtype=dtype)

# 무작위로 가중치를 초기화합니다.
w1 = torch.randn(D_in, H, device=device, dtype=dtype)
w2 = torch.randn(H, D_out, device=device, dtype=dtype)

learning_rate = 1e-6
for t in range(500):
    # 순전파 단계: 예측값 y를 계산합니다.
    h = x.mm(w1)
    h_relu = h.clamp(min=0)
    y_pred = h_relu.mm(w2)

    # 손실(loss)을 계산하고 출력합니다.
    loss = (y_pred - y).pow(2).sum().item()
    if t % 100 == 99:
        print(t, loss)

    # 손실에 따른 w1, w2의 변화도를 계산하고 역전파합니다.
    grad_y_pred = 2.0 * (y_pred - y)
    grad_w2 = h_relu.t().mm(grad_y_pred)
    grad_h_relu = grad_y_pred.mm(w2.t())
    grad_h = grad_h_relu.clone()
    grad_h[h < 0] = 0
    grad_w1 = x.t().mm(grad_h)

    # 경사하강법(gradient descent)를 사용하여 가중치를 갱신합니다.
    w1 -= learning_rate * grad_w1
    w2 -= learning_rate * grad_w2

99 493.6226501464844
199 2.3897082805633545
299 0.024425487965345383
399 0.0005908025777898729
499 7.78408139012754e-05


In [20]:
print("accuracy = ",r2_score(y_pred, y))

accuracy =  0.9999998777232613
