# 01. Tensor

In [None]:
import torch

In [None]:
# hyper params
dtype = torch.FloatTensor
N, D_in, H, D_out = 64, 1000, 100, 10
learning_rate = 1e-6

In [None]:
# in/out data (might be placeholder)
# randomly generate in/out data with normal distribution
# numpy와 기본적으로 비슷하게 생겼다. pythonic
# dtype 나중에 꼬이면 골치아프니까 꼭 미리 지정해주자
# dim(x) = (N, D_in)
x = torch.randn(N, D_in).type(dtype) 
y = torch.randn(N, D_out).type(dtype)

In [None]:
# Variables
# initialize weight matrix
W1 = torch.randn(D_in, H).type(dtype)
W2 = torch.randn(H, D_out).type(dtype)

In [None]:
for i in range(500):
    # matrix multiplication => tensor_1.mm(tensor_2)
    hidden_layer = x.mm(W1)
    
    # relu activation(customize with torch.clamp)
    ## torch.clamp(input, min, max) => min_max 사이면 input 그대로, 그 외엔 min/max return
    hidden_layer_relu = hidden_layer.clamp(min=0)
    y_pred = hidden_layer_relu.mm(W2)
    
    # calculate loss function
    # euclidean distance(**2 써줘도 가능)
    loss = (y_pred - y).pow(2).sum()
    print(f"iter {i} loss: {loss}")
    
    # calculate gradient
    # 첫 예제니까 gradient 손 계산
    grad_y_pred = 2.0*(y_pred - y)
    grad_W2 = hidden_layer_relu.t().mm(grad_y_pred)
    grad_hidden_layer_relu = grad_y_pred.mm(W2.t())
    grad_hidden_layer = grad_hidden_layer_relu.clone()
    grad_hidden_layer[hidden_layer < 0] = 0 #이런 식으로 indexing도 가능
    grad_W1 = x.t().mm(grad_hidden_layer)
    
    W1 -= learning_rate * grad_W1
    W2 -= learning_rate * grad_W2
    

In [None]:
# inference loss
((x.mm(W1).clamp(min=0).mm(W2) - y) ** 2).sum()

# 02. Autograd

 gradient 손 계산 탈출 - Variable 이용
 

In [None]:
import torch
from torch.autograd import Variable

In [None]:
# hyper params
dtype = torch.FloatTensor
N, D_in, H, D_out = 64, 1000, 100, 10
learning_rate = 1e-6

In [None]:
# in/out data (might be placeholder)
# randomly generate in/out data with normal distribution
# Variable instance는 자동 gradient update 해줌
# requires_grad=False 하면 업뎃 제외
x = Variable(torch.randn(N, D_in).type(dtype), requires_grad=False)
y = Variable(torch.randn(N, D_out).type(dtype), requires_grad=False)

In [None]:
# Variables
# initialize weight matrix
W1 = Variable(torch.randn(D_in, H).type(dtype), requires_grad=True)
W2 = Variable(torch.randn(H, D_out).type(dtype), requires_grad=True)

In [None]:
for i in range(500):
    y_pred = x.mm(W1).clamp(min=0).mm(W2)
    
    # **2 해도 되지만 sum()까지 method chain 해주기 위해
    loss = (y_pred - y).pow(2).sum()
    print(f"iter {i} loss: {loss}")
    
    # gradient를 자동으로 계산해준다
    # Variable instance의 .grad field를 이용해서 gradient 값 접근 가능하다.
    loss.backward()
    
    # w1.data: tensor/ w1.grad: Variable/ w1.grad.data: tensor
    # tensor에 대해서 연산을 취해준다.
    # Variable은 값에 직접적인 접근이 안되는 instance로 일단 생각해두자
    # 프린드해보면, Variable은 requires_grad 까지 출력되는 Variable이다.
    W1.data -= learning_rate * W1.grad.data
    W2.data -= learning_rate * W2.grad.data
    
    # gradient descent가 끝났으니, gradient를 0으로 만들어준다.
    W1.grad.data.zero_()
    W2.grad.data.zero_()
    

In [None]:
# inference loss
((x.mm(W1).clamp(min=0).mm(W2) - y) ** 2).sum()

# 3. define new autograd function

In [None]:
import torch
from torch.autograd import Variable

In [None]:
class CustomReLU(torch.autograd.Function):
    """
    autograd.Function 상속, 나만의 autograd 정의
    """
    @staticmethod
    def forward(ctx, input):
        """
        ctx는 autograd.Fucntion에 미리 정의된 field
        backpropagation을 위한 정보를 저장하는 context object
        """
        ctx.save_for_backward(input)
        return input.clamp(min=0)
    
    @staticmethod
    def backward(ctx, grad_output):
        """
        input 값에 대한 loss의 변화도(gradient)를 return한다.
        """
        input, = ctx.saved_tensors
        grad_input = grad_output.clone()
        grad_input[input < 0] = 0
        return grad_input

In [None]:
# hyper params
dtype = torch.FloatTensor
N, D_in, H, D_out = 64, 1000, 100, 10
learning_rate = 1e-6

In [None]:
x = Variable(torch.randn(N, D_in).type(dtype), requires_grad=False)
y = Variable(torch.randn(N, D_out).type(dtype), requires_grad=False)
W1 = Variable(torch.randn(D_in, H).type(dtype), requires_grad=True)
W2 = Variable(torch.randn(H, D_out).type(dtype), requires_grad=True)


In [None]:
for i in range(500):
    # 상속받은 torch.autograd.Function의 apply method 적용(정확히 말하면 그 method가 적용된 instance인듯?
    relu = CustomReLU.apply
    
    # 위에서 직접 relu를 계산해준 것과 달리, 이젠 relu instance로 편하게 연산
    y_pred = relu(x.mm(W1)).mm(W2)
    
    # **2 해도 되지만 sum()까지 method chain 해주기 위해
    loss = (y_pred - y).pow(2).sum()
    print(f"iter {i} loss: {loss}")
    
    # gradient를 자동으로 계산해준다
    # Variable instance의 .grad field를 이용해서 gradient 값 접근 가능하다.
    loss.backward()
    
    # w1.data: tensor/ w1.grad: Variable/ w1.grad.data: tensor
    # tensor에 대해서 연산을 취해준다.
    # Variable은 값에 직접적인 접근이 안되는 instance로 일단 생각해두자
    # 프린드해보면, Variable은 requires_grad 까지 출력되는 Variable이다.
    W1.data -= learning_rate * W1.grad.data
    W2.data -= learning_rate * W2.grad.data
    
    # gradient descent가 끝났으니, gradient를 0으로 만들어준다.
    W1.grad.data.zero_()
    W2.grad.data.zero_()
    

In [None]:
# inference loss
((relu(x.mm(W1)).mm(W2) - y) ** 2).sum()