In [1]:
import torch
from torch import nn
from torch import Tensor

# Module

In [9]:
class MultiLinearRegression(nn.Module):
    def __init__(self, in_features, out_features, bias=True):
        super().__init()
        self.in_features = in_features
        self.out_features = out_features
        
        self.wights = nn.Parameter(torch.randn(in_features,out_features))
        
        self.bias = nn.Parameter(torch.randn(out_features))
    
    def forward(self, x:Tensor):
        return x @ self.wights + self.bias        

In [10]:
x = torch.randn(5, 7)

In [14]:
layer = MultiLinearRegression(7,10)
layer(x).shape

torch.Size([5, 10])

In [15]:
layer(x)

tensor([[-5.0740,  3.8430, -0.0982, -2.5077, -1.8021,  2.5977, -4.3408,  1.4141,
         -2.2272, -2.1032],
        [-1.5730, -0.2255, -2.0736, -1.2394, -2.9800,  6.4943, -3.3821, -0.7074,
         -1.6155,  1.7785],
        [ 0.7693,  2.4711, -0.3356,  1.6714, -3.1446,  1.6486,  1.9221,  3.4830,
         -5.3791, -2.1183],
        [-0.5788,  3.3429,  3.1633, -0.1289,  2.5530, -0.5057,  0.0164,  3.8509,
         -5.7834, -4.3207],
        [-1.3865, -4.6907, -4.1598, -2.7589, -6.0391,  2.3497, -3.8719, -3.2154,
          0.2382,  3.4618]], grad_fn=<AddBackward0>)

**선형회귀분석 모듈이다.
 - 가중치 값들이 랜덤인 이유는 어차피 딥러닝을 시작하면 값을 찾아가기 때문에 초기값이라고 생각하면 된다.
 - 입력되는 데이터의 변수 개수에 맞춰 in_features만 맞춰주면 문제없이 작동한다.
 - out_features를 2이상으로 받아서 출력값을 matrix로 만들 수 있다.
 - layer를 여러개 사용한다면 출력시킨 matrix를 다시 입력값으로 받아 사용하는 방식이다.

### nn.Parameter

https://pytorch.org/docs/stable/generated/torch.nn.parameter.Parameter.html#torch.nn.parameter.Parameter
nn.Parameter는 단순한 값인데 tensor형식 데이터와 편미분 가능여부만 입력받는다.

딥러닝에 필요한 값은 데이터와 가중치(Parameter)만 있으면 되는데 데이터는 고정된 값이고 가중치도 초기값은 어떤 값이든 크게 상관이 없는데 데이터의 입력에 맞춰서 차원(in_features, out_features)은 맞춰줘야 한다.

실제로 딥러닝을 할 때는 위와 같이 parameter를 일일이 지정하지 않는데 이유는
원하는 activation function을 선택하면 자동으로 생성해주기 때문이다.

In [45]:
layer.parameters()

<generator object Module.parameters at 0x7fee5c36c2e0>

In [46]:
for i in layer.parameters():
    print(i)

Parameter containing:
tensor([[-5.4082e-01, -1.1962e+00, -5.0960e-01, -9.0026e-01, -1.3406e+00,
         -9.9760e-01, -9.7645e-01, -1.0063e+00,  2.4372e-02,  4.6060e-01],
        [-1.4423e-02,  7.0244e-01, -3.0078e-01,  1.8730e-01, -1.2472e+00,
          1.1956e+00,  3.2985e-01, -1.1351e+00, -4.1356e-04, -1.0742e-02],
        [-1.5019e+00,  8.0876e-01, -4.1119e-01, -5.3448e-01, -4.7063e-01,
         -1.2862e+00, -5.7783e-01,  7.6014e-01,  8.9534e-01, -5.1637e-01],
        [ 3.6535e-01, -5.8824e-01,  8.2542e-01, -3.8714e-01,  2.0533e+00,
         -8.7402e-01,  4.1486e-02, -4.4455e-01,  6.4100e-01, -2.1823e-01],
        [ 1.5629e+00,  1.0084e+00, -5.7811e-01,  1.5740e+00,  1.7311e-02,
          9.6998e-02,  3.0074e+00,  5.8860e-01,  8.3850e-01, -1.2196e-01],
        [ 1.4090e+00, -9.4593e-03, -7.3524e-01,  1.7171e+00, -1.0059e+00,
          1.4688e-01,  1.9692e+00,  1.4780e+00, -2.3567e-01,  8.7229e-02],
        [ 5.6492e-02,  3.8033e-01,  9.1157e-01,  1.8487e-01, -8.1197e-01,
         -

---

# AutoGrad for Linear Regression

Pytorch에서 주어지는 함수들을 가지고 선형회귀를 위한 딥러닝을 해보자.
https://towardsdatascience.com/linear-regression-with-pytorch-eb6dedead817

In [157]:
# create dummy data for training

import numpy as np

x_values = [i for i in range(11)]
x_train = np.array(x_values, dtype=np.float32)
x_train = x_train.reshape(-1, 1)
x_train = torch.tensor(x_train, requires_grad=True)

y_values = [2*i + 1 for i in x_values]
y_train = np.array(y_values, dtype=np.float32)
y_train = y_train.reshape(-1, 1)
y_train = torch.tensor(y_train, requires_grad=True)

variables_count_with_x = x_train.shape[1]
variables_count_with_y = y_train.shape[1]

In [158]:
print("variables count with x : {}\nvariables count with y : {}".format(variables_count_with_x,variables_count_with_y))

variables count with x : 1
variables count with y : 1


In [159]:
# define Module

class linearRegression(nn.Module):
    def __init__(self, input_size, output_size):
        super(linearRegression, self).__init__()
        
        self.linear = nn.Linear(input_size, output_size)
    
    def forward(self, x:Tensor):
        return self.linear(x)

activation function으로 Linear를 사용
현재 layer가 단층이라 forward에 리턴값 하나만 있는데 다층구조가 되면 forawrd 함수 내부에서 출력값을 다시 입력값으로 쓰는 작업을 반복

In [160]:
inputDim = variables_count_with_x        # takes variable 'x' 
outputDim = variables_count_with_y       # takes variable 'y'

# hypermarameters
learningRate = 0.01 
epochs = 10

# create model
model = linearRegression(inputDim, outputDim)

##### For GPU #######
if torch.cuda.is_available():
    model.cuda()

In [161]:
for i in model.parameters():
    print(i)

Parameter containing:
tensor([[-0.5661]], requires_grad=True)
Parameter containing:
tensor([-0.5689], requires_grad=True)


### Backward

forwawrdpropagation 다음은 backwardpropagation이다.

backpropagation에서 필요한 계산은 

**loss function을 사용해서 loss value를 구하기
loss value의 optimizing을 위해 optimizer를 사용해서 wight의 편미분을 계산 후 wight를 업데이트**

Pytorch로 구현해보면

In [162]:
criterion = torch.nn.MSELoss() 

**loss function은 MSE로 선택**
loss function에 대한 자세한 내용은
https://pytorch.org/docs/stable/nn.html#loss-functions
에서 확인 가능

In [163]:
optimizer = torch.optim.SGD(model.parameters(), lr=learningRate)

**optimizer는 SGD로 선택**
자세한 내용은
https://pytorch.org/docs/stable/optim.html#module-torch.optim
에서 확인 가능

In [165]:
# Converting inputs and labels to Variable
if torch.cuda.is_available():
    inputs = x_train.cuda()
    labels = y_train.cuda()
else:
    inputs = x_train
    labels = y_train
    
for epoch in range(epochs):

    # Clear gradient buffers because we don't want any gradient from previous epoch to carry forward, dont want to cummulate gradients
    optimizer.zero_grad()
    
    # get output from the model, given the inputs
    outputs = model(inputs)

    # get loss for the predicted output
    loss = criterion(outputs, labels)
    print(loss)
    # get gradients w.r.t to parameters
    loss.backward()

    # update parameters(https://pytorch.org/docs/stable/optim.html#taking-an-optimization-step)
    optimizer.step()

    print('epoch {}, loss {}'.format(epoch, loss.item()))

tensor(310.0353, grad_fn=<MseLossBackward0>)
epoch 0, loss 310.0352783203125
tensor(25.4676, grad_fn=<MseLossBackward0>)
epoch 1, loss 25.467626571655273
tensor(2.2544, grad_fn=<MseLossBackward0>)
epoch 2, loss 2.254356622695923
tensor(0.3589, grad_fn=<MseLossBackward0>)
epoch 3, loss 0.3589472472667694
tensor(0.2024, grad_fn=<MseLossBackward0>)
epoch 4, loss 0.2023903876543045
tensor(0.1877, grad_fn=<MseLossBackward0>)
epoch 5, loss 0.18768729269504547
tensor(0.1846, grad_fn=<MseLossBackward0>)
epoch 6, loss 0.18457625806331635
tensor(0.1824, grad_fn=<MseLossBackward0>)
epoch 7, loss 0.18243266642093658
tensor(0.1804, grad_fn=<MseLossBackward0>)
epoch 8, loss 0.1803886592388153
tensor(0.1784, grad_fn=<MseLossBackward0>)
epoch 9, loss 0.1783735752105713


모든 절차가 다 이해되는데 zero_grad 메소드가 이해가 안돼서 생각을 많이 했다.

output layer에서 hidden layer를 거쳐 input layer로 가중치를 수정하는 작업을 할 때 가중치의 편미분 값이 필요한데 깊이가 깊을수록 함수의 합성이 많아져서 편미분의 합성연산이 많이 발생하고 결국 input layer에서는 모든 가중치에 대한 편미분 값을 알아야 input layer의 가중치를 업데이트 할 수 있는데 backward가 발생하면 optimizer는 이런 gradient 정보를 저장하고 있는다. 1 epoch의 연산을 마쳐도 optimizer에 전에 사용됐던 gradient가 남아있는데 이걸 모두 0으로 만들어주는 메소드가 zero_grad이다. 그래서 optimizer를 초기화 해줘야 정상적인 연산이 가능하다.

당연히 초기화를 하는거라고 생각해서 step 메소드가 실행되면 자동으로 grad도 초기화 될 줄 알았는데 아니었다.  
-> step에서 초기화를 해줘도 결국 시작시점에서 초기화를 하지 않으면 온전한 backpropagation을 할 수 없다. while문의 초기화 변수와 비슷한 논리  

결국 zero_grad는 절차에 필요한 메소드임을 이해했다.

In [166]:
with torch.no_grad(): # we don't need gradients in the testing phase
    if torch.cuda.is_available():
        predicted = model(x_train).cuda().cpu().data.numpy()
    else:
        predicted = model(x_train).data.numpy()
    print(predicted)

[[ 0.21435805]
 [ 2.3275084 ]
 [ 4.4406586 ]
 [ 6.5538087 ]
 [ 8.66696   ]
 [10.78011   ]
 [12.89326   ]
 [15.006411  ]
 [17.11956   ]
 [19.23271   ]
 [21.345861  ]]


In [168]:
y_train

tensor([[ 1.],
        [ 3.],
        [ 5.],
        [ 7.],
        [ 9.],
        [11.],
        [13.],
        [15.],
        [17.],
        [19.],
        [21.]], requires_grad=True)

# Implementing a Logistic Regression Model from Scratch with PyTorch

https://medium.com/dair-ai/implementing-a-logistic-regression-model-from-scratch-with-pytorch-24ea062cd856

다른 진도 나가고 시간나면 해보기