# Linear Layer

- mini-batch로 parallel하게 연산하는 것이 아니라, 여러 개의 sample을 동시에 연산

In [1]:
import torch

## Raw Linear Layer

$$\begin{gathered}
y=x\cdot{W}+b, \\
\text{where }x\in\mathbb{R}^{N\times{n}}\text{, }y\in\mathbb{R}^{N\times{m}}. \\
\\
\text{Thus, }W\in\mathbb{R}^{n\times{m}}\text{ and }b\in\mathbb{R}^m.
\end{gathered}$$

In [2]:
W = torch.FloatTensor([[1, 2],
                       [3, 4],
                       [5, 6]])
b = torch.FloatTensor([2, 2])

In [3]:
print(W.size())
print(b.size())

torch.Size([3, 2])
torch.Size([2])


In [4]:
def linear(x, W, b):
    y = torch.matmul(x, W) + b
    
    return y

![image](https://user-images.githubusercontent.com/105966480/210132989-42bd9ed8-622f-4457-97af-d9cf302be465.png)

- x가 사실 몇 개의 sample을 가지고 있을지는 모른다(실행을 해보기 전까지는)
- 위의 수식에서는 N의 값이 중요하지 않다

In [5]:
x = torch.FloatTensor([[1, 1, 1],
                       [2, 2, 2],
                       [3, 3, 3],
                       [4, 4, 4]])

print(x.size())

torch.Size([4, 3])


In [6]:
y = linear(x, W, b)

![image](https://user-images.githubusercontent.com/105966480/210133092-b9092b86-252b-4b9b-afa7-3299e2a5127c.png)

In [7]:
print(y.size())

torch.Size([4, 2])


In [8]:
y

tensor([[11., 14.],
        [20., 26.],
        [29., 38.],
        [38., 50.]])

- 현재는 계산식만 세운 것일 뿐, 학습을 시킬 수는 없음
- w,b가 학습이 되어야 하는데, 원하는 출력을 뱉어낼 수 없음
- 이에 따라, nn.Module을 사용해보자

## nn.Module

In [9]:
import torch.nn as nn

- PyToch 안에 nn.Module이라는 추상클래스 존재
    - 이후, NN Layer는 대부분 nn.Module을 상속하여 사용
- DNN이 하나의 큰 함수가 있을 때
    - 각각의 서브 모듈로 구성되어 있다
    - Layer가 10개면, Layer 하나하나가 서브 모듈이고
    - 이들이 합쳐져 하나의 큰(합성) 함수를 이루는 구조
---

- nn.Module에서 중요한 2가지 메서드
1. __init__
    - forward에서 필요한 것들을 미리 선언
2. forward
    - 함수에서 일어나는 과정을 선언<br>
- 우리는 앞으로 이 2가지를 오버라이드해서 사용
- 물론 다른 메서드들도 존재하지만, 상속할 case가 잘 없음

In [10]:
# MyLinear Class 선언
# 동시에 nn.Module 상속
class MyLinear(nn.Module):

    def __init__(self, input_dim=3, output_dim=2):
        # __init__에서는 입력층과 출력층을 받음
        # 위의 수식에서는
        # input_dim = 3 = n
        # output_dim = 2 = m
        self.input_dim = input_dim
        self.output_dim = output_dim
        
        super().__init__() # 상위 __init__ 메서드 호출
        
        self.W = torch.FloatTensor(input_dim, output_dim) #(3,2)로 생성
        self.b = torch.FloatTensor(output_dim)

    # You should override 'forward' method to implement detail.
    # The input arguments and outputs can be designed as you wish.
    def forward(self, x):
        # x1,x2등 내가 원하는 arg들을 가져올 수 있음
        # y = f(x) 선언 과정
        
        # |x| = (batch_size, input_dim)
        # batch_size = 우리가 parallel하게 처리할 sample의 숫자
        y = torch.matmul(x, self.W) + self.b
        # |y| = (batch_size, input_dim) * (input_dim, output_dim)
        #     = (batch_size, output_dim)
        
        return y

In [11]:
linear = MyLinear(3, 2)

y = linear(x)

In [12]:
print(y.size())

torch.Size([4, 2])


In [13]:
for p in linear.parameters():
    print(p)

You can see that there is no weight parameters to learn.
Above way can forward(or calculate) values, but it cannot be trained.

- nn.Module 안에 .parameters() 기능이 내장되어 있음
    - trainable한 parameter들을 iterable하게 return
- 위의 MyLinear Class 자체를 현재 잘못 구성했음을 알 수 있음

### Correct way: nn.Parameter

- nn.Parameter를 한 번더 wrapping해주면 됨.
- 그래야만 nn.Module을 상속받은 MyLinear 객체에 제대로 register 됨.

In [14]:
class MyLinear(nn.Module):

    def __init__(self, input_dim=3, output_dim=2):
        self.input_dim = input_dim
        self.output_dim = output_dim
        
        super().__init__()
        
        self.W = nn.Parameter(torch.FloatTensor(input_dim, output_dim))
        self.b = nn.Parameter(torch.FloatTensor(output_dim))
        
    def forward(self, x):
        # |x| = (batch_size, input_dim)
        y = torch.matmul(x, self.W) + self.b
        # |y| = (batch_size, input_dim) * (input_dim, output_dim)
        #     = (batch_size, output_dim)
        
        return y

Reference: https://pytorch.org/docs/stable/nn.html#torch.nn.Parameter

A kind of Tensor that is to be considered a module parameter.

Parameters are Tensor subclasses, that have a very special property when used with Module s - when they’re assigned as Module attributes they are automatically added to the list of its parameters, and will appear e.g. in parameters() iterator. Assigning a Tensor doesn’t have such effect. This is because one might want to cache some temporary state, like last hidden state of the RNN, in the model. If there was no such class as Parameter, these temporaries would get registered too.

In [15]:
linear = MyLinear(3, 2)

y = linear(x)

In [16]:
print(y.size())

torch.Size([4, 2])


In [17]:
# W, b가 잘 register되었음을 확인 가능
for p in linear.parameters():
    print(p)

Parameter containing:
tensor([[1.3237e+22, 3.4152e-06],
        [6.6468e+22, 5.2359e+22],
        [2.6517e-09, 1.0394e+21]], requires_grad=True)
Parameter containing:
tensor([9.2755e-39, 1.0561e-38], requires_grad=True)


## nn.Linear

- 직접 Linear 함수를 구현하는게 아니라, 내장된 nn.Linear를 가져와서 사용
    - 매번 구현하면 힘들기 때문에

In [18]:
linear = nn.Linear(3, 2) # Linear라는 객체로 assign

y = linear(x) # .forward를 호출하지 않음 -> PyTorch에서 자동적으로 호출해줌

In [19]:
y

tensor([[ 0.7101, -0.2465],
        [ 1.5387, -0.8626],
        [ 2.3674, -1.4787],
        [ 3.1961, -2.0949]], grad_fn=<AddmmBackward0>)

In [20]:
print(y.size())

torch.Size([4, 2])


In [21]:
for p in linear.parameters():
    print(p)

Parameter containing:
tensor([[-0.0118,  0.2891,  0.5514],
        [-0.5112, -0.0496, -0.0554]], requires_grad=True)
Parameter containing:
tensor([-0.1186,  0.3697], requires_grad=True)


- 현재 W 파라미터
    - ![image](https://user-images.githubusercontent.com/105966480/210133953-5941909f-eca4-41d2-be79-6dcc1ee029d4.png)

### nn.Module can contain other nn.Module's child classes.

nn.Module 안에 또 다른 nn.Module이 존재가 가능하다

In [22]:
class MyLinear(nn.Module):

    def __init__(self, input_dim=3, output_dim=2):
        self.input_dim = input_dim
        self.output_dim = output_dim
        
        super().__init__()
        
        self.linear = nn.Linear(input_dim, output_dim)
        
    def forward(self, x):
        # |x| = (batch_size, input_dim)
        y = self.linear(x)
        # |y| = (batch_size, output_dim)
        
        return y

In [23]:
linear = MyLinear(3, 2)

y = linear(x)

In [24]:
print(y.size())

torch.Size([4, 2])


In [25]:
for p in linear.parameters():
    print(p)

Parameter containing:
tensor([[ 0.0266,  0.3757,  0.3403],
        [-0.3745, -0.3462,  0.2984]], requires_grad=True)
Parameter containing:
tensor([-0.2712,  0.4359], requires_grad=True)
