# 4.1 행렬 곱

### 1. 행렬 곱

행렬 A와B가주어져 있고, 이 둘을 곱한다고 가정해볼 때, A의 행요소(row element)들을 B의 열요소(column element)들에 각각 곱한 후 더한 값을 행렬에 요소로 결정하게 된다.

### A 의 열의 개수와 B의 행의 개수는 같아야 한다는 제약조건이 발생한다.

예를 들어 A는 2x3 행렬이고, B는 3x2 행렬일 때, AB는 2x2 행렬이 된다. 이를 수식으로 표현하면 다음과 같다.

<img src = "행렬곱1.jpg" width = "400" height = "400">

이러한 행렬의 곱셈 과정은 내적(inner product)또는 닷 프로덕트(dot product)라고 부릅니다.

### 2. 벡터 행렬 곱

벡터가 곱셈의 앞에 위치할 경우, 전치(transpose)를 통해 행과 열을 바꿔 표현하여 곱셈을 수행한다.  
벡터의 경우, 두 번째 차원의 크기(요소의 개수)가 1인 행렬과 똑같은 형태로 취급할 수 있다.

In [2]:
# practice 4.2 행렬 곱
import torch

x = torch.FloatTensor([[1,2],
                       [3,4],
                       [5,6]])
y = torch.FloatTensor([[1,2],
                       [1,2]])
print(x.size(), y.size())

torch.Size([3, 2]) torch.Size([2, 2])


파이토치의 matmul함수를 이용하면 행렬 곱을 수행 할 수 있다.

In [3]:
z = torch.matmul(x,y)
print(z.size())

torch.Size([3, 2])


딥러닝을 수행할 때, 보통 여러 샘플을 동시에 병렬 계산하곤 한다. 이때, bmm(Batch Matrix Multiplication)함수가 이 역할을 수행한다.

In [5]:
# practice 4.2.1 배치 행렬곱
import torch

x = torch.FloatTensor(3,3,2)
y = torch.FloatTensor(3,2,3)

3x3x2 크기의 텐서는 3x2 크기의 행렬이 3개 있는 것이라고 볼 수 있습니다.  
마찬가지로 3x2x3 크기의 텐서는 2x3크기의 행렬이 3개 있는 것과 같다.  
여기에서 bmm 함수를 사용하여 행렬 곱이 3번 수행되는 연산을 병렬로 동시에 진행할 수 있다.

In [6]:
z = torch.bmm(x,y)
print(z.size())

torch.Size([3, 3, 3])


결과물의 크기가 3x3 크기의 행렬이 3개 있는 3x3x3 형태로 나오는 것을 볼 수 있다.  
이처럼 bmm 함수는 마지막 2개의 차원을 행렬 취급하여 병렬로 행렬 곱 연산을 수행한다.  
bmm 함수를 적용하기 위해서 마지막 2개의 차원을 제외한 다른 차원의 크기는 동일해야 한다.

# 4.3 선형 계층

선형 계층은 뒤에서 다룰 심충신경망(deep neural networks)의 가장 기본적인 구성 요소이다.

<img src = "선형계층1.jpg" width = "300" height = "300">

또한, 선형 계층은 하나의 함수로 볼 수 있는데 4개의 입력을 받아 3개의 출력을 반환하는 함수로 생각할 수 있다.

### 1. 선형 계층 함수의 동작 방식

해당 함수는 가중치 파라미터(weight parameter)를 가지고 있으며, 이것에 의해 함수의 동작이 결정된다.

<img src = "선형계층2.jpg" width = "400" height = "400">

앞에 그림에서 W 에는 총 4x3=12 가지의 가중치 파라미터가 존재하며 이는 다음과 같은 수식으로 표현이 가능하다.

<img src = "선형계층3.jpg" width = "400" height = "400">

b에는 총 3가지의 가중치 파라미터가 존재하며 다음과 같이 수식으로 표현이 가능하다.

<img src = "선형계층4.jpg" width = "400" height = "400">

이 동작 방식은 행렬 곱셈과 벡터의 덧셈으로 나타낼 수 있기 때문에 일반화 하여 다음과 같은 수식으로 표현할 수 있다.

<img src = "선형계층5.jpg" width = "500" height = "500">

입력 벡터 x는 n차원 실수 벡터이며, 출력벡터 y는 m차원의 실수 벡터 이다. 따라서 n차원을 m 차원으로 변환해주기 위해서 W는 nxm 차원의 행렬이 되어야 한다.

만약 수 백만개의 입력 벡터가 주어졌다고 했을 때, 단순히 순차적으로 처리한다기보단 다수의 입력을 처리하기 위한 병렬 연산으로 생각해 볼 수도 있다.  
N개의 n차원 벡터를 모아서 Nxn 크기의 행렬로 만들 수 있다. 이것을 "미니배치"라고 부르겟다.  
선형 계층에서 미니배치 행렬을 처리하기 위한 수식은 다음과 같다.

<img src = "선형계층6.jpg" width = "500" height = "500">

입력을 N개 모아서 미니배치 행렬로 넣어주었기 때문에 출력도 N개의 m차원 벡터가 모여 Nxm 크기의 행렬이 된다.

### 2. 선형 계층의 의미

선형 계층은 행렬 곱셈과 벡터의 덧셈으로 이루어져 있기 때문에 선형 변환이라고 볼 수 있다.  
선형 데이터에 대한 관계를 분석하거나, 선형 함수를 근사 계산할 수 있다.

# 4.4 선형 계층 실습

### 1. 직접 구현하기

In [10]:
# 1. 직접 구현하기
import torch

W = torch.FloatTensor([[1,2],
                       [3,4],
                       [5,6]])
b = torch.FloatTensor([2,2])

In [11]:
def linear(x,W,b):
    y = torch.matmul(x,W)+b
    
    return y

matmul함수와 브로드캐스팅을 이용한 + 연산자로 linear 함수를 만들어준다.

In [12]:
x = torch.FloatTensor(4,3)

3개의 요소를 갖는 4개의 샘플을 행렬로 나타내면 x와 같이 4x3 크기의 행렬이 될 것이다. 이것을 다음 코드처럼 함수를 활용하여 선형 계층을 통과시킬 수 있다.

In [13]:
y = linear(x,W,b)
print(y.size())

torch.Size([4, 2])


### 2. torch.nn.Module 클래스 상속받기

In [14]:
# torch.nn.Module 클래스 상속받기
import torch.nn as nn

nn.Module을 상속받은 MyLinear라는 클래스를 정의한다. nn.Module을 상속받은 클래스는 보통 2개의 메소드, __init__과 forward를 오버라이드 한다.  
__init__ 함수는 계층 내부에서 필요한 변수를 미리 선언하고 있으며 심지어 또 다른 계층을 소유하도록 할 수 있다.  
forward 함수는 계층을 통과하는데 필요한 계산 수행을 한다.

In [18]:
class MyLinear(nn.Module):
    
    def __init__(self, input_dim=3, output_dim=2):
        self.input_dim = input_dim
        self.output_dim = output_dim
        
        super().__init__()
        
        self.W = torch.FloatTensor(input_dim, output_dim)
        self.b = torch.FloatTensor(output_dim)
        
    # you should override 'forward' method to implement detail.
    # the input arguments and outputs can be designed as you wish.
    def forward(self, x):
        #|x| = (batch_size, input_dim)
        y = torch.matmul(x, self.W) + self.b
        #|y| = (batch_size, input_dim) * (input_dim, output_dim)
        #    = (batch_size, output_dim)
        
        return y

In [22]:
linear = MyLinear(3,2)

y = linear(x)

여기서 중요한 점은 forward 함수를 따로 호출하지 않고, 객체명에 바로 괄호를 열어 텐서 x를 인수로 넘겨주었다는 것이다.  
nn.Module의 상속받은 객체는 __call__ 함수와 forward가 매핑 되어있어 forward를 따로 부를 필요가 없다.  

### 3. 올바른 방법: nn.Parameter 활용하기

다음과 같이 텐서 선언 이후에 nn.Parameter로 감싸준다.

In [20]:
class MyLinear(nn.Module):
    
    def __init__(self, input_dim=3, output_dim=2):
        self.input_dim = input_dim
        self.output_dim = output_dim
        
        super().__init__()
        
        self.W = nn.Parameter(torch.FloatTensor(input_dim, output_dim))
        self.b = nn.Parameter(torch.FloatTensor(output_dim))
        
    # you should override 'forward' method to implement detail.
    # the input arguments and outputs can be designed as you wish.
    def forward(self, x):
        #|x| = (batch_size, input_dim)
        y = torch.matmul(x, self.W) + self.b
        #|y| = (batch_size, input_dim) * (input_dim, output_dim)
        #    = (batch_size, output_dim)
        
        return y

In [23]:
for p in linear.parameters():
    print(p)

Parameter containing:
tensor([[1.0741e-05, 1.6821e-04],
        [4.1490e-08, 5.2944e-08],
        [8.4336e-07, 3.3710e-06]], requires_grad=True)
Parameter containing:
tensor([0., 0.], requires_grad=True)


### 4. nn.Linear 활용하기

In [25]:
linear = nn.Linear(3,2)

y = linear(x)

In [26]:
for p in linear.parameters():
    print(p)

Parameter containing:
tensor([[ 0.5241, -0.0753,  0.4215],
        [-0.0226, -0.3614, -0.2554]], requires_grad=True)
Parameter containing:
tensor([-0.5456, -0.1156], requires_grad=True)


nn.Module을 상속받아 정의한 나만의 계층 클래스는 내부의 nn.Module 하위 클래스를 소유할 수 있다.

In [27]:
class MyLinear(nn.Module):
    
    def __init__(self, input_dim=3, output_dim=2):
        self.input_dim = input_dim
        self.output_dim = output_dim
        
        super().__init__()
        
        self.linear = nn.Linear(input_dim, output_dim)
        
    # you should override 'forward' method to implement detail.
    # the input arguments and outputs can be designed as you wish.
    def forward(self, x):
        #|x| = (batch_size, input_dim)
        y = torch.matmul(x, self.W) + self.b
        #|y| = (batch_size, input_dim) * (input_dim, output_dim)
        #    = (batch_size, output_dim)
        
        return y

앞의 코드는 nn.Module을 상속받아 MyLinear 클래스를 정의하고 있는데, __init__ 함수 내부에는 nn.Linear를 선언하여 self.linear에 저장하고, forward 함수에서는 self.linear에 텐서 x를 통과시킨다.  
즉, 이 코드도 선형 계층을 구현한 것 이라 볼 수 있다.

# 4.5 GPU 사용하기

### 1. Cuda 함수

In [28]:
x = torch.cuda.FloatTensor(2,2)
x

tensor([[0., 0.],
        [0., 0.]], device='cuda:0')

In [38]:
# 텐서의 cuda 함수를 통해 CPU 메모리상에 선언된 텐서를 GPU로 복사하는 방법
x = torch.FloatTensor(2,2)
print(x)
x = x.cuda()
x

tensor([[1.4013e-45, 0.0000e+00],
        [0.0000e+00, 0.0000e+00]])


tensor([[1.4013e-45, 0.0000e+00],
        [0.0000e+00, 0.0000e+00]], device='cuda:0')

Cuda 함수는 텐서 뿐만 아니라 nn.Module 하위 클래스 객체에도 똑같이 적용할 수 있다.

In [39]:
import torch.nn as nn
layer = nn.Linear(2,2)
layer.cuda(0)

Linear(in_features=2, out_features=2, bias=True)

주의 해야할 점은, 텐서는 cuda 함수를 통해 원하는 디바이스로 복사가 되지만, nn.Module 하위 클래스 객체의 경우 복사가 아닌 이동이 수행된다.

### 2. 서로 다른 장치간 연산

서로 다른 장치에 올라가있는 텐서 또는 nn.Module의 하위 클래스 객체끼리는 연산이 불가능하다.  
CPU와 GPU에 위치한 텐서들 끼리 연산이 불가능 할 뿐만 아니라, 0번 GPU와 1번 GPU 사이의 연산도 불가능하다.

In [40]:
x = torch.FloatTensor(2,2)
x + x.cuda(0)

RuntimeError: Expected all tensors to be on the same device, but found at least two devices, cuda:0 and cpu!

### 3. Cpu 함수

반대로 필요에 따라 GPU 메모리 상에 있는 텐서를 CPU 메모리로 복사해야 하는 상황이 생길 때, cpu함수를 사용한다.

In [41]:
x = torch.cuda.FloatTensor(2,2)
x

tensor([[0., 0.],
        [0., 0.]], device='cuda:0')

In [43]:
x = x.cpu()
x

tensor([[0., 0.],
        [0., 0.]])

### 4. To 함수

to 함수는 원하는 디바이스의 정보를 담은 객체를 인자로 받아, 함수 자신을 호출한 객체를 해당 디바이스로 복사(이동) 시킨다.  
디바이스 정보를 담은 객체는 torch.device를 통해 생성할 수 있다.

In [44]:
cpu_device = torch.device('cpu')
gpu_device = torch.device('cuda:0')

In [45]:
x = torch.FloatTensor(2,2)
x

tensor([[0., nan],
        [0., 0.]])

In [46]:
x = x.to(gpu_device)
x

tensor([[0., nan],
        [0., 0.]], device='cuda:0')

In [47]:
x = x.to(cpu_device)
x

tensor([[0., nan],
        [0., 0.]])

### 5. Device 속성

In [48]:
x = torch.cuda.FloatTensor(2,2)
x.device

device(type='cuda', index=0)

nn.Module의 하위 클래스 객체는 해당 속성을 갖고 있지 않다.  
모델이 어느 장치에 올라가 있는지 알고 싶다면 다음과 같은 방법을 사용한다.

In [49]:
layer = nn.Linear(2,2)
next(layer.parameters()).device

device(type='cpu')

parameters 함수를 통해 모델 내의 파라미터에 대한 이터레이터를 얻은 후, 첫 번째 파라미터 텐서의 device 속성에 접근한다.