In [6]:
import torch
import torch.nn as nn
# 네트워크와 레이어들을 정리하기 위한 모듈
import torch.nn.functional as F
# 구조 상에서 표현하기 힘든 경우나 loss function을 바로 가져다 쓰고 싶은 경우
import torch.autograd as autograd
# backprop과정과 gradient를 직접 수정하고 싶은 경우

## 1. 네트워크 정의

In [7]:
class NN(nn.Module):
    # 네트워크는 nn.Module을 상속받아서 정의하는게 일반적입니다.
    def __init__(self, input_dim=25, hidden_dim=128, output_dim=10):
        super().__init__()
        self.layers = nn.Sequential(
            nn.Linear(input_dim, hidden_dim),
            # Dropout을 정의하고 싶으면 다음과 같이 할 수 있습니다.
            nn.Dropout(),
            nn.ReLU(),
            nn.Linear(hidden_dim, hidden_dim),
            nn.ReLU(),
            nn.Linear(hidden_dim, output_dim)
        )
        
        # 네트워크 파라미터 정의는 다음과 같이 할 수 있습니다.
        for m in self.modules():
#             print(m)
            if isinstance(m, nn.Linear):
                nn.init.xavier_normal_(m.weight)
                nn.init.constant_(m.bias, 0.0)
                
    def forward(self, x):
        # x 는 input을 의미하며, 일반적인 경우에는 (mini_batch, input_dim)
        # 이미지의 경우에는 (mini_batch, Channel, Height, Width) 의 형태를 가정합니다.
        x = self.layers(x)
        return x
net = NN()
print(net)

NN(
  (layers): Sequential(
    (0): Linear(in_features=25, out_features=128, bias=True)
    (1): Dropout(p=0.5)
    (2): ReLU()
    (3): Linear(in_features=128, out_features=128, bias=True)
    (4): ReLU()
    (5): Linear(in_features=128, out_features=10, bias=True)
  )
)


In [13]:
x = torch.rand((32, 25))
y = net(x)
print(x.shape, y.shape)

torch.Size([32, 25]) torch.Size([32, 10])


## 2. 네트워크 셋팅

In [14]:
# Dropout/BatchNorm 등의 layer는 다음과 같이 제어할 수 있습니다.
net.eval()
print(net.training)
net.train()
print(net.training)

False
True


## 3. Loss 정의하기

In [15]:
target = torch.randn_like(y)

# 보통 loss는 다음 2가지의 형태로 정의합니다.
# 1. nn에서 함수 형태로 가져오는 경우
cost_func = nn.MSELoss()
loss = cost_func(y, target)
print(loss)

# 2. functional에서 바로 부르는 경우
loss = F.mse_loss(y, target)
print(loss)

tensor(1.1736, grad_fn=<MseLossBackward>)
tensor(1.1736, grad_fn=<MseLossBackward>)


## 4. Gradient 조작

In [16]:
# 많은 경우 gradient계산은 다음과 같이 실행합니다.
loss.backward()
for param in net.parameters():
    print(param.grad.shape)

torch.Size([128, 25])
torch.Size([128])
torch.Size([128, 128])
torch.Size([128])
torch.Size([10, 128])
torch.Size([10])


In [7]:
# 한편 필요에 의해서는 명시적으로 gradient를 구해야할 필요가 있습니다. 이때는 다음과 같이 조절할 수 있습니다.
x = torch.rand((32, 25)).requires_grad_(True)
y = net(x)
grad = autograd.grad(y, x,\
                     grad_outputs=torch.ones_like(y), retain_graph=None, create_graph=False,\
                     only_inputs=True, allow_unused=False)[0]
print(grad.shape)

torch.Size([32, 25])


## 5. Tensor 조작

In [17]:
# numpy의 데이터들은 대부분 다음과 같이 pytorch의 tensor로 만들 수 있습니다.
import numpy as np
x = np.random.randn(32, 25)
x = torch.FloatTensor(x)
# 바뀐 tensor는 다음과 같이 GPU로 올라갈 수 있습니다.
# x = x.cuda()
# x.cuda_()
# 한편 네트워크를 GPU에 올릴 때는 cuda함수만 호출해도 충분합니다.
# net.cuda()
# GPU에 올라간 tensor는 다음 코드로 다시 numpy로 바꿀 수 있습니다.
# x = x.detach().cpu().numpy()
# print(x.shape)

In [18]:
# 한편 tensor에서의 indexing은 다음과 같이 vectorize할 수 있습니다.
indices = [np.random.choice(25) for _ in range(32)]
indices = torch.LongTensor(indices) # (32)
x_selected = x.gather(1, indices.unsqueeze(1))
print(x.shape)
print(x_selected.shape)

torch.Size([32, 25])
torch.Size([32, 1])


In [10]:
# 위에서 unsqueeze/squeeze 함수는 데이터의 전체 크기는 유지하되 axis를 추가/제거하는 함수입니다.
x = torch.randn((32, 25))
print(x.shape)
x.unsqueeze_(1)
print(x.shape)
x.squeeze_(2)
print(x.shape)
x.squeeze_(1)
print(x.shape)

torch.Size([32, 25])
torch.Size([32, 1, 25])
torch.Size([32, 1, 25])
torch.Size([32, 25])


In [11]:
# 비슷하게 view 함수를 사용할 수도 있지만, dim이 섞일 위험이 있으니 조심하세요!
x = x.view(x.size(0), 1, -1)
print(x.shape)
x = x.view(-1)
print(x.shape)

torch.Size([32, 1, 25])
torch.Size([800])
