In [11]:
import torch.nn as nn
import torch.nn.functional as F
import torch

In [19]:
one_hot_size = 10
batch_size = 2
input_dim = 3
sequence_width = 7
data = torch.randn(batch_size, one_hot_size, sequence_width)

In [20]:
def describe(x):
    print("타입: {}".format(x.type()))
    print("크기: {}".format(x.shape))
    print("값: \n{}".format(x))
    
x_input = torch.rand(batch_size, input_dim)

In [21]:
# 배치 정규화와 Conv1D 층을 사용하여 전체 모델을 다시 만들지 않고 배치 정규화를 사용하는 방법
conv1 = nn.Conv1d(in_channels=one_hot_size, out_channels=16, kernel_size=3)
conv2 = nn.Conv1d(in_channels=16, out_channels=32, kernel_size=3)
conv3 = nn.Conv1d(in_channels=32, out_channels=64, kernel_size=3)

conv1_bn = nn.BatchNorm1d(num_features=16)
conv2_bn = nn.BatchNorm1d(num_features=32)
    
intermediate1 = conv1_bn(F.relu(conv1(data)))
intermediate2 = conv2_bn(F.relu(conv2(intermediate1)))
intermediate3 = conv3(intermediate2)

print(intermediate1.size())
print(intermediate2.size())
print(intermediate3.size())

torch.Size([2, 16, 5])
torch.Size([2, 32, 3])
torch.Size([2, 64, 1])


In [22]:
intermediate2.mean(dim=(0, 2))

tensor([-1.9868e-08, -5.9605e-08,  0.0000e+00,  9.9341e-09,  3.9736e-08,
        -3.9736e-08,  5.9605e-08, -1.9868e-08,  0.0000e+00, -1.9868e-08,
         5.9605e-08,  3.9736e-08,  2.4835e-08,  2.9802e-08, -3.9736e-08,
         0.0000e+00,  0.0000e+00,  1.9868e-08,  1.9868e-08, -3.9736e-08,
        -5.9605e-08, -3.9736e-08, -4.7187e-08,  3.9736e-08, -1.9868e-08,
        -3.9736e-08,  5.9605e-08,  0.0000e+00,  9.9341e-09, -9.9341e-09,
        -5.9605e-08,  1.9868e-08], grad_fn=<MeanBackward1>)

In [23]:
x = torch.randn(1, 2, 3, 3)
describe(x)

conv1 = nn.Conv2d(in_channels=2, out_channels=1, kernel_size=2)
describe(conv1.weight)
describe(conv1(x))

타입: torch.FloatTensor
크기: torch.Size([1, 2, 3, 3])
값: 
tensor([[[[ 1.3095,  0.3114, -0.8394],
          [-0.1989, -0.0737, -0.2197],
          [-0.5726, -1.1801, -1.7127]],

         [[-1.5674, -0.5867, -0.5012],
          [ 1.9722, -1.5392,  0.9853],
          [-0.0533,  1.2049, -0.4873]]]])
타입: torch.FloatTensor
크기: torch.Size([1, 2, 2, 2])
값: 
Parameter containing:
tensor([[[[ 0.2955, -0.3012],
          [ 0.3498,  0.0460]],

         [[-0.2866,  0.1594],
          [-0.0418, -0.2972]]]], requires_grad=True)
타입: torch.FloatTensor
크기: torch.Size([1, 1, 2, 2])
값: 
tensor([[[[ 0.8155,  0.0332],
          [-1.5930,  0.1098]]]], grad_fn=<ThnnConv2DBackward0>)


In [24]:
x = torch.randn(1, 1, 3, 3)
describe(x)

conv1 = nn.Conv2d(in_channels=1, out_channels=2, kernel_size=2)
describe(conv1.weight)
describe(conv1(x))

타입: torch.FloatTensor
크기: torch.Size([1, 1, 3, 3])
값: 
tensor([[[[-1.0513,  0.4397,  0.0934],
          [ 0.9385, -1.1628, -1.3089],
          [-0.3222, -0.0143,  0.2700]]]])
타입: torch.FloatTensor
크기: torch.Size([2, 1, 2, 2])
값: 
Parameter containing:
tensor([[[[ 0.1827, -0.0588],
          [ 0.0472,  0.0615]]],


        [[[ 0.4230, -0.3821],
          [-0.4528,  0.2168]]]], requires_grad=True)
타입: torch.FloatTensor
크기: torch.Size([1, 2, 2, 2])
값: 
tensor([[[[ 0.1945,  0.3791],
          [ 0.6634,  0.3201]],

         [[-1.0843,  0.5986],
          [ 1.1895,  0.2787]]]], grad_fn=<ThnnConv2DBackward0>)


##요약
---
두 개의 피드 포워드 신경망 구조를 배웠습니다!  
다층 퍼셉트론(MLP 또는 완전 연결 신경망)과 합성곱 신경망(CNN)입니다.

어떤 비선형 함수도 근사하는 MLP의 능력을 보았고, 성씨를 토대로 국적을 분류하는 NLP 애플리케이션에 MLP를 적용했습니다. 또 MLP의 주요 단점이자 제약인 파라미터 공유 부족을 배웠고 대안으로 CNN을 소개했습니다. CNN은 매우 효율적으로 구현할 수 있고, 메모리 요구사항이 낮기 때문에 컴퓨터 비전용으로 개발된 CNN은 NLP의 핵심이 되었습니다.

패딩, 다일레이션, 스트라이드가 추가된 다양한 합성곱을 배웠고 이들이 어떻게 입력 공간을 변환하는지를 알아보았습니다.