## Tensor
- Tensor는 NumPy의 ndarray와 유사하며, 추가로 GPU를 사용한 연산 가속도 가능합니다.

In [1]:
from __future__ import print_function
import torch

##### 초기화되지 않은 5x3 행렬을 생성합니다.

In [3]:
x = torch.empty(5,3)
print(x)

tensor([[1.0102e-38, 1.0286e-38, 1.0194e-38],
        [9.6429e-39, 9.2755e-39, 9.1837e-39],
        [9.3674e-39, 1.0745e-38, 1.0653e-38],
        [9.5510e-39, 1.0561e-38, 1.0194e-38],
        [1.1112e-38, 1.0561e-38, 9.9184e-39]])


##### 무작위로 초기화 된 행렬을 생성합니다.

In [5]:
x = torch.rand(5,3)
print(x)

tensor([[0.5836, 0.6258, 0.7849],
        [0.1040, 0.7715, 0.8513],
        [0.0291, 0.7965, 0.2320],
        [0.6461, 0.6434, 0.3400],
        [0.3858, 0.9506, 0.1205]])


##### dtype이 long이고 0으로 채워진 행렬을 생성합니다.

In [8]:
x = torch.zeros(5,3,dtype=torch.long)
print(x)

tensor([[0, 0, 0],
        [0, 0, 0],
        [0, 0, 0],
        [0, 0, 0],
        [0, 0, 0]])


##### 데이터로부터 tensor를 직접 생성합니다.

In [21]:
x = torch.tensor([5.5, 3])
print(x)

tensor([5.5000, 3.0000])


##### 존재하는 tensor를 바탕으로 tensor를 만듭니다. 이 메소드(method)들은 사용자로부터 제공된 새로운 값이 없는한, 입력 tesnor의 속성들 (ex : dtype)을 재사용합니다.

In [22]:
x = x.new_ones(5, 3, dtype=torch.double)  # new_* 메소드는 크기를 받습니다
print(x)
x = torch.randn_like(x, dtype=torch.float) # dtype을 오버라이드(Override) 합니다!
# 오버라이드 : 부모로부터 물려받은 것을 다르게 만든다는 개념.
# 오버로드 : 동일한 모습을 가진 어떤 것이 상황에 따라 다른 방식으로 작동하게 하는것.
print(x)  # 결과는 동일한 크기를 갖습니다

tensor([[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]], dtype=torch.float64)
tensor([[ 1.4002,  0.9449,  0.2347],
        [ 0.0162, -0.1919,  1.9200],
        [ 1.7259,  0.1161, -0.5132],
        [-0.0160, -0.7860,  0.5634],
        [ 1.1718,  0.1206,  2.3905]])


##### 행렬의 크기를 구합니다.

In [23]:
print(x.size())
# torch.Size 는 사실 튜플(tuple)과 같으며, 모든 튜플 연산을 지원합니다.

torch.Size([5, 3])


## Operations(연산)

In [24]:
# 덧셈 연산.
y = torch.rand(5,3)
print(x + y)
print(torch.add(x, y))

tensor([[ 2.1890,  1.1009,  1.0634],
        [ 0.2005,  0.0575,  2.6392],
        [ 1.8378,  0.6058, -0.0715],
        [ 0.7771,  0.1613,  1.3557],
        [ 1.2679,  0.1889,  2.4745]])
tensor([[ 2.1890,  1.1009,  1.0634],
        [ 0.2005,  0.0575,  2.6392],
        [ 1.8378,  0.6058, -0.0715],
        [ 0.7771,  0.1613,  1.3557],
        [ 1.2679,  0.1889,  2.4745]])


##### 덧셈: 결과 tensor를 인자로 제공

In [25]:
result = torch.empty(5, 3)
torch.add(x,y, out=result)
print(result)

tensor([[ 2.1890,  1.1009,  1.0634],
        [ 0.2005,  0.0575,  2.6392],
        [ 1.8378,  0.6058, -0.0715],
        [ 0.7771,  0.1613,  1.3557],
        [ 1.2679,  0.1889,  2.4745]])


##### 덧셈 : 바꿔치기(In-place) 방식

In [26]:
# y에 x 더하기
y.add_(x)
print(y)
# 바꿔치기(In-place) 방식으로 tensor의 값을 변경하는 연산은 _ 를 접미사로 갖습니다. 예: x.copy_(y), x.t_() 는 x 를 변경합니다.

tensor([[ 2.1890,  1.1009,  1.0634],
        [ 0.2005,  0.0575,  2.6392],
        [ 1.8378,  0.6058, -0.0715],
        [ 0.7771,  0.1613,  1.3557],
        [ 1.2679,  0.1889,  2.4745]])


##### NumPy스러운 인덱싱 표기 방법을 사용할 수도 있습니다!

In [27]:
print(x[:, 1])

tensor([ 0.9449, -0.1919,  0.1161, -0.7860,  0.1206])


##### 크기 변경: tensor의 크기(size)나 모양(shape)을 변경하고 싶다면 torch.view 를 사용합니다:

In [28]:
x = torch.randn(4,4)
y = x.view(16)
z = x.view(-1, 8)  # -1은 뒤에 것을 가지고 알아서 만들어줌.
print(x.size(), y.size(), z.size())

torch.Size([4, 4]) torch.Size([16]) torch.Size([2, 8])


##### 만약 tensor에 하나의 값만 존재한다면, .item() 을 사용하면 숫자 값을 얻을 수 있습니다.

In [29]:
x = torch.randn(1)
print(x)
print(x.item())

tensor([-1.8267])
-1.8267349004745483


## NumPy 변환(Bridge)
- Torch Tensor를 NumPy 배열(array)로 변환하거나, 그 반대로 하는 것은 매우 쉽습니다.
- (CPU 상의) Torch Tensor와 NumPy 배열은 저장 공간을 공유하기 때문에, 하나를 변경하면 다른 하나도 변경됩니다.

##### Torch Tensor를 NumPy 배열로 변환하기

In [30]:
a = torch.ones(5)
print(a)

tensor([1., 1., 1., 1., 1.])


In [31]:
b = a.numpy()
print(b)

[1. 1. 1. 1. 1.]


In [32]:
# a에다 더했지만 b는 a를가지고 만들어서 같이변함.
a.add_(1)
print(a)
print(b)

tensor([2., 2., 2., 2., 2.])
[2. 2. 2. 2. 2.]


##### NumPy 배열을 Torch Tensor로 변환하기
- NumPy(np) 배열을 변경하면 Torch Tensor의 값도 자동 변경되는 것을 확인해보세요.

In [35]:
import numpy as np
a = np.ones(5)
b = torch.from_numpy(a)
np.add(a, 1, out=a)
print(a)
print(b)
# CharTensor를 제외한 CPU 상의 모든 Tensor는 NumPy로의 변환을 지원하며, (NumPy에서 Tensor로의) 반대 변환도 지원합니다.

[2. 2. 2. 2. 2.]
tensor([2., 2., 2., 2., 2.], dtype=torch.float64)


## CUDA Tensors
- .to 메소드를 사용하여 Tensor를 어떠한 장치로도 옮길 수 있습니다.

- 이 코드는 CUDA가 사용 가능한 환경에서만 실행합니다.
- ``torch.device`` 를 사용하여 tensor를 GPU 안팎으로 이동해보겠습니다.

In [38]:
if torch.cuda.is_available():
    device = torch.device("cuda") # CUDA 장치 객체(device object)로
    y = torch.ones_like(x, device=device)  # GPU 상에 직접적으로 tensor를 생성하거나
    x = x.to(device) # ``.to("cuda")`` 를 사용하면 됩니다.
    z = x + y
    print(z)
    print(z.to("cpu", torch.double)) # ``.to`` 는 dtype도 함께 변경합니다!

tensor([-0.8267], device='cuda:0')
tensor([-0.8267], dtype=torch.float64)


# DataParallel

## Basic Usage
- 두 개의 선형 레이어가 포함 된 장난감 모델로 시작한다.
- 이 모델을 두개의 GPU에서 실행하려면 각 선형 레이어를 다른 GPU에 놓고 입력 및 중간 출력을 레이어 장치에 맞게 이동하라

In [27]:
import torch
import torch.nn as nn
import torch.optim as optim

class ToyModel(nn.Module):
    def __init__(self):
        super(ToyModel, self).__init__()
        self.net1 = torch.nn.Linear(10, 10).to('cuda:0')
        self.relu = torch.nn.ReLU()
        self.net2 = torch.nn.Linear(10, 5).to('cuda:1')
        
    def forward(self, x):
        x = self.relu(self.net1(x.to('cuda:0')))
        return self.net2(x.to('cuda:1'))

- 위의 ToyModel은 단일 GPu에서 구현하는 방법과 매우 유사하다.(적절한 장치에 선형 레이어와 tensor를 배치하는 5개의 to (device) 호출을 제외하고, 이것은 모델에서 변경이 필요한 유일한 곳이다.)
- backard() 및 torch.optim은 모델이 하나의 GPU에 있는 것처럼 자동으로 그라디언트를 처리한다.
- loss function을 호출 할 때 레이블이 출력과 동일한 장치에 있는지 확인하면 된다.

In [28]:
model = ToyModel()
loss_fn = nn.MSELoss()
optimizer = optim.SGD(model.parameters(), lr = 0.001)

optimizer.zero_grad()
# output은 model에 밑의 torch.randn(20, 10)이 들어가서 (20, 5)로 나온다는 것.
outputs = model(torch.randn(20, 10))

# labels은 맨 끝의 층과 같은 차원이여서 loss를 계산할 수 있음.
labels = torch.randn(20, 5).to('cuda:1')

# loss를 호출할 때 outputs과 labels는 동일한 장치에 있다.
loss_fn(outputs, labels).backward()
optimizer.step()

## 존재하는 모듈에 Model Parallel 적용
- 몇 줄의 코드 수정으로 기존 단일 GPU모듈을 여러 GPU에서 실행할 수 있다.
- 아래 코드는 torchvision.models.reset50을 두개의 GPU로 분해하는 방법을 보여준다.(아이디어는 기존 ResNet 모듈에서 상속하고, 구성 중에 레이어를 두 개의 GPU로 분할하는 것이다.) 그런 다음 foward 방법을 재 정의하여 중간 출력을 적절히 이동하여 두 개의 하위 네트워크를 연결한다.

In [None]:
import torch.nn as nn

def conv3x3(in_planes, out_planes, stride=1, groups=1, dilation=1):
    """3x3 convolution with padding"""
    return nn.Conv2d(in_planes, out_planes, kernel_size=3, stride=stride,
                     padding=dilation, groups=groups, bias=False, dilation=dilation)

def conv1x1(in_planes, out_planes, stride=1):
    """1x1 convolution"""
    return nn.Conv2d(in_planes, outplanes, kernel_size=1, stride=stride, bias=False)

class Bottleneck(nn.Module):
    expansion = 4
    
    def __init__(self, inplanes, planes, stride=1, downsample=None, groups=1,
                base_width=64, dilation=1, norm_layer=None):
        super(Bottleneck, self).__init__()
        if norm_layer is None:
            """BatchNorm2d는 4D input (추가 채널 dimension를 가진 2D입력의 미니배치)에 대해 정규화"""
            norm_layer = nn.BatchNorm2d
        width = int(planes*(base_width / 64.)) * groups
        
        # Both self.conv2 and self.downsample layers downsample the input when stride != 1
        
        # conv1x1을 거치면 feature map이 한개??
        self.conv1 = conv1x1(inplanes, width)
        self.bn1 = norm_layer(width)
        self.conv2 = conv3x3(width, width, stride, groups, dilation)
        self.bn2 = norm_layer(width)
        self.conv3 = conv1x1(width, planes * self.expansion)
        self.bn3 = norm_layer(planes * self.expansion)
        self.relu = nn.ReLU(inplace=True)
        self.downsample = downsample
        self.stride = stride
        
        

In [None]:
from torchvision.models.resnet import ResNet, Bottleneck

num_classes = 1000


class ModelParallelResNet50(ResNet):
    def __init__(self, *args, **kwargs):
        super(ModelParallelResNet50, self).__init__(
            Bottleneck, [3, 4, 6, 3], num_classes=num_classes, *args, **kwargs)

        self.seq1 = nn.Sequential(
            self.conv1,
            self.bn1,
            self.relu,
            self.maxpool,

            self.layer1,
            self.layer2
        ).to('cuda:0')

        self.seq2 = nn.Sequential(
            self.layer3,
            self.layer4,
            self.avgpool,
        ).to('cuda:1')

        self.fc.to('cuda:1')

    def forward(self, x):
        x = self.seq2(self.seq1(x).to('cuda:1'))
        return self.fc(x.view(x.size(0), -1))

In [31]:
dir(ResNet)

['__call__',
 '__class__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattr__',
 '__getattribute__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__le__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__setstate__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__weakref__',
 '_apply',
 '_construct',
 '_get_name',
 '_load_from_state_dict',
 '_make_layer',
 '_named_members',
 '_register_load_state_dict_pre_hook',
 '_register_state_dict_hook',
 '_save_to_state_dict',
 '_slow_forward',
 '_tracing_name',
 '_version',
 'add_module',
 'apply',
 'buffers',
 'children',
 'cpu',
 'cuda',
 'double',
 'dump_patches',
 'eval',
 'extra_repr',
 'float',
 'forward',
 'half',
 'load_state_dict',
 'modules',
 'named_buffers',
 'named_children',
 'named_modules',
 'named_parameters',
 'parameters',
 'register_backward_hook',
 'register_buffer',
 'register_forward_ho

In [32]:
help(ResNet)

Help on class ResNet in module torchvision.models.resnet:

class ResNet(torch.nn.modules.module.Module)
 |  Base class for all neural network modules.
 |  
 |  Your models should also subclass this class.
 |  
 |  Modules can also contain other Modules, allowing to nest them in
 |  a tree structure. You can assign the submodules as regular attributes::
 |  
 |      import torch.nn as nn
 |      import torch.nn.functional as F
 |  
 |      class Model(nn.Module):
 |          def __init__(self):
 |              super(Model, self).__init__()
 |              self.conv1 = nn.Conv2d(1, 20, 5)
 |              self.conv2 = nn.Conv2d(20, 20, 5)
 |  
 |          def forward(self, x):
 |              x = F.relu(self.conv1(x))
 |              return F.relu(self.conv2(x))
 |  
 |  Submodules assigned in this way will be registered, and will have their
 |  parameters converted too when you call :meth:`to`, etc.
 |  
 |  Method resolution order:
 |      ResNet
 |      torch.nn.modules.module.Module
 

- 위의 구현은 모델이 너무 커서 단일 GPU에 맞지 않는 경우 문제를 해결합니다. 그러나 모델에 맞는 경우 단일 GPU에서 실행하는 것보다 속도가 느릴 수 있습니다. 어느 시점에서든 두 GPU 중 하나만 작동하고 다른 GPU는 아무 것도하지 않기 때문입니다. 레이어 2와 레이어 3 사이에서 중간 출력을 cuda : 0에서 cuda : 1로 복사해야하므로 성능이 더욱 저하됩니다.

- 실험을 실행하여 실행 시간을보다 정량적으로 볼 수 있습니다. 이 실험에서는 임의의 입력과 레이블을 통해 ModelParallelResNet50과 기존 torchvision.models.reset50 ()을 학습합니다. 훈련 후 모델은 유용한 예측을 생성하지 않지만 실행 시간을 합리적으로 이해할 수 있습니다.

In [None]:
import torchvision.models as models

num_batches = 3
batch_size = 120
image_w = 128
image_h = 128


def train(model):
    model.train(True)
    loss_fn = nn.MSELoss()
    optimizer = optim.SGD(model.parameters(), lr=0.001)

    one_hot_indices = torch.LongTensor(batch_size) \
                           .random_(0, num_classes) \
                           .view(batch_size, 1)

    for _ in range(num_batches):
        # generate random inputs and labels
        inputs = torch.randn(batch_size, 3, image_w, image_h)
        labels = torch.zeros(batch_size, num_classes) \
                      .scatter_(1, one_hot_indices, 1)

        # run forward pass
        optimizer.zero_grad()
        outputs = model(inputs.to('cuda:0'))

        # run backward pass
        labels = labels.to(outputs.device)
        loss_fn(outputs, labels).backward()
        optimizer.step()

- 위의 train (model) 방법은 손실 함수로 nn.MSELoss를, 옵티 마이저로 optim.SGD를 사용합니다. 각 배치에 120 개의 이미지가 포함 된 3 개의 배치로 구성된 128 X 128 이미지에 대한 교육을 모방합니다. 그런 다음 timeit을 사용하여 train (model) 방법을 10 회 실행하고 표준 편차로 실행 시간을 플로팅합니다.

In [13]:
import matplotlib.pyplot as plt
plt.switch_backend('Agg')
import numpy as np
import timeit

num_repeat = 10

stmt = "train(model)"

setup = "model = ModelParallelResNet50()"
# globals arg is only available in Python 3. In Python 2, use the following
# import __builtin__
# __builtin__.__dict__.update(locals())
mp_run_times = timeit.repeat(
    stmt, setup, number=1, repeat=num_repeat, globals=globals())
mp_mean, mp_std = np.mean(mp_run_times), np.std(mp_run_times)

setup = "import torchvision.models as models;" + \
        "model = models.resnet50(num_classes=num_classes).to('cuda:0')"
rn_run_times = timeit.repeat(
    stmt, setup, number=1, repeat=num_repeat, globals=globals())
rn_mean, rn_std = np.mean(rn_run_times), np.std(rn_run_times)


def plot(means, stds, labels, fig_name):
    fig, ax = plt.subplots()
    ax.bar(np.arange(len(means)), means, yerr=stds,
           align='center', alpha=0.5, ecolor='red', capsize=10, width=0.6)
    ax.set_ylabel('ResNet50 Execution Time (Second)')
    ax.set_xticks(np.arange(len(means)))
    ax.set_xticklabels(labels)
    ax.yaxis.grid(True)
    plt.tight_layout()
    plt.savefig(fig_name)
    plt.close(fig)


plot([mp_mean, rn_mean],
     [mp_std, rn_std],
     ['Model Parallel', 'Single GPU'],
     'mp_vs_rn.png')

RuntimeError: CUDA out of memory. Tried to allocate 20.00 MiB (GPU 0; 8.00 GiB total capacity; 3.00 GiB already allocated; 16.65 MiB free; 17.97 MiB cached)

- 결과는 모델 병렬 구현의 실행 시간이 기존 단일 GPU 구현보다 4.02 / 3.75-1 = 7 % 더 길다는 것을 보여줍니다. 따라서 GPU에서 텐서를 복사하는 데 약 7 %의 오버 헤드가 있다고 결론 지을 수 있습니다. 두 GPU 중 하나가 실행 중에 유휴 상태임을 알고 있으므로 개선의 여지가 있습니다.
- 하나의 옵션은 각 배치를 분할 파이프 라인으로 더 분할하여 하나의 분할이 두 번째 하위 네트워크에 도달 할 때 다음 분할을 첫 번째 하위 네트워크에 공급할 수 있습니다. 이러한 방식으로 두 개의 연속 분할이 두 개의 GPU에서 동시에 실행될 수 있습니다.

In [10]:
class PipelineParallelResNet50(ModelParallelResNet50):
    def __init__(self, split_size=20, *args, **kwargs):
        super(PipelineParallelResNet50, self).__init__(*args, **kwargs)
        self.split_size = split_size

    def forward(self, x):
        splits = iter(x.split(self.split_size, dim=0))
        s_next = next(splits)
        s_prev = self.seq1(s_next).to('cuda:1')
        ret = []

        for s_next in splits:
            # A. s_prev runs on cuda:1
            s_prev = self.seq2(s_prev)
            ret.append(self.fc(s_prev.view(s_prev.size(0), -1)))

            # B. s_next runs on cuda:0, which can run concurrently with A
            s_prev = self.seq1(s_next).to('cuda:1')

        s_prev = self.seq2(s_prev)
        ret.append(self.fc(s_prev.view(s_prev.size(0), -1)))

        return torch.cat(ret)


setup = "model = PipelineParallelResNet50()"
pp_run_times = timeit.repeat(
    stmt, setup, number=1, repeat=num_repeat, globals=globals())
pp_mean, pp_std = np.mean(pp_run_times), np.std(pp_run_times)

plot([mp_mean, rn_mean, pp_mean],
     [mp_std, rn_std, pp_std],
     ['Model Parallel', 'Single GPU', 'Pipelining Model Parallel'],
     'mp_vs_rn_vs_pp.png')

NameError: name 'ModelParallelResNet50' is not defined