![nn](img/pytorch_02.png)

## 실습 목표

- PyTorch framework의 기본 사용법을 익힙니다. 
- Neural Network 모델을 만들 수 있다.

## PyTorch 장점

- 직관적이고 간결한 코드
- Define by Run 방식 (Tensorflow - Define and Run 방식)
- Numpy와 높은 호환성

![nn](img/pytorch_01.png)

### 0. 패키지 불러오기

In [1]:
import torch
import numpy as np

In [2]:
print(torch.__version__)

1.6.0


In [3]:
# gpu number 지정
import os
os.environ['CUDA_VISIBLE_DEVICES'] = '0'  # 1차 과정 gpu number

### 1. PyTorch: Tensor

#### PyTorch의 가장 기본적인 자료 구조. n 차원 array + GPU 연산이 가능한 자료 구조.

![nn](img/pytorch_03.png)

In [4]:
t_1 = torch.Tensor([1, 2, 3])
t_2 = torch.Tensor([[1, 2, 3], [1, 2, 3]])
print(t_1)
print('Type of t_1: ', type(t_1))
print('Shape of t_1: ', t_1.shape)  # 매우 자주 쓰는 함수
print('')
print(t_2)
print('Type of t_2: ', type(t_2))
print('Shape of t_2: ', t_2.shape)

tensor([1., 2., 3.])
Type of t_1:  <class 'torch.Tensor'>
Shape of t_1:  torch.Size([3])

tensor([[1., 2., 3.],
        [1., 2., 3.]])
Type of t_2:  <class 'torch.Tensor'>
Shape of t_2:  torch.Size([2, 3])


In [5]:
n_1 = np.array([1, 2, 3])
t_3 = torch.Tensor(n_1)  # torch.Tensor(np.array([1, 2, 3]))
print(t_3)
print('Type of t_3: ', type(t_3))
print('Shape of t_3: ', t_3.shape)

tensor([1., 2., 3.])
Type of t_3:  <class 'torch.Tensor'>
Shape of t_3:  torch.Size([3])


#### 명시적으로 Tensor의 값을 지정해주는 것 외에도, 자주 사용하는 tensor 선언 방법은 함수로 제공됩니다.

In [6]:
# torch.rand(size)는 uniform distribution U(0, 1)에서 random sampling한 값으로 tensor를 구성합니다.
x_1 = torch.rand(5)  # 1D (5) tensor (예: vector)
x_2 = torch.rand(5, 5)  # 2D (5 x 5) tensor (예: matrix)
x_3 = torch.rand(5, 5, 3)  # 3D (5 x 5 x 3) tensor (예: image)
x_4 = torch.rand(16, 5, 3, 3)  # 4D (16 x 5 x 3 x 3) tensor (예: image + mini batch)

In [7]:
print(x_2)

tensor([[0.9872, 0.6907, 0.9589, 0.8636, 0.9627],
        [0.5250, 0.6375, 0.8764, 0.1667, 0.8988],
        [0.3709, 0.0994, 0.1751, 0.5667, 0.3909],
        [0.2569, 0.7077, 0.7792, 0.2046, 0.9458],
        [0.4589, 0.4674, 0.1021, 0.4699, 0.5162]])


#### 그 중 가장 자주 쓰이는 방법들입니다.

In [8]:
print(torch.ones(3))
print(torch.zeros(3))
print(torch.randn(3))  # x ~ N(0, I)

tensor([1., 1., 1.])
tensor([0., 0., 0.])
tensor([2.8674, 0.7088, 0.8345])


### 1.1 Indexing

![nn](img/pytorch_04.jpg)

In [9]:
a = torch.ones(5, 10)
b = torch.zeros(5, 10)
c = torch.randn(5, 10)

In [10]:
d = torch.cat((a, b, c), 0)  # 자주 사용하는 함수입니다.
print(d.shape)

torch.Size([15, 10])


In [11]:
print(d[0])
print(d[5])
print(d[10])

tensor([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])
tensor([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])
tensor([-1.0342, -2.0124,  1.9993,  1.1479,  1.0816, -1.4635,  0.4862, -1.8543,
         1.5914,  1.0380])


In [12]:
print(d[:, 0])

tensor([ 1.0000,  1.0000,  1.0000,  1.0000,  1.0000,  0.0000,  0.0000,  0.0000,
         0.0000,  0.0000, -1.0342, -0.0629,  1.0077, -1.2060,  0.3283])


In [13]:
print(d[:, 10])

IndexError: index 10 is out of bounds for dimension 1 with size 10

In [14]:
e = torch.stack([a, b, c], 0)    # 자주 사용하는 함수입니다.

In [15]:
e.shape

torch.Size([3, 5, 10])

In [16]:
print(e[0])
print(e[0].shape)

tensor([[1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1., 1., 1., 1., 1., 1.]])
torch.Size([5, 10])


In [17]:
print(e[:, 0])
print(e[:, 0].shape)

tensor([[ 1.0000,  1.0000,  1.0000,  1.0000,  1.0000,  1.0000,  1.0000,  1.0000,
          1.0000,  1.0000],
        [ 0.0000,  0.0000,  0.0000,  0.0000,  0.0000,  0.0000,  0.0000,  0.0000,
          0.0000,  0.0000],
        [-1.0342, -2.0124,  1.9993,  1.1479,  1.0816, -1.4635,  0.4862, -1.8543,
          1.5914,  1.0380]])
torch.Size([3, 10])


In [18]:
print(e[:, :, 0])
print(e[:, :, 0].shape)

tensor([[ 1.0000,  1.0000,  1.0000,  1.0000,  1.0000],
        [ 0.0000,  0.0000,  0.0000,  0.0000,  0.0000],
        [-1.0342, -0.0629,  1.0077, -1.2060,  0.3283]])
torch.Size([3, 5])


### 1.2 Tensor 연산

#### 같은 shape의 tensor끼리 더하기 연산을 할 수 있는 여러가지 방법들

In [19]:
print(t_1 + t_3)
print(torch.add(t_1, t_3))
print(t_1.add(t_3))

tensor([2., 4., 6.])
tensor([2., 4., 6.])
tensor([2., 4., 6.])


In [20]:
print(t_1 - t_3)
print(t_1 * t_3)
print(t_1 / t_3)

tensor([0., 0., 0.])
tensor([1., 4., 9.])
tensor([1., 1., 1.])


#### 질문: 다른 shape의 tensor들을 이용하여 연산을 하면 어떻게 될까요?

In [21]:
t_1 = torch.Tensor([[0, 0, 0], [10, 10, 10], [20, 20, 20], [30, 30, 30]])
t_2 = torch.Tensor([0, 1, 2])

In [22]:
print(t_1.shape)
print(t_2.shape)

torch.Size([4, 3])
torch.Size([3])


In [23]:
result = t_1 + t_2
print(result)

tensor([[ 0.,  1.,  2.],
        [10., 11., 12.],
        [20., 21., 22.],
        [30., 31., 32.]])


In [24]:
print(result.shape)

torch.Size([4, 3])


### 1.3 Broadcasting

![nn](img/pytorch_05.png)

#### Broadcasting rule

1. 서로 다른 dimension의 두 tensor가 있을 때, 더 작은 dimension의 tensor에 새로운 dimension이 추가된다. 이때 tensor shape 상으로는 왼쪽 부분에 shape 1의 새로운 dimension이 생긴다.
2. dimension 중 서로 shape이 안 맞는 부분이 있다면, 둘 중 shape이 1인 부분을 조정하여 shape을 맞춰준다.

#### First rule

In [25]:
print(torch.zeros(1, 5) + torch.ones(5))
print(torch.zeros(1, 5) + torch.ones(1, 5))

tensor([[1., 1., 1., 1., 1.]])
tensor([[1., 1., 1., 1., 1.]])


In [26]:
print(torch.zeros(1, 1, 5) + torch.ones(5))
print(torch.zeros(1, 1, 5) + torch.ones(1, 5))
print(torch.zeros(1, 1, 5) + torch.ones(1, 1, 5))

tensor([[[1., 1., 1., 1., 1.]]])
tensor([[[1., 1., 1., 1., 1.]]])
tensor([[[1., 1., 1., 1., 1.]]])


#### Second rule

In [27]:
print(torch.Tensor([1, 2, 3]).shape)
print(torch.Tensor([10]).shape)

torch.Size([3])
torch.Size([1])


In [28]:
torch.Tensor([1, 2, 3]) + torch.Tensor([10])  # shape: 3 +  shape: 1

tensor([11., 12., 13.])

In [29]:
torch.Tensor([1, 2, 3]) + torch.Tensor([10, 10, 10])

tensor([11., 12., 13.])

#### First rule + Second rule

In [30]:
print(torch.zeros(2, 3, 4) + torch.ones(3, 4))
print(torch.zeros(2, 3, 4) + torch.ones(1, 3, 4))
print(torch.zeros(2, 3, 4) + torch.ones(2, 3, 4))

tensor([[[1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.]],

        [[1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.]]])
tensor([[[1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.]],

        [[1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.]]])
tensor([[[1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.]],

        [[1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.]]])


#### Broadcasting이 안되는 경우

In [31]:
torch.zeros(3, 4) + torch.ones(1, 2)
# 안되는 이유는?

RuntimeError: The size of tensor a (4) must match the size of tensor b (2) at non-singleton dimension 1

In [32]:
torch.zeros(3, 4) + torch.ones(2)
# 안되는 이유는?

RuntimeError: The size of tensor a (4) must match the size of tensor b (2) at non-singleton dimension 1

### 퀴즈

#### 다음 두 tensor들을 이용하여, Broadcasting 연산이 가능한지 판단하세요

1. [5, 10, 2] shape Tensor & [1, 2] shape Tensor --> YES
2. [3, 12, 6] shape Tensor & [12, 6] shape Tensor --> YES
3. [4, 8, 4] shape Tensor & [4, 2] shape Tensor --> NO
4. [2, 5] shape Tensor & [3, 2, 5] shape Tensor --> YES

In [34]:
# print(torch.ones(5, 10, 2) + torch.ones(1, 2))
# print(torch.ones(3, 12, 6) + torch.ones(12, 6))
# print(torch.ones(4, 8, 4) + torch.ones(4, 2))
print(torch.ones(2, 5) + torch.ones(3, 2, 5))

tensor([[[2., 2., 2., 2., 2.],
         [2., 2., 2., 2., 2.]],

        [[2., 2., 2., 2., 2.],
         [2., 2., 2., 2., 2.]],

        [[2., 2., 2., 2., 2.],
         [2., 2., 2., 2., 2.]]])


### 1.4 GPU를 사용하여 Tensor 연산하기

In [35]:
print(torch.cuda.is_available())

True


In [36]:
a = torch.ones(3)
b = torch.randn(100, 50, 3)

In [37]:
print(a.device)
print(b.device)

cpu
cpu


In [38]:
c = a + b

In [39]:
print(c.device)

cpu


In [40]:
# gpu 사용 tensor
a = a.to('cuda')
b = b.to('cuda')

In [41]:
print(a.device)
print(b.device)

cuda:0
cuda:0


In [42]:
c = a + b

In [43]:
print(c.device)

cuda:0


In [44]:
c = c.to('cpu')

In [45]:
print(c.device)

cpu


### 1.5 Autograd

![nn](img/pytorch_06.png)

In [46]:
# input data -> 학습 대상이 아님
X = torch.Tensor([[1, 2, 3], [3, 4, 5]])
print(X.shape)

torch.Size([2, 3])


In [47]:
# weight -> 학습 대상
W = torch.ones(3, 1, requires_grad=True)
print(W.shape)

torch.Size([3, 1])


In [48]:
print(W.requires_grad)

True


In [49]:
print(X.requires_grad)

False


In [50]:
# bias -> 학습 대상
b = torch.Tensor([0.1])
print(b.requires_grad)

False


In [51]:
b.requires_grad_()
print(b.requires_grad)

True


In [52]:
Y = torch.matmul(X, W) + b
# (2 x 3) (3 x 1) => (2 x 1)
# (2 x 1) + (1) => (2 x 1)
print(Y)
print(Y.shape)

tensor([[ 6.1000],
        [12.1000]], grad_fn=<AddBackward0>)
torch.Size([2, 1])


In [53]:
result = Y.sum()
print(result)

tensor(18.2000, grad_fn=<SumBackward0>)


In [54]:
# loss와 연관이 있고, requires_grad=True인 parameter의 gradient값을 자동으로 계산
result.backward()

In [55]:
W.grad

tensor([[4.],
        [6.],
        [8.]])

In [56]:
# requires_grad=True이지만 gradient 계산을 필요로 하지 않을 때
with torch.no_grad():
    X = torch.Tensor([[1, 2, 3], [3, 4, 5]])
    W = torch.ones(3, 1, requires_grad=True)
    b = torch.Tensor([0.1])
    b.requires_grad_ = True
    Y = torch.matmul(X, W) + b
    result = Y.sum()

In [57]:
result

tensor(18.2000)

In [58]:
result.backward()

RuntimeError: element 0 of tensors does not require grad and does not have a grad_fn

### 1.6 nn Module

![nn](img/pytorch_06.png)

In [59]:
import torch.nn as nn

In [60]:
print(X)
print(X.shape)

tensor([[1., 2., 3.],
        [3., 4., 5.]])
torch.Size([2, 3])


In [61]:
# input dim 3, output dim 1
linear_fn = nn.Linear(3, 1)

In [62]:
linear_fn  # WX + b

Linear(in_features=3, out_features=1, bias=True)

In [63]:
Y = linear_fn(X)
print(Y)
print(Y.shape)

tensor([[1.2229],
        [1.8795]], grad_fn=<AddmmBackward>)
torch.Size([2, 1])


In [64]:
Y = Y.sum()
print(Y)

tensor(3.1024, grad_fn=<SumBackward0>)


In [65]:
Y.backward()

In [66]:
class Model(nn.Module):
    def __init__(self, input_dim, output_dim, hidden_dim):
        super(Model, self).__init__()
        self.linear_1 = nn.Linear(input_dim, hidden_dim)
        self.linear_2 = nn.Linear(hidden_dim, output_dim)
        self.relu = nn.ReLU()
    def forward(self, x):
        x = self.linear_1(x)
        x = self.relu(x)
        x = self.linear_2(x)
        return x

In [67]:
NN = Model(3, 1, 10)  # init(3, 1, 10)
# input dimension: 3  /  output dimension: 1  / hidden dimension:  10

In [68]:
NN(X)  # forward(X)

tensor([[0.5040],
        [0.7535]], grad_fn=<AddmmBackward>)

In [None]:
nn.Conv2d
nn.RNNCell
nn.LSTMCell
nn.GRUCell
nn.Transformer;

In [None]:
nn.Conv2d?

PyTorch docs: https://pytorch.org/docs

In [None]:
nn.Sigmoid
nn.ReLU
nn.LeakyReLU
nn.Tanh;

In [None]:
nn.Dropout
nn.BatchNorm2d
nn.InstanceNorm2d
nn.MaxPool2d
nn.AvgPool2d;

### 퀴즈

#### 데이터 X를 forwarding 시킬 수 있는 3 layer neural network를 만들어 보세요. 이때 hidden layer의 dimension은 자유롭게 선택하시고, activation function은 leaky relu를 사용하세요. Output의 dimension은 1입니다.

In [69]:
print(X)
print(X.shape)

tensor([[1., 2., 3.],
        [3., 4., 5.]])
torch.Size([2, 3])


In [70]:
class MyModel(nn.Module):
    def __init__(self, input_dim, hidden_dim, output_dim):
        super(MyModel, self).__init__()
        self.linear_1 = nn.Linear(input_dim, hidden_dim)
        self.linear_2 = nn.Linear(hidden_dim, hidden_dim)
        self.linear_3 = nn.Linear(hidden_dim, output_dim)
        self.leaky_relu = nn.LeakyReLU()
    def forward(self, x):
        x = self.linear_1(x)
        x = self.leaky_relu(x)
        x = self.linear_2(x)
        x = self.leaky_relu(x)
        x = self.linear_3(x)
        return x

In [72]:
NN = MyModel(3, 5, 1)

In [73]:
# 이 부분이 돌아가서 output이 나와야 합니다
print(NN(X))
print(NN(X).shape)

tensor([[-0.3120],
        [-0.3973]], grad_fn=<AddmmBackward>)
torch.Size([2, 1])


### PyTorch 출처 및 유용한 링크

PyTorch docs: https://pytorch.org/docs

1. https://pytorch.org/tutorials/
2. https://github.com/yunjey/pytorch-tutorial
3. https://github.com/bharathgs/Awesome-pytorch-list