## Chapter 01. Intro

In [1]:
# Pytorch 호출
import torch

### Scalar
- 상수값
- `torch.tensor` 함수를 통해 정의할 수 있음

In [2]:
scalar1 = torch.tensor([1.]) # () 안에 scalar 값을 넣으면, 하나의 element를 갖는 실수가 지정, .은 실수를 의미
print(scalar1)

tensor([1.])


In [3]:
scalar2 = torch.tensor([3.])    
print(scalar2)

tensor([3.])


- 정의한 `tensor`(상수값)을 갖고 사칙연산 수행 가능

In [4]:
add_scalar = scalar1 + scalar2
print(add_scalar)

tensor([4.])


In [5]:
sub_scalar = scalar1 - scalar2
print(sub_scalar)

tensor([-2.])


In [6]:
mul_scalar = scalar1 * scalar2
print(mul_scalar)

tensor([3.])


In [7]:
div_scalar = scalar1 / scalar2
print(div_scalar)

tensor([0.3333])


- `torch` 모듈의 내장 함수를 통해서도 사칙연산 수행 가능

In [8]:
torch.add(scalar1, scalar2)

tensor([4.])

In [9]:
torch.sub(scalar1, scalar2)

tensor([-2.])

In [10]:
torch.mul(scalar1, scalar2)

tensor([3.])

In [11]:
torch.div(scalar1, scalar2)

tensor([0.3333])

### Vector
- `torch.tensor`를 통해 벡터를 정의하는 것 또한 가능

In [12]:
vector1 = torch.tensor([1., 2., 3.])
print(vector1)

tensor([1., 2., 3.])


In [13]:
vector2 = torch.tensor([4., 5., 6.])
print(vector2)

tensor([4., 5., 6.])


- 사칙연산 또한 Scalar와 같은 방식으로 수행 가능

In [14]:
add_vector = vector1 + vector2
print(add_vector)

tensor([5., 7., 9.])


In [15]:
sub_vector = vector1 - vector2
print(sub_vector)

tensor([-3., -3., -3.])


In [16]:
mul_vector = vector1 * vector2
print(mul_vector)

tensor([ 4., 10., 18.])


In [17]:
div_vector = vector1 / vector2
print(div_vector)

tensor([0.2500, 0.4000, 0.5000])


In [18]:
torch.add(vector1, vector2)

tensor([5., 7., 9.])

In [19]:
torch.sub(vector1, vector2)

tensor([-3., -3., -3.])

In [20]:
torch.mul(vector1, vector2)

tensor([ 4., 10., 18.])

In [21]:
torch.div(vector1, vector2) # 여기까지 함수나 연산은 같은 위치 원소끼리 계산 (elementwise)

tensor([0.2500, 0.4000, 0.5000])

In [22]:
torch.dot(vector1, vector2) # 벡터의 내적 (4 + 10 + 18 = 32)

tensor(32.)

# Matrix
- 행렬 (2개 이상의 벡터로 구성된 선형 대수의 기본 단위)
- `torch.tensor`를 통해 행렬 정의 가능

In [23]:
matrix1 = torch.tensor([[1., 2.], [3., 4.]])
print(matrix1) # 대괄호의 갯수가 차원을 의미하므로, 현재 2차원

tensor([[1., 2.],
        [3., 4.]])


In [24]:
matrix2 = torch.tensor([[5., 6.], [7., 8.]])
print(matrix2)

tensor([[5., 6.],
        [7., 8.]])


- Scalar, Vector tensor와 같은 방식으로 사칙연산 수행 가능

In [25]:
sum_matrix = matrix1 + matrix2
print(sum_matrix)

tensor([[ 6.,  8.],
        [10., 12.]])


In [26]:
sub_matrix = matrix1 - matrix2
print(sub_matrix)

tensor([[-4., -4.],
        [-4., -4.]])


- `*` 와 `/`의 경우, 행렬의 같은 위치에 존재하는 값들끼리 연산이 수행됨 (element-wise operation)

In [27]:
mul_matrix = matrix1 * matrix2
print(mul_matrix)

tensor([[ 5., 12.],
        [21., 32.]])


In [28]:
div_matrix = matrix1 / matrix2
print(div_matrix)

tensor([[0.2000, 0.3333],
        [0.4286, 0.5000]])


In [29]:
torch.add(matrix1, matrix2)

tensor([[ 6.,  8.],
        [10., 12.]])

In [30]:
torch.sub(matrix1, matrix2)

tensor([[-4., -4.],
        [-4., -4.]])

In [31]:
torch.mul(matrix1, matrix2)

tensor([[ 5., 12.],
        [21., 32.]])

In [32]:
torch.div(matrix1, matrix2)

tensor([[0.2000, 0.3333],
        [0.4286, 0.5000]])

- 행렬 곱을 위해서는 `@` 연산 기호나 `torch.matmul` 함수를 사용하여야 함

In [33]:
matmul_matrix = matrix1 @ matrix2
print(matmul_matrix)

tensor([[19., 22.],
        [43., 50.]])


In [34]:
torch.matmul(matrix1, matrix2)

tensor([[19., 22.],
        [43., 50.]])

# Tensor
- Vector를 1차원, Matrix를 2차원이라고 한다면, **Tensor는 3차원 이상의 배열을 의미**
  - 그냥 Vector, Matrix, Tensor를 전부 Tensor로 지칭하기도 함

In [35]:
tensor1 = torch.tensor([[[1., 2.], [3., 4.]], [[5., 6.], [7., 8.]]])
print(tensor1)

tensor([[[1., 2.],
         [3., 4.]],

        [[5., 6.],
         [7., 8.]]])


In [36]:
tensor2 = torch.tensor([[[9., 10.], [11., 12.]], [[13., 14.], [15., 16.]]])
print(tensor2)

tensor([[[ 9., 10.],
         [11., 12.]],

        [[13., 14.],
         [15., 16.]]])


- Element-wise 사칙연산

In [37]:
sum_tensor = tensor1 + tensor2
print(sum_tensor)

tensor([[[10., 12.],
         [14., 16.]],

        [[18., 20.],
         [22., 24.]]])


In [38]:
sub_tensor = tensor1 - tensor2
print(sub_tensor)

tensor([[[-8., -8.],
         [-8., -8.]],

        [[-8., -8.],
         [-8., -8.]]])


In [39]:
mul_tensor = tensor1 * tensor2
print(mul_tensor)

tensor([[[  9.,  20.],
         [ 33.,  48.]],

        [[ 65.,  84.],
         [105., 128.]]])


In [40]:
div_tensor = tensor1 / tensor2
print(div_tensor)

tensor([[[0.1111, 0.2000],
         [0.2727, 0.3333]],

        [[0.3846, 0.4286],
         [0.4667, 0.5000]]])


In [41]:
torch.matmul(tensor1, tensor2)

tensor([[[ 31.,  34.],
         [ 71.,  78.]],

        [[155., 166.],
         [211., 226.]]])

In [42]:
torch.add(tensor1, tensor2)

tensor([[[10., 12.],
         [14., 16.]],

        [[18., 20.],
         [22., 24.]]])

In [43]:
torch.sub(tensor1, tensor2)

tensor([[[-8., -8.],
         [-8., -8.]],

        [[-8., -8.],
         [-8., -8.]]])

In [44]:
torch.mul(tensor1, tensor2)

tensor([[[  9.,  20.],
         [ 33.,  48.]],

        [[ 65.,  84.],
         [105., 128.]]])

In [45]:
torch.div(tensor1, tensor2)

tensor([[[0.1111, 0.2000],
         [0.2727, 0.3333]],

        [[0.3846, 0.4286],
         [0.4667, 0.5000]]])

In [46]:
tensor1

tensor([[[1., 2.],
         [3., 4.]],

        [[5., 6.],
         [7., 8.]]])

In [47]:
tensor2

tensor([[[ 9., 10.],
         [11., 12.]],

        [[13., 14.],
         [15., 16.]]])

In [48]:
torch.matmul(tensor1, tensor2)

tensor([[[ 31.,  34.],
         [ 71.,  78.]],

        [[155., 166.],
         [211., 226.]]])

### Backpropagtion Parameter Update in MLP

In [49]:
import torch

if torch.cuda.is_available(): # 현재 파이썬이 실행되고 있는 환경에서 torch 모듈을 이용할 때 GPU를 이용할 수 있는지 확인하는 함수
    DEVICE = torch.device('cuda') # 참이면 'cuda' 이용
else:
    DEVICE = torch.device('cpu') # 거짓이면 'cpu' 이용

BATCH_SIZE = 64 # 파라미터를 업데이트할 때 계산되는 데이터의 개수. 즉, 64개의 데이터로 Output을 계산하여 이를 바탕으로 Loss를 산출하여 파라미터를 1회 Update함
                # = Batch Size가 64이고, 전체 데이터가 256이라면, 4개의 Batch로 나뉨
INPUT_SIZE = 1000 # Input 레이어의 노드 수. BATCH_SIZE와 혼동하지 말 것. 크기가 1000인 벡터 64개로 Output 계산
                  # = 한 개의 데이터 샘플(하나의 Batch)이 총 1,000개의 숫자로 구성된 벡터
HIDDEN_SIZE = 100 # Hidden 레이어의 노드 수
OUTPUT_SIZE = 10 # Output 레이어의 노드 수

# (BATCH_SIZE, INPUT_SIZE)의 크기를 갖는 Input 데이터를 생성하기 위해 torch.randn 함수 활용(표준정규분포를 따르는 Element들로 Tensor(행렬, 벡터 등)가 구성되도록 하는 함수)
# device는 위에서 정의한 DEVICE 활용, 데이터 Type은 실수(torch.float)
# Gradient 계산이 필요 없는 부분이기 때문에 requires_grad = False (Gradient 계산은 Parameter update 할 때 필요) 
x = torch.randn(BATCH_SIZE,
                INPUT_SIZE, # => 크기가 1,000인 Vector가 64개 있도록 인풋 생성
                device = DEVICE, 
                dtype = torch.float, 
                requires_grad = False) # 인풋데이터는 업데이트될 필요 X

# (BATCH_SIZE, OUTPUT_SIZE)의 크기를 갖는 정답 데이터도 같은 방식으로 임의로 생성
y = torch.randn(BATCH_SIZE, 
                OUTPUT_SIZE, # => Batch SIZE * OUTPUT SIZE의 행렬 생성 
                device = DEVICE,
                dtype = torch.float, 
                requires_grad = False)  

# (INPUT_SIZE, HIDDEN_SIZE)의 크기를 갖는 가중치 행렬 생성
# x와 w1의 행렬 곱을 통해 Hidden 레이어의 노드 수 만큼 연산값이 만들어지게
# Update를 해야하는 대상이기 때문에 requires_grad = True 로 설정
w1 = torch.randn(INPUT_SIZE, 
                 HIDDEN_SIZE, 
                 device = DEVICE, 
                 dtype = torch.float,
                 requires_grad = True)

# (HIDDEN_SIZE, OUTPUT_SIZE)의 크기를 갖는 가중치 행렬 생성
# x와 w1의 행렬 곱을 통해 만들어진 Hidden 레이어의 연산 값들과 w2를 행렬 곱하여 Output 레이어의 노드 수 만큼 Output 생성
# Update를 해야하는 대상이기 때문에 requires_grad = True 로 설정
w2 = torch.randn(HIDDEN_SIZE,
                 OUTPUT_SIZE, 
                 device = DEVICE,
                 dtype = torch.float,
                 requires_grad = True)  

# 학습 정도를 결정하는 learning_rate 설정
learning_rate = 1e-6                                           
for t in range(1, 501): # 500번 반복
    y_pred = x.mm(w1).clamp(min = 0).mm(w2) # x.mm(w1) : x와 w1의 행렬곱을 의미, clamp : min 값보다 작으면 min값으로 (ReLU와 같음)

    loss = (y_pred - y).pow(2).sum() # pow(2) : 제곱, sum() : 행렬(Tensor)의 모든 element를 더함
    if t % 100 == 0:
        print("Iteration: ", t, "\t", "Loss: ", loss.item()) # loss.item(): tensor type을 Python number type으로 바꿔줌
    loss.backward() # Parameter Update에 사용되는 Gradient 계산                                          

    with torch.no_grad(): # 아래 코드들은 Gradient를 추가 계산하지 않고 고정시킨 상태에서 실행됨                                     
        w1 -= learning_rate * w1.grad # w1 Update
        w2 -= learning_rate * w2.grad # w2 Update              

        w1.grad.zero_() # w1에 저장되어 있는 Gradient를 0으로 초기화             
        w2.grad.zero_() # w2에 저장되어 있는 Gradient를 0으로 초기화

Iteration:  100 	 Loss:  909.9966430664062
Iteration:  200 	 Loss:  12.81046199798584
Iteration:  300 	 Loss:  0.33858126401901245
Iteration:  400 	 Loss:  0.011064114049077034
Iteration:  500 	 Loss:  0.0006726818392053246


### Pytorch Backpropagation Prac

In [50]:
import torch

if torch.cuda.is_available():
    DEVICE = torch.device('cuda')
else:
    DEVICE = torch.device('cpu')
    
x = torch.tensor([[2.0, 3.0]], requires_grad=False)
y = torch.tensor([[1.0]], requires_grad=False)

w1 = torch.tensor([[0.11, 0.12],
                  [0.21, 0.08]], requires_grad=True)
w2 = torch.tensor([[0.14],
                  [0.15]], requires_grad=True)

learning_rate = 0.05
for t in range(2):
    hidden = x @ w1
    print(hidden)
    y_pred = hidden @ w2
    print(y_pred)
    
    loss = torch.sum(((y_pred-y).pow(2))*(1/2))
    if t % 100 == 0:
        print("Iteration: ", t, "\t", "Loss: ", loss.item())
    print(w1)
    print(w2)
    print("y_pred: ", y_pred)
    print(str(t+1)+" step loss: ",loss)
    
    if t == 0:
        loss.backward()
        with torch.no_grad():
            w1 -= learning_rate * w1.grad 
            w2 -= learning_rate * w2.grad         

            w1.grad.zero_()              
            w2.grad.zero_()

tensor([[0.8500, 0.4800]], grad_fn=<MmBackward0>)
tensor([[0.1910]], grad_fn=<MmBackward0>)
Iteration:  0 	 Loss:  0.327240526676178
tensor([[0.1100, 0.1200],
        [0.2100, 0.0800]], requires_grad=True)
tensor([[0.1400],
        [0.1500]], requires_grad=True)
y_pred:  tensor([[0.1910]], grad_fn=<MmBackward0>)
1 step loss:  tensor(0.3272, grad_fn=<SumBackward0>)
tensor([[0.9236, 0.5589]], grad_fn=<MmBackward0>)
tensor([[0.2557]], grad_fn=<MmBackward0>)
tensor([[0.1213, 0.1321],
        [0.2270, 0.0982]], requires_grad=True)
tensor([[0.1744],
        [0.1694]], requires_grad=True)
y_pred:  tensor([[0.2557]], grad_fn=<MmBackward0>)
2 step loss:  tensor(0.2770, grad_fn=<SumBackward0>)
