# [DeepLearning] [3] 파이토치 - 파이토치 기초

## 1. PyTorch 함수

In [1]:
import torch
import torch as tc
import numpy as np

### 1.1. Tensor 생성

텐서(Tensor)는 Pytorch 라이브러리에서 사용하는 데이터를 배열 형식으로 저장하도록 합니다. 다양한 방식으로 텐서를 생성할 수 있습니다. 단일 숫자로 텐서를 생성해보겠습니다.

In [2]:
tc.tensor(2.3)

tensor(2.3000)

시퀀스(리스트, 튜플 등) 자료형으로 텐서를 생성해보겠습니다. dtype을 통해서 모든 함수에서 특정 구조를 저장하는 텐서를 반환하도록 지정할 수 있습니다.

In [4]:
tc.tensor([1,2,3],dtype= tc.float32)

tensor([1., 2., 3.])

> float32는 32비트(4바이트)의 메모리를 사용하며 대략적으로 $-3.4\times10^{38}$에서 $3.4\times10^{38}$까지의 범위를 가집니다.

NumPy 배열을 활용해서 텐서를 생성해보겠습니다. 모든 요소가 1인 3x3 크기의 배열의 텐서를 만들어보겠습니다.

In [6]:
arr = np.ones((3,3))
tc.tensor(arr)

tensor([[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]], dtype=torch.float64)

2x3x4 크기의 3차원 텐서를 생성해서 모든 요소를 0으로 채워보겠습니다.

In [8]:
tc.zeros((2,3,4))

tensor([[[0., 0., 0., 0.],
         [0., 0., 0., 0.],
         [0., 0., 0., 0.]],

        [[0., 0., 0., 0.],
         [0., 0., 0., 0.],
         [0., 0., 0., 0.]]])

pytorch의 arange 함수는 지정된 범위 내에서 일정한 간격으로 값을 생성해서 함수를 만듭니다.start부터 stop까지 step 만큼 띄워가며 텐서를 생성해보겠습니다.

In [9]:
tc.arange(-5,15,2)

tensor([-5, -3, -1,  1,  3,  5,  7,  9, 11, 13])

기본적으로 start 값을 지정하지 않으면 0부터 시작하고, step 값을 지정하지 않으면 1의 간격으로 값을 생성합니다.

In [10]:
tc.arange(9)

tensor([0, 1, 2, 3, 4, 5, 6, 7, 8])

rand 함수는 0과 1사이의 값을 무작위로 생성하여 지정된 형태의 텐서를 반환합니다.

In [14]:
tc.rand(3,4)

tensor([[0.1801, 0.3064, 0.0849, 0.7110],
        [0.0096, 0.2367, 0.6561, 0.3770],
        [0.6322, 0.8012, 0.1925, 0.9956]])

### 1.2. Tensor 변형
텐서의 모양을 변형하는 함수들도 있습니다. 1차원 텐서를 2차원 텐서로 변형해보겠습니다.

In [17]:
x = tc.arange(9.)
x.reshape(3,3)

tensor([[0., 1., 2.],
        [3., 4., 5.],
        [6., 7., 8.]])

텐서의 전치 행렬을 구해보겠습니다.

In [18]:
x = tc.tensor([[0,1,2],[3,4,5],[6,7,8],[9,10,11]])
x.t()

tensor([[ 0,  3,  6,  9],
        [ 1,  4,  7, 10],
        [ 2,  5,  8, 11]])

슬라이싱은 텐서의 일부를 선택하여 새로운 텐서를 만드는 기능입니다. PyTorch에서 슬라이싱을 사용하면 텐서의 특정 부분을 쉽게 추출할 수 있습니다. 슬라이싱을 사용하여 2차원 텐서의 일부분을 추출해보겠습니다.

In [21]:
x = tc.tensor([[1,2,3,4,5],[6,7,8,9,10]])
x[1,2:]

tensor([ 8,  9, 10])

In [23]:
x = tc.tensor([[1,2,3,4,5],[6,7,8,9,10]])
x[0,-3:]

tensor([3, 4, 5])

### 1.3. Tensor 표준 수학 연산

PyTorch에서는. 기본적인 산술 연산을 하는 함수를 비롯하여, (sum, mean, var, std, max, min) 등의 통계량을 구하는 함수 등이 제공됩니다. 또한, 삼각함수, 쌍곡함수, 지수함수, 로그함수 등의 초월함수도 제공됩니다.

In [24]:
x = tc.tensor([0.0, 0.25, 0.5, 0.75, 1.0])
y = tc.tensor([[0.],[1.],[2.]])
z = tc.tensor([[0,1,2,3],[4,5,6,7],[8,9,10,11]])

sin 함수는 텐서의 각 요소에 대해 사인(sin) 값을 계산하고, 그 결과로 채워진 같은 크기의 텐서를 반환합니다.

In [25]:
tc.sin(x)

tensor([0.0000, 0.2474, 0.4794, 0.6816, 0.8415])

sum 함수는 텐서의 모든 요소의 합을 계산합니다. axis 인자를 사용하면 특정 차원에 대해 합을 계산할 수 있습니다. axis 인자가 없으면 텐서의 모든 요소를 더합니다.

In [26]:
tc.sum(z)

tensor(66)

$[[0,1,2,3], \\
  [4,5,6,7], \\
  [8,9,10,11]]$

axis=0은 각 열의 합의 계산합니다.

In [27]:
tc.sum(z,axis = 0)

tensor([12, 15, 18, 21])

axis=1은 각 행의 합을 계산합니다.

In [28]:
tc.sum(z, axis = 1)

tensor([ 6, 22, 38])

브로드캐스팅(Broadcasting)은 PyTorch에서 서로 다른 형태의 텐서 간의 연산을 수행할 때, 작은 텐서의 형태를 자동으로 맞춰서 연산을 가능하게 하는 기능입니다. 텐서끼리 더해보겠습니다.

In [29]:
x * y

tensor([[0.0000, 0.0000, 0.0000, 0.0000, 0.0000],
        [0.0000, 0.2500, 0.5000, 0.7500, 1.0000],
        [0.0000, 0.5000, 1.0000, 1.5000, 2.0000]])

In [30]:
y + z

tensor([[ 0.,  1.,  2.,  3.],
        [ 5.,  6.,  7.,  8.],
        [10., 11., 12., 13.]])

In [31]:
x + z

RuntimeError: The size of tensor a (5) must match the size of tensor b (4) at non-singleton dimension 1

> 브로드캐스팅이 가능하려면 두 텐서의 차원이 맞아야 하거나 하나의 차원이 1이어야 합니다. x와 z의 경우, 이러한 조건을 충족하지 않기 때문에 에러가 발생합니다.

텐서끼리 곱해보겠습니다.

In [32]:
x*y


tensor([[0.0000, 0.0000, 0.0000, 0.0000, 0.0000],
        [0.0000, 0.2500, 0.5000, 0.7500, 1.0000],
        [0.0000, 0.5000, 1.0000, 1.5000, 2.0000]])

In [33]:
y*z

tensor([[ 0.,  0.,  0.,  0.],
        [ 4.,  5.,  6.,  7.],
        [16., 18., 20., 22.]])

In [34]:
z*x

RuntimeError: The size of tensor a (4) must match the size of tensor b (5) at non-singleton dimension 1

### 1.4. 선형대수 연산 함수

matmul 함수는 행렬 곱셈(matrix multiplication)을 수행합니다. 입력 텐서 x와 y의 형태에 따라 동작이 다를 수 있습니다. 두 텐서가 1차원일 경우, 이는 두 벡터의 내적(dot product)을 계산합니다.

In [36]:
x = tc.tensor([1.0, 2.0])
y = tc.tensor([-3.0, -4.0])
tc.matmul(x,y)

tensor(-11.)

@ 연산자는 PyTorch에서 행렬 곱셈(matrix multiplication)을 수행하는 연산자로, tc.matmul과 동일한 기능을 합니다.

In [37]:
x @ y

tensor(-11.)

2차원 텐서의 matmul 연산은 그냥 행렬곱과 같습니다.

In [38]:
a = tc.tensor([[1, 0], [0, 1], [2, 1], [3, 4]])
b = tc.tensor([[4, 1, 5], [2, 2, 6]])
tc.matmul(a,b)

tensor([[ 4,  1,  5],
        [ 2,  2,  6],
        [10,  4, 16],
        [20, 11, 39]])

3차원 텐서 A와 B를 생성하고, 이들 간의 행렬 곱셈을 수행해보겠습니다.

In [39]:
A1 = tc.arange(2*3).reshape((2,3))
A = tc.stack([A1, A1+2, A1+4, A1+6])

B1 = tc.arange(3*3).reshape((3,3))
B = tc.stack([B1, B1+2, B1+4, B1+6])

print(A)
print(B)

tensor([[[ 0,  1,  2],
         [ 3,  4,  5]],

        [[ 2,  3,  4],
         [ 5,  6,  7]],

        [[ 4,  5,  6],
         [ 7,  8,  9]],

        [[ 6,  7,  8],
         [ 9, 10, 11]]])
tensor([[[ 0,  1,  2],
         [ 3,  4,  5],
         [ 6,  7,  8]],

        [[ 2,  3,  4],
         [ 5,  6,  7],
         [ 8,  9, 10]],

        [[ 4,  5,  6],
         [ 7,  8,  9],
         [10, 11, 12]],

        [[ 6,  7,  8],
         [ 9, 10, 11],
         [12, 13, 14]]])


In [41]:
C = tc.matmul(A, B)
C

tensor([[[ 15,  18,  21],
         [ 42,  54,  66]],

        [[ 51,  60,  69],
         [ 96, 114, 132]],

        [[111, 126, 141],
         [174, 198, 222]],

        [[195, 216, 237],
         [276, 306, 336]]])

텐서 x와 y는 각각 3차원과 2차원 텐서이지만, 브로드캐스팅 규칙에 따라 올바르게 연산이 가능합니다.

In [44]:
x = tc.rand(5, 3, 4)
y = tc.rand(4, 2)
tc.matmul(x,y).shape

torch.Size([5, 3, 2])

einsum 함수는 아인슈타인 표기법을 사용하여 다양한 텐서 연산을 수행할 수 있게 해줍니다. 이 함수는 복잡한 텐서 연산을 간결하게 표현할 수 있어 유용합니다.

In [45]:
a = tc.arange(25).reshape(5,5)
b = tc.arange(15).reshape(5,3)
c = -tc.arange(15).reshape(5,3)
a, b, c

(tensor([[ 0,  1,  2,  3,  4],
         [ 5,  6,  7,  8,  9],
         [10, 11, 12, 13, 14],
         [15, 16, 17, 18, 19],
         [20, 21, 22, 23, 24]]),
 tensor([[ 0,  1,  2],
         [ 3,  4,  5],
         [ 6,  7,  8],
         [ 9, 10, 11],
         [12, 13, 14]]),
 tensor([[  0,  -1,  -2],
         [ -3,  -4,  -5],
         [ -6,  -7,  -8],
         [ -9, -10, -11],
         [-12, -13, -14]]))

i는 행, j는 열을 뜻합니다. a의 대각합을 구해보겠습니다.

In [46]:
tc.einsum('ii',a)

tensor(60)

a의 대각원소를 구해보겠습니다.

In [47]:
tc.einsum('ii->i',a)

tensor([ 0,  6, 12, 18, 24])

b의 전치행렬을 구해보겠습니다.

In [48]:
tc.einsum('ji',a)

tensor([[ 0,  5, 10, 15, 20],
        [ 1,  6, 11, 16, 21],
        [ 2,  7, 12, 17, 22],
        [ 3,  8, 13, 18, 23],
        [ 4,  9, 14, 19, 24]])

a와 b의 행렬곱 계산해보겠습니다.

In [51]:
tc.einsum('ij,jk->ik',a,b)

tensor([[ 90, 100, 110],
        [240, 275, 310],
        [390, 450, 510],
        [540, 625, 710],
        [690, 800, 910]])

In [53]:
tc.matmul(a,b)

tensor([[ 90, 100, 110],
        [240, 275, 310],
        [390, 450, 510],
        [540, 625, 710],
        [690, 800, 910]])

같은 모양의 텐서 b,c의 각 행끼리의 점곱을 계산해보겠습니다.

In [54]:
tc.einsum('ij,ij->i',b,c)

tensor([  -5,  -50, -149, -302, -509])

---

## 2. 자동미분 실행하기

PyTorch를 비롯한 대부분의 자동미분 라이브러리는 함수의 도함수(편도함수)를 직접 구하지 않습니다. 그 대신 주어진 점(입력값)에서의 미분계수(편미분계수) 값을 구합니다. 즉, 자동미분 라이브러리는 지정해준 점에서의 함수의 순간 기울기를 구하는 기능만을 갖고 있으며, 이를 이용하여 미분가능한 모든 함수의 모든 지점에서의 기울기를 구할 수 있습니다.

### 2.1. backward()

다른 텐서로부터 계산한 텐서 F에 대해 F.backward()를 호출하면, PyTorch는 F가 의존하는 모든 텐서에 대해 F의 편미분계수를 계산하도록 지시합니다. 이 편미분계수들은 각각의 텐서들의 .grad 속성에 Tensor로 저장됩니다.

* requires_grad=True: 자동 미분을 추적하려면 텐서를 생성할 때 requires_grad=True로 설정해야 합니다.
* backward() 호출: Tensor.backward()를 호출하면 해당 텐서로부터 계산된 모든 텐서에 대해 그래디언트(기울기)를 계산합니다.

다음 x, y, z 텐서에 대해서, x와 y의 함수로 정의된 f 텐서가 있는 상황에서의 편미분을 살펴보겠습니다.

In [55]:
x = tc.tensor(2.0, requires_grad=True)
y = tc.tensor(3.0, requires_grad=True)
z = tc.tensor(4.0, requires_grad=True)
f = x*y

f.backward()를 호출하면 PyTorch가 f의 모든 편미분계수를 계산하도록 지시합니다. 이는 역전파(backpropagation)라고 하는 컴퓨터가 빠르게 편미분계수를 계산할 수 있는 알고리즘을 사용하여 수행됩니다.

In [56]:
f.backward()

x와 y의 .grad() 속성을 살펴보면 $\frac{d F}{d x}$와 $\frac{d F}{dy}$의 값을 얻을 수 있습니다.

In [58]:
x.grad

tensor(3.)

In [59]:
y.grad

tensor(2.)

이번에는 x, y, 그리고 x와 y로부터 구해지는 f까지 세 텐서에 의존하는 텐서 F의 모든 편미분계수를 계산해보겠습니다. 즉, F(f(x, y), x, y)인 경우를 살펴보겠습니다.

In [65]:
x = tc.tensor(2.0, requires_grad=True)
y = tc.tensor(3.0, requires_grad=True)
f = x*y
f.retain_grad()
F = f + x -2

In [70]:
F.backward()

f의 grad() 속성을 살펴보면 $\frac{\partial F}{\partial f}=1$의 값을 얻을 수 있습니다.
y의 grad() 속성을 살펴보면 $\frac{\partial F}{\partial y} = \frac{\partial F}{\partial f}\frac{\partial f}{\partial y}=1\cdot x=x$의 값을 얻을 수 있습니다.

마지막으로 x의 경우, t = x에 대해 F = f + t - 2로 쓸 수 있습니다. 이렇게 생각하고 x의 grad() 속성을 살펴보면 $\frac{\partial F}{\partial x} = \frac{\partial F}{\partial f}\frac{\partial f}{\partial x} + \frac{\partial F}{\partial t}\frac{\partial t}{\partial x}=1\cdot y+1\cdot 1=y+1$의 값을 얻을 수 있습니다.

In [71]:
f.grad

tensor(1.)

In [72]:
x.grad

tensor(4.)

In [73]:
y.grad

tensor(2.)

### 2.2. 편미분계수 계산 시 상수 텐서와 변수 텐서

머신러닝 모델을 다음과 같이 정의할 때
\begin{equation}
\mathscr{L}\big(w_1, ..., w_M ; (x_n, y_n)_{n=0}^{N-1}\big)
\end{equation}

경사하강법을 수행하기 위해 $\frac{d\mathscr{L}}{dw_i}$를 각각의 $w_i$에 대해 계산해야 합니다. 그러나, $\frac{d\mathscr{L}}{dx_i}$는 필요하지 않습니다. 특히, 입력 데이터셋이 크고 복잡해질수록, 필요없는 수많은 편미분계수를 일일이 계산하는 것은 쓸데없이 많은 비용이 드는 일입니다. PyTorch 텐서의 backward() 메서드는 $\mathscr{L}$를 이루는 모든 변수 텐서들에 대해 편미분계수를 계산해서, 편미분계수 계산이 필요없는 데이터들을 변수 텐서가 아니라 상수 텐서로 표현함으로써 자동으로 backward() 계산에서 배제되도록 해야 합니다.

PyTorch의 텐서 객체를 생성할 때 requires_grad=False를 사용하여 상수 텐서를 생성할 수 있습니다. requires_grad=False로 설정된 텐서는 그래디언트 계산에 포함되지 않습니다. 기본값이 requires_grad=False이므로, 특별히 지정하지 않아도 됩니다.

In [75]:
x = tc.tensor(1.)
y = tc.tensor(2., requires_grad=True)

In [76]:
F = x * y
F.backward()

> 역전파를 수행한 후 텐서 F의 값은 변하지 않습니다.

In [77]:
F.grad

  F.grad


> F는 그래디언트를 저장하지 않습니다.

In [78]:
x.grad

> requires_grad=True로 설정되지 않았기 때문에 그래디언트가 계산되지 않습니다.

In [79]:
y.grad

tensor(1.)

---

## 3. 다차원 텐서의 자동미분 실행하기

지금까지는 하나의 스칼라 변수로 이루어진 0차원 텐서에 대해 정의된, 간단한 함수에 대해서만 자동미분을 실행해보았습니다. 다차원 텐서의 경우 스칼라 변수들의 집합으로 보면 됩니다.

In [80]:
tensor = tc.tensor([2.0, 4.0, 8.0], requires_grad=True)
arr = tc.tensor([-1.0, 2.0, 0], requires_grad=True)
F = (arr * tensor ** 2).sum()
F.backward()

위의 코드에서 정의된 함수 F를 풀어서 쓰면 $F = -1\:(x_0)^2 + 2\:(x_1)^2 + 0\:(x_2)^2$입니다. 그리고 다차원 텐서의 각 원소를 스칼라 값 변수로 해석한다는 것은, $\mathrm{tensor} = [x_0, x_1, x_2]$로 보겠다는 뜻입니다.

\begin{align}
{\nabla}F &= \big[\frac{\partial F}{\partial x_0},\frac{\partial F}{\partial x_1},\frac{\partial F}{\partial x_2}\big]\\
&= \big[-2x_0,\:4x_1,\:0x_2\big]\\
{\nabla}F\big|_{x_0=2, x_1=4, x_2=8} &= \big[-4,\:16,\:0\big]
\end{align}

tensor.grad는 tensor에 저장된 특정 값에서의 ${\nabla}F$ 를 저장합니다.

In [84]:
tensor.grad

tensor([-4., 16.,  0.])

일반화하여 표현하면 다음과 같습니다. tensor의 각 원소는 스칼라 값 변수로 해석할 수 있고, tensor.grad에서 대응되는 위치의 요소는 해당 변수에 대한 미분계수입니다.

$\text{tensor}[x_0, \dots, x_{(N-1)}] \rightarrow \text{tensor.grad}[x_0, \dots, x_{(N-1)}] = {\nabla}F = \big[\frac{\partial F}{\partial x_0},\dots,\frac{\partial F}{\partial x_{(N-1)}}\big]$

---

## 4. Torch의 자동미분을 이용한 경사하강법

### 4.1. 경사하강법

도함수를 모르는 $\mathscr{L}(w)$에 대해서도 적용할 수 있는, 자동미분을 이용한 경사하강법 함수를 작성해보겠습니다. $w$의 값을 PyTorch 텐서로 저장한 후, $\mathscr{L}(w)$를 $w$의 식으로 정의해주어, .backward() 메서드를 사용하여 편미분계수를 구할 수 있습니다. 아래의 경사하강법 공식에 따라 자동미분을 이용한 경사하강법을 프로그래밍으로 구현해보겠습니다.

\begin{equation}
w_{\mathrm{new}} = w_{\mathrm{old}} - \delta \frac{\mathrm{d}\mathscr{L}}{\mathrm{d}w}\big|_{w_{\mathrm{old}}}
\end{equation}

다음과 같이 $w$의 시작점과 학습률 $\delta$, 몇 단계 반복할 것인지가 주어졌습니다.

In [95]:
w = tc.tensor([10.0], requires_grad=True)
learning_rate = 0.05
num_steps = 30

경사하강법을 수행하는 코드를 작성해보겠습니다.

In [96]:
for i in range(num_steps):
    L = w**2
    L.backward()
    with tc.no_grad():
      w -= learning_rate * w.grad
    w.grad = None
    print(w)


tensor([9.], requires_grad=True)
tensor([8.1000], requires_grad=True)
tensor([7.2900], requires_grad=True)
tensor([6.5610], requires_grad=True)
tensor([5.9049], requires_grad=True)
tensor([5.3144], requires_grad=True)
tensor([4.7830], requires_grad=True)
tensor([4.3047], requires_grad=True)
tensor([3.8742], requires_grad=True)
tensor([3.4868], requires_grad=True)
tensor([3.1381], requires_grad=True)
tensor([2.8243], requires_grad=True)
tensor([2.5419], requires_grad=True)
tensor([2.2877], requires_grad=True)
tensor([2.0589], requires_grad=True)
tensor([1.8530], requires_grad=True)
tensor([1.6677], requires_grad=True)
tensor([1.5009], requires_grad=True)
tensor([1.3509], requires_grad=True)
tensor([1.2158], requires_grad=True)
tensor([1.0942], requires_grad=True)
tensor([0.9848], requires_grad=True)
tensor([0.8863], requires_grad=True)
tensor([0.7977], requires_grad=True)
tensor([0.7179], requires_grad=True)
tensor([0.6461], requires_grad=True)
tensor([0.5815], requires_grad=True)
tenso

### 4.2. 일반적인 경사하강법 함수 작성하기

보편적인 상황에 대해 적용할 수 있는 일반적인 경사하강법 함수를 작성해보겠습니다.

In [97]:
def gradient_step(tensors, learning_rate):
    if isinstance(tensors, tc.Tensor):
        tensors = [tensors]

    with tc.no_grad():
        for tensor in tensors:
            if tensor.grad is not None:
                tensor.data -= learning_rate * tensor.grad
                tensor.grad.zero_()

앞서 수행했던 함수 $\mathscr{L}(w) = w^2$에 대한 경사하강법을 다시 한번 실행해봄으로써 보편적인 경사하강법 함수가 우리가 원하는대로 동작하는지 확인해보겠습니다.

In [109]:
w = tc.tensor(10.0, requires_grad=True)
learning_rate = 0.3
num_steps = 20

In [110]:
for i in range(num_steps):
    L = w**2
    L.backward()
    gradient_step(w, learning_rate)
    print(w)

tensor(4., requires_grad=True)
tensor(1.6000, requires_grad=True)
tensor(0.6400, requires_grad=True)
tensor(0.2560, requires_grad=True)
tensor(0.1024, requires_grad=True)
tensor(0.0410, requires_grad=True)
tensor(0.0164, requires_grad=True)
tensor(0.0066, requires_grad=True)
tensor(0.0026, requires_grad=True)
tensor(0.0010, requires_grad=True)
tensor(0.0004, requires_grad=True)
tensor(0.0002, requires_grad=True)
tensor(6.7109e-05, requires_grad=True)
tensor(2.6844e-05, requires_grad=True)
tensor(1.0737e-05, requires_grad=True)
tensor(4.2950e-06, requires_grad=True)
tensor(1.7180e-06, requires_grad=True)
tensor(6.8719e-07, requires_grad=True)
tensor(2.7488e-07, requires_grad=True)
tensor(1.0995e-07, requires_grad=True)
