## Torch



### 1. Torch Basic

- `torch.Tensor`는 다차원 배열을 처리하는 PyTorch의 기본 데이터 구조로, Numpy 배열과 유사하지만 GPU 가속 및 자동 미분 기능을 제공한다.
- Tensor는 다차원 행렬을 의미하는 것으로, 이름부터 고차원의 행렬을 연산하기 위해 탄생하였다고 봐도 무방하다.

In [1]:
import torch
import numpy as np

np_array = np.array([[1, 2], [3, 4]])
print("Numpy Array:\n", np_array)

Numpy Array:
 [[1 2]
 [3 4]]


`numpy` 형태의 데이터는 다음과 같이 `type()`로 확인하면 `np.ndarray`가 나온다.

In [2]:
type(np_array)

numpy.ndarray

마찬가지로, Torch는 torch.Tensor형태의 타입이 나온다.

In [3]:
torch_tensor = torch.tensor([[1, 2], [3, 4]])
print("Torch Tensor:\n", torch_tensor)

Torch Tensor:
 tensor([[1, 2],
        [3, 4]])


In [4]:
type(torch_tensor)

torch.Tensor

shapes는 numpy와 사용이 굉장히 유사하다. 출력 형태는 `torch.Size()`로 나온다.

In [6]:
np_array.shape # shapes

(2, 2)

In [7]:
torch_tensor.shape

torch.Size([2, 2])

일반적으로 행렬은 다음과 같이 생성한다. numpy의 기능과 굉장히 유사함으로 사용에 큰 지장은 없다. 기본 데이터 타입은 `float64`로 출력된다.

In [8]:
# 0행렬의 경우
zeros_tensor = torch.zeros(3, 3)
print("Zeros Tensor:\n", zeros_tensor)

Zeros Tensor:
 tensor([[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]])


In [9]:
# 2 * 2 형태의 1로 이뤄진 행렬
ones_tensor = torch.ones(2, 2)
print("Ones Tensor:\n", ones_tensor)

Ones Tensor:
 tensor([[1., 1.],
        [1., 1.]])


In [10]:
# 4x4 크기의 랜덤한 값을 가진 텐서, 랜덤변수는 정규분포에서 출력되었다고 가정한다.
random_tensor = torch.randn(4, 4)
print("Random Tensor:\n", random_tensor)

Random Tensor:
 tensor([[-0.0135,  1.1189,  2.0217, -0.4648],
        [ 0.1937,  0.1076,  0.3114, -0.0349],
        [ 0.5974,  1.0005, -1.5733, -1.3362],
        [-2.6824,  0.2632,  0.3583, -1.2316]])


연산 결과는 `.numpy()` method를 통해 numpy형태로 변환 가능하다.

In [12]:
random_tensor_numpy = random_tensor.numpy()

In [13]:
random_tensor_numpy

array([[-0.01353094,  1.1189137 ,  2.0217364 , -0.46475884],
       [ 0.19374293,  0.10761082,  0.31135914, -0.03485359],
       [ 0.59743375,  1.0004882 , -1.5733309 , -1.336151  ],
       [-2.6823883 ,  0.26324663,  0.35826156, -1.231588  ]],
      dtype=float32)

In [14]:
print(type(random_tensor_numpy)) # numpy.ndarray

<class 'numpy.ndarray'>


3차원 이상의 경우 tensor는 다음과 같이 표현된다. numpy와 마찬가치로 2차원 행렬이 줄바꿈을 기준으로 표현되는 형식이다.

In [15]:
random_tensor_3d = torch.randn(4, 4, 4)
print('Random Tensor 3D:\n', random_tensor_3d)

Random Tensor 3D:
 tensor([[[-0.7273,  0.8799, -0.0111,  1.0386],
         [-0.4135,  0.6298,  1.2391,  0.1925],
         [-0.1554,  0.6540, -0.4026,  0.7997],
         [ 0.3881,  1.9292,  0.2814,  0.1568]],

        [[ 0.3025,  0.6283, -0.0764,  0.7614],
         [ 2.8023, -2.3307,  0.2489,  1.4035],
         [-0.5219, -1.5813, -0.0158, -0.1367],
         [ 0.0753,  0.2099, -0.8172,  1.3111]],

        [[ 0.2428,  1.2669, -0.8196,  0.0914],
         [ 0.3412,  0.7044,  0.4741,  0.4356],
         [ 0.0057,  1.0130, -0.6669, -0.6976],
         [ 0.2792, -0.2834,  0.9725, -1.1699]],

        [[ 2.6120,  1.3889,  0.2076,  0.8258],
         [ 0.5222,  0.2531, -0.1076, -1.2481],
         [ 0.1770,  0.2651,  0.7595, -0.1242],
         [ 0.1054,  0.1850,  0.4743,  0.5439]]])


#### 1.1 기본 텐서 연산

- `numpy`와 마찬가지로 다차원 행렬의 연산을 수행할 수 있다.

In [16]:
a = torch.tensor([[1, 2], [3, 4]])
b = torch.tensor([[5, 6], [7, 8]])

In [19]:
a

tensor([[1, 2],
        [3, 4]])

In [20]:
b

tensor([[5, 6],
        [7, 8]])

In [17]:
# 덧셈 (add)
print("Addition:\n", torch.add(a, b))

Addition:
 tensor([[ 6,  8],
        [10, 12]])


element별로 곱셈을 수행하기 위해서는 `mul()`함수를 사용한다.

In [18]:
# 곱셈 (요소별, mul)
print("Element-wise Multiplication:\n", torch.mul(a, b))

Element-wise Multiplication:
 tensor([[ 5, 12],
        [21, 32]])


행렬곱 연산 수행을 위해서는 `matmul()` 함수를 사용한다.

In [21]:
# 행렬 곱 (matmul)
print("Matrix Multiplication:\n", torch.matmul(a, b))

Matrix Multiplication:
 tensor([[19, 22],
        [43, 50]])


요소의 개수와 행렬 전체의 크기만 맞춘다면, numpy와 마찬가지로 shape를 변경할 수 있다 (reshape)

In [22]:
# 텐서의 크기 변경 (reshape)
reshaped_tensor = a.reshape(4, 1)
print("Reshaped Tensor:\n", reshaped_tensor)

Reshaped Tensor:
 tensor([[1],
        [2],
        [3],
        [4]])


`view()` method를 사용하면 메모리의 추가적인 할당 없이, 기존 데이터를 공유하여 reshape을 한다. 메모리를 절약할 수 있다는 점에서 장점이 있지만, 동시에 데이터가 공유되기 때문에 인스턴스화된 하나의 변수에서 값을 변경할 경우 나머지 하나에도 동일하게 값이 변경되므로 주의해야 한다.

In [23]:
# view를 통한 형태 변경 (기존 데이터 공유)
viewed_tensor = a.view(1, 4)
print("Viewed Tensor:\n", viewed_tensor)

Viewed Tensor:
 tensor([[1, 2, 3, 4]])


In [24]:
a

tensor([[1, 2],
        [3, 4]])

In [26]:
viewed_tensor[0][0] = 10 # 새롭게 인스턴스와된 변수의 값을 변경

In [27]:
viewed_tensor

tensor([[10,  2,  3,  4]])

In [28]:
a

tensor([[10,  2],
        [ 3,  4]])

`squeeze()` method를 사용해 차원을 축소할 수 있다. 차원이 1인 축(axes)을 제거하여 텐서의 차원을 축소하는 기능을 수행한다.

In [30]:
expanded_tensor = torch.tensor([[[1, 2, 3]]])  # (1, 1, 3) -> (3, )
squeezed_tensor = expanded_tensor.squeeze()

In [32]:
expanded_tensor # (1, 1, 3)

tensor([[[1, 2, 3]]])

In [31]:
squeezed_tensor # (3, )

tensor([1, 2, 3])

squeeze는 데이터 복사가 없으며, 원본 텐서의 메모리를 공유기 때문에 `view()`와 마찬가지로 인스턴스화된 어느 한 변수에서 값을 변경할 경우, 다른 변수들 또한 동일하게 값이 변하므로 유의해야 한다.

In [34]:
squeezed_tensor[0] = 10 # 새로운 값 변경

In [35]:
squeezed_tensor

tensor([10,  2,  3])

In [36]:
expanded_tensor

tensor([[[10,  2,  3]]])

#### 1.2 GPU 연산 사용

- Torch는 GPU를 활용해 연산을 가속할 수 있다. Nvidia 계열 GPU를 사용하는 경우 `.cuda()` 또는 `.to(device)`를 사용한다. 
- Silicon Mac을 사용하는 경우 gpu를 `mps:0`로 설정하면 GPU 가속을 사용할 수 있다.
- Nvidia GPU혹은 Apple M 시리즈를 사용하지 않는다면 cpu로 연산을 진행해도 된다. 다만, 학습 속도는 굉장히 느려진다.

In [39]:
# device = torch.device("cuda" if torch.cuda.is_available() else "cpu") # cuda 사용자인 경우 사용.
device = torch.device("mps:0")
print("Using device:", device)

Using device: mps:0


In [40]:
cpu_tensor = torch.tensor([1.0, 2.0, 3.0])
gpu_tensor = cpu_tensor.to(device) # 메모리 영역이 다르기 때문에 device를 전달해 주어야 함

print("Tensor on device:", gpu_tensor)

Tensor on device: tensor([1., 2., 3.], device='mps:0')


### 2. Gradient

- Torch의 `Autograd` 기능은 신경망 학습 과정에서 역전파(Backpropagation)를 수행하기 위해 Gradient를 자동으로 계산한다.
- 이를 위해 `requires_grad` 속성과 `backward()` method를 사용한다.

#### 2.1 자동 미분

- `torch.autograd`는 텐서의 연산 기록을 추적하여 자동으로 **미분(gradient)**을 계산한다.
- 텐서에 `requires_grad=True`를 설정하면 연산 그래프가 기록되며, backward() 호출 시 그래디언트가 계산된다.

In [41]:
x = torch.tensor(2.0, requires_grad = True) # 자동으로 연산을 추적

아래와 같은 식을 생각해 보자

$$y = x^2 + 3x + 5$$

이 식을 미분하면 다음과 같이 된다

$$y^\prime = 2x + 3$$

위 식을 torch를 이용해 미분해 보자

In [42]:
y = x**2 + 3*x + 5

y.backward() # backward() 호출하여 y를 x에 대해 미분

결과를 확인하면, 미분이 잘 된 것을 알 수 있다.

In [46]:
x.grad # x = 2일때, 일계도함수의 값

tensor(7.)

변수가 여러개일 때에도 미분이 가능하다.

In [47]:
x = torch.tensor([1.0, 2.0, 3.0], requires_grad=True)

In [49]:
y = 2 * x**2 + 3 * x
y.sum().backward() # 스칼라 값을 만들기 위해 합을 구한 후 backward() 호출

In [51]:
x.grad # 각 x값에 대해서 미분값을 출력

tensor([ 7., 11., 15.])

#### 2.2 자동 미분 추적 금지

학습이 시작된 이후에는 추적이 필요하지만, 학습이 완료되고 테스트를 할 때에는 gradient 값을 업데이트 할 필요가 없다. 이럴 때에는 `torch.no_grad`를 사용한다.

In [52]:
x = torch.tensor(5.0, requires_grad=True)

with torch.no_grad(): # 실제로는 테스트 데이터에 대해서 no_grad()를 사용한다.
    y = x ** 2 + 3 * x
    print("Value of y (no_grad):", y)

Value of y (no_grad): tensor(40.)


In [53]:
x.grad # None

또는 `detach()`를 사용하여 그래디언트 추적 방지를 할 수도 있다. 이를 이용하면 특정 텐서에서만 그래디언트 계산에서 제외할 수 있다. `detach()`는 그래디언트 추적을 비활성화하여, 동일한 데이터를 새로운 텐서로 반환한다.

In [54]:
x = torch.tensor(5.0, requires_grad=True)
y = x ** 2

In [55]:
z = y.detach() # x와 연결이 끊어짐

In [57]:
z.requires_grad

False

#### 2.3 Gradient 초기화

torch는 gradient를 누적 방식으로 계산하므로, 반복 학습 시마다 그래디언트를 초기화해야 한다. 이를 수행하지 않으면 값이 누적되어 학습 결과가 중복될 수 있다.

In [58]:
x = torch.tensor(2.0, requires_grad=True)

In [59]:
y1 = x ** 2
y1.backward()
print("First Gradient:", x.grad)  # dy/dx = 2x = 4

First Gradient: tensor(4.)


In [60]:
y1 = x ** 2
y1.backward()
print("Second Gradient:", x.grad) # 여러 번 backward() 호출 시 그래디언트가 누적됨

Second Gradient: tensor(8.)


In [61]:
x.grad.zero_() # zero_ 수행 후 새로운 연산 실행
y2 = x ** 2
y2.backward()
print("Second Gradient:", x.grad)  # dy/dx = 3x^2 = 12

Second Gradient: tensor(4.)


#### 2.4 Chain Rules

- Chain Rule은 일종의 합성함수 연산이라고 볼 수 있다.
- torch에서는 자동으로 Chain Rule을 적용하여 다단계 연산의 그래디언트를 계산할 수 있다.

In [62]:
x = torch.tensor(1.0, requires_grad=True)
y = x ** 2
z = 3 * y + 2

z.backward()  # dz/dx = 3 * dy/dx = 3 * 2x = 6

In [63]:
x.grad

tensor(6.)

#### 2.5 Jacobian Matrix

- `torch.autograd.grad()`를 이용해 복수의 입력과 출력에 대한 미분(자코비안 행렬)을 계산할 수 있다.

In [64]:
x = torch.tensor([1.0, 2.0], requires_grad=True)
y = x * x  # [x^2, y^2]

In [65]:
gradients = torch.autograd.grad(outputs=y, inputs=x, grad_outputs=torch.tensor([1.0, 1.0]))

출력은 tuple 형태이므로 값을 사용하기 위해서는 첫 번째 값(0번째 인덱스)을 사용해야 한다.

In [66]:
gradients

(tensor([2., 4.]),)

### 3. Optimization & Loss

In [67]:
x = torch.tensor([1.0, 2.0, 3.0], requires_grad=True)
y_true = torch.tensor([2.0, 4.0, 6.0]) 
w = torch.tensor(1.0, requires_grad=True) # weight initialization

In [68]:
def loss_fn(y_pred, y_true):
    return ((y_pred - y_true) ** 2).mean()

for epoch in range(100):
    y_pred = w * x
    loss = loss_fn(y_pred, y_true)

    loss.backward()  # 그래디언트 계산
    with torch.no_grad():
        w -= 0.01 * w.grad  # 가중치 업데이트
        w.grad.zero_()  # 그래디언트 초기화

In [71]:
w.item() # optimized weight

1.9999443292617798

### 4. Linear Regression