## Torch



### 1. Torch Basic

- `torch.Tensor`는 다차원 배열을 처리하는 PyTorch의 기본 데이터 구조로, Numpy 배열과 유사하지만 GPU 가속 및 자동 미분 기능을 제공한다.
- Tensor는 다차원 행렬을 의미하는 것으로, 이름부터 고차원의 행렬을 연산하기 위해 탄생하였다고 봐도 무방하다.

In [103]:
import torch
import numpy as np

np_array = np.array(
    [
        [1, 2], 
        [3, 4]
    ]
)
print("Numpy Array:\n", np_array)

Numpy Array:
 [[1 2]
 [3 4]]


`numpy` 형태의 데이터는 다음과 같이 `type()`로 확인하면 `np.ndarray`가 나온다.

In [104]:
type(np_array)

numpy.ndarray

마찬가지로, Torch는 torch.Tensor형태의 타입이 나온다.

In [105]:
torch_tensor = torch.tensor(
    [
        [1, 2],
        [3, 4]
    ]
)
print("Torch Tensor:\n", torch_tensor)

Torch Tensor:
 tensor([[1, 2],
        [3, 4]])


In [106]:
type(torch_tensor)

torch.Tensor

shapes는 numpy와 사용이 굉장히 유사하다. 출력 형태는 `torch.Size()`로 나온다.

In [107]:
np_array.shape # shapes

(2, 2)

In [108]:
torch_tensor.shape

torch.Size([2, 2])

일반적으로 행렬은 다음과 같이 생성한다. numpy의 기능과 굉장히 유사함으로 사용에 큰 지장은 없다. 기본 데이터 타입은 `float64`로 출력된다.

In [109]:
# 0행렬의 경우
zeros_tensor = torch.zeros(3, 3)
print("Zeros Tensor:\n", zeros_tensor)

Zeros Tensor:
 tensor([[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]])


In [110]:
# 2 * 2 형태의 1로 이뤄진 행렬
ones_tensor = torch.ones(2, 2)
print("Ones Tensor:\n", ones_tensor)

Ones Tensor:
 tensor([[1., 1.],
        [1., 1.]])


In [111]:
# 4x4 크기의 랜덤한 값을 가진 텐서, 랜덤변수는 정규분포에서 출력되었다고 가정한다.
random_tensor = torch.randn(4, 4)
print("Random Tensor:\n", random_tensor)

Random Tensor:
 tensor([[ 1.6690,  0.7852, -1.4156,  0.5354],
        [-0.2241,  0.5707, -0.7147,  0.8416],
        [-0.2319, -1.6523, -1.0449, -1.3569],
        [ 0.3395,  1.5323, -1.1483, -0.1142]])


연산 결과는 `.numpy()` method를 통해 numpy형태로 변환 가능하다.

In [112]:
random_tensor_numpy = random_tensor.numpy()

In [113]:
random_tensor_numpy

array([[ 1.6690068 ,  0.7851779 , -1.4156438 ,  0.5353802 ],
       [-0.22406492,  0.5706891 , -0.71472543,  0.8416374 ],
       [-0.23188762, -1.652259  , -1.0449424 , -1.3569013 ],
       [ 0.3394516 ,  1.5322863 , -1.1482941 , -0.11420687]],
      dtype=float32)

In [114]:
print(random_tensor_numpy)

[[ 1.6690068   0.7851779  -1.4156438   0.5353802 ]
 [-0.22406492  0.5706891  -0.71472543  0.8416374 ]
 [-0.23188762 -1.652259   -1.0449424  -1.3569013 ]
 [ 0.3394516   1.5322863  -1.1482941  -0.11420687]]


In [115]:
print(type(random_tensor_numpy)) # numpy.ndarray

<class 'numpy.ndarray'>


3차원 이상의 경우 tensor는 다음과 같이 표현된다. numpy와 마찬가치로 2차원 행렬이 줄바꿈을 기준으로 표현되는 형식이다.

In [116]:
random_tensor_3d = torch.randn(4, 4, 4)
print('Random Tensor 3D:\n', random_tensor_3d)

Random Tensor 3D:
 tensor([[[-1.1223, -0.0246,  1.8299, -0.4143],
         [ 0.1453,  0.1269, -1.0913, -1.8971],
         [-1.7647, -1.6430, -0.3041,  1.6317],
         [-0.2567, -1.2033,  1.1836, -0.3864]],

        [[-2.1025,  3.3154,  0.1086,  0.7572],
         [-0.5315, -0.3671,  0.7024, -1.7126],
         [ 1.4733,  0.9228,  2.1707, -2.9512],
         [-0.4961,  0.9598, -2.1411, -0.4656]],

        [[-1.4762, -0.7172,  0.9728,  0.2355],
         [-1.6309,  0.0841,  1.7762,  0.0913],
         [ 0.9440, -0.1074,  0.5758, -0.4396],
         [-0.4676, -0.5957,  0.7942,  0.3299]],

        [[ 0.1866, -0.4979,  0.1168,  0.7204],
         [ 0.7788, -2.6377,  1.0663, -0.0432],
         [ 0.1070,  1.2853, -1.1193, -0.9155],
         [ 0.0855,  0.7153, -0.9989, -0.3537]]])


#### 1.1 기본 텐서 연산

- `numpy`와 마찬가지로 다차원 행렬의 연산을 수행할 수 있다.

In [118]:
a = torch.tensor([
    [1, 2], 
    [3, 4]
])
b = torch.tensor([
    [5, 6], 
    [7, 8]
])

In [119]:
a

tensor([[1, 2],
        [3, 4]])

In [120]:
b

tensor([[5, 6],
        [7, 8]])

In [121]:
# 덧셈 (add)
print("Addition:\n", torch.add(a, b))

Addition:
 tensor([[ 6,  8],
        [10, 12]])


element별로 곱셈을 수행하기 위해서는 `mul()`함수를 사용한다.

In [122]:
# 곱셈 (요소별, mul)
print("Element-wise Multiplication:\n", torch.mul(a, b))

Element-wise Multiplication:
 tensor([[ 5, 12],
        [21, 32]])


행렬곱 연산 수행을 위해서는 `matmul()` 함수를 사용한다.

In [123]:
# 행렬 곱 (matmul)
print("Matrix Multiplication:\n", torch.matmul(a, b))

Matrix Multiplication:
 tensor([[19, 22],
        [43, 50]])


요소의 개수와 행렬 전체의 크기만 맞춘다면, numpy와 마찬가지로 shape를 변경할 수 있다 (reshape)

In [124]:
# 텐서의 크기 변경 (reshape)
reshaped_tensor = a.reshape(4, 1)
print("Reshaped Tensor:\n", reshaped_tensor)

Reshaped Tensor:
 tensor([[1],
        [2],
        [3],
        [4]])


`view()` method를 사용하면 메모리의 추가적인 할당 없이, 기존 데이터를 공유하여 reshape을 한다. 메모리를 절약할 수 있다는 점에서 장점이 있지만, 동시에 데이터가 공유되기 때문에 인스턴스화된 하나의 변수에서 값을 변경할 경우 나머지 하나에도 동일하게 값이 변경되므로 주의해야 한다.

In [126]:
a

tensor([[1, 2],
        [3, 4]])

In [127]:
# view를 통한 형태 변경 (기존 데이터 공유)
viewed_tensor = a.view(1, 4)
print("Viewed Tensor:\n", viewed_tensor)

Viewed Tensor:
 tensor([[1, 2, 3, 4]])


In [128]:
a

tensor([[1, 2],
        [3, 4]])

In [129]:
viewed_tensor[0][0] = 10 # 새롭게 인스턴스화된 변수의 값을 변경

In [130]:
viewed_tensor

tensor([[10,  2,  3,  4]])

In [131]:
a

tensor([[10,  2],
        [ 3,  4]])

`squeeze()` method를 사용해 차원을 축소할 수 있다. 차원이 1인 축(axes)을 제거하여 텐서의 차원을 축소하는 기능을 수행한다.

In [132]:
expanded_tensor = torch.tensor([[[1, 2, 3]]])  # (1, 1, 3) -> (3, )
squeezed_tensor = expanded_tensor.squeeze()

In [133]:
expanded_tensor # (1, 1, 3)

tensor([[[1, 2, 3]]])

In [134]:
squeezed_tensor # (3, )

tensor([1, 2, 3])

squeeze는 데이터 복사가 없으며, 원본 텐서의 메모리를 공유하기 때문에 `view()`와 마찬가지로 인스턴스화된 어느 한 변수에서 값을 변경할 경우, 다른 변수들 또한 동일하게 값이 변하므로 유의해야 한다.

In [135]:
squeezed_tensor[0] = 10 # 새로운 값 변경

In [136]:
squeezed_tensor

tensor([10,  2,  3])

In [137]:
expanded_tensor

tensor([[[10,  2,  3]]])

#### 1.2 GPU 연산 사용

- Torch는 GPU를 활용해 연산을 가속할 수 있다. Nvidia 계열 GPU를 사용하는 경우 `.cuda()` 또는 `.to(device)`를 사용한다. 
- Silicon Mac을 사용하는 경우 gpu를 `mps:0`로 설정하면 GPU 가속을 사용할 수 있다.
- Nvidia GPU혹은 Apple M 시리즈를 사용하지 않는다면 cpu로 연산을 진행해도 된다. 다만, 학습 속도는 굉장히 느려진다.

In [138]:
# device = torch.device("cuda" if torch.cuda.is_available() else "cpu") # cuda 사용자인 경우 사용.
device = torch.device("mps:0")
print("Using device:", device)

Using device: mps:0


In [139]:
cpu_tensor = torch.tensor([1.0, 2.0, 3.0])
gpu_tensor = cpu_tensor.to(device) # 메모리 영역이 다르기 때문에 device를 전달해 주어야 함

print("Tensor on device:", gpu_tensor)

Tensor on device: tensor([1., 2., 3.], device='mps:0')


### 2. Gradient

- Torch의 `Autograd` 기능은 신경망 학습 과정에서 역전파(Backpropagation)를 수행하기 위해 Gradient를 자동으로 계산한다.
- 이를 위해 `requires_grad` 속성과 `backward()` method를 사용한다.

#### 2.1 자동 미분

- `torch.autograd`는 텐서의 연산 기록을 추적하여 자동으로 **미분(gradient)**을 계산한다.
- 텐서에 `requires_grad=True`를 설정하면 연산 그래프가 기록되며, backward() 호출 시 그래디언트가 계산된다.

In [140]:
x = torch.tensor(2.0, requires_grad = True) # 자동으로 연산을 추적

In [141]:
x

tensor(2., requires_grad=True)

아래와 같은 식을 생각해 보자

$$y = x^2 + 3x + 5$$

이 식을 미분하면 다음과 같이 된다

$$y^\prime = 2x + 3$$

위 식을 torch를 이용해 미분해 보자

In [142]:
y = x**2 + 3*x + 5

y.backward() # backward() 호출하여 y를 x에 대해 미분

결과를 확인하면, 미분이 잘 된 것을 알 수 있다.

In [143]:
x.grad # x = 2일때, 일계도함수의 값

tensor(7.)

변수가 여러개일 때에도 미분이 가능하다.

In [144]:
x = torch.tensor([1.0, 2.0, 3.0], requires_grad=True)

In [145]:
y = 2 * x**2 + 3 * x
y.sum().backward() # 스칼라 값을 만들기 위해 합을 구한 후 backward() 호출

In [146]:
x.grad # 각 x값에 대해서 미분값을 출력

tensor([ 7., 11., 15.])

#### 2.2 자동 미분 추적 금지

학습이 시작된 이후에는 추적이 필요하지만, 학습이 완료되고 테스트를 할 때에는 gradient 값을 업데이트 할 필요가 없다. 이럴 때에는 `torch.no_grad`를 사용한다.

In [147]:
x = torch.tensor(5.0, requires_grad=True)

with torch.no_grad(): # 실제로는 테스트 데이터에 대해서 no_grad()를 사용한다.
    y = x ** 2 + 3 * x
    print("Value of y (no_grad):", y)

Value of y (no_grad): tensor(40.)


In [148]:
x.grad # None

또는 `detach()`를 사용하여 그래디언트 추적 방지를 할 수도 있다. 이를 이용하면 특정 텐서에서만 그래디언트 계산에서 제외할 수 있다. `detach()`는 그래디언트 추적을 비활성화하여, 동일한 데이터를 새로운 텐서로 반환한다.

In [149]:
x = torch.tensor(5.0, requires_grad=True)
y = x ** 2

In [150]:
z = y.detach() # x와 연결이 끊어짐

In [151]:
z.requires_grad

False

#### 2.3 Gradient 초기화

torch는 gradient를 누적 방식으로 계산하므로, 반복 학습 시마다 그래디언트를 초기화해야 한다. 이를 수행하지 않으면 값이 누적되어 학습 결과가 중복될 수 있다.

In [152]:
x = torch.tensor(2.0, requires_grad=True)

In [153]:
y1 = x ** 2
y1.backward()
print("First Gradient:", x.grad)  # dy/dx = 2x = 4

First Gradient: tensor(4.)


In [156]:
y1 = x ** 2
y1.backward()
print("Second Gradient:", x.grad) # 여러 번 backward() 호출 시 그래디언트가 누적됨

Second Gradient: tensor(16.)


In [157]:
x.grad.zero_() # zero_ 수행 후 새로운 연산 실행
y2 = x ** 2
y2.backward()
print("Second Gradient:", x.grad)  # dy/dx = 3x^2 = 12

Second Gradient: tensor(4.)


#### 2.4 Chain Rules

- Chain Rule은 일종의 합성함수 연산이라고 볼 수 있다.
- torch에서는 자동으로 Chain Rule을 적용하여 다단계 연산의 그래디언트를 계산할 수 있다.

In [158]:
x = torch.tensor(1.0, requires_grad=True)
y = x ** 2
z = 3 * y + 2

z.backward()  # dz/dx = 3 * dy/dx = 3 * 2x = 6

In [159]:
x.grad

tensor(6.)

#### 2.5 Jacobian Matrix

- `torch.autograd.grad()`를 이용해 복수의 입력과 출력에 대한 미분(자코비안 행렬)을 계산할 수 있다.

In [160]:
x = torch.tensor([1.0, 2.0], requires_grad=True)
y = x * x  # [x^2, y^2]

In [161]:
gradients = torch.autograd.grad(outputs=y, inputs=x, grad_outputs=torch.tensor([1.0, 1.0]))

출력은 tuple 형태이므로 값을 사용하기 위해서는 첫 번째 값(0번째 인덱스)을 사용해야 한다.

In [162]:
gradients

(tensor([2., 4.]),)

### 3. Optimization & Loss

In [163]:
x = torch.tensor([1.0, 2.0, 3.0], requires_grad=True)
y_true = torch.tensor([2.0, 4.0, 6.0]) 
w = torch.tensor(1.0, requires_grad=True) # weight initialization

In [165]:
def loss_fn(y_pred, y_true):
    return ((y_pred - y_true) ** 2).mean()

for epoch in range(100):
    y_pred = w * x
    loss = loss_fn(y_pred, y_true)

    loss.backward()  # 그래디언트 계산
    with torch.no_grad():
        w -= 0.01 * w.grad  # 가중치 업데이트
        w.grad.zero_()  # 그래디언트 초기화

In [166]:
w.item() # optimized weight

1.9999994039535522

#### Example. Portfolio Optimization

In [167]:
import yfinance as yf

data = yf.download(
    ['AAPL','XOM','WMT'],
    start = '2020-01-01',
    progress = False
)['Close']

In [168]:
ret = data.pct_change()

In [169]:
expected_returns = torch.tensor(
    ret.mean().values * 252,
    dtype = torch.float32
)

In [170]:
cov_matrix = torch.tensor(
    ret.cov().values * 252,
    dtype = torch.float32
)

In [171]:
expected_returns

tensor([0.2655, 0.1980, 0.1436])

In [172]:
cov_matrix

tensor([[0.1002, 0.0256, 0.0304],
        [0.0256, 0.0507, 0.0134],
        [0.0304, 0.0134, 0.1180]])

In [173]:
import torch.optim as optim

weights = torch.tensor([0.33, 0.33, 0.34], requires_grad=True)

In [174]:
def portfolio_risk(weights, cov_matrix):
    weights_2d = weights.unsqueeze(0)  # (n,) -> (1, n)
    risk = torch.matmul(weights_2d, torch.matmul(cov_matrix, weights.unsqueeze(1)))  # (1, n) * (n, n) * (n, 1)
    return risk.squeeze()  # 스칼라 값 반환

def portfolio_return(weights, expected_returns):
    return torch.dot(weights, expected_returns)

In [175]:
optimizer = optim.SGD([weights], lr=0.01) # optimization target : 분산 최소화

for epoch in range(500):
    optimizer.zero_grad()  # 그래디언트 초기화. 이전에 학습한 정보를 지움으로써 학습 데이터가 겹치는 것을 방지.
    loss = portfolio_risk(weights, cov_matrix)  # 손실 함수 (리스크 최소화), 오차 최소화를 목표로 함
    loss.backward()  # 그래디언트 계산
    optimizer.step()  # 가중치 업데이트

    # 제약 조건 적용 (가중치 합 1, 음수 불가)
    with torch.no_grad():
        weights[:] = torch.clamp(weights, min=0)  # 음수를 방지하기 위함
        weights /= weights.sum()  # 합이 1이 되도록 조정

    if epoch % 50 == 0:
        print(f"Epoch {epoch}, Risk: {loss.item()}, Weights: {weights.tolist()}")

Epoch 0, Risk: 0.04548601806163788, Weights: [0.3298613131046295, 0.33030465245246887, 0.33983397483825684]
Epoch 50, Risk: 0.04475940018892288, Weights: [0.3225419819355011, 0.34618452191352844, 0.33127352595329285]
Epoch 100, Risk: 0.04402049630880356, Weights: [0.314426451921463, 0.36337941884994507, 0.3221941292285919]
Epoch 150, Risk: 0.04327748343348503, Weights: [0.3054577112197876, 0.3819565773010254, 0.3125856816768646]
Epoch 200, Risk: 0.04254036396741867, Weights: [0.29557958245277405, 0.4019787311553955, 0.30244165658950806]
Epoch 250, Risk: 0.04182100668549538, Weights: [0.28473812341690063, 0.423501193523407, 0.29176074266433716]
Epoch 300, Risk: 0.04113326221704483, Weights: [0.27288269996643066, 0.44657066464424133, 0.280546635389328]
Epoch 350, Risk: 0.040492936968803406, Weights: [0.2599673867225647, 0.47122326493263245, 0.26880934834480286]
Epoch 400, Risk: 0.039917752146720886, Weights: [0.24595271050930023, 0.4974818229675293, 0.25656551122665405]
Epoch 450, Risk: 

In [176]:
weights.tolist() # portfolio weights

[0.21484653651714325, 0.5542225241661072, 0.23093098402023315]

In [177]:
portfolio_return(weights, expected_returns).item() # expected return

0.1999465823173523

In [178]:
portfolio_risk(weights, cov_matrix).item() # risk

0.03904213756322861