In [1]:
import torch
from torch import optim
from torch import nn
import numpy as np

예제 3.1 - 텐서 생성

In [2]:
print(torch.tensor([1,2,3]))
print(torch.Tensor([[1,2,3],[4,5,6]]))
print(torch.LongTensor([1,2,3]))
print(torch.FloatTensor([1,2,3]))

tensor([1, 2, 3])
tensor([[1., 2., 3.],
        [4., 5., 6.]])
tensor([1, 2, 3])
tensor([1., 2., 3.])


예제 3.2 - 텐서 속성

In [3]:
tensor = torch.rand(1,2)
print(tensor)
print(tensor.shape, tensor.dtype, tensor.device)

tensor([[0.2484, 0.0666]])
torch.Size([1, 2]) torch.float32 cpu


예제 3.3 - 텐서 차원 변환

In [4]:
tensor = torch.rand(1,2)
print(tensor)
print(tensor.shape)

tensor = tensor.reshape(2,1)
print(tensor)
print(tensor.shape)

tensor([[0.4434, 0.5410]])
torch.Size([1, 2])
tensor([[0.4434],
        [0.5410]])
torch.Size([2, 1])


예제 3.4 - 텐서 자료형 설정

In [5]:
tensor = torch.rand((3,3), dtype=torch.float)
print(tensor)

tensor([[0.3208, 0.0496, 0.3466],
        [0.6690, 0.0240, 0.6923],
        [0.3495, 0.9234, 0.8674]])


예제 3.5 - 텐서 GPU 장치 설정

In [6]:
device = "cuda" if torch.cuda.is_available() else "cpu"
cpu = torch.FloatTensor([1,2,3])
# gpu = torch.cuda.FloatTensor([1,2,3])   # old notation. use below one.
gpu = torch.tensor([1,2,3], dtype=torch.float, device='cuda')   # this one!
tensor = torch.rand((1,1), device=device)
print(device)
print(cpu)
print(gpu)
print(tensor)

cuda
tensor([1., 2., 3.])
tensor([1., 2., 3.], device='cuda:0')
tensor([[0.5579]], device='cuda:0')


예제 3.6 - 텐서 장치 변환

In [7]:
cpu = torch.FloatTensor([1,2,3])
gpu = cpu.cuda()
gpu2cpu = gpu.cpu()
cpu2gpu = cpu.to('cuda')
print(cpu)
print(gpu)
print(gpu2cpu)
print(cpu2gpu)

tensor([1., 2., 3.])
tensor([1., 2., 3.], device='cuda:0')
tensor([1., 2., 3.])
tensor([1., 2., 3.], device='cuda:0')


예제 3.7 - 넘파이 배열의 텐서 변환

In [8]:
ndarray = np.array([1,2,3], dtype=np.uint8)
print(torch.tensor(ndarray))
print(torch.Tensor(ndarray))
print(torch.from_numpy(ndarray))

tensor([1, 2, 3], dtype=torch.uint8)
tensor([1., 2., 3.])
tensor([1, 2, 3], dtype=torch.uint8)


예제 3.8 - 텐서의 넘파이 배열 변환

In [9]:
tensor = torch.tensor([1,2,3], dtype=torch.float, device='cuda')
ndarray = tensor.detach().cpu().numpy()
print(ndarray)
print(type(ndarray))

[1. 2. 3.]
<class 'numpy.ndarray'>


예제 3.19 - 데이터 선언

In [10]:
x = torch.FloatTensor([
    [1], [2], [3], [4], [5], [6], [7], [8], [9], [10],
    [11], [12], [13], [14], [15], [16], [17], [18], [19], [20],
    [21], [22], [23], [24], [25], [26], [27], [28], [29], [30]
])
y = torch.FloatTensor([
    [0.94], [1.98], [2.88], [3.92], [3.96], [4.55], [5.64], [6.3], [7.44], [9.1],
    [8.46], [9.5], [10.67], [11.16], [14], [11.83], [14.4], [14.25], [16.2], [16.32],
    [17.46], [19.8], [18], [21.34], [22], [22.5], [24.57], [26.04], [21.6], [28.8]
])

예제 3.20 - 하이퍼파라미터 초기화

In [11]:
weight = torch.zeros(1, requires_grad=True)
bias = torch.zeros(1, requires_grad=True)
learning_rate = 0.001

예제 3.21 - 최적화 선언

In [12]:
optimizer = optim.SGD([weight, bias], lr=learning_rate)

예제 3.24 - 단순 선형 회귀

In [13]:
for epoch in range(10000):
    hypothesis = x * weight + bias
    cost = torch.mean((hypothesis - y) ** 2)

    optimizer.zero_grad()
    cost.backward()
    optimizer.step()

    if (epoch+1) % 1000 == 0:
        print(f"Epoch : {epoch+1:4d}, Weight : {weight.item():.3f}, Bias : {bias.item():.3f}, Cost : {cost:.3f}")

Epoch : 1000, Weight : 0.864, Bias : -0.138, Cost : 1.393
Epoch : 2000, Weight : 0.870, Bias : -0.251, Cost : 1.380
Epoch : 3000, Weight : 0.873, Bias : -0.321, Cost : 1.375
Epoch : 4000, Weight : 0.875, Bias : -0.364, Cost : 1.373
Epoch : 5000, Weight : 0.877, Bias : -0.391, Cost : 1.373
Epoch : 6000, Weight : 0.878, Bias : -0.408, Cost : 1.372
Epoch : 7000, Weight : 0.878, Bias : -0.419, Cost : 1.372
Epoch : 8000, Weight : 0.878, Bias : -0.425, Cost : 1.372
Epoch : 9000, Weight : 0.879, Bias : -0.429, Cost : 1.372
Epoch : 10000, Weight : 0.879, Bias : -0.432, Cost : 1.372


예제 3.25 - `zero_grad()`, `cost.backward()`, `optimizer.step()`

In [14]:
weight = torch.zeros(1, requires_grad=True)
bias = torch.zeros(1, requires_grad=True)
learning_rate = 0.001

optimizer = optim.SGD([weight, bias], lr=learning_rate)

for epoch in range(1000):
    print(f"Epoch : {epoch+1:4d}")

    hypothesis = x * weight + bias
    cost = torch.mean((hypothesis - y) ** 2)

    print(f"Step [1] : Gradient : {weight.grad}, Weight : {weight.item():.5f}")

    optimizer.zero_grad()

    print(f"Step [2] : Gradient : {weight.grad}, Weight : {weight.item():.5f}")

    cost.backward()

    print(f"Step [3] : Gradient : {weight.grad}, Weight : {weight.item():.5f}")

    optimizer.step()

    print(f"Step [4] : Gradient : {weight.grad}, Weight : {weight.item():.5f}")

Epoch :    1
Step [1] : Gradient : None, Weight : 0.00000
Step [2] : Gradient : None, Weight : 0.00000
Step [3] : Gradient : tensor([-540.4854]), Weight : 0.00000
Step [4] : Gradient : tensor([-540.4854]), Weight : 0.54049
Epoch :    2
Step [1] : Gradient : tensor([-540.4854]), Weight : 0.54049
Step [2] : Gradient : None, Weight : 0.54049
Step [3] : Gradient : tensor([-198.9818]), Weight : 0.54049
Step [4] : Gradient : tensor([-198.9818]), Weight : 0.73947
Epoch :    3
Step [1] : Gradient : tensor([-198.9818]), Weight : 0.73947
Step [2] : Gradient : None, Weight : 0.73947
Step [3] : Gradient : tensor([-73.2604]), Weight : 0.73947
Step [4] : Gradient : tensor([-73.2604]), Weight : 0.81273
Epoch :    4
Step [1] : Gradient : tensor([-73.2604]), Weight : 0.81273
Step [2] : Gradient : None, Weight : 0.81273
Step [3] : Gradient : tensor([-26.9772]), Weight : 0.81273
Step [4] : Gradient : tensor([-26.9772]), Weight : 0.83970
Epoch :    5
Step [1] : Gradient : tensor([-26.9772]), Weight : 0.83

예제 3.26 - 모델 선언

In [15]:
model = nn.Linear(1, 1, bias=True)
criterion = torch.nn.MSELoss()
learning_rate = 0.001

예제 3.28 - 신경망 패키지 적용

In [16]:
for epoch in range(10000):
    output = model(x)
    cost = criterion(output, y)

    optimizer.zero_grad()
    cost.backward()
    optimizer.step()

    if (epoch+1) % 1000 == 0:
        print(f"Epoch : {epoch+1:4d}, Model : {list(model.parameters())}, Cost : {cost:.3f}\n")

Epoch : 1000, Model : [Parameter containing:
tensor([[-0.4215]], requires_grad=True), Parameter containing:
tensor([-0.0607], requires_grad=True)], Cost : 519.334

Epoch : 2000, Model : [Parameter containing:
tensor([[-0.4215]], requires_grad=True), Parameter containing:
tensor([-0.0607], requires_grad=True)], Cost : 519.334

Epoch : 3000, Model : [Parameter containing:
tensor([[-0.4215]], requires_grad=True), Parameter containing:
tensor([-0.0607], requires_grad=True)], Cost : 519.334

Epoch : 4000, Model : [Parameter containing:
tensor([[-0.4215]], requires_grad=True), Parameter containing:
tensor([-0.0607], requires_grad=True)], Cost : 519.334

Epoch : 5000, Model : [Parameter containing:
tensor([[-0.4215]], requires_grad=True), Parameter containing:
tensor([-0.0607], requires_grad=True)], Cost : 519.334

Epoch : 6000, Model : [Parameter containing:
tensor([[-0.4215]], requires_grad=True), Parameter containing:
tensor([-0.0607], requires_grad=True)], Cost : 519.334

Epoch : 7000, Mo

✔ 오늘 새로 알게된 부분이 있다면 간략히 설명해주세요.

- `torch.tensor()` 보다는 `torch.Tensor()`를 사용하는 게 낫다.
- 텐서는 `shape`, `dtype`, `device`가 모두 일치해야 서로 연산할 수 있다. 이 중 device는 `.cpu()` 나 `.cuda()` 를 통해서 하면 된다.
- 텐서는 학습을 위한 데이터 형식으로, 모든 연산을 추적해 기록한다. 이 기록을 통해 역전파 등과 같은 연산이 진행되어 모델 학습이 이루어진다. 다시 말해, 텐서의 데이터가 어떻게 변경되고 관리되었는지 기록된다.
- 연속형 변수에 사용되는 loss function에는 [squared error, sum of squared error, mean squared error] 등이 있고, 이산형 변수에 사용되는 loss function에는 [cross entropy] 등이 있다. cross entropy는 실제값의 확률분포와 예측값의 확률분포 간의 차이를 계산한다. { - sum ( y * log (y_hat) )} 꼴이다.
- 최적화 알고리즘에는 [gradient descent (GD), momentum, adaptive gradient (AdaGrad), Adaptive Moment Estimation (Adam)] 등이 있다.
- Epoch은 신경망에서 순전파와 역전파 과정 등의 모델 연산을 전체 데이터셋이 1회 통과하는 것을 의미한다.
- Batch란 가설이나 모델의 가중치를 갱신할 때 사용하는 데이터의 크기를 의미한다.
- `requires_grad`는 모든 텐서에 대한 연산을 추적하며 역전파 메서드를 호출해 기울기를 계산하고 저장한다.
- SGD는 모든 데이터에 대해 연산을 진행하지 않고, 일부 데이터만 계산하여 빠르게 최적화된 값을 찾는 방식이다. 즉, mini-batch의 형태로 전체 데이터를 N등분하여 학습을 진행한다.
- optimizer`.zero_grad()`가 필요한 이유 : 텐서의 기울기는 `grad` 속성에 누적해서 더해지기 때문에 0으로 초기화해야 한다.