In [1]:
%pip install --upgrade pip
%pip install numpy pandas
%pip install torch torchvision

Collecting pip
  Downloading pip-23.2.1-py3-none-any.whl (2.1 MB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/2.1 MB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[90m╺[0m[90m━━━━━━━[0m [32m1.7/2.1 MB[0m [31m49.0 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.1/2.1 MB[0m [31m38.2 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pip
  Attempting uninstall: pip
    Found existing installation: pip 23.1.2
    Uninstalling pip-23.1.2:
      Successfully uninstalled pip-23.1.2
Successfully installed pip-23.2.1


# torch.autograd 란?

'torch.autograd'는 신경망 학습을 지원하는 `PyTorch`의 자동 미분 엔진이다.

## 배경(Background)

신경망(NN, Neural Network)은 입력 데이터에 대해 실행되는 중첩(nested)된 함수들의 모음(collection)이다. 이 함수들은 `PyTorch`에서 Tensor로 저장되는, 가중치(weight)와 편향(bias)로 구성된 매개변수로 정의된다.

## 신경망을 학습하는 2단계

### 1. 순전파(Forward Propagation)

순전파 단계에서, 신경망은 정답을 맞추기 위해 최선의 추측(best guess)을 한다.
이렇게 추측을 하기 위해서 입력 데이터를 각 함수들에서 실행한다.

### 2. 역전파(Backward Propagation)

역전파 단계에서, 신경망은 추측한 값에서 발생한 오류(error)에 비례하여(proportionate) 매개변수들을 적절히 조절(adjust)한다.
출력(output)으로부터 역방향으로 이동하면서 오류에 대한 함수들의 매개변수들의 미분값(gradient)을 수집하고, 경사하강법(gradient descent)을 사용하여 매개변수들을 최적화 한다.

In [2]:
import torch
from torchvision.models import resnet18, ResNet18_Weights

'torch vision'에서 미리 학습된 'resnet18' 모델을 불러온다.

3채널짜리 높이와 넓이가 64인 이미지 하나를 표현하는 무작위 데이터 텐서를 생성하고, 이에 상응하는 'label'을 무작위 값으로 초기화 한다. 미리 학습된 모델의 'label'은 (1, 1_000)의 모양(shape)를 갖는다.

In [3]:
model = resnet18(
    weights=ResNet18_Weights.DEFAULT,    
)

data = torch.rand(1, 3, 64, 64)
labels = torch.rand(1, 1_000)

Downloading: "https://download.pytorch.org/models/resnet18-f37072fd.pth" to /home/datalore/.cache/torch/hub/checkpoints/resnet18-f37072fd.pth
  0%|          | 0.00/44.7M [00:00<?, ?B/s]  3%|▎         | 1.31M/44.7M [00:00<00:04, 11.3MB/s]  5%|▌         | 2.40M/44.7M [00:00<00:04, 10.7MB/s] 12%|█▏        | 5.14M/44.7M [00:00<00:02, 18.2MB/s] 18%|█▊        | 7.88M/44.7M [00:00<00:01, 22.1MB/s] 22%|██▏       | 10.0M/44.7M [00:00<00:01, 21.2MB/s] 27%|██▋       | 12.1M/44.7M [00:00<00:01, 20.2MB/s] 33%|███▎      | 14.8M/44.7M [00:00<00:01, 22.6MB/s] 41%|████      | 18.1M/44.7M [00:00<00:01, 25.0MB/s] 46%|████▌     | 20.6M/44.7M [00:00<00:00, 25.5MB/s] 52%|█████▏    | 23.1M/44.7M [00:01<00:00, 24.4MB/s] 57%|█████▋    | 25.4M/44.7M [00:01<00:00, 21.8MB/s] 62%|██████▏   | 27.6M/44.7M [00:01<00:01, 16.4MB/s] 70%|███████   | 31.3M/44.7M [00:01<00:00, 21.4MB/s] 79%|███████▊  | 35.1M/44.7M [00:01<00:00, 25.8MB/s] 90%|█████████ | 40.3M/44.7M [00:01<00:00, 32.7MB/s]100%|██████████| 4

In [4]:
# 순전파 단계
# 입력(input) 데이터를 모델의 각 층(layer)에 통과시켜 예측값(prediction)을 생성한다.
prediction = model(data)

In [5]:
# 역전파 단계
# 모델의 예측값과 그에 해당하는 label을 사용하여 오차를 계산한다.
loss = (prediction - labels).sum()
loss.backward()

In [6]:
# 옵티마이저(optimizer)를 불러온다.
# 학습율(learning rate) 0.1과 모멘텀(momentum) 0.9를 갖는 SGD 이다.
# 옵티마이저에 모델의 모든 매개변수를 등록한다.
optim = torch.optim.SGD(
    model.parameters(),
    lr=1e-2,
    momentum=0.9
)

In [7]:
# step()을 호출하여 경사하강법(gradient descent)을 시작한다.
# .grad에 저장된 변화도에 따라 각 매개변수를 조정(adjust)한다.
optim.step()