# 1. Pytorch Quickstart

    1) 개요 : FashionMNIST
        (1) 데이터셋 특징
            1] 데이터 개수
                - Train : 60,000
                - Test : 10,000
            2] 컬러 : 흑백
            3] 라벨(클래스) 개수 : 10(0 ~ 9)
            4] 이미지 크기 : 28 x 28
            5] 픽셀값 : 0 ~ 255
        (2) 데이터 가공
            1] 원 핫 벡터 변경 : 기존 숫자 라벨 -> 원 핫 벡터
                [1] 이유
                    - classification은 숫자 라벨의 대소적 비교 필요없음
                    - classficiation은 원 핫 벡터의 확률적 계산 필요
                ex. t = 4 -> t = [0, 0, 0, 0, 1, 0, 0, 0, 0, 0]T
        (3) 데이터 수집 이후 과정
            1] 데이터 처리 파이프라인 생성
                - 미니 배치 그룹화를 활용한 학습 준비
                [1] inputs, labels 불러오기
                [2] inputs, labels 전처리
                [3] inputs, labels를 미니배치로 그룹화
            2] 모델 생성
                - input을 활용하여 예측
                [1] 모델 선정
                    ex. 뉴럴 네트워크, SVM 등
                [2] 모델의 하이퍼파라미터 세팅
                    ex. 뉴런의 개수, 레이어 개수 등
            3] 학습, 평가 loop
                - 학습 loop : labels와 predictions 사이에 손실 계산 + trainning 데이터를 활용한 모델의 파라미터 업데이트
                - 평가 loop : validation 데이터를 활용한 모델의 성능 측정
            4] 모델 저장 or 불러오기
                - 학습된 모델 저장 or 불러오기
    2) Pytorch QuickStart
        (1) 개념
            - 머신러닝 오픈소스 프레임워크
        (2) 특징
            1] Pytorch
                - 배포 : Meta
                - 사용자층 : 많음
                - 커스터마이징 : 더 자유로운 커스터마이징 but 조금 더 어려움
            2] Tensorflow
                - 배포 : Google
                - 사용자층 : 보통
                - 커스터마이징 : 다소 어려운 커스터마이징 but 조금 더 쉬움
                - 대규모 배포가 필요한 환경에서 주로 활용
                    ex. 웹, 서버, 임베디드 등
        (3) 역사 of 라이브러리
            [1] caffe
                - CUDA 코딩 매우 번거로움
            [2] Tensorflow 1.x
                - 알아서 GPU를 활용한 연산
            [3] Tensorflow 2.x & Pytorch
                - 편의성 대폭 향상
                - 배포 순서 : Pytorch -> Tensorflow 2.x(Pytorch가 먼저 배포되어 사용자층 많음)

        (1) import Pytorch packages
            1] torch.nn : 모델 설계 도움
                ex. fully connected layer, convolution layer, sigmoid activation
            2] torch.optim : 최적화 알고리즘 + Sheduler
                ex. stochastic garadient descent, adam + learning rate scheduling
            3] Dataset : data processing pipeline 설계
            4] DataLoader : data processing pipeline 설계

        (2) Configuration(config)
            - 데이터셋 경로, 배치 사이즈, learning rate, maximum traing epoch 등

        (3) Build data processing pipeline
            1] torch.utils.data.Dataset
                - 데이터셋 : 샘플, 대응 라벨 저장
                - 데이터 로드 -> 전처리 과정 지원
            2] torch.utils.data.DataLoader
                - 데이터로더 : 데이터셋 주위를 감싼다
                - mini batch 데이터 생성

        (4) Build model
            1] torch.nn.Module
                [1] __init__ : 네트워크 레이어 정의
                [2] forward : 네트워크를 통해 데이터가 어떻게 통과할 것인지 구체화

        (5) Build optimizer + scheduler + loss function + metric function

        (6) Build a training loop
            1] Step
                [1] DataLoader로부터 batch data 로드
                [2] Forward propagation
                [3] Backward propagation
                [4] Update statistics

        (7) Build an evaluation loop
            1] Step
                [1] DataLoader로부터 batch data 로드
                [2] Forward propagation
                [3] Update statistics
                - val data로 성능을 검증해야하므로, 학습을 위한 Backward propagation은 하지 않는다

        (8) Run traning / evaluation loop
            1] Step
                [1] DataLoader로부터 batch data 로드
                [2] Forward propagation
                [3] Update statistics
                - val data로 성능을 검증해야하므로, 학습을 위한 Backward propagation은 하지 않는다
                
        - state_dict : model의 파라미터, optimizers를 key, value 형태로 기록한 dict
        - Save checkpoint
        - Load checkpoint
        - Resume training from checkpoint

# 2. Tensorboard
    1) 특징 : Tensorflow의 visualization toolkit(Pytorch도 지원)
        - images, text, audio data 시각화
        - low dimensional space로 embedding
        - model graph 시각화
        - weights와 bias histogram 시각화
        - metrics(loss, accuracy) 변화 시각화
        
    2) Tensorboard Quickstart
        (1) import tensorboard package
        (2) Configuration(config)
    (3) tensorboard로 model training tracking
        - SummaryWriter(f'{log_dir}/train').add_scalar(~~)
        - SummaryWriter(f'{log_dir}/val').add_scalar(~~)
        - conda prompt -> tensorboard --logdir=log

In [1]:
# # 현재 가상환경 패키지 확인
# !pip freeze

In [2]:
# # CPython 패키지 설치
# !pip install CPython

In [3]:
# # numpy 패키지 설치
# !pip install numpy
# !pip install numpy==1.21.6

In [4]:
# # numpy 패키지 업그레이드
# !pip install --upgrade --force-reinstall numpy

In [5]:
# # torchmetrics 패키지 설치
# !pip install torchmetrics

In [6]:
# torch 설치 + GPU 확인
import torch

print(torch.cuda.is_available())
print(torch.cuda.current_device())
print(torch.cuda.get_device_name())

True
0
NVIDIA GeForce RTX 3060


In [7]:
# (1) import Pytorch packages
#     1] torch.nn : 모델 설계 도움
#         ex. fully connected layer, convolution layer, sigmoid activation
#     2] torch.optim : 최적화 알고리즘 + Sheduler
#         ex. stochastic garadient descent, adam + learning rate scheduling
#     3] Dataset : data processing pipeline 설계
#     4] DataLoader : data processing pipeline 설계
#     5] SummaryWriter : tensorboard 기록 저장

# (1) import Tensorboard package

import os
import torch
import torch.nn as nn
import torch.optim as optim
import torchvision.transforms as T

# torchvision : 컴퓨터 비전
# torchaudio : 컴퓨터 음성
# torchtext : 컴퓨터 텍스트

from torch.utils.tensorboard import SummaryWriter
from torch.utils.data import DataLoader # data processing pipeline 설계
from torchvision.datasets import FashionMNIST
from torchmetrics.aggregation import MeanMetric # accuracy의 평균을 구하기 위해
from torchmetrics.functional.classification import accuracy # 데이터 1개의 예측과 실제 라벨간 accuracy 측정

In [8]:
# (2) Configuration(config)
#     - 데이터셋 경로, 배치 사이즈, learning rate, maximum traing epoch 등

# (2) Configuration(config)

# Build Config
title = 'fashionmnist_quickstart'
device = 'cuda' if torch.cuda.is_available() else 'cpu'
data_root = 'data'
batch_size = 64
base_lr = 0.001
epochs = 20
log_dir = 'log'
checkpoint_dir = 'checkpoint'

# Build directory
os.makedirs(log_dir, exist_ok = True) # 없어도 무방한 코드
os.makedirs(checkpoint_dir, exist_ok = True)

In [9]:
# (3) Build data processing pipeline
#     1] torch.utils.data.Dataset
#         - 데이터셋 : 샘플, 대응 라벨 저장
#         - 데이터 로드 -> 전처리 과정 지원
#     2] torch.utils.data.DataLoader
#         - 데이터로더 : 데이터셋 주위를 감싼다
#         - mini batch 데이터 생성

# Build Dataset
transform = T.Compose([
    T.ToTensor(), # PIL Image -> Tensor
    T.Normalize((0.5,), (0.5,)) # mean(0 ~ 1) -> std(-0.5 ~ 0.5)
])
train_data = FashionMNIST(data_root, train=True, download=True, transform=transform)
# data_root : 데이터셋 저장 위치
# train : train data인지 test data인지 설정
# download : 데이터셋 없는 경우 다운로드 할지 말지 결정
# transform : 데이터 전처리 설정
train_loader = DataLoader(train_data, batch_size=batch_size, shuffle=True)
val_data = FashionMNIST(data_root, train=False, download=True, transform=transform)
val_loader = DataLoader(val_data, batch_size=batch_size, shuffle=True)

In [10]:
# (4) Build model
#     1] torch.nn.Module
#         [1] __init__ : 네트워크 레이어 정의
#         [2] forward : 네트워크를 통해 데이터가 어떻게 통과할 것인지 구체화

# Define model
class MLP(nn.Module):
    def __init__(self): # 784 -> 512 -> 512 -> 10
        super(MLP, self).__init__()
        self.fc1 = nn.Linear(28 * 28, 512)
        self.fc2 = nn.Linear(512, 512)
        self.fc3 = nn.Linear(512, 10)
        self.act = nn.ReLU()
    def forward(self, x):
        x = x.reshape((x.shape[0], -1)) # 1개 열에 전부 표시 # (64, 1, 28, 28) -> (64, 784)
        x = self.act(self.fc1(x))
        x = self.act(self.fc2(x))
        x = self.fc3(x)
        return x
    
# Build model
model = MLP()

# Move model to device
model = model.to(device)

In [11]:
# (5) Build optimizer + scheduler + loss function + metric function

# Build optimizer
optimizer = optim.Adam(model.parameters(), lr=base_lr)

# Build scheduler
scheduler = optim.lr_scheduler.CosineAnnealingLR(optimizer, epochs * len(train_loader))
# Cosine : 머신러닝은 하이퍼파라미터 튜닝이 매우 많음. scheduler에서도 하이퍼파라미터 튜닝이 필요한데, cosine함수는 base learning rate만 하이퍼파라미터로 존재하므로 사용하기 편리 + 성능 좋음

# Build loss function
loss_fn = nn.CrossEntropyLoss()

# Build metric function
metric_fn = accuracy

# Build logger
train_logger = SummaryWriter(f'{log_dir}/train')
val_logger = SummaryWriter(f'{log_dir}/val')

In [12]:
# (6) Build a training loop
#     1] Step
#         [1] DataLoader로부터 batch data 로드
#         [2] Forward propagation
#         [3] Backward propagation
#         [4] Update statistics

# Define training function
def train(loader, model, optimizer, scheduler, loss_fn, metric_fn, device):
    # Set model to train mode
    model.train() # nn.Module의 layer에 따라 train mode와 test mode가 다르게 동작하는 경우 존재하기 때문에 train mode인지 test mode인지 설정 필요
    
    # Create average meters to measure loss and metrics + Move metric to device
    loss_mean = MeanMetric().to(device)
    metric_mean = MeanMetric().to(device)
    
    # train model for one epoch
    for inputs, targets in loader:
        # Move data to device
        inputs = inputs.to(device)
        targets = targets.to(device)
        
        # Forward
        outputs = model(inputs)
        loss = loss_fn(outputs, targets)
        metric = metric_fn(outputs, targets)
        
        # Backward
        optimizer.zero_grad()
        loss.backward() # 모델 파라미터 업데이트
        optimizer.step() # optimizer 로그 남김 + 다음 상태로 이동
        
        # Update statistics
        loss_mean.update(loss)
        metric_mean.update(metric)
        
        # Update learning rate
        scheduler.step()
        
    # Summarize statistics(Dic)
    summary = {'loss': loss_mean.compute(), 'metric': metric_mean.compute()}
    
    return summary

In [13]:
# (7) Build an evaluation loop
#     1] Step
#         [1] DataLoader로부터 batch data 로드
#         [2] Forward propagation
#         [3] Update statistics
#         - val data로 성능을 검증해야하므로, 학습을 위한 Backward propagation은 하지 않는다

# Define evaluation function
def evaluate(loader, model, loss_fn, metric_fn, device):
    # Set model to evaluation mode
    model.eval()
    
    # Create average meters to measure loss and accuracy + Move metric to device
    loss_mean = MeanMetric().to(device)
    metric_mean = MeanMetric().to(device)
    
    # Evaluate model for one epoch
    for inputs, targets in loader:
        # Move data to device
        inputs = inputs.to(device)
        targets = targets.to(device)
        
        # Forward
        with torch.no_grad(): # evaluation : grad 계산x. 계산해도 무방하지만 GPU 자원을 아끼기 위해 계산x
            outputs = model(inputs)
        loss = loss_fn(outputs, targets)
        metric = metric_fn(outputs, targets) 
        
        # Update statistics
        loss_mean.update(loss)
        metric_mean.update(metric)
        
    # Summarize statistics(Dic)
    summary = {'loss' : loss_mean.compute(), 'metric' : metric_mean.compute()}
    
    return summary

In [14]:
# (8) Run traning / evaluation loop
#     1] Step
#         [1] DataLoader로부터 batch data 로드
#         [2] Forward propagation
#         [3] Update statistics
#         - val data로 성능을 검증해야하므로, 학습을 위한 Backward propagation은 하지 않는다

# (3) tensorboard로 model training tracking
#     - SummaryWriter(f'{log_dir}/train').add_scalar(~~)
#     - SummaryWriter(f'{log_dir}/val').add_scalar(~~)
#     - conda prompt -> tensorboard --logdir=log

# Main loop
for epoch in range(epochs):
    # Train one epoch
    train_summary = train(train_loader, model, optimizer, scheduler, loss_fn, metric_fn, device)
    
    # Evaluate one epoch
    val_summary = evaluate(val_loader, model, loss_fn, metric_fn, device)
    
    # Print log
    print((
        f'Epoch {epoch + 1}: '
        + f'Train Loss {train_summary["loss"]:.04f}, '
        + f'Train Accuracy {train_summary["metric"]:.04f}, '
        + f'Test Loss {val_summary["loss"]:.04f}, '
        + f'Test Accuracy {val_summary["metric"]:.04f}'
    ))
    
    # Write log
    train_logger.add_scalar('Loss', train_summary['loss'], epoch + 1)
    train_logger.add_scalar('Accuracy', train_summary['metric'], epoch + 1)
    val_logger.add_scalar('Loss', val_summary['loss'], epoch + 1)
    val_logger.add_scalar('Accuracy', val_summary['metric'], epoch + 1)
    
    # Save model
    state_dict = {
        'epoch': epoch + 1,
        'model': model.state_dict(), # 얘는 뭐지???
        'optimizer': optimizer.state_dict(), 
    }
    checkpoint_path = f'{checkpoint_dir}/{title}_last.pth'
    torch.save(state_dict, checkpoint_path)
    
train_logger.close()
val_logger.close()

Epoch 1: Train Loss 0.4813, Train Accuracy 0.8228, Test Loss 0.4254, Test Accuracy 0.8496
Epoch 2: Train Loss 0.3635, Train Accuracy 0.8652, Test Loss 0.3889, Test Accuracy 0.8577
Epoch 3: Train Loss 0.3224, Train Accuracy 0.8804, Test Loss 0.3716, Test Accuracy 0.8644
Epoch 4: Train Loss 0.2975, Train Accuracy 0.8887, Test Loss 0.3567, Test Accuracy 0.8708
Epoch 5: Train Loss 0.2723, Train Accuracy 0.8977, Test Loss 0.3358, Test Accuracy 0.8818
Epoch 6: Train Loss 0.2509, Train Accuracy 0.9043, Test Loss 0.3457, Test Accuracy 0.8767
Epoch 7: Train Loss 0.2318, Train Accuracy 0.9120, Test Loss 0.3302, Test Accuracy 0.8825
Epoch 8: Train Loss 0.2117, Train Accuracy 0.9192, Test Loss 0.3333, Test Accuracy 0.8899
Epoch 9: Train Loss 0.1931, Train Accuracy 0.9267, Test Loss 0.3422, Test Accuracy 0.8876
Epoch 10: Train Loss 0.1728, Train Accuracy 0.9334, Test Loss 0.3351, Test Accuracy 0.8939
Epoch 11: Train Loss 0.1544, Train Accuracy 0.9411, Test Loss 0.3492, Test Accuracy 0.8959
Epoch 12

In [15]:
# state_dict : model의 파라미터, optimizers를 key, value 형태로 기록한 dict
# Save checkpoint
# Load checkpoint
# Resume training from checkpoint

# Load model
model_pretrained = MLP()

checkpoint_path = f'{checkpoint_dir}/{title}_last.pth'
state_dict = torch.load(checkpoint_path) # 경로 상의 state_dict 불러오기

model_pretrained.load_state_dict(state_dict['model']) # state_dict 적용

<All keys matched successfully>

In [16]:
# Comparison with randomly initialized model
model_random = MLP()

model_random.to(device)
model_pretrained.to(device)

random_summary = evaluate(val_loader, model_random, loss_fn, metric_fn, device)
pretrained_summary = evaluate(val_loader, model_pretrained, loss_fn, metric_fn, device)

print(f'[random] Test Acc {random_summary["metric"]:.04f}')
print(f'[Pretrained] Test Acc {pretrained_summary["metric"]:.04f}')

[random] Test Acc 0.0771
[Pretrained] Test Acc 0.8996


In [17]:
# Load model and optimizer states
checkpoint_path = f'{checkpoint_dir}/{title}_last.pth'
state_dict = torch.load(checkpoint_path)
                        
start_epoch = state_dict['epoch']
model.load_state_dict(state_dict['model'])
optimizer.load_state_dict(state_dict['optimizer'])

RuntimeError: Error(s) in loading state_dict for MLP:
	Missing key(s) in state_dict: "fc1.weight", "fc1.bias", "fc2.weight", "fc2.bias", "fc3.weight", "fc3.bias". 
	Unexpected key(s) in state_dict: "state", "param_groups". 

In [None]:
# Main loop
epochs = 30

for epoch in range(start_epoch, epochs):
    # train one epoch
    train_summary = train(train_loader, model, optimizer, scheduler, loss_fn, metric_fn, device)
    
    # evaluate one epoch
    val_summary = evaluate(val_loader, model, loss_fn, metric_fn, device)