# 환경설정

### 패키지 설치 및 임포트

In [None]:
# !pip install scikit-learn==1.3.0 -q
# !pip install torch==2.0.1 -q
# !pip install torchvision==0.15.2 -q

In [None]:
# !pip install scikit-learn
# !pip install torch
# !pip install torchvision

Collecting nvidia-cuda-nvrtc-cu12==12.1.105 (from torch)
  Using cached nvidia_cuda_nvrtc_cu12-12.1.105-py3-none-manylinux1_x86_64.whl (23.7 MB)
Collecting nvidia-cuda-runtime-cu12==12.1.105 (from torch)
  Using cached nvidia_cuda_runtime_cu12-12.1.105-py3-none-manylinux1_x86_64.whl (823 kB)
Collecting nvidia-cuda-cupti-cu12==12.1.105 (from torch)
  Using cached nvidia_cuda_cupti_cu12-12.1.105-py3-none-manylinux1_x86_64.whl (14.1 MB)
Collecting nvidia-cudnn-cu12==8.9.2.26 (from torch)
  Using cached nvidia_cudnn_cu12-8.9.2.26-py3-none-manylinux1_x86_64.whl (731.7 MB)
Collecting nvidia-cublas-cu12==12.1.3.1 (from torch)
  Using cached nvidia_cublas_cu12-12.1.3.1-py3-none-manylinux1_x86_64.whl (410.6 MB)
Collecting nvidia-cufft-cu12==11.0.2.54 (from torch)
  Using cached nvidia_cufft_cu12-11.0.2.54-py3-none-manylinux1_x86_64.whl (121.6 MB)
Collecting nvidia-curand-cu12==10.3.2.106 (from torch)
  Using cached nvidia_curand_cu12-10.3.2.106-py3-none-manylinux1_x86_64.whl (56.5 MB)
Collectin

In [1]:
import torch # pytorch 불러오기
import numpy as np # numpy 불러오기
import warnings # 경고 문구 제거
import matplotlib.pyplot as plt # 그래프를 그리기 위한 라이브러리
import pandas as pd # 데이터 프레임을 읽기 위한 라이브러리
from sklearn.model_selection import train_test_split # train test 를 나누기 위한 라이브러리
from sklearn.metrics import accuracy_score # 정확도 계산 라이브러리
from tqdm.notebook import tqdm # 진행상황 바 표현

warnings.filterwarnings('ignore')

In [2]:
import torch.nn as nn # 모델 구성을 위한 라이브러리
from torchvision.datasets import CIFAR10 # CIFAR10 데이터셋 불러오는 라이브러리
import torchvision.transforms as T # 이미지 변환을 위한 라이브러리
import torch.optim as optim # optimizer 설정을 위한 라이브러리

In [3]:
# seed 고정
import random
import torch.backends.cudnn as cudnn

def random_seed(seed_num):
    torch.manual_seed(seed_num)
    torch.cuda.manual_seed(seed_num)
    torch.cuda.manual_seed_all(seed_num)
    np.random.seed(seed_num)
    cudnn.benchmark = False
    cudnn.deterministic = True
    random.seed(seed_num)
random_seed(42)

In [4]:
device = 'cuda:0'
# device = torch.device('cpu')

# 1.timm을 활용한 pretrained model 사용법

> timm을 이용하여 다양한 모델 구조와 pretrained weight를 불러오고, 이를 활용

## 1-1. timm으로 pretrained model 불러오기

### timm을 이용하여 다양한 모델 불러오기
* list_models : timm library에 있는 다양한 모델 리스트 반환
* create_model : 특정한 모델의 구조와 파라미터를 그대로 가져와 모델 구성

* [docs] : https://timm.fast.ai/
* [github] : https://github.com/huggingface/pytorch-image-models
* [guide blog] : https://towardsdatascience.com/getting-started-with-pytorch-image-models-timm-a-practitioners-guide-4e77b4bf9055

In [None]:
# !pip install timm==0.9.2 -q # timm 라이브러리 설치

In [None]:
!pip install timm # timm 라이브러리 설치

Collecting timm
  Downloading timm-1.0.7-py3-none-any.whl (2.3 MB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/2.3 MB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━[0m[90m╺[0m[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.1/2.3 MB[0m [31m4.2 MB/s[0m eta [36m0:00:01[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━[0m[90m╺[0m[90m━━━━━━━━━━━━━━━━━━━[0m [32m1.2/2.3 MB[0m [31m18.1 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.3/2.3 MB[0m [31m25.1 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: timm
Successfully installed timm-1.0.7


In [None]:
import timm # timm 라이브러리 불러오기

#### 쿼리를 통해 모델 검색

> 아래 모델 리스트 중 필요한 부분만 보고 싶을 때는 `timm.list_models()` 괄호 안에 쿼리를 입력해서 검색 진행

In [None]:
timm.list_models() # timm이 지원하는 모든 모델 리스트

['bat_resnext26ts',
 'beit_base_patch16_224',
 'beit_base_patch16_384',
 'beit_large_patch16_224',
 'beit_large_patch16_384',
 'beit_large_patch16_512',
 'beitv2_base_patch16_224',
 'beitv2_large_patch16_224',
 'botnet26t_256',
 'botnet50ts_256',
 'caformer_b36',
 'caformer_m36',
 'caformer_s18',
 'caformer_s36',
 'cait_m36_384',
 'cait_m48_448',
 'cait_s24_224',
 'cait_s24_384',
 'cait_s36_384',
 'cait_xs24_384',
 'cait_xxs24_224',
 'cait_xxs24_384',
 'cait_xxs36_224',
 'cait_xxs36_384',
 'coat_lite_medium',
 'coat_lite_medium_384',
 'coat_lite_mini',
 'coat_lite_small',
 'coat_lite_tiny',
 'coat_mini',
 'coat_small',
 'coat_tiny',
 'coatnet_0_224',
 'coatnet_0_rw_224',
 'coatnet_1_224',
 'coatnet_1_rw_224',
 'coatnet_2_224',
 'coatnet_2_rw_224',
 'coatnet_3_224',
 'coatnet_3_rw_224',
 'coatnet_4_224',
 'coatnet_5_224',
 'coatnet_bn_0_rw_224',
 'coatnet_nano_cc_224',
 'coatnet_nano_rw_224',
 'coatnet_pico_rw_224',
 'coatnet_rmlp_0_rw_224',
 'coatnet_rmlp_1_rw2_224',
 'coatnet_rmlp_1_r

In [None]:
timm.list_models('resnet*') # 쿼리를 통해 모델을 검색할 수 있음.

['resnet10t',
 'resnet14t',
 'resnet18',
 'resnet18d',
 'resnet26',
 'resnet26d',
 'resnet26t',
 'resnet32ts',
 'resnet33ts',
 'resnet34',
 'resnet34d',
 'resnet50',
 'resnet50_clip',
 'resnet50_clip_gap',
 'resnet50_gn',
 'resnet50_mlp',
 'resnet50c',
 'resnet50d',
 'resnet50s',
 'resnet50t',
 'resnet50x4_clip',
 'resnet50x4_clip_gap',
 'resnet50x16_clip',
 'resnet50x16_clip_gap',
 'resnet50x64_clip',
 'resnet50x64_clip_gap',
 'resnet51q',
 'resnet61q',
 'resnet101',
 'resnet101_clip',
 'resnet101_clip_gap',
 'resnet101c',
 'resnet101d',
 'resnet101s',
 'resnet152',
 'resnet152c',
 'resnet152d',
 'resnet152s',
 'resnet200',
 'resnet200d',
 'resnetaa34d',
 'resnetaa50',
 'resnetaa50d',
 'resnetaa101d',
 'resnetblur18',
 'resnetblur50',
 'resnetblur50d',
 'resnetblur101d',
 'resnetrs50',
 'resnetrs101',
 'resnetrs152',
 'resnetrs200',
 'resnetrs270',
 'resnetrs350',
 'resnetrs420',
 'resnetv2_50',
 'resnetv2_50d',
 'resnetv2_50d_evos',
 'resnetv2_50d_frn',
 'resnetv2_50d_gn',
 'resnetv2

> CNN 구현 실습에서 보았던 ResNet50 으로 실습 진행

In [None]:
timm.list_models('resnet50', pretrained=True) # resnet 모델 중 pretrained weight 가 있는 모델 리스트

['resnet50.a1_in1k',
 'resnet50.a1h_in1k',
 'resnet50.a2_in1k',
 'resnet50.a3_in1k',
 'resnet50.am_in1k',
 'resnet50.b1k_in1k',
 'resnet50.b2k_in1k',
 'resnet50.bt_in1k',
 'resnet50.c1_in1k',
 'resnet50.c2_in1k',
 'resnet50.d_in1k',
 'resnet50.fb_ssl_yfcc100m_ft_in1k',
 'resnet50.fb_swsl_ig1b_ft_in1k',
 'resnet50.gluon_in1k',
 'resnet50.ra_in1k',
 'resnet50.ram_in1k',
 'resnet50.tv2_in1k',
 'resnet50.tv_in1k']

In [None]:
# 위 리스트 중 첫번째 모델 불러옴
model = timm.create_model('resnet50', pretrained=True) # resnet50을 imagenet으로 pretrain한 모델 파라미터

# 두번째 모델 불러옴
# model = timm.create_model('resnet50.a1h_in1k', pretrained=True) # resnet50을 imagenet으로 pretrain한 모델 불러오기,

model.safetensors:   0%|          | 0.00/102M [00:00<?, ?B/s]

In [None]:
model.default_cfg # resnet50 모델의 기본 정보 / 'tag': 'a1_in1k' 위 리스트 중 첫번째 모델인 것 확인 가능

{'url': 'https://github.com/rwightman/pytorch-image-models/releases/download/v0.1-rsb-weights/resnet50_a1_0-14fe96d1.pth',
 'hf_hub_id': 'timm/resnet50.a1_in1k',
 'architecture': 'resnet50',
 'tag': 'a1_in1k',
 'custom_load': False,
 'input_size': (3, 224, 224),
 'test_input_size': (3, 288, 288),
 'fixed_input_size': False,
 'interpolation': 'bicubic',
 'crop_pct': 0.95,
 'test_crop_pct': 1.0,
 'crop_mode': 'center',
 'mean': (0.485, 0.456, 0.406),
 'std': (0.229, 0.224, 0.225),
 'num_classes': 1000,
 'pool_size': (7, 7),
 'first_conv': 'conv1',
 'classifier': 'fc',
 'origin_url': 'https://github.com/huggingface/pytorch-image-models',
 'paper_ids': 'arXiv:2110.00476'}

> 모델 아키텍처

아래 모델 아키텍처를 자세히 살펴보면 아래와 같이 구성되어 있다.

-   (conv1): Conv2d
-  (bn1): BatchNorm2d
-  (act1): ReLU
-  (maxpool): MaxPool2d
-    (layer1): ..... Bottleneck.....
- ...

> 제일 마지막에 (fc): Linear(in_features=2048, out_features=1000, bias=True)

-  fully connected layer
- OutPut Dimension (size) = 1,000  : Pretraining 시 1,000개 중 하나를 맞추는 Classification 문제의 경우 필요   

In [None]:
model # 모델의 아키텍쳐

ResNet(
  (conv1): Conv2d(3, 64, kernel_size=(7, 7), stride=(2, 2), padding=(3, 3), bias=False)
  (bn1): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
  (act1): ReLU(inplace=True)
  (maxpool): MaxPool2d(kernel_size=3, stride=2, padding=1, dilation=1, ceil_mode=False)
  (layer1): Sequential(
    (0): Bottleneck(
      (conv1): Conv2d(64, 64, kernel_size=(1, 1), stride=(1, 1), bias=False)
      (bn1): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (act1): ReLU(inplace=True)
      (conv2): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
      (bn2): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (drop_block): Identity()
      (act2): ReLU(inplace=True)
      (aa): Identity()
      (conv3): Conv2d(64, 256, kernel_size=(1, 1), stride=(1, 1), bias=False)
      (bn3): BatchNorm2d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
     

In [None]:
model2 = timm.create_model('resnet50', pretrained = True, num_classes = 10) # 마지막 output class 개수 10개로 조정
model2 # num class 를 임의로 조정하면 fc layer 의 weight가 초기화됨

ResNet(
  (conv1): Conv2d(3, 64, kernel_size=(7, 7), stride=(2, 2), padding=(3, 3), bias=False)
  (bn1): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
  (act1): ReLU(inplace=True)
  (maxpool): MaxPool2d(kernel_size=3, stride=2, padding=1, dilation=1, ceil_mode=False)
  (layer1): Sequential(
    (0): Bottleneck(
      (conv1): Conv2d(64, 64, kernel_size=(1, 1), stride=(1, 1), bias=False)
      (bn1): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (act1): ReLU(inplace=True)
      (conv2): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
      (bn2): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (drop_block): Identity()
      (act2): ReLU(inplace=True)
      (aa): Identity()
      (conv3): Conv2d(64, 256, kernel_size=(1, 1), stride=(1, 1), bias=False)
      (bn3): BatchNorm2d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
     

In [None]:
model3 = timm.create_model('resnet50', pretrained = True, num_classes = 10) # 비교를 위한 모델 생성
model2.fc.weight == model3.fc.weight # fc layer weight 비교 => fc layer의 weight는 초기화되는 것을 확인

tensor([[False, False, False,  ..., False, False, False],
        [False, False, False,  ..., False, False, False],
        [False, False, False,  ..., False, False, False],
        ...,
        [False, False, False,  ..., False, False, False],
        [False, False, False,  ..., False, False, False],
        [False, False, False,  ..., False, False, False]])

> model2 와 model3 의 fully connected weight 이 다른 이유 ⏫

- tim.create 모델을 통해서 개채를 생성할때마다 마지막 fully connected layer 를 랜덤하게 initialize 해서 가져오기 때문에 마지막 fully connected weight 이 달라진다.

> 대신 fully connected layer가 아닌 convolution layer 는 모든 weight 가 동일 ⏬

- 왜냐하면, fully connected layer가 아니라, 다른 layer 같은 경우는 pretrained model 을 그냥 가져와서 사용하기 때문

In [None]:
model2.conv1.weight == model3.conv1.weight # fc layer 이전의 weight는 동일함

tensor([[[[True, True, True,  ..., True, True, True],
          [True, True, True,  ..., True, True, True],
          [True, True, True,  ..., True, True, True],
          ...,
          [True, True, True,  ..., True, True, True],
          [True, True, True,  ..., True, True, True],
          [True, True, True,  ..., True, True, True]],

         [[True, True, True,  ..., True, True, True],
          [True, True, True,  ..., True, True, True],
          [True, True, True,  ..., True, True, True],
          ...,
          [True, True, True,  ..., True, True, True],
          [True, True, True,  ..., True, True, True],
          [True, True, True,  ..., True, True, True]],

         [[True, True, True,  ..., True, True, True],
          [True, True, True,  ..., True, True, True],
          [True, True, True,  ..., True, True, True],
          ...,
          [True, True, True,  ..., True, True, True],
          [True, True, True,  ..., True, True, True],
          [True, True, True,  ...

## 1-2. timm을 활용한 전이 학습 실습

> 데이터 셋 개요

* 데이터 셋: CIFAR10/100 데이터베이스(Modified National Institute of Standards and Technology database)
* 데이터 셋 개요: CIFAR10은 10개의 클래스 ()를 가지는 이미지로 데이터셋입니다. 총 5만 개의 학습 데이터와 1만 개의 테스트 데이터로 이루어져 있으며 이미지와 그에 대응하는 라벨로 구성됩니다.
* 라벨 구성: airplane, automobile, bird, cat, deer, dog, frog, horse, ship, and truck
* [CIFAR10 공식 홈페이지](https://www.cs.toronto.edu/~kriz/cifar.html)

### CIFAR10 데이터셋 불러오기
torchvision library를 이용하여 CIFAR10 데이터셋을 불러옵니다.

* [torchvision CIFAR10] : https://pytorch.org/vision/stable/generated/torchvision.datasets.CIFAR10.html

In [None]:
# 데이터 불러오기
cifar_transform = T.Compose([
    T.ToTensor(), # 텐서 형식으로 변환
])
download_root = './CIFAR10_DATASET'

trainval_dataset = CIFAR10(download_root, transform=cifar_transform, train=True, download=True) # train dataset 다운로드
test_dataset = CIFAR10(download_root, transform=cifar_transform, train=False, download=True) # test dataset 다운로드

Downloading https://www.cs.toronto.edu/~kriz/cifar-10-python.tar.gz to ./CIFAR10_DATASET/cifar-10-python.tar.gz


100%|██████████| 170498071/170498071 [00:11<00:00, 15435824.84it/s]


Extracting ./CIFAR10_DATASET/cifar-10-python.tar.gz to ./CIFAR10_DATASET
Files already downloaded and verified


In [None]:
train_num, valid_num = int(len(trainval_dataset) * 0.8), int(len(trainval_dataset) * 0.2) # 8 : 2 = train : valid
print("Train dataset 개수 : ",train_num)
print("Validation dataset 개수 : ",valid_num)
train_dataset,val_dataset = torch.utils.data.random_split(trainval_dataset, [train_num, valid_num]) # train - valid set 나누기

Train dataset 개수 :  40000
Validation dataset 개수 :  10000


In [None]:
BATCH_SIZE = 64 # 배치사이즈 설정
# 데이터로더 설정
train_dataloader = torch.utils.data.DataLoader(dataset=train_dataset,
                                          batch_size=BATCH_SIZE,
                                          shuffle=True,
                                          drop_last=False, num_workers = 8) # train dataloader 구성
val_dataloader = torch.utils.data.DataLoader(dataset=val_dataset,
                                          batch_size=BATCH_SIZE,
                                          shuffle=False,
                                          drop_last=False, num_workers = 8) # valid dataloader 구성
test_dataloader = torch.utils.data.DataLoader(dataset=test_dataset,
                                          batch_size=BATCH_SIZE,
                                          shuffle=False,
                                          drop_last=False, num_workers = 8) # test dataloader 구성

### pretrained 된 모델로 추론하기
* ImageNet으로 사전훈련된 모델의 파라미터를 **그대로** cifar10에 적용해봅니다.
이 때, input 값의 shape은 (Batch size, Channel, Height, Width) 형태로 구성되어야 합니다.

* ImageNet 이란?
  * 대규모 이미지 데이터셋으로, 1000개의 다양한 카테고리로 구성된 이미지들로 이루어져 있습니다.
  * 컴퓨터 비젼 분야에서 모델을 학습하고 평가하기 위해 널리 사용되며, 이미지 분류, 객체 감지, 객체 인식 등 다양한 작업에 활용됩니다.

* [Guide blog] : https://towardsdatascience.com/getting-started-with-pytorch-image-models-timm-a-practitioners-guide-4e77b4bf9055
* [ImageNet] : https://www.image-net.org/

In [None]:
# pretrained model 불러오기 (resnet50 불러오기)
device = 'cuda:0' # gpu 설정
# device = torch.device('cpu')
model = timm.create_model('resnet50', pretrained=True, num_classes = 10).to(device) # 10개의 클래스 예측

In [None]:
# 이미지 하나 추론하기
img, label = train_dataset[0]
img = img.unsqueeze(0) # 배치 추가

In [None]:
model.eval() # evaluation 상태로 만듦 (freeze)
preds = model(img.to(device)) # model inference, image 도 gpu에 올리기
pred_label = torch.argmax(preds).item() # 가장 큰 값의 index 반환
print(f'True Label : {label} \nPredict Label : {pred_label}')

True Label : 1 
Predict Label : 0


### timm을 이용하여 fine tuning 하기
* 사전 훈련된 모델을 이용하여 fine tuning 후 성능 변화를 확인해봅니다.
* 모델 전체를 fine tuning 한 것과 마지막 fully connected layer만 fine tuning 한 것에 대한 차이를 알아봅니다.
  * CIFAR10은 사전 학습된 데이터셋(ImageNet)과 도메인이 매우 다르고, 데이터셋이 크기 때문에 꽤 많은 layer를 학습을 해야합니다.  
* 전이 학습시 learning rate의 크기 전략에 대해 실습해봅니다.
  * 전이 학습시 일반적으로 learning rate를 작게 설정해야합니다.


* [Guide blog] : https://towardsdatascience.com/getting-started-with-pytorch-image-models-timm-a-practitioners-guide-4e77b4bf9055
* [Fine tuning 전략] : https://jeinalog.tistory.com/13

In [None]:
# training 코드, evaluation 코드, training_loop 코드
def training(model, dataloader, train_dataset, criterion, optimizer, device, epoch, num_epochs):
  model.train()  # 모델을 학습 모드로 설정
  train_loss = 0.0
  train_accuracy = 0

  tbar = tqdm(dataloader)
  for images, labels in tbar:
      images = images.to(device)
      labels = labels.to(device)

      # 순전파
      outputs = model(images)
      loss = criterion(outputs, labels)

      # 역전파 및 가중치 업데이트
      optimizer.zero_grad()
      loss.backward()
      optimizer.step()

      # 손실과 정확도 계산
      train_loss += loss.item()
      # torch.max에서 dim 인자에 값을 추가할 경우, 해당 dimension에서 최댓값과 최댓값에 해당하는 인덱스를 반환
      _, predicted = torch.max(outputs, 1)
      train_accuracy += (predicted == labels).sum().item()

      # tqdm의 진행바에 표시될 설명 텍스트를 설정
      tbar.set_description(f"Epoch [{epoch+1}/{num_epochs}], Train Loss: {loss.item():.4f}")

  # 에폭별 학습 결과 출력
  train_loss = train_loss / len(dataloader)
  train_accuracy = train_accuracy / len(train_dataset)

  return model, train_loss, train_accuracy

def evaluation(model, dataloader, val_dataset, criterion, device, epoch, num_epochs):
  model.eval()  # 모델을 평가 모드로 설정
  valid_loss = 0.0
  valid_accuracy = 0

  with torch.no_grad(): # model의 업데이트 막기
      tbar = tqdm(dataloader)
      for images, labels in tbar:
          images = images.to(device)
          labels = labels.to(device)

          # 순전파
          outputs = model(images)
          loss = criterion(outputs, labels)

          # 손실과 정확도 계산
          valid_loss += loss.item()
          # torch.max에서 dim 인자에 값을 추가할 경우, 해당 dimension에서 최댓값과 최댓값에 해당하는 인덱스를 반환
          _, predicted = torch.max(outputs, 1)
          valid_accuracy += (predicted == labels).sum().item()

          # tqdm의 진행바에 표시될 설명 텍스트를 설정
          tbar.set_description(f"Epoch [{epoch+1}/{num_epochs}], Valid Loss: {loss.item():.4f}")

  valid_loss = valid_loss / len(dataloader)
  valid_accuracy = valid_accuracy / len(val_dataset)

  return model, valid_loss, valid_accuracy


def training_loop(model, train_dataloader, valid_dataloader, train_dataset, val_dataset, criterion, optimizer, device, num_epochs, patience, model_name):
    best_valid_loss = float('inf')  # 가장 좋은 validation loss를 저장
    early_stop_counter = 0  # 카운터
    valid_max_accuracy = -1

    for epoch in range(num_epochs):
        model, train_loss, train_accuracy = training(model, train_dataloader, train_dataset, criterion, optimizer, device, epoch, num_epochs)
        model, valid_loss, valid_accuracy = evaluation(model, valid_dataloader, val_dataset, criterion, device, epoch, num_epochs)

        if valid_accuracy > valid_max_accuracy:
          valid_max_accuracy = valid_accuracy

        # validation loss가 감소하면 모델 저장 및 카운터 리셋
        if valid_loss < best_valid_loss:
            best_valid_loss = valid_loss
            torch.save(model.state_dict(), f"./model_{model_name}.pt")
            early_stop_counter = 0

        # validation loss가 증가하거나 같으면 카운터 증가
        else:
            early_stop_counter += 1

        print(f"Epoch [{epoch + 1}/{num_epochs}], Train Loss: {train_loss:.4f}, Train Accuracy: {train_accuracy:.4f} Valid Loss: {valid_loss:.4f}, Valid Accuracy: {valid_accuracy:.4f}")

        # 조기 종료 카운터가 설정한 patience를 초과하면 학습 종료
        if early_stop_counter >= patience:
            print("Early stopping")
            break

    return model, valid_max_accuracy

In [None]:
# 모델 전체 fine tuning
num_epochs = 100
patience = 3
scores = dict()
model_name = 'exp1'

lr = 1e-3
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr = lr)
model, valid_max_accuracy = training_loop(model, train_dataloader, val_dataloader, train_dataset, val_dataset, criterion, optimizer, device, num_epochs, patience, model_name)
scores[model_name] = valid_max_accuracy

  0%|          | 0/625 [00:00<?, ?it/s]

  0%|          | 0/157 [00:00<?, ?it/s]

Epoch [1/100], Train Loss: 1.1180, Train Accuracy: 0.6125 Valid Loss: 0.7717, Valid Accuracy: 0.7359


  0%|          | 0/625 [00:00<?, ?it/s]

  0%|          | 0/157 [00:00<?, ?it/s]

Epoch [2/100], Train Loss: 0.5913, Train Accuracy: 0.7987 Valid Loss: 0.5642, Valid Accuracy: 0.8036


  0%|          | 0/625 [00:00<?, ?it/s]

  0%|          | 0/157 [00:00<?, ?it/s]

Epoch [3/100], Train Loss: 0.4005, Train Accuracy: 0.8597 Valid Loss: 0.5364, Valid Accuracy: 0.8181


  0%|          | 0/625 [00:00<?, ?it/s]

  0%|          | 0/157 [00:00<?, ?it/s]

Epoch [4/100], Train Loss: 0.2940, Train Accuracy: 0.8977 Valid Loss: 0.5274, Valid Accuracy: 0.8280


  0%|          | 0/625 [00:00<?, ?it/s]

  0%|          | 0/157 [00:00<?, ?it/s]

Epoch [5/100], Train Loss: 0.2235, Train Accuracy: 0.9224 Valid Loss: 0.6062, Valid Accuracy: 0.8151


  0%|          | 0/625 [00:00<?, ?it/s]

  0%|          | 0/157 [00:00<?, ?it/s]

Epoch [6/100], Train Loss: 0.1714, Train Accuracy: 0.9421 Valid Loss: 0.5724, Valid Accuracy: 0.8306


  0%|          | 0/625 [00:00<?, ?it/s]

  0%|          | 0/157 [00:00<?, ?it/s]

Epoch [7/100], Train Loss: 0.1401, Train Accuracy: 0.9518 Valid Loss: 0.6255, Valid Accuracy: 0.8211
Early stopping


In [None]:
model.load_state_dict(torch.load("./model_exp1.pt")) # 모델 불러오기
model = model.to(device)
model.eval()
total_labels = []
total_preds = []
with torch.no_grad():
    for images, labels in tqdm(test_dataloader):
        images = images.to(device)
        labels = labels

        outputs = model(images)
        # torch.max에서 dim 인자에 값을 추가할 경우, 해당 dimension에서 최댓값과 최댓값에 해당하는 인덱스를 반환
        _, predicted = torch.max(outputs.data, 1)

        total_preds.extend(predicted.detach().cpu().tolist())
        total_labels.extend(labels.tolist())

total_preds = np.array(total_preds)
total_labels = np.array(total_labels)
full_model_tuning_acc = accuracy_score(total_labels, total_preds) # 정확도 계산
print("Full Fine tuning model accuracy : ",full_model_tuning_acc) # 전체 모델을 fine tuning 한 것이 점수

  0%|          | 0/157 [00:00<?, ?it/s]

Full Fine tuning model accuracy :  0.8252


> fine tuning 방법

- pretrained model의 weight 와 새롭게 추가된 fully connected layer 까지 전체를 finetuning 하는 방법이 있고,
- pretrained model 은 freez 시켜놓고, 새로 추가하는 fully connected layer만 fine tuning 하는 방법이 있다.

⏬ pretrained model의 convoluton layer 같은 것은 freez 시켜놓고, fully connected layer 만 fine tuning

- 모델 파라미터를 for 문으로 돌면서 `para.requires_grad = False` (학습을 시키지 않겠다, freeze 하겠다.)
- 모델의 fully connected layer 에 있는 파라미터 들만 학습 `para.requires_grad = True`



In [None]:
# 마지막 layer 만 fine tuning
num_epochs = 100
patience = 3
scores = dict()
model_name = 'exp2'

model = timm.create_model('resnet50', pretrained=True, num_classes= 10).to(device)

# 앞부분과 다른 부분 -----------------------------------
for para in model.parameters(): # 모든 layer freeze 하기
    para.requires_grad = False
for para in model.fc.parameters(): # fc layer 만 학습하기
    para.requires_grad = True
# ------------------------------------------------------

lr = 1e-3
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr = lr)
model, valid_max_accuracy = training_loop(model, train_dataloader, val_dataloader, train_dataset, val_dataset, criterion, optimizer, device, num_epochs, patience, model_name)
scores[model_name] = valid_max_accuracy

  0%|          | 0/625 [00:00<?, ?it/s]

  0%|          | 0/157 [00:00<?, ?it/s]

Epoch [1/100], Train Loss: 1.8864, Train Accuracy: 0.3693 Valid Loss: 2.0339, Valid Accuracy: 0.4394


  0%|          | 0/625 [00:00<?, ?it/s]

  0%|          | 0/157 [00:00<?, ?it/s]

Epoch [2/100], Train Loss: 1.6968, Train Accuracy: 0.4270 Valid Loss: 3.7509, Valid Accuracy: 0.4463


  0%|          | 0/625 [00:00<?, ?it/s]

  0%|          | 0/157 [00:00<?, ?it/s]

Epoch [3/100], Train Loss: 1.6460, Train Accuracy: 0.4370 Valid Loss: 2.5488, Valid Accuracy: 0.4502


  0%|          | 0/625 [00:00<?, ?it/s]

  0%|          | 0/157 [00:00<?, ?it/s]

Epoch [4/100], Train Loss: 1.6291, Train Accuracy: 0.4402 Valid Loss: 3.4172, Valid Accuracy: 0.4495
Early stopping


In [None]:
model.load_state_dict(torch.load("./model_exp2.pt")) # 모델 불러오기
model = model.to(device)
model.eval()
total_labels = []
total_preds = []
with torch.no_grad():
    for images, labels in tqdm(test_dataloader):
        images = images.to(device)
        labels = labels

        outputs = model(images)
        # torch.max에서 dim 인자에 값을 추가할 경우, 해당 dimension에서 최댓값과 최댓값에 해당하는 인덱스를 반환
        _, predicted = torch.max(outputs.data, 1)

        total_preds.extend(predicted.detach().cpu().tolist())
        total_labels.extend(labels.tolist())

total_preds = np.array(total_preds)
total_labels = np.array(total_labels)
fc_tuning_acc = accuracy_score(total_labels, total_preds) # 정확도 계산
print("Only FC Layer Fine tuning model accuracy : ",fc_tuning_acc) # 전체 layer를 fine tuning 한 것보다 점수가 낮음

  0%|          | 0/157 [00:00<?, ?it/s]

Only FC Layer Fine tuning model accuracy :  0.4408


- 앞에서는 0.8... 이지만 여기서는 0.4...
- 많이 떨어진 이유는 train 데이터셋 크기가 4만개 정도로 굉장히 큰데, 굳이 pretrained model 을 freeze 하고, fully connected layer 만 학습을 하면 학습이 잘 안되기 때문에 이러한 결과가 나왔다.

In [None]:
# learning rate 에 따른 결과 비교

model3 = timm.create_model('resnet50', pretrained=True, num_classes= 10).to(device)
num_epochs = 100
patience = 3
scores = dict()
model_name = 'exp3'

lr = 1e-1 # learning rate 높게 설정. 앞에서는 1e-3 이었음. 1e-1 > 1e-3
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model3.parameters(), lr = lr)
model, valid_max_accuracy = training_loop(model3, train_dataloader, val_dataloader, train_dataset, val_dataset, criterion, optimizer, device, num_epochs, patience, model_name)
scores[model_name] = valid_max_accuracy

  0%|          | 0/625 [00:00<?, ?it/s]

  0%|          | 0/157 [00:00<?, ?it/s]

Epoch [1/100], Train Loss: 3.0018, Train Accuracy: 0.1002 Valid Loss: 5.6379, Valid Accuracy: 0.1064


  0%|          | 0/625 [00:00<?, ?it/s]

  0%|          | 0/157 [00:00<?, ?it/s]

Epoch [2/100], Train Loss: 2.3123, Train Accuracy: 0.0974 Valid Loss: 5.1841, Valid Accuracy: 0.1063


  0%|          | 0/625 [00:00<?, ?it/s]

  0%|          | 0/157 [00:00<?, ?it/s]

Epoch [3/100], Train Loss: 2.4288, Train Accuracy: 0.0988 Valid Loss: 10.9637, Valid Accuracy: 0.0979


  0%|          | 0/625 [00:00<?, ?it/s]

  0%|          | 0/157 [00:00<?, ?it/s]

Epoch [4/100], Train Loss: 2.3275, Train Accuracy: 0.1002 Valid Loss: 4.1220, Valid Accuracy: 0.0993


  0%|          | 0/625 [00:00<?, ?it/s]

  0%|          | 0/157 [00:00<?, ?it/s]

Epoch [5/100], Train Loss: 2.3120, Train Accuracy: 0.1004 Valid Loss: 4.9645, Valid Accuracy: 0.1065


  0%|          | 0/625 [00:00<?, ?it/s]

  0%|          | 0/157 [00:00<?, ?it/s]

Epoch [6/100], Train Loss: 2.3118, Train Accuracy: 0.0980 Valid Loss: 3.6067, Valid Accuracy: 0.0995


  0%|          | 0/625 [00:00<?, ?it/s]

  0%|          | 0/157 [00:00<?, ?it/s]

Epoch [7/100], Train Loss: 2.3109, Train Accuracy: 0.1017 Valid Loss: 4.3913, Valid Accuracy: 0.1028


  0%|          | 0/625 [00:00<?, ?it/s]

  0%|          | 0/157 [00:00<?, ?it/s]

Epoch [8/100], Train Loss: 2.3112, Train Accuracy: 0.0990 Valid Loss: 6.7145, Valid Accuracy: 0.1036


  0%|          | 0/625 [00:00<?, ?it/s]

  0%|          | 0/157 [00:00<?, ?it/s]

Epoch [9/100], Train Loss: 2.3108, Train Accuracy: 0.1023 Valid Loss: 10.2049, Valid Accuracy: 0.1003
Early stopping


In [None]:
model3.load_state_dict(torch.load("./model_exp3.pt")) # 저장된 모델을 load_state_dict 로 불러오기
model3 = model3.to(device)
model3.eval()
total_labels = []
total_preds = []
with torch.no_grad():
    for images, labels in tqdm(test_dataloader):
        images = images.to(device)
        labels = labels

        outputs = model3(images)
        # torch.max에서 dim 인자에 값을 추가할 경우, 해당 dimension에서 최댓값과 최댓값에 해당하는 인덱스를 반환
        _, predicted = torch.max(outputs.data, 1)

        total_preds.extend(predicted.detach().cpu().tolist())
        total_labels.extend(labels.tolist())

total_preds = np.array(total_preds)
total_labels = np.array(total_labels)
big_lr_acc = accuracy_score(total_labels, total_preds)
print("Large learning rate model accuracy : ",big_lr_acc)

  0%|          | 0/157 [00:00<?, ?it/s]

Large learning rate model accuracy :  0.0999


learning rate를 굉장히 높게 줬더니, 기존의 지식을 다 망가뜨려놔서 학습이 전혀 되지 않음.

In [None]:
# learning rate 에 따른 결과 비교

model4 = timm.create_model('resnet50', pretrained=True, num_classes= 10).to(device)
num_epochs = 100
patience = 3
scores = dict()
model_name = 'exp4'

lr = 1e-5 # 기존보다 더 작게 설정
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model4.parameters(), lr = lr)
model, valid_max_accuracy = training_loop(model4, train_dataloader, val_dataloader, train_dataset, val_dataset, criterion, optimizer, device, num_epochs, patience, model_name)
scores[model_name] = valid_max_accuracy

  0%|          | 0/625 [00:00<?, ?it/s]

  0%|          | 0/157 [00:00<?, ?it/s]

Epoch [1/100], Train Loss: 2.2910, Train Accuracy: 0.1259 Valid Loss: 2.5692, Valid Accuracy: 0.1531


  0%|          | 0/625 [00:00<?, ?it/s]

  0%|          | 0/157 [00:00<?, ?it/s]

Epoch [2/100], Train Loss: 2.2520, Train Accuracy: 0.1790 Valid Loss: 2.4923, Valid Accuracy: 0.2147


  0%|          | 0/625 [00:00<?, ?it/s]

  0%|          | 0/157 [00:00<?, ?it/s]

Epoch [3/100], Train Loss: 2.2011, Train Accuracy: 0.2359 Valid Loss: 2.4525, Valid Accuracy: 0.2673


  0%|          | 0/625 [00:00<?, ?it/s]

  0%|          | 0/157 [00:00<?, ?it/s]

Epoch [4/100], Train Loss: 2.1274, Train Accuracy: 0.2838 Valid Loss: 2.2873, Valid Accuracy: 0.3170


  0%|          | 0/625 [00:00<?, ?it/s]

  0%|          | 0/157 [00:00<?, ?it/s]

Epoch [5/100], Train Loss: 2.0419, Train Accuracy: 0.3311 Valid Loss: 2.2040, Valid Accuracy: 0.3544


  0%|          | 0/625 [00:00<?, ?it/s]

  0%|          | 0/157 [00:00<?, ?it/s]

Epoch [6/100], Train Loss: 1.9516, Train Accuracy: 0.3638 Valid Loss: 2.0651, Valid Accuracy: 0.3887


  0%|          | 0/625 [00:00<?, ?it/s]

  0%|          | 0/157 [00:00<?, ?it/s]

Epoch [7/100], Train Loss: 1.8571, Train Accuracy: 0.3971 Valid Loss: 2.0470, Valid Accuracy: 0.4173


  0%|          | 0/625 [00:00<?, ?it/s]

  0%|          | 0/157 [00:00<?, ?it/s]

Epoch [8/100], Train Loss: 1.7738, Train Accuracy: 0.4248 Valid Loss: 2.1949, Valid Accuracy: 0.4477


  0%|          | 0/625 [00:00<?, ?it/s]

  0%|          | 0/157 [00:00<?, ?it/s]

Epoch [9/100], Train Loss: 1.6915, Train Accuracy: 0.4514 Valid Loss: 1.8458, Valid Accuracy: 0.4682


  0%|          | 0/625 [00:00<?, ?it/s]

  0%|          | 0/157 [00:00<?, ?it/s]

Epoch [10/100], Train Loss: 1.6134, Train Accuracy: 0.4783 Valid Loss: 1.6954, Valid Accuracy: 0.4939


  0%|          | 0/625 [00:00<?, ?it/s]

  0%|          | 0/157 [00:00<?, ?it/s]

Epoch [11/100], Train Loss: 1.5377, Train Accuracy: 0.4989 Valid Loss: 1.7272, Valid Accuracy: 0.5021


  0%|          | 0/625 [00:00<?, ?it/s]

  0%|          | 0/157 [00:00<?, ?it/s]

Epoch [12/100], Train Loss: 1.4698, Train Accuracy: 0.5175 Valid Loss: 1.5598, Valid Accuracy: 0.5289


  0%|          | 0/625 [00:00<?, ?it/s]

  0%|          | 0/157 [00:00<?, ?it/s]

Epoch [13/100], Train Loss: 1.4079, Train Accuracy: 0.5310 Valid Loss: 1.4442, Valid Accuracy: 0.5453


  0%|          | 0/625 [00:00<?, ?it/s]

  0%|          | 0/157 [00:00<?, ?it/s]

Epoch [14/100], Train Loss: 1.3476, Train Accuracy: 0.5501 Valid Loss: 1.4658, Valid Accuracy: 0.5567


  0%|          | 0/625 [00:00<?, ?it/s]

  0%|          | 0/157 [00:00<?, ?it/s]

Epoch [15/100], Train Loss: 1.2971, Train Accuracy: 0.5647 Valid Loss: 1.3473, Valid Accuracy: 0.5683


  0%|          | 0/625 [00:00<?, ?it/s]

  0%|          | 0/157 [00:00<?, ?it/s]

Epoch [16/100], Train Loss: 1.2474, Train Accuracy: 0.5751 Valid Loss: 1.2813, Valid Accuracy: 0.5788


  0%|          | 0/625 [00:00<?, ?it/s]

  0%|          | 0/157 [00:00<?, ?it/s]

Epoch [17/100], Train Loss: 1.2068, Train Accuracy: 0.5873 Valid Loss: 1.2388, Valid Accuracy: 0.5935


  0%|          | 0/625 [00:00<?, ?it/s]

  0%|          | 0/157 [00:00<?, ?it/s]

Epoch [18/100], Train Loss: 1.1617, Train Accuracy: 0.6015 Valid Loss: 1.1862, Valid Accuracy: 0.6017


  0%|          | 0/625 [00:00<?, ?it/s]

  0%|          | 0/157 [00:00<?, ?it/s]

Epoch [19/100], Train Loss: 1.1274, Train Accuracy: 0.6104 Valid Loss: 1.2429, Valid Accuracy: 0.6119


  0%|          | 0/625 [00:00<?, ?it/s]

  0%|          | 0/157 [00:00<?, ?it/s]

Epoch [20/100], Train Loss: 1.0964, Train Accuracy: 0.6206 Valid Loss: 1.1503, Valid Accuracy: 0.6216


  0%|          | 0/625 [00:00<?, ?it/s]

  0%|          | 0/157 [00:00<?, ?it/s]

Epoch [21/100], Train Loss: 1.0647, Train Accuracy: 0.6348 Valid Loss: 1.1433, Valid Accuracy: 0.6276


  0%|          | 0/625 [00:00<?, ?it/s]

  0%|          | 0/157 [00:00<?, ?it/s]

Epoch [22/100], Train Loss: 1.0324, Train Accuracy: 0.6433 Valid Loss: 1.0950, Valid Accuracy: 0.6345


  0%|          | 0/625 [00:00<?, ?it/s]

  0%|          | 0/157 [00:00<?, ?it/s]

Epoch [23/100], Train Loss: 1.0101, Train Accuracy: 0.6502 Valid Loss: 1.0590, Valid Accuracy: 0.6454


  0%|          | 0/625 [00:00<?, ?it/s]

  0%|          | 0/157 [00:00<?, ?it/s]

Epoch [24/100], Train Loss: 0.9806, Train Accuracy: 0.6589 Valid Loss: 1.0370, Valid Accuracy: 0.6559


  0%|          | 0/625 [00:00<?, ?it/s]

  0%|          | 0/157 [00:00<?, ?it/s]

Epoch [25/100], Train Loss: 0.9575, Train Accuracy: 0.6689 Valid Loss: 1.0853, Valid Accuracy: 0.6579


  0%|          | 0/625 [00:00<?, ?it/s]

  0%|          | 0/157 [00:00<?, ?it/s]

Epoch [26/100], Train Loss: 0.9380, Train Accuracy: 0.6747 Valid Loss: 1.0076, Valid Accuracy: 0.6658


  0%|          | 0/625 [00:00<?, ?it/s]

  0%|          | 0/157 [00:00<?, ?it/s]

Epoch [27/100], Train Loss: 0.9066, Train Accuracy: 0.6845 Valid Loss: 0.9944, Valid Accuracy: 0.6674


  0%|          | 0/625 [00:00<?, ?it/s]

  0%|          | 0/157 [00:00<?, ?it/s]

Epoch [28/100], Train Loss: 0.8929, Train Accuracy: 0.6894 Valid Loss: 0.9783, Valid Accuracy: 0.6768


  0%|          | 0/625 [00:00<?, ?it/s]

  0%|          | 0/157 [00:00<?, ?it/s]

Epoch [29/100], Train Loss: 0.8724, Train Accuracy: 0.6977 Valid Loss: 0.9522, Valid Accuracy: 0.6797


  0%|          | 0/625 [00:00<?, ?it/s]

  0%|          | 0/157 [00:00<?, ?it/s]

Epoch [30/100], Train Loss: 0.8556, Train Accuracy: 0.7038 Valid Loss: 0.9474, Valid Accuracy: 0.6834


  0%|          | 0/625 [00:00<?, ?it/s]

  0%|          | 0/157 [00:00<?, ?it/s]

Epoch [31/100], Train Loss: 0.8385, Train Accuracy: 0.7058 Valid Loss: 0.9685, Valid Accuracy: 0.6886


  0%|          | 0/625 [00:00<?, ?it/s]

  0%|          | 0/157 [00:00<?, ?it/s]

Epoch [32/100], Train Loss: 0.8208, Train Accuracy: 0.7164 Valid Loss: 0.9526, Valid Accuracy: 0.6922


  0%|          | 0/625 [00:00<?, ?it/s]

  0%|          | 0/157 [00:00<?, ?it/s]

Epoch [33/100], Train Loss: 0.8012, Train Accuracy: 0.7196 Valid Loss: 0.9006, Valid Accuracy: 0.7011


  0%|          | 0/625 [00:00<?, ?it/s]

  0%|          | 0/157 [00:00<?, ?it/s]

Epoch [34/100], Train Loss: 0.7912, Train Accuracy: 0.7265 Valid Loss: 0.9323, Valid Accuracy: 0.7017


  0%|          | 0/625 [00:00<?, ?it/s]

  0%|          | 0/157 [00:00<?, ?it/s]

Epoch [35/100], Train Loss: 0.7722, Train Accuracy: 0.7316 Valid Loss: 0.8798, Valid Accuracy: 0.7086


  0%|          | 0/625 [00:00<?, ?it/s]

  0%|          | 0/157 [00:00<?, ?it/s]

Epoch [36/100], Train Loss: 0.7570, Train Accuracy: 0.7352 Valid Loss: 0.8750, Valid Accuracy: 0.7109


  0%|          | 0/625 [00:00<?, ?it/s]

  0%|          | 0/157 [00:00<?, ?it/s]

Epoch [37/100], Train Loss: 0.7469, Train Accuracy: 0.7386 Valid Loss: 0.8851, Valid Accuracy: 0.7138


  0%|          | 0/625 [00:00<?, ?it/s]

  0%|          | 0/157 [00:00<?, ?it/s]

Epoch [38/100], Train Loss: 0.7290, Train Accuracy: 0.7463 Valid Loss: 0.8673, Valid Accuracy: 0.7145


  0%|          | 0/625 [00:00<?, ?it/s]

  0%|          | 0/157 [00:00<?, ?it/s]

Epoch [39/100], Train Loss: 0.7173, Train Accuracy: 0.7492 Valid Loss: 0.8309, Valid Accuracy: 0.7233


  0%|          | 0/625 [00:00<?, ?it/s]

  0%|          | 0/157 [00:00<?, ?it/s]

Epoch [40/100], Train Loss: 0.7081, Train Accuracy: 0.7541 Valid Loss: 0.9088, Valid Accuracy: 0.7193


  0%|          | 0/625 [00:00<?, ?it/s]

  0%|          | 0/157 [00:00<?, ?it/s]

Epoch [41/100], Train Loss: 0.6929, Train Accuracy: 0.7579 Valid Loss: 0.8597, Valid Accuracy: 0.7247


  0%|          | 0/625 [00:00<?, ?it/s]

  0%|          | 0/157 [00:00<?, ?it/s]

Epoch [42/100], Train Loss: 0.6820, Train Accuracy: 0.7603 Valid Loss: 0.8423, Valid Accuracy: 0.7274
Early stopping


In [None]:
model4.load_state_dict(torch.load("./model_exp4.pt")) # 모델 불러오기
model4 = model4.to(device)
model4.eval()
total_labels = []
total_preds = []
with torch.no_grad():
    for images, labels in tqdm(test_dataloader):
        images = images.to(device)
        labels = labels

        outputs = model4(images)
        # torch.max에서 dim 인자에 값을 추가할 경우, 해당 dimension에서 최댓값과 최댓값에 해당하는 인덱스를 반환
        _, predicted = torch.max(outputs.data, 1)

        total_preds.extend(predicted.detach().cpu().tolist())
        total_labels.extend(labels.tolist())

total_preds = np.array(total_preds)
total_labels = np.array(total_labels)
small_lr_acc = accuracy_score(total_labels, total_preds)
print("Small learning rate model accuracy : ",small_lr_acc) # learning rate를 작게 설정했을 때가 더욱 정확도가 높음

  0%|          | 0/157 [00:00<?, ?it/s]

Small learning rate model accuracy :  0.7142


처음 정확도인 0.8... 보다 살짝 낮아짐.

# 2.Hugging Face를 활용한 pretrained model 사용법

> Hugging Face의 pretrained model을 불러오고, 이를 통해 transfer learning을 하는 방법을 IMDB dataset을 통해 학습

## 2-1. Hugging Face로 pretrained model 불러오기

> Hugging Face에 있는 여러 모델 중 원하는 모델을 불러오는 것을 실습

### Hugging Face에 있는 pretrained model을 불러옵니다.
* Hugging Face 홈페이지에서 BERT 라는 모델을 불러옵니다.
    * BERT는 <a href='https://huggingface.co/docs/transformers/index'>transformers</a> 라이브러리 안에 있습니다

* pip 로 설치 후, library를 불러옵니다.

* <a href='https://huggingface.co/docs/transformers/model_doc/bert#transformers.BertForSequenceClassification'>BertForSequenceClassification</a> 모델 찾는 법
  * <a href='https://huggingface.co/docs/transformers/index'>transformers</a> 라이브러리에 들어가서 왼쪽에 Models -> Text Models -> 오른쪽 탭에서 모델을 찾을 수가 있습니다.

* pretrained model 찾는 법
  * 보통 구글링을 통해 찾으며, 공식 github 홈페이지를 통해 찾는다.
  * BertForSequenceClassification 모델의 pretrained 모델을 찾기 위해선 <a href='https://github.com/google-research/bert'>Bert 공식 github</a> 를 이용하면 된다.
  * 강의에서 사용한 bert-base-cased 모델은 <a href='https://huggingface.co/bert-base-cased'>hugging face 홈페이지</a>에 있으며, 출판되지 않은 책과 위키피디아의 정보가 담긴 <a href='https://yknzhu.wixsite.com/mbweb'>데이터셋(Bookcorpus)</a> 훈련되었습니다.


* [Hugging Face Bert] : https://huggingface.co/docs/transformers/v4.30.0/en/model_doc/bert

In [None]:
# Hugging Face의 트랜스포머 모델을 설치
!pip install transformers==4.31.0 -q

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m7.4/7.4 MB[0m [31m51.7 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m7.8/7.8 MB[0m [31m107.1 MB/s[0m eta [36m0:00:00[0m
[?25h

> BertForSequenceClassification 모델에 PreTrained 된 모델이 여러가지가 있는데, "bert-base-cased" 라는 이름을 가지는 Pretrained 모델을 사용하겠다.

In [5]:
from transformers import BertForSequenceClassification
BertForSequenceClassification.from_pretrained("bert-base-cased") # BERT로 분류기를 사용하는 모델 불러오기.

config.json:   0%|          | 0.00/570 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/436M [00:00<?, ?B/s]

Some weights of BertForSequenceClassification were not initialized from the model checkpoint at bert-base-cased and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


BertForSequenceClassification(
  (bert): BertModel(
    (embeddings): BertEmbeddings(
      (word_embeddings): Embedding(28996, 768, padding_idx=0)
      (position_embeddings): Embedding(512, 768)
      (token_type_embeddings): Embedding(2, 768)
      (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
      (dropout): Dropout(p=0.1, inplace=False)
    )
    (encoder): BertEncoder(
      (layer): ModuleList(
        (0-11): 12 x BertLayer(
          (attention): BertAttention(
            (self): BertSdpaSelfAttention(
              (query): Linear(in_features=768, out_features=768, bias=True)
              (key): Linear(in_features=768, out_features=768, bias=True)
              (value): Linear(in_features=768, out_features=768, bias=True)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (output): BertSelfOutput(
              (dense): Linear(in_features=768, out_features=768, bias=True)
              (LayerNorm): LayerNorm((768,), eps=1e

### BERT의 input으로 어떤 형식이 들어가야할까?
* BertForSequenceClassification 모델을 사용하여 훈련할 때,

## 2-2. Hugging Face을 활용한 전이 학습 실습

> "IMDB" 데이터를 이용하여 BERT를 fine tuning 하여 감정 분류하는 것을 실습

### IMDB 데이터
* 데이터셋 다운로드 : <a href='https://www.kaggle.com/datasets/lakshmi25npathi/imdb-dataset-of-50k-movie-reviews'>IMDB Dataset</a>
* 50K 개의 영화 관람후기 데이터로 해당 영화에 대한 감정 라벨 (긍/부정) 주석이 포함됩니다.
* 데이터로 다운로드 한 후, zip 파일을 풀어서 드라이브에 업로드 합니다.
* 데이터셋 원 출처 : https://ai.stanford.edu/~amaas/data/sentiment/
* License :
```
@InProceedings{maas-EtAl:2011:ACL-HLT2011,
  author    = {Maas, Andrew L.  and  Daly, Raymond E.  and  Pham, Peter T.  and  Huang, Dan  and  Ng, Andrew Y.  and  Potts, Christopher},
  title     = {Learning Word Vectors for Sentiment Analysis},
  booktitle = {Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies},
  month     = {June},
  year      = {2011},
  address   = {Portland, Oregon, USA},
  publisher = {Association for Computational Linguistics},
  pages     = {142--150},
  url       = {http://www.aclweb.org/anthology/P11-1015}
}
```

In [8]:
# data 불러오기
data = pd.read_csv('IMDB Dataset.csv')
print(data.shape)
data.head()

(50000, 2)


Unnamed: 0,review,sentiment
0,One of the other reviewers has mentioned that ...,positive
1,A wonderful little production. <br /><br />The...,positive
2,I thought this was a wonderful way to spend ti...,positive
3,Basically there's a family where a little boy ...,negative
4,"Petter Mattei's ""Love in the Time of Money"" is...",positive


In [9]:
dic = {'positive':0, 'negative':1} # positive 면 0으로, negative면 1로 변환
data['sentiment'] = data['sentiment'].map(dic)

In [10]:
# data 8:1:1 로 나누기
train, test = train_test_split(data, test_size = .2, random_state = 42)
val, test = train_test_split(test, test_size = .5, random_state = 42)

print("Train 개수: ", len(train))
print("Validation 개수: ", len(val))
print("Test 개수: ", len(test))

Train 개수:  40000
Validation 개수:  5000
Test 개수:  5000


In [11]:
train.reset_index(drop=True, inplace=True) # index 재정렬
val.reset_index(drop=True, inplace=True) # index 재정렬
test.reset_index(drop=True, inplace=True) # index 재정렬

### BERT를 훈련시키기 위한 모델 전처리
<img src='https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FWFCfe%2FbtqBWZ40Gmc%2F6FkuwsAGN9e7Uudmi03k4k%2Fimg.png'>

* BERT는 input 으로 [CLS] 토큰과 [SEP] 토큰이 각각 문장의 앞,뒤에 들어가있는 형태여야 합니다.

* [BERT 논문] : https://arxiv.org/abs/1810.04805

In [12]:
train['review'] = train['review'].apply(lambda x: f'[CLS] {x} [SEP]') # 문장의 앞뒤에 [CLS]와 [SEP] 삽입
val['review'] = val['review'].apply(lambda x: f'[CLS] {x} [SEP]') # 문장의 앞뒤에 [CLS]와 [SEP] 삽입
test['review'] = test['review'].apply(lambda x: f'[CLS] {x} [SEP]') # 문장의 앞뒤에 [CLS]와 [SEP] 삽입

train.head()

Unnamed: 0,review,sentiment
0,[CLS] That's what I kept asking myself during ...,1
1,[CLS] I did not watch the entire movie. I coul...,1
2,[CLS] A touching love story reminiscent of In...,0
3,[CLS] This latter-day Fulci schlocker is a tot...,1
4,"[CLS] First of all, I firmly believe that Norw...",1


In [13]:
# 각 문장들만 추출
train_sentences = train['review'].values
val_sentences = val['review'].values
test_sentences = test['review'].values

# 정답값 추출
train_label = train['sentiment'].values
val_label = val['sentiment'].values
test_label = test['sentiment'].values

### HuggingFace Tokenizer
* HuggingFace에서 Tokenizer는 <a href='https://huggingface.co/transformers/v2.11.0/main_classes/tokenizer.html#transformers.PreTrainedTokenizer.convert_tokens_to_ids'>convert_tokens_to_ids</a> 함수를 통해 나눈 토큰을 id로 변환해줍니다.

* 왜 Bert의 tokenizer를 불러올까?
  * tokenizer는 텍스트를 정수 형태의 리스트로 변환한 것입니다. 이를 불러오므로써 기존에 학습된 어휘 사전을 사용할 수 있으므로, 모델이 이해하는 단어와 토큰을 일치시킬 수 있습니다.
  * 만약, Bert tokenizer를 쓰지 않으면, Bert 모델이 이미 기존에 만들어 놓은 단어사전과 매핑되지 않습니다.
    * 예를 들어, 나는 "사과" 라고 입력을 하였는데, Bert 모델이 이해하는 것은 "고양이" 라고 이해할 수 있습니다.

* <a href='https://huggingface.co/docs/transformers/model_doc/bert#transformers.BertTokenizer'>BertTokenizer</a>도 pretrained weight도 모델과 동일하게 github와 huggingface에서 찾을 수 있습니다.


* [Hugging Face Bert] : https://huggingface.co/docs/transformers/v4.30.0/en/model_doc/bert
* [Bert Tokenizer] : https://huggingface.co/docs/transformers/model_doc/bert#transformers.BertTokenizer

In [14]:
# Pretrain 된 Bert 모델 같은 경우 Bert tokenizer 를 이용한 input data 로 학습이 되었기 때문에
# 그것과 동일하게 tokenizing 해서 넣어주지 않으면 완전 모르는 단어로 인식할 수 있기 때문에 같은 tokenizer 진행해야함.
# BERT의 tokenizer로 문장을 토큰으로 분리
from transformers import BertTokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-cased') # 기존에 학습된 BERT tokenizer 불러오기

tokenizer_config.json:   0%|          | 0.00/49.0 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/213k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/436k [00:00<?, ?B/s]

In [15]:
tokenizer.tokenize(train_sentences[0])[:10] # BERT tokenizer 결과

['[CLS]', 'That', "'", 's', 'what', 'I', 'kept', 'asking', 'myself', 'during']

> Tokenizing을 했지만 아직은 모델이 알아들을 수 있는 숫자형태가 아니다.

In [16]:
train_tokenized_texts = list(map(lambda x: tokenizer.tokenize(x), train_sentences))
val_tokenized_texts = list(map(lambda x: tokenizer.tokenize(x), val_sentences))
test_tokenized_texts = list(map(lambda x: tokenizer.tokenize(x), test_sentences))

In [17]:
# 입력 토큰의 최대 시퀀스 길이
MAX_LEN = 128

# 토큰을 숫자 인덱스로 변환 : 모델이 알아들을 수 있는 id 형태로 변환하는 코드
train_input_ids = list(map(lambda x: tokenizer.convert_tokens_to_ids(x), train_tokenized_texts)) # convert_tokens_to_ids로 정수 형태로 변환해주기
val_input_ids = list(map(lambda x: tokenizer.convert_tokens_to_ids(x), val_tokenized_texts))
test_input_ids = list(map(lambda x: tokenizer.convert_tokens_to_ids(x), test_tokenized_texts))

In [18]:
# input 에 data set 을 넣어줄 때, 들어가는 데이터 샘플마다의 input 길이(Token 개수)가 다 다르다.
# 그렇게 되면 dataloader로 미니배치 단위로 묶어줄수가 없다.
# 이런경우 0 패딩을 해준다.
# 문장을 MAX_LEN 길이에 맞게 자르고, 모자란 부분을 패딩 0으로 채움
def zero_padding(id_list,max_len):
    return np.array([i[:max_len] if len(i) >= max_len else i + [0] * (max_len - len(i)) for i in id_list])

train_input_ids = zero_padding(train_input_ids, MAX_LEN)
val_input_ids = zero_padding(val_input_ids, MAX_LEN)
test_input_ids = zero_padding(test_input_ids, MAX_LEN)

In [19]:
train_input_ids[0]

array([  101,  1337,   112,   188,  1184,   146,  2023,  4107,  1991,
        1219,  1103,  1242,  9718,   117,  7406,  2697,   117,  8222,
        1158,  1105,  1704,  1336, 15391,  1115,  1679,  3263,  2193,
        1103,  5731,  1904,   119,  1109, 21329,  1145,  2484,  1146,
        1165,  1128,  1341,  1104,  1103,  1141,   118,  8611,  2650,
         117,  1150,  1138,  1177,  1376,  5415,  1115,  1122,  1110,
        9024,  4763,  1106,  1920,  1184,  5940,  1106,  1172,   119,
        1220,  1132,  1198,  6118,  1637,   172,  1183, 15940,  1116,
        1111,  1103,  1900,  1106,  7311,  1117,  4321, 19418,  8810,
        1113,   117,   170,  8366,  1115,  1144,  1151,  1694,  1277,
        1618,  1107,  1168, 18282,  1241,  1113,  1794,  1105,  1103,
        7678,   119,   133,  9304,   120,   135,   133,  9304,   120,
         135,   146,  1538, 20989,   117,   146,   112,   182,  1136,
        1541,  1141,  1111,  3205,  1916,  2213,  3853,  1219,   170,
        1273,   117]

### Mask란?
* Mask란?
  * 입력 배열의 토큰 중 어떤 부분이 실제 입력이고, 어떤 부분이 패딩(0으로 채워진 부분)인지를 나타내는 이진 마스크입니다.
  * 패딩이면 0, 아니면 1로 구성됩니다.

* [Transformer 논문] : https://arxiv.org/abs/1706.03762
* [BERT 논문] : https://arxiv.org/abs/1810.04805

In [20]:
# 마스크 만들기
train_masks = train_input_ids > 0 # 패딩이 아닌 부분은 0보다 큰 값이 있으므로 flag를 통해서 마스크를 구성할 수 있습니다.
val_masks = val_input_ids > 0
test_masks = test_input_ids > 0

train_masks[0]

array([ True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True]

- 전체적으로 tokenizing 되고,
- tokenizing 된 것을 index 로 바꿔주고,
- 그걸 또 이용해서 mask를 만들고,
- 여기까지 처리가 된 data 를 가지고 custom dataset을 구현해 보가.

### Dataset 만들기
* train_input 과 label 그리고 mask까지 모두 반환하는 데이터셋 클래스를 만듭니다.
* 모두 tensor 형태로 변환하여 데이터셋 클래스로 구성합니다.


* [TensorDataset]: https://pytorch.org/docs/stable/data.html#torch.utils.data.TensorDataset

In [21]:
# 모두 tensor로 변환
train_inputs = torch.tensor(train_input_ids) # train set의 input token id들
train_labels = torch.tensor(train_label) # train set의 label들
train_masks = torch.tensor(train_masks) # train set의 mask

validation_inputs = torch.tensor(val_input_ids) # valid set의 input token id들
validation_labels = torch.tensor(val_label) # valid set의 label들
validation_masks = torch.tensor(val_masks) # valid set의 mask

test_inputs = torch.tensor(test_input_ids) # test set의 input token id들
test_labels = torch.tensor(test_label) # test set의 label들
test_masks = torch.tensor(test_masks) # test set의 mask

In [22]:
class EmotionData(torch.utils.data.Dataset): # custom 데이터셋 구성
    def __init__(self, inputs, masks, labels):
        self.inputs = inputs
        self.masks = masks
        self.labels = labels

    def __len__(self):
        return len(self.inputs)

    def __getitem__(self,idx):
        inputs_value = self.inputs[idx]
        masks_value = self.masks[idx]
        labels_value = self.labels[idx]
        return inputs_value, masks_value, labels_value

In [23]:
train_dataset = EmotionData(train_inputs, train_masks, train_labels)
valid_dataset = EmotionData(validation_inputs, validation_masks, validation_labels)
test_dataset = EmotionData(test_inputs, test_masks, test_labels)

In [24]:
BATCH_SIZE = 32
train_dataloader = torch.utils.data.DataLoader(train_dataset, batch_size = BATCH_SIZE, shuffle = True, drop_last = False, num_workers = 8)
valid_dataloader = torch.utils.data.DataLoader(valid_dataset, batch_size = BATCH_SIZE, shuffle = False, drop_last = False, num_workers = 8)
test_dataloader = torch.utils.data.DataLoader(test_dataset, batch_size = BATCH_SIZE, shuffle = False, drop_last = False, num_workers = 8)

### BERT 모델 불러오기
* Hugging Face의 transformer 라이브러리에 BertForSequenceClassification 모델을 불러옵니다.

* [BertForSequenceClassification](https://huggingface.co/docs/transformers/v4.30.0/en/model_doc/bert#transformers.BertForSequenceClassification)

In [25]:
model = BertForSequenceClassification.from_pretrained("bert-base-cased").to(device) # pretrained bert 모델 불러오기

Some weights of BertForSequenceClassification were not initialized from the model checkpoint at bert-base-cased and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


### BERT classification model로 fine tuning 하기
*  BERT 모델을 fine tuning 하여 classification을 하는 모델을 구축합니다.
* BertForSequenceClassification 모델은 output으로 loss와 logits 등을 반환하며 loss는 CrossEntropy를 사용한 정답값과 예측값의 차이이고, logits은 해당 클래스일 확률을 의미합니다.
* mask 값을 넣어서 계산할 부분 (padding 처리 안한 부분 != 0) 과 안할 부분 (padding 처리 한 부분 == 0)을 미리 지정해주어서, 모델의 계산 속도를 더욱 빠르게 합니다.

* [BertForSequenceClassification](https://huggingface.co/docs/transformers/v4.30.0/en/model_doc/bert#transformers.BertForSequenceClassification)

In [26]:
# training 코드, evaluation 코드, training_loop 코드
# 아래 "이전과 다른 부분"만 제외하고 다른건 모두 이전과 동일
def training(model, dataloader, train_dataset, optimizer, device, epoch, num_epochs):
    model.train()  # 모델을 학습 모드로 설정
    train_loss = 0.0
    train_accuracy = 0

    tbar = tqdm(dataloader)
    for batch in tbar:
# 이전과 다른 부분 ---------------------
        input_ = batch[0].to(device)
        mask = batch[1].to(device)
        labels = batch[2].to(device)
# --------------------------------------

        # 순전파
        output = model(input_,
                        attention_mask= mask,
                        labels=labels)

        loss = output['loss'] # 얘 확인

        # 역전파 및 가중치 업데이트
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

        # 손실과 정확도 계산
        train_loss += loss.item()
        # torch.max에서 dim 인자에 값을 추가할 경우, 해당 dimension에서 최댓값과 최댓값에 해당하는 인덱스를 반환
        _, predicted = torch.max(output['logits'], 1)
        train_accuracy += (predicted == labels).sum().item()

        # tqdm의 진행바에 표시될 설명 텍스트를 설정
        tbar.set_description(f"Epoch [{epoch+1}/{num_epochs}], Train Loss: {loss.item():.4f}")

    # 에폭별 학습 결과 출력
    train_loss = train_loss / len(dataloader)
    train_accuracy = train_accuracy / len(train_dataset)

    return model, train_loss, train_accuracy

def evaluation(model, dataloader, val_dataset, device, epoch, num_epochs):
    model.eval()  # 모델을 평가 모드로 설정
    valid_accuracy = 0

    with torch.no_grad(): # model의 업데이트 막기
        tbar = tqdm(dataloader)
        for batch in tbar:
            input_ = batch[0].to(device)
            mask = batch[1].to(device)
            labels = batch[2].to(device)
            # 순전파
            output = model(input_,
                            attention_mask= mask,
                            labels=labels)

            # torch.max에서 dim 인자에 값을 추가할 경우, 해당 dimension에서 최댓값과 최댓값에 해당하는 인덱스를 반환
            _, predicted = torch.max(output['logits'], 1)
            valid_accuracy += (predicted == labels).sum().item()

            # tqdm의 진행바에 표시될 설명 텍스트를 설정
            tbar.set_description(f"Epoch [{epoch+1}/{num_epochs}]")

    valid_accuracy = valid_accuracy / len(val_dataset)

    return model, valid_accuracy


def training_loop(model, train_dataloader, valid_dataloader, train_dataset, val_dataset, optimizer, device, num_epochs, model_name):
    best_valid_loss = float('inf')  # 가장 좋은 validation loss를 저장
    valid_max_accuracy = -1

    for epoch in range(num_epochs):
        model, train_loss, train_accuracy = training(model, train_dataloader, train_dataset, optimizer, device, epoch, num_epochs)
        model, valid_accuracy = evaluation(model, valid_dataloader, val_dataset, device, epoch, num_epochs)

        if valid_accuracy > valid_max_accuracy:
            valid_max_accuracy = valid_accuracy
            torch.save(model.state_dict(), f"./model_{model_name}.pt")

        print(f"Epoch [{epoch + 1}/{num_epochs}], Train Loss: {train_loss:.4f}, Train Accuracy: {train_accuracy:.4f}, Valid Accuracy: {valid_accuracy:.4f}")

    return model, valid_max_accuracy

> 모델학습

In [27]:
# 모델 전체 fine tuning
num_epochs = 2
model_name = 'bert1'
lr = 1e-5
optimizer = optim.Adam(model.parameters(), lr=lr)
model, valid_max_accuracy = training_loop(model, train_dataloader, valid_dataloader, train_dataset, valid_dataset, optimizer, device, num_epochs, model_name)
print('Valid max accuracy : ', valid_max_accuracy)

  0%|          | 0/1250 [00:00<?, ?it/s]

  0%|          | 0/157 [00:00<?, ?it/s]

Epoch [1/2], Train Loss: 0.3611, Train Accuracy: 0.8320, Valid Accuracy: 0.8752


  0%|          | 0/1250 [00:00<?, ?it/s]

  0%|          | 0/157 [00:00<?, ?it/s]

Epoch [2/2], Train Loss: 0.2396, Train Accuracy: 0.9014, Valid Accuracy: 0.8890
Valid max accuracy :  0.889


> 모델평가

In [28]:
model.load_state_dict(torch.load("./model_bert1.pt")) # 모델 불러오기
model = model.to(device)
model.eval()
total_labels = []
total_preds = []
total_probs = []
with torch.no_grad():
    for batch in tqdm(test_dataloader):
        input_ = batch[0].to(device)
        mask = batch[1].to(device)
        labels = batch[2].to(device)
        output = model(input_,
                attention_mask= mask,
                labels=labels)


        # torch.max에서 dim 인자에 값을 추가할 경우, 해당 dimension에서 최댓값과 최댓값에 해당하는 인덱스를 반환
        _, predicted = torch.max(output['logits'], 1)

        total_preds.extend(predicted.detach().cpu().tolist())
        total_labels.extend(labels.tolist())
        total_probs.append(output['logits'].detach().cpu().numpy())

total_preds = np.array(total_preds)
total_labels = np.array(total_labels)
total_probs = np.concatenate(total_probs, axis= 0)
acc = accuracy_score(total_labels, total_preds)
print("Full fine tuning model accuracy : ",acc)

  0%|          | 0/157 [00:00<?, ?it/s]

Full fine tuning model accuracy :  0.8802


> fc layer 만 fine tuning 하기

In [29]:
model =  BertForSequenceClassification.from_pretrained("bert-base-cased").to(device)
for para in model.parameters(): # 모든 layer freeze 하기
    para.requires_grad = False
for name, param in model.named_parameters(): # fc layer 만 학습하기
    if name in 'classifier.weight':
        param.requires_grad = True

num_epochs = 2
model_name = 'bert2'

optimizer = optim.Adam(model.parameters(), lr=lr)
model, valid_max_accuracy = training_loop(model, train_dataloader, valid_dataloader, train_dataset, valid_dataset, optimizer, device, num_epochs, model_name)
print('Valid max accuracy : ', valid_max_accuracy)

Some weights of BertForSequenceClassification were not initialized from the model checkpoint at bert-base-cased and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


  0%|          | 0/1250 [00:00<?, ?it/s]

  0%|          | 0/157 [00:00<?, ?it/s]

Epoch [1/2], Train Loss: 0.6921, Train Accuracy: 0.5273, Valid Accuracy: 0.5686


  0%|          | 0/1250 [00:00<?, ?it/s]

  0%|          | 0/157 [00:00<?, ?it/s]

Epoch [2/2], Train Loss: 0.6849, Train Accuracy: 0.5543, Valid Accuracy: 0.5714
Valid max accuracy :  0.5714


In [30]:
model.load_state_dict(torch.load("./model_bert2.pt")) # 모델 불러오기
model = model.to(device)
model.eval()
total_labels = []
total_preds = []
total_probs = []
with torch.no_grad():
    for batch in tqdm(test_dataloader):
        input_ = batch[0].to(device)
        mask = batch[1].to(device)
        labels = batch[2].to(device)
        output = model(input_,
                attention_mask= mask,
                labels=labels)


        # torch.max에서 dim 인자에 값을 추가할 경우, 해당 dimension에서 최댓값과 최댓값에 해당하는 인덱스를 반환
        _, predicted = torch.max(output['logits'], 1)

        total_preds.extend(predicted.detach().cpu().tolist())
        total_labels.extend(labels.tolist())
        total_probs.append(output['logits'].detach().cpu().numpy())

total_preds = np.array(total_preds)
total_labels = np.array(total_labels)
total_probs = np.concatenate(total_probs, axis= 0)
acc = accuracy_score(total_labels, total_preds)
print("Only FC layer tunning model accuracy : ", acc)

  0%|          | 0/157 [00:00<?, ?it/s]

Only FC layer tunning model accuracy :  0.5828


정확도가 낮아짐 : dataset 이 충분한 경우에는, 마지막의 fc layer 만 학습하기 보다는 full weight 를 다 해주는 것이 좋다.

> learning rate 를 기존보다 높게 설정

In [31]:
# learning rate 를 기존보다 높게 설정
model =  BertForSequenceClassification.from_pretrained("bert-base-cased").to(device)
num_epochs = 2
model_name = 'bert3'
lr = 1e-4  # = 0.0004 learning rate 를 기존(1e-5 = 0.00001)보다 높게 설정
optimizer = optim.Adam(model.parameters(), lr=lr)
model, valid_max_accuracy = training_loop(model, train_dataloader, valid_dataloader, train_dataset, valid_dataset, optimizer, device, num_epochs, model_name)
print('Valid max accuracy : ', valid_max_accuracy)

Some weights of BertForSequenceClassification were not initialized from the model checkpoint at bert-base-cased and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


  0%|          | 0/1250 [00:00<?, ?it/s]

  0%|          | 0/157 [00:00<?, ?it/s]

Epoch [1/2], Train Loss: 0.4080, Train Accuracy: 0.8130, Valid Accuracy: 0.8594


  0%|          | 0/1250 [00:00<?, ?it/s]

  0%|          | 0/157 [00:00<?, ?it/s]

Epoch [2/2], Train Loss: 0.2928, Train Accuracy: 0.8800, Valid Accuracy: 0.8510
Valid max accuracy :  0.8594


In [32]:
model.load_state_dict(torch.load("./model_bert3.pt")) # 모델 불러오기
model = model.to(device)
model.eval()
total_labels = []
total_preds = []
total_probs = []
with torch.no_grad():
    for batch in tqdm(test_dataloader):
        input_ = batch[0].to(device)
        mask = batch[1].to(device)
        labels = batch[2].to(device)
        output = model(input_,
                attention_mask= mask,
                labels=labels)


        # torch.max에서 dim 인자에 값을 추가할 경우, 해당 dimension에서 최댓값과 최댓값에 해당하는 인덱스를 반환
        _, predicted = torch.max(output['logits'], 1)

        total_preds.extend(predicted.detach().cpu().tolist())
        total_labels.extend(labels.tolist())
        total_probs.append(output['logits'].detach().cpu().numpy())

total_preds = np.array(total_preds)
total_labels = np.array(total_labels)
total_probs = np.concatenate(total_probs, axis= 0)
acc = accuracy_score(total_labels, total_preds)
print("Larger learning rate accuracy : ", acc)

  0%|          | 0/157 [00:00<?, ?it/s]

Larger learning rate accuracy :  0.861


Full fine tuning model accuracy :  0.8802 보다 낮음