# 랜드마크 성능검증

## 환경 설정 및 데이터 로드
GPU를 쓸수 있는 환경이면 GPU 부터 할당해보도록 하겠습니다.

In [1]:
import torch
print(torch.__version__)

1.11.0


In [2]:
import torch
print(torch.version.cuda)

10.2


In [3]:
import os
import torch
import torch.nn as nn

#os.environ["CUDA_DEVICE_ORDER"]="PCI_BUS_ID"
#os.environ["CUDA_VISIBLE_DEVICES"]= "1"

In [4]:
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

print('Device:', device)
print('Current cuda device:', torch.cuda.current_device())
print('Count of using GPUs:', torch.cuda.device_count())

Device: cuda
Current cuda device: 0
Count of using GPUs: 2


하이퍼 파라미터 값을 지정하겠습니다.    

In [5]:
#하이퍼 파라미터 튜닝

CFG = {
    'IMG_SIZE':128, #이미지 사이즈
    'EPOCHS':50, #에포크
    'LEARNING_RATE':2e-2, #학습률
    'BATCH_SIZE':12, #배치사이즈
    'SEED':41, #시드
}

모델의 재현성을 위하여 random seed를 고정하겠습니다.

In [6]:
# Seed 고정
import random
import numpy as np

def seed_everything(seed):
    random.seed(seed)
    os.environ['PYTHONHASHSEED'] = str(seed)
    np.random.seed(seed)
    torch.manual_seed(seed)
    torch.cuda.manual_seed(seed)
    torch.backends.cudnn.deterministic = True
    torch.backends.cudnn.benchmark = True

seed_everything(CFG['SEED'])

먼저 csv 파일을 불러와서 label이 어떻게 되어있는지 살펴보겠습니다.

In [7]:
import pandas as pd
label_df = pd.read_csv('data/save_data/train.csv')
label_df.head()

Unnamed: 0,file_name,label
0,001.PNG,9
1,002.PNG,4
2,003.PNG,1
3,004.PNG,1
4,005.PNG,6


In [8]:
label_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 723 entries, 0 to 722
Data columns (total 2 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   file_name  723 non-null    object
 1   label      723 non-null    int64 
dtypes: int64(1), object(1)
memory usage: 11.4+ KB


label이 object 타입으로 되어있는 것을 확인할 수 있습니다.   

## 데이터 전처리

그리고 데이터 이미지의 local adress와 label 값을 list에 저장해주도록 하겠습니다.

In [9]:
from glob import glob

def get_train_data(data_dir):
    img_path_list = []
    label_list = []
    
    # get image path
    img_path_list.extend(glob(os.path.join(data_dir, '*.PNG')))
    img_path_list.sort(key=lambda x:int(x.split('/')[-1].split('.')[0]))
        
    # get label
    label_list.extend(label_df['label'])
                
    return img_path_list, label_list

def get_test_data(data_dir):
    img_path_list = []
    
    # get image path
    img_path_list.extend(glob(os.path.join(data_dir, '*.PNG')))
    img_path_list.sort(key=lambda x:int(x.split('/')[-1].split('.')[0]))
    #print(img_path_list)
    
    return img_path_list

In [10]:
all_img_path, all_label = get_train_data('data/save_data/train')
test_img_path = get_test_data('data/save_data/test')

label값 상위 5개를 확인해봅시다.

In [11]:
all_label[:5]

[9, 4, 1, 1, 6]

In [12]:
all_img_path[:5]

['data/save_data/train/001.PNG',
 'data/save_data/train/002.PNG',
 'data/save_data/train/003.PNG',
 'data/save_data/train/004.PNG',
 'data/save_data/train/005.PNG']

## CustomDataset

전체 dataset을 구성하는 단계입니다.  

In [13]:
import torchvision.datasets as datasets # 이미지 데이터셋 집합체
import torchvision.transforms as transforms # 이미지 변환 툴

from torch.utils.data import DataLoader # 학습 및 배치로 모델에 넣어주기 위한 툴
from torch.utils.data import DataLoader, Dataset

import cv2

class CustomDataset(Dataset):
    def __init__(self, img_path_list, label_list, train_mode=True, transforms=None): #필요한 변수들을 선언
        self.transforms = transforms
        self.train_mode = train_mode
        self.img_path_list = img_path_list
        self.label_list = label_list

    def __getitem__(self, index): #index번째 data를 return
        img_path = self.img_path_list[index]
        # Get image data
        image = cv2.imread(img_path)
        if self.transforms is not None:
            image = self.transforms(image)

        if self.train_mode:
            label = self.label_list[index]
            return image, label
        else:
            return image
    
    def __len__(self): #길이 return
        return len(self.img_path_list)

#### Train / Validation Split

그럼 학습시킬 데이터 셋과 검증할 데이터 셋을 분리해주도록 하겠습니다.

In [14]:
# Train : Validation = 0.8 : 0.25 Split
train_len = int(len(all_img_path)*0.75)
Vali_len = int(len(all_img_path)*0.25)

train_img_path = all_img_path[:train_len]
train_label = all_label[:train_len]

vali_img_path = all_img_path[train_len:]
vali_label = all_label[train_len:]

In [15]:
print('train set 길이 : ', train_len)
print('vaildation set 길이 : ', Vali_len)

train set 길이 :  542
vaildation set 길이 :  180


train set은 643개, vaildation set은 214개로 나뉘어진 것을 확인할 수 있습니다.  
그럼 나뉜 데이터 셋에서 이미지를 분석 하기 위해 이미지 변형(transform)을 적용해보도록 하겠습니다.

In [16]:
train_transform = transforms.Compose([
                    transforms.ToPILImage(), #Numpy배열에서 PIL이미지로
                    transforms.Resize([CFG['IMG_SIZE'], CFG['IMG_SIZE']]), #이미지 사이즈 변형
                    transforms.ToTensor(), #이미지 데이터를 tensor
                    transforms.Normalize(mean=(0.5, 0.5, 0.5), std=(0.5, 0.5, 0.5)) #이미지 정규화
                    
                    ])

test_transform = transforms.Compose([
                    transforms.ToPILImage(),
                    transforms.Resize([CFG['IMG_SIZE'], CFG['IMG_SIZE']]),
                    transforms.ToTensor(),
                    transforms.Normalize(mean=(0.5, 0.5, 0.5), std=(0.5, 0.5, 0.5))
                    ])

## Dataloader
Dataloader class는 batch기반의 딥러닝모델 학습을 위해서 mini batch를 만들어주는 역할을 합니다. 

dataloader를 통해 dataset의 전체 데이터가 batch size로 나뉘게 됩니다. 

만들었던 dataset을 input으로 넣어주면 여러 옵션(데이터 묶기, 섞기, 알아서 병렬처리)을 통해 batch를 만들어 내는 것입니다.

In [17]:
# Get Dataloader

#CustomDataset class를 통하여 train dataset생성
train_dataset = CustomDataset(train_img_path, train_label, train_mode=True, transforms=train_transform) 
#만든 train dataset를 DataLoader에 넣어 batch 만들기
train_loader = DataLoader(train_dataset, batch_size = CFG['BATCH_SIZE'], shuffle=True, num_workers=0) #BATCH_SIZE : 24

#vaildation 에서도 적용
vali_dataset = CustomDataset(vali_img_path, vali_label, train_mode=True, transforms=test_transform)
vali_loader = DataLoader(vali_dataset, batch_size = CFG['BATCH_SIZE'], shuffle=False, num_workers=0)

In [18]:
train_batches = len(train_loader)
vali_batches = len(vali_loader)

print('total train imgs :',train_len,'/ total train batches :', train_batches)
print('total valid imgs :',Vali_len, '/ total valid batches :', vali_batches)

total train imgs : 542 / total train batches : 46
total valid imgs : 180 / total valid batches : 16


배치 사이즈가 24이므로    
train은 54 묶음 vaildation은 18 묶음으로 묶인 것을 볼 수 있습니다.

## 모델 불러오기

전이학습을 위한 모델을 load 해줍니다.

Pytorch 의 models 메소드를 사용하면 손쉽게 외부의 모델을 불러올 수 있습니다.

이번 베이스라인에서는 efficientnet_b3 모델을 사용해 볼 것입니다.

사전 학습 모델을 사용하는 것은 부정행위에 해당하니, pretrained 파라미터를 False 로 설정해야 합니다!

pretrained 파라미터를 True 로 설정한다면, ImageNet 이라는 데이터셋을 대상으로 학습된 모델이 load 됩니다.

반면, pretrained 파라미터를 False 로 설정한다면, 모델의 구조만 load 되고 모델의 가중치 들은 load 되지 않습니다.

In [19]:
from torchvision import models
from torchvision.models import efficientnet_b3 as efficientnet

model = models.efficientnet_b3(pretrained=False)

In [20]:
model.classifier

Sequential(
  (0): Dropout(p=0.3, inplace=True)
  (1): Linear(in_features=1536, out_features=1000, bias=True)
)

모델에 데이터를 학습하기 위해서는 모델의 마지막 layer 의 output size 와 분류할 라벨의 수를 입력해주어야 합니다.

In [21]:
import torch.nn as nn
from torch.nn import functional as F
from torch.nn import CrossEntropyLoss
import torch.optim as optim

model.fc = nn.Linear(1000, 11)
model = model.to(device)

모델의 파라미터들을 설정해줍니다.

## 모델 학습

이제 모델 학습을 하기 위해 매개변수를 정의해보도록 하겠습니다.

In [22]:
import torch.optim as optim # 최적화 알고리즘들이 포함힘

criterion = torch.nn.CrossEntropyLoss()
optimizer = torch.optim.Adam(params=model.parameters(), lr= CFG["LEARNING_RATE"] )#0.001
scheduler = None

train 메소드를 통하여 train을 학습 시켜 vaildation으로 평가하는 메소드를 작성해보겠습니다.

In [23]:
from tqdm import tqdm

def train(model, optimizer, train_loader, scheduler, device): 
    model.to(device)
    n = len(train_loader)
    
    #Loss Function 정의
    #criterion = nn.CrossEntropyLoss().to(device)
    best_acc = 0
    
    for epoch in range(1,CFG["EPOCHS"]+1): #에포크 설정
        model.train() #모델 학습
        running_loss = 0.0
            
        for img, label in tqdm(iter(train_loader)):
            img, label = img.to(device), label.to(device) #배치 데이터
            optimizer.zero_grad() #배치마다 optimizer 초기화
        
            # Data -> Model -> Output
            logit = model(img) #예측값 산출
            loss = criterion(logit, label) #손실함수 계산
            
            # 역전파
            loss.backward() #손실함수 기준 역전파 
            optimizer.step() #가중치 최적화
            running_loss += loss.item()
              
        print('[%d] Train loss: %.10f' %(epoch, running_loss / len(train_loader)))
        
        if scheduler is not None:
            scheduler.step()
            
        #Validation set 평가
        model.eval() #evaluation 과정에서 사용하지 않아야 하는 layer들을 알아서 off 시키도록 하는 함수
        vali_loss = 0.0
        correct = 0
        with torch.no_grad(): #파라미터 업데이트 안하기 때문에 no_grad 사용
            for img, label in tqdm(iter(vali_loader)):
                img, label = img.to(device), label.to(device)

                logit = model(img)
                vali_loss += criterion(logit, label)
                pred = logit.argmax(dim=1, keepdim=True)  #11개의 class중 가장 값이 높은 것을 예측 label로 추출
                correct += pred.eq(label.view_as(pred)).sum().item() #예측값과 실제값이 맞으면 1 아니면 0으로 합산
        vali_acc = 100 * correct / len(vali_loader.dataset)
        print('Vail set: Loss: {:.4f}, Accuracy: {}/{} ( {:.0f}%)\n'.format(vali_loss / len(vali_loader), correct, len(vali_loader.dataset), 100 * correct / len(vali_loader.dataset)))
        
        #베스트 모델 저장
        if best_acc < vali_acc:
            best_acc = vali_acc
            torch.save(model.state_dict(), 'data/save_data/saved/best_model.pth') #이 디렉토리에 best_model.pth을 저장
            print('Model Saved.')

classification 문제이기 때문에 평가지표로는 Accuarcy를 사용하여 모델의 정확도를 산출하였습니다.

In [24]:
train(model, optimizer, train_loader, scheduler, device)

100%|██████████| 46/46 [00:16<00:00,  2.83it/s]


[1] Train loss: 3.7433279131


100%|██████████| 16/16 [00:04<00:00,  3.30it/s]


Vail set: Loss: 346.3350, Accuracy: 19/181 ( 10%)

Model Saved.


100%|██████████| 46/46 [00:19<00:00,  2.39it/s]


[2] Train loss: 2.6058567892


100%|██████████| 16/16 [00:03<00:00,  4.28it/s]


Vail set: Loss: 18.5562, Accuracy: 27/181 ( 15%)

Model Saved.


100%|██████████| 46/46 [00:17<00:00,  2.63it/s]


[3] Train loss: 2.7801272480


100%|██████████| 16/16 [00:04<00:00,  3.57it/s]


Vail set: Loss: 3.2905, Accuracy: 23/181 ( 13%)



100%|██████████| 46/46 [00:15<00:00,  2.94it/s]


[4] Train loss: 2.7715959497


100%|██████████| 16/16 [00:03<00:00,  4.29it/s]


Vail set: Loss: 2.4421, Accuracy: 12/181 ( 7%)



100%|██████████| 46/46 [00:16<00:00,  2.74it/s]


[5] Train loss: 2.8825679862


100%|██████████| 16/16 [00:03<00:00,  4.31it/s]


Vail set: Loss: 24.0341, Accuracy: 21/181 ( 12%)



100%|██████████| 46/46 [00:20<00:00,  2.26it/s]


[6] Train loss: 2.6654147817


100%|██████████| 16/16 [00:04<00:00,  3.84it/s]


Vail set: Loss: 2.5845, Accuracy: 17/181 ( 9%)



100%|██████████| 46/46 [00:14<00:00,  3.17it/s]


[7] Train loss: 2.5276479877


100%|██████████| 16/16 [00:05<00:00,  2.92it/s]


Vail set: Loss: 2.4431, Accuracy: 26/181 ( 14%)



100%|██████████| 46/46 [00:14<00:00,  3.24it/s]


[8] Train loss: 2.4672672360


100%|██████████| 16/16 [00:03<00:00,  4.33it/s]


Vail set: Loss: 2.3293, Accuracy: 26/181 ( 14%)



100%|██████████| 46/46 [00:14<00:00,  3.24it/s]


[9] Train loss: 2.2890026673


100%|██████████| 16/16 [00:03<00:00,  4.32it/s]


Vail set: Loss: 2.3023, Accuracy: 42/181 ( 23%)

Model Saved.


100%|██████████| 46/46 [00:16<00:00,  2.83it/s]


[10] Train loss: 2.1452273208


100%|██████████| 16/16 [00:04<00:00,  3.82it/s]


Vail set: Loss: 1.8682, Accuracy: 48/181 ( 27%)

Model Saved.


100%|██████████| 46/46 [00:19<00:00,  2.39it/s]


[11] Train loss: 2.1410812787


100%|██████████| 16/16 [00:05<00:00,  2.97it/s]


Vail set: Loss: 1.9468, Accuracy: 47/181 ( 26%)



100%|██████████| 46/46 [00:16<00:00,  2.79it/s]


[12] Train loss: 2.0121575231


100%|██████████| 16/16 [00:03<00:00,  4.32it/s]


Vail set: Loss: 1.8593, Accuracy: 51/181 ( 28%)

Model Saved.


100%|██████████| 46/46 [00:15<00:00,  3.05it/s]


[13] Train loss: 1.9476808932


100%|██████████| 16/16 [00:03<00:00,  4.28it/s]


Vail set: Loss: 2.1607, Accuracy: 37/181 ( 20%)



100%|██████████| 46/46 [00:17<00:00,  2.63it/s]


[14] Train loss: 1.9163500550


100%|██████████| 16/16 [00:04<00:00,  3.83it/s]


Vail set: Loss: 1.6632, Accuracy: 75/181 ( 41%)

Model Saved.


100%|██████████| 46/46 [00:16<00:00,  2.82it/s]


[15] Train loss: 1.7977992348


100%|██████████| 16/16 [00:04<00:00,  3.64it/s]


Vail set: Loss: 1.6931, Accuracy: 56/181 ( 31%)



100%|██████████| 46/46 [00:17<00:00,  2.59it/s]


[16] Train loss: 1.9090681206


100%|██████████| 16/16 [00:03<00:00,  4.31it/s]


Vail set: Loss: 1.6687, Accuracy: 68/181 ( 38%)



100%|██████████| 46/46 [00:13<00:00,  3.32it/s]


[17] Train loss: 1.8264758431


100%|██████████| 16/16 [00:03<00:00,  4.35it/s]


Vail set: Loss: 1.8617, Accuracy: 58/181 ( 32%)



100%|██████████| 46/46 [00:14<00:00,  3.23it/s]


[18] Train loss: 1.7069102655


100%|██████████| 16/16 [00:03<00:00,  4.34it/s]


Vail set: Loss: 2.6530, Accuracy: 37/181 ( 20%)



100%|██████████| 46/46 [00:13<00:00,  3.31it/s]


[19] Train loss: 1.7977583175


100%|██████████| 16/16 [00:03<00:00,  4.29it/s]


Vail set: Loss: 1.3522, Accuracy: 89/181 ( 49%)

Model Saved.


100%|██████████| 46/46 [00:14<00:00,  3.14it/s]


[20] Train loss: 1.6111159338


100%|██████████| 16/16 [00:04<00:00,  3.39it/s]


Vail set: Loss: 1.7147, Accuracy: 62/181 ( 34%)



100%|██████████| 46/46 [00:18<00:00,  2.51it/s]


[21] Train loss: 1.6392115069


100%|██████████| 16/16 [00:07<00:00,  2.07it/s]


Vail set: Loss: 1.4132, Accuracy: 84/181 ( 46%)



100%|██████████| 46/46 [00:18<00:00,  2.46it/s]


[22] Train loss: 1.6994457608


100%|██████████| 16/16 [00:03<00:00,  4.30it/s]


Vail set: Loss: 1.3577, Accuracy: 94/181 ( 52%)

Model Saved.


100%|██████████| 46/46 [00:15<00:00,  2.89it/s]


[23] Train loss: 1.3290236897


100%|██████████| 16/16 [00:05<00:00,  2.94it/s]


Vail set: Loss: 1.2767, Accuracy: 101/181 ( 56%)

Model Saved.


100%|██████████| 46/46 [00:18<00:00,  2.45it/s]


[24] Train loss: 1.2393714818


100%|██████████| 16/16 [00:04<00:00,  3.39it/s]


Vail set: Loss: 0.9699, Accuracy: 116/181 ( 64%)

Model Saved.


100%|██████████| 46/46 [00:17<00:00,  2.66it/s]


[25] Train loss: 1.2339975555


100%|██████████| 16/16 [00:03<00:00,  4.25it/s]


Vail set: Loss: 1.3041, Accuracy: 105/181 ( 58%)



100%|██████████| 46/46 [00:19<00:00,  2.36it/s]


[26] Train loss: 1.2402903885


100%|██████████| 16/16 [00:03<00:00,  4.00it/s]


Vail set: Loss: 1.1448, Accuracy: 106/181 ( 59%)



100%|██████████| 46/46 [00:17<00:00,  2.57it/s]


[27] Train loss: 1.0548399279


100%|██████████| 16/16 [00:05<00:00,  2.89it/s]


Vail set: Loss: 0.7399, Accuracy: 129/181 ( 71%)

Model Saved.


100%|██████████| 46/46 [00:14<00:00,  3.15it/s]


[28] Train loss: 1.0133756807


100%|██████████| 16/16 [00:04<00:00,  3.68it/s]


Vail set: Loss: 0.9936, Accuracy: 110/181 ( 61%)



100%|██████████| 46/46 [00:14<00:00,  3.26it/s]


[29] Train loss: 0.9412986060


100%|██████████| 16/16 [00:03<00:00,  4.29it/s]


Vail set: Loss: 0.9393, Accuracy: 112/181 ( 62%)



100%|██████████| 46/46 [00:16<00:00,  2.81it/s]


[30] Train loss: 1.0697973315


100%|██████████| 16/16 [00:03<00:00,  4.16it/s]


Vail set: Loss: 0.7757, Accuracy: 127/181 ( 70%)



100%|██████████| 46/46 [00:15<00:00,  3.01it/s]


[31] Train loss: 0.8979200727


100%|██████████| 16/16 [00:06<00:00,  2.51it/s]


Vail set: Loss: 0.8615, Accuracy: 125/181 ( 69%)



100%|██████████| 46/46 [00:15<00:00,  3.01it/s]


[32] Train loss: 0.8434320824


100%|██████████| 16/16 [00:05<00:00,  2.68it/s]


Vail set: Loss: 0.8743, Accuracy: 134/181 ( 74%)

Model Saved.


100%|██████████| 46/46 [00:16<00:00,  2.80it/s]


[33] Train loss: 0.7440938017


100%|██████████| 16/16 [00:03<00:00,  4.32it/s]


Vail set: Loss: 0.8870, Accuracy: 128/181 ( 71%)



100%|██████████| 46/46 [00:14<00:00,  3.19it/s]


[34] Train loss: 0.8767034075


100%|██████████| 16/16 [00:03<00:00,  4.29it/s]


Vail set: Loss: 0.8197, Accuracy: 134/181 ( 74%)



100%|██████████| 46/46 [00:14<00:00,  3.14it/s]


[35] Train loss: 0.8675560601


100%|██████████| 16/16 [00:03<00:00,  4.29it/s]


Vail set: Loss: 1.2760, Accuracy: 121/181 ( 67%)



100%|██████████| 46/46 [00:14<00:00,  3.09it/s]


[36] Train loss: 0.7790923498


100%|██████████| 16/16 [00:04<00:00,  3.54it/s]


Vail set: Loss: 1.0910, Accuracy: 132/181 ( 73%)



100%|██████████| 46/46 [00:17<00:00,  2.67it/s]


[37] Train loss: 0.7516006139


100%|██████████| 16/16 [00:03<00:00,  4.33it/s]


Vail set: Loss: 1.3700, Accuracy: 106/181 ( 59%)



100%|██████████| 46/46 [00:13<00:00,  3.30it/s]


[38] Train loss: 0.8164696606


100%|██████████| 16/16 [00:03<00:00,  4.29it/s]


Vail set: Loss: 0.7270, Accuracy: 141/181 ( 78%)

Model Saved.


100%|██████████| 46/46 [00:15<00:00,  2.98it/s]


[39] Train loss: 0.7251009125


100%|██████████| 16/16 [00:03<00:00,  4.31it/s]


Vail set: Loss: 0.8244, Accuracy: 132/181 ( 73%)



100%|██████████| 46/46 [00:15<00:00,  2.99it/s]


[40] Train loss: 0.4725049235


100%|██████████| 16/16 [00:06<00:00,  2.50it/s]


Vail set: Loss: 0.6629, Accuracy: 153/181 ( 85%)

Model Saved.


100%|██████████| 46/46 [00:16<00:00,  2.85it/s]


[41] Train loss: 0.5707511797


100%|██████████| 16/16 [00:03<00:00,  4.22it/s]


Vail set: Loss: 0.7449, Accuracy: 139/181 ( 77%)



100%|██████████| 46/46 [00:14<00:00,  3.15it/s]


[42] Train loss: 0.7489192612


100%|██████████| 16/16 [00:04<00:00,  3.68it/s]


Vail set: Loss: 1.0692, Accuracy: 119/181 ( 66%)



100%|██████████| 46/46 [00:17<00:00,  2.68it/s]


[43] Train loss: 0.6993721325


100%|██████████| 16/16 [00:05<00:00,  2.95it/s]


Vail set: Loss: 0.6669, Accuracy: 145/181 ( 80%)



100%|██████████| 46/46 [00:15<00:00,  3.06it/s]


[44] Train loss: 0.4564153341


100%|██████████| 16/16 [00:03<00:00,  4.30it/s]


Vail set: Loss: 0.6747, Accuracy: 156/181 ( 86%)

Model Saved.


100%|██████████| 46/46 [00:15<00:00,  2.99it/s]


[45] Train loss: 0.4553162944


100%|██████████| 16/16 [00:04<00:00,  3.88it/s]


Vail set: Loss: 0.5978, Accuracy: 149/181 ( 82%)



100%|██████████| 46/46 [00:14<00:00,  3.14it/s]


[46] Train loss: 0.6347866386


100%|██████████| 16/16 [00:03<00:00,  4.18it/s]


Vail set: Loss: 0.5163, Accuracy: 156/181 ( 86%)



100%|██████████| 46/46 [00:14<00:00,  3.13it/s]


[47] Train loss: 0.5839499685


100%|██████████| 16/16 [00:03<00:00,  4.29it/s]


Vail set: Loss: 0.7092, Accuracy: 152/181 ( 84%)



100%|██████████| 46/46 [00:17<00:00,  2.56it/s]


[48] Train loss: 0.5138509467


100%|██████████| 16/16 [00:03<00:00,  4.29it/s]


Vail set: Loss: 0.8054, Accuracy: 139/181 ( 77%)



100%|██████████| 46/46 [00:16<00:00,  2.75it/s]


[49] Train loss: 0.6999588384


100%|██████████| 16/16 [00:03<00:00,  4.23it/s]


Vail set: Loss: 0.7119, Accuracy: 154/181 ( 85%)



100%|██████████| 46/46 [00:16<00:00,  2.87it/s]


[50] Train loss: 0.7659262072


100%|██████████| 16/16 [00:03<00:00,  4.21it/s]

Vail set: Loss: 0.7864, Accuracy: 127/181 ( 70%)






에포크가 46일때 Vaildation Accuracy가 75%로 best_model에 선정되어 저장되었습니다.

## 추론하기

이제 학습된 best_model을 가지고 test 셋의 라벨을 추론해보도록 하겠습니다.

In [34]:
def predict(model, test_loader, device):
    model.eval()
    model_pred = []
    with torch.no_grad():
        for img in tqdm(iter(test_loader)):
            img = img.to(device)

            pred_logit = model(img)
            pred_logit = pred_logit.argmax(dim=1, keepdim=True).squeeze(1)

            model_pred.extend(pred_logit.tolist())
    return model_pred

In [38]:
test_dataset = CustomDataset(test_img_path, None, train_mode=False, transforms=test_transform)
test_loader = DataLoader(test_dataset, batch_size = CFG['BATCH_SIZE'], shuffle=False, num_workers=0)

# Validation Accuracy가 가장 뛰어난 모델을 불러옵니다.
checkpoint = torch.load('./saved/best_model.pth')
model = models.efficientnet_b3(pretrained=False)
model.fc = nn.Linear(1000, 11)
model = model.to(device)
model.load_state_dict(checkpoint)

# Inference
preds = predict(model, test_loader, device)
preds[0:5]

  0%|          | 0/18 [00:00<?, ?it/s]

[1, 10, 1, 6, 9]

값이 배열안에 정상적으로 잘 들어간 것을 확인할 수 있습니다.

## 제출하기

submission에 예측한 값 preds를 넣어줍시다

In [None]:
pwd

In [39]:
submission = pd.read_csv('data/sample_submission.csv')
submission['label'] = preds

이제 제출을 위해 라벨을 다시 복원 시켜 줍니다.

앞서 10-1을 10으로, 10-2를 0으로 바꿔주었던 값을 다시 원래의 값으로 바꿔주겠습니다.

또한 label 열의 타입을 int에서 object로 수정해 주겠습니다.

In [40]:
#submission['label'] = submission['label'].apply(lambda x : str(x)) ## Dtype : int -> object

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  submission['label'][submission['label'] == 10] = '10-1' ## label : 10 -> '10-1'


In [41]:
submission.head()

Unnamed: 0,file_name,label
0,001.png,1
1,002.png,10-1
2,003.png,1
3,004.png,6
4,005.png,9


submission을 submit2란 이름으로 csv 파일로 저장합니다.   

index=False란 추가적인 id를 부여할 필요가 없다는 뜻입니다.   

정확한 채점을 위해 꼭 index=False를 넣어주세요.

In [42]:
submission.to_csv('submit2.csv', index=False)

이렇게 생성된 submit2.csv 파일을 데이콘 대회 페이지에 업로드 & 제출하여 결과를 확인해보세요!

문제를 해결하기 위한 여러분의 방법을 코드 공유 게시판에 공유해주세요

좋아요와 댓글을 합산하여 가장 높은 점수를 얻으신 분께 데이콘 후드가 제공됩니다!