In [1]:
import glob
import cv2
import matplotlib.pyplot as plt

import torch
import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as F
from torch.utils.data import Dataset
from torch.utils.data import DataLoader
from torch.utils.data import Subset
from torch.utils.tensorboard import SummaryWriter

import torchvision.models as models

from torchsummary import summary

import albumentations as A
from albumentations.pytorch import ToTensorV2

import numpy as np
import xml.etree.ElementTree as ET

from copy import deepcopy

from sklearn.model_selection import train_test_split
from tqdm import tqdm

In [2]:
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
device

device(type='cuda')

In [3]:
root_dir = 'datasets/dogs/'
img_dir = '/images/Images/'
annot_dir = '/annotations/Annotation/'

In [4]:
import os

labels_map = {}
for i, item in enumerate(os.listdir(root_dir + img_dir)):
    sub_folder = os.path.join(root_dir + img_dir, item)
    labels_map[sub_folder.split('-', maxsplit=1)[1]] = i

In [5]:
def img_crop(annot_path, img):
    tree = ET.parse(annot_path)
    obj = tree.find('./object')
    bndbox = obj.find('bndbox')

    # 강아지 종류
    species = obj.find('name').text

    # 이미지에서의 강아지 위치
    xmin = int(bndbox.find('xmin').text)
    ymin = int(bndbox.find('ymin').text)
    xmax = int(bndbox.find('xmax').text)
    ymax = int(bndbox.find('ymax').text)

    cropped_img = img[ymin:ymax, xmin:xmax]
    
    label = labels_map.get(species)

    return label, cropped_img

In [20]:
class DogsDataset(Dataset):
    def __init__(self, annot_dir, img_dir, transform=None):
        annot_dir = glob.glob(root_dir + annot_dir + '*/*')
        img_dir = glob.glob(root_dir + img_dir + '*/*.jpg')
        self.annot_dir = sorted(annot_dir)
        self.img_dir = sorted(img_dir)
        
        self.transform = transform
        
    def __len__(self):
        return len(self.img_dir)
        
    def __getitem__(self, idx):
        annot_path = self.annot_dir[idx]
        img_path = self.img_dir[idx]
        
        img = cv2.imread(img_path)
        img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
        
        label, img = img_crop(annot_path, img)
        if self.transform is not None:
            img = self.transform(image=img)
            img['label'] = label
            return img

        sample = {'image': img, 'label': label}
        return sample
    
    def getlabel(self, idx):
        annot_path = self.annot_dir[idx]
        tree = ET.parse(annot_path)
        obj = tree.find('./object')
        species = obj.find('name').text
        label = labels_map.get(species)
        return label

In [21]:
transformer = A.Compose([
    A.Resize(224, 224), 
    A.Normalize(), 
    ToTensorV2()
])

In [22]:
total_dataset = DogsDataset(annot_dir=annot_dir,
                           img_dir=img_dir,
                           transform=transformer)

In [32]:
%timeit t = [total_dataset.getlabel(i) for i in tqdm(range(len(total_dataset)))]

100%|██████████████████████████████████████████████████████████████████████████| 20580/20580 [00:02<00:00, 8359.07it/s]
100%|██████████████████████████████████████████████████████████████████████████| 20580/20580 [00:02<00:00, 8928.42it/s]
100%|██████████████████████████████████████████████████████████████████████████| 20580/20580 [00:02<00:00, 8951.73it/s]
100%|██████████████████████████████████████████████████████████████████████████| 20580/20580 [00:02<00:00, 8382.89it/s]
100%|██████████████████████████████████████████████████████████████████████████| 20580/20580 [00:02<00:00, 8365.85it/s]
100%|██████████████████████████████████████████████████████████████████████████| 20580/20580 [00:02<00:00, 8278.36it/s]
100%|██████████████████████████████████████████████████████████████████████████| 20580/20580 [00:02<00:00, 8315.15it/s]
100%|██████████████████████████████████████████████████████████████████████████| 20580/20580 [00:02<00:00, 8328.61it/s]

2.42 s ± 76.1 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)





In [29]:
%timeit total_label = [data['label'] for data in tqdm(total_dataset)]

100%|███████████████████████████████████████████████████████████████████████████| 20580/20580 [01:29<00:00, 229.16it/s]
100%|███████████████████████████████████████████████████████████████████████████| 20580/20580 [01:04<00:00, 321.13it/s]
100%|███████████████████████████████████████████████████████████████████████████| 20580/20580 [01:04<00:00, 320.30it/s]
100%|███████████████████████████████████████████████████████████████████████████| 20580/20580 [01:03<00:00, 322.02it/s]
100%|███████████████████████████████████████████████████████████████████████████| 20580/20580 [01:00<00:00, 342.87it/s]
100%|███████████████████████████████████████████████████████████████████████████| 20580/20580 [00:51<00:00, 400.55it/s]
100%|███████████████████████████████████████████████████████████████████████████| 20580/20580 [00:51<00:00, 396.96it/s]
100%|███████████████████████████████████████████████████████████████████████████| 20580/20580 [00:51<00:00, 400.45it/s]

58.1 s ± 5.86 s per loop (mean ± std. dev. of 7 runs, 1 loop each)





In [13]:
trainset_idx, testset_idx = train_test_split(range(len(total_dataset)),
                test_size=0.2, random_state=42, shuffle=True, stratify=total_label)

In [14]:
train_set_ = Subset(total_dataset, trainset_idx)

In [15]:
%time train_label = [data['label'] for data in tqdm(train_set_)]

trainset_idx, validset_idx = train_test_split(range(len(trainset_idx)),
                test_size=0.2, random_state=42, shuffle=True, stratify=train_label)

100%|███████████████████████████████████████████████████████████████████████████| 16464/16464 [00:40<00:00, 405.12it/s]

CPU times: total: 46.2 s
Wall time: 40.6 s





In [16]:
train_set = Subset(train_set_, trainset_idx)
test_set = Subset(total_dataset, testset_idx)
valid_set = Subset(train_set_, validset_idx)