In [1]:
import random
import pandas as pd
import numpy as np
import os
import re
import glob
import cv2

import torch
import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as F
from torch.utils.data import Dataset, DataLoader, WeightedRandomSampler

import albumentations as A
from albumentations.pytorch.transforms import ToTensorV2
import torchvision.models as models

from sklearn.model_selection import train_test_split
from sklearn import preprocessing
from sklearn.metrics import f1_score
from sklearn.metrics import classification_report
from tqdm.auto import tqdm

import warnings
warnings.filterwarnings(action='ignore')

device = torch.device('cuda') if torch.cuda.is_available() else torch.device('cpu')

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
print("[*] preprocessing")

CFG = {
    'IMG_SIZE':224,
    'EPOCHS':25,
    'LEARNING_RATE':3e-4,
    'BATCH_SIZE':32,
    'SEED':41
}

def seed_everything(seed):
    random.seed(seed)
    os.environ['PYTHONHASHSEED'] = str(seed)
    np.random.seed(seed)
    torch.manual_seed(seed)
    torch.cuda.manual_seed(seed)
    torch.backends.cudnn.deterministic = True
    torch.backends.cudnn.benchmark = True

seed_everything(CFG['SEED']) # Seed 고정

all_img_list = glob.glob('./train/*/*')

df = pd.DataFrame(columns=['img_path', 'label'])
df['img_path'] = all_img_list
# print(df['img_path'])
# print(str(df['img_path'][0]).split('\\'))
df['label'] = df['img_path'].apply(lambda x : str(x).split('\\')[1])


train, val, _, _ = train_test_split(df, df['label'], test_size=0.3, stratify=df['label'], random_state=CFG['SEED'])

le = preprocessing.LabelEncoder()
train['label'] = le.fit_transform(train['label'])
val['label'] = le.transform(val['label'])



[*] preprocessing


In [3]:
print("[*] datasets ready")


class CustomDataset(Dataset):
    def __init__(self, img_path_list, label_list, transforms=None):
        self.img_path_list = img_path_list
        self.label_list = label_list
        self.transforms = transforms

    def __getitem__(self, index):
        img_path = self.img_path_list[index]

        img_ar = np.fromfile(img_path, np.uint8)
        image = cv2.imdecode(img_ar, cv2.IMREAD_UNCHANGED)

#         image = cv2.imread(img_path)

        if self.transforms is not None:
            image = self.transforms(image=image)['image']

        if self.label_list is not None:
            label = self.label_list[index]
            return image, label
        else:
            return image

    def __len__(self):
        return len(self.img_path_list)

train_transform = A.Compose([
                            A.Resize(CFG['IMG_SIZE'],CFG['IMG_SIZE']),
                            A.Normalize(mean=(0.485, 0.456, 0.406), std=(0.229, 0.224, 0.225), 
                                        max_pixel_value=255.0, always_apply=False, p=1.0),
                            ToTensorV2()
                            ])

test_transform = A.Compose([
                            A.Resize(CFG['IMG_SIZE'],CFG['IMG_SIZE']),
                            A.Normalize(mean=(0.485, 0.456, 0.406), std=(0.229, 0.224, 0.225), 
                                        max_pixel_value=255.0, always_apply=False, p=1.0),
                            ToTensorV2()
                            ])

train_dataset = CustomDataset(train['img_path'].values, train['label'].values, train_transform)
train_loader = DataLoader(train_dataset, batch_size = CFG['BATCH_SIZE'], shuffle=False, num_workers=0)

val_dataset = CustomDataset(val['img_path'].values, val['label'].values, test_transform)
val_loader = DataLoader(val_dataset, batch_size=CFG['BATCH_SIZE'], shuffle=False, num_workers=0)

[*] datasets ready


In [4]:
print("[*] Model Define")


class BaseModel(nn.Module):
    def __init__(self, num_classes=len(le.classes_)):
        super(BaseModel, self).__init__()
        self.backbone = models.efficientnet_b5(pretrained=True)
        self.classifier = nn.Linear(1000, num_classes)

    def forward(self, x):
        x = self.backbone(x)
        x = self.classifier(x)
        return x

[*] Model Define


In [5]:
print("[*] Train")

def train(model, optimizer, train_loader, val_loader, scheduler, device):
    model.to(device)
    criterion = nn.CrossEntropyLoss().to(device)

    best_score = 0
    best_model = None

    for epoch in range(1, CFG['EPOCHS'] + 1):
        model.train()
        train_loss = []
        for imgs, labels in tqdm(iter(train_loader)):
            imgs = imgs.float().to(device)
            labels = labels.type(torch.LongTensor).to(device)      # ADDED .type(torch.LongTensor)

            optimizer.zero_grad()

            output = model(imgs)
            loss = criterion(output, labels)

            loss.backward()
            optimizer.step()

            train_loss.append(loss.item())

        _val_loss, _val_score = validation(model, criterion, val_loader, device)
        _train_loss = np.mean(train_loss)
        print(
            f'Epoch [{epoch}], Train Loss : [{_train_loss:.5f}] Val Loss : [{_val_loss:.5f}] Val Weighted F1 Score : [{_val_score:.5f}]')

        if scheduler is not None:
            scheduler.step(_val_score)

        if best_score < _val_score:
            best_score = _val_score
            best_model = model

    return best_model, best_score


def validation(model, criterion, val_loader, device):
    model.eval()
    val_loss = []
    preds, true_labels = [], []

    with torch.no_grad():
        for imgs, labels in tqdm(iter(val_loader)):
            imgs = imgs.float().to(device)
            labels = labels.type(torch.LongTensor).to(device)      # ADDED .type(torch.LongTensor)

            pred = model(imgs)

            loss = criterion(pred, labels)

            preds += pred.argmax(1).detach().cpu().numpy().tolist()
            true_labels += labels.detach().cpu().numpy().tolist()

            val_loss.append(loss.item())

        _val_loss = np.mean(val_loss)
        _val_score = f1_score(true_labels, preds, average='weighted')

    return _val_loss, _val_score



[*] Train


In [6]:
model = BaseModel()
model.eval()
optimizer = torch.optim.Adam(params = model.parameters(), lr = CFG["LEARNING_RATE"])
scheduler = torch.optim.lr_scheduler.ReduceLROnPlateau(optimizer, mode='max', factor=0.5,
                                                       patience=2, threshold_mode='abs', min_lr=1e-8, verbose=True)

infer_model, f1_score = train(model, optimizer, train_loader, val_loader, scheduler, device)

Downloading: "https://download.pytorch.org/models/efficientnet_v2_m-dc08266a.pth" to C:\Users\user/.cache\torch\hub\checkpoints\efficientnet_v2_m-dc08266a.pth
100%|███████████████████████████████████████████████████████████████████████████████| 208M/208M [00:46<00:00, 4.70MB/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 76/76 [00:48<00:00,  1.56it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 33/33 [00:09<00:00,  3.40it/s]


Epoch [1], Train Loss : [1.87358] Val Loss : [1.53496] Val Weighted F1 Score : [0.44924]


100%|██████████████████████████████████████████████████████████████████████████████████| 76/76 [00:42<00:00,  1.80it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 33/33 [00:09<00:00,  3.65it/s]


Epoch [2], Train Loss : [1.51875] Val Loss : [1.17818] Val Weighted F1 Score : [0.60621]


100%|██████████████████████████████████████████████████████████████████████████████████| 76/76 [00:43<00:00,  1.76it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 33/33 [00:09<00:00,  3.63it/s]


Epoch [3], Train Loss : [1.38813] Val Loss : [1.00640] Val Weighted F1 Score : [0.65445]


100%|██████████████████████████████████████████████████████████████████████████████████| 76/76 [00:43<00:00,  1.75it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 33/33 [00:09<00:00,  3.60it/s]


Epoch [4], Train Loss : [1.27859] Val Loss : [1.06946] Val Weighted F1 Score : [0.63923]


100%|██████████████████████████████████████████████████████████████████████████████████| 76/76 [00:43<00:00,  1.73it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 33/33 [00:08<00:00,  3.67it/s]


Epoch [5], Train Loss : [1.17517] Val Loss : [1.02161] Val Weighted F1 Score : [0.67439]


100%|██████████████████████████████████████████████████████████████████████████████████| 76/76 [00:43<00:00,  1.75it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 33/33 [00:09<00:00,  3.64it/s]


Epoch [6], Train Loss : [1.12474] Val Loss : [0.99056] Val Weighted F1 Score : [0.68927]


100%|██████████████████████████████████████████████████████████████████████████████████| 76/76 [00:44<00:00,  1.71it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 33/33 [00:09<00:00,  3.63it/s]


Epoch [7], Train Loss : [1.03898] Val Loss : [1.02411] Val Weighted F1 Score : [0.64647]


100%|██████████████████████████████████████████████████████████████████████████████████| 76/76 [00:43<00:00,  1.75it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 33/33 [00:08<00:00,  3.67it/s]


Epoch [8], Train Loss : [0.95817] Val Loss : [1.06311] Val Weighted F1 Score : [0.69830]


100%|██████████████████████████████████████████████████████████████████████████████████| 76/76 [00:43<00:00,  1.76it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 33/33 [00:09<00:00,  3.62it/s]


Epoch [9], Train Loss : [0.95593] Val Loss : [1.08152] Val Weighted F1 Score : [0.69136]


100%|██████████████████████████████████████████████████████████████████████████████████| 76/76 [00:42<00:00,  1.77it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 33/33 [00:09<00:00,  3.65it/s]


Epoch [10], Train Loss : [0.92593] Val Loss : [1.05055] Val Weighted F1 Score : [0.70344]


100%|██████████████████████████████████████████████████████████████████████████████████| 76/76 [00:45<00:00,  1.68it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 33/33 [00:09<00:00,  3.61it/s]


Epoch [11], Train Loss : [0.83776] Val Loss : [1.10742] Val Weighted F1 Score : [0.67051]


100%|██████████████████████████████████████████████████████████████████████████████████| 76/76 [00:44<00:00,  1.70it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 33/33 [00:09<00:00,  3.65it/s]


Epoch [12], Train Loss : [0.84691] Val Loss : [1.04400] Val Weighted F1 Score : [0.71384]


100%|██████████████████████████████████████████████████████████████████████████████████| 76/76 [00:44<00:00,  1.72it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 33/33 [00:09<00:00,  3.47it/s]


Epoch [13], Train Loss : [0.77435] Val Loss : [1.08090] Val Weighted F1 Score : [0.69602]


100%|██████████████████████████████████████████████████████████████████████████████████| 76/76 [00:44<00:00,  1.72it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 33/33 [00:09<00:00,  3.66it/s]


Epoch [14], Train Loss : [0.76853] Val Loss : [1.16198] Val Weighted F1 Score : [0.69551]


100%|██████████████████████████████████████████████████████████████████████████████████| 76/76 [00:42<00:00,  1.78it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 33/33 [00:09<00:00,  3.65it/s]


Epoch [15], Train Loss : [0.77806] Val Loss : [1.06717] Val Weighted F1 Score : [0.72801]


100%|██████████████████████████████████████████████████████████████████████████████████| 76/76 [00:44<00:00,  1.70it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 33/33 [00:09<00:00,  3.62it/s]


Epoch [16], Train Loss : [0.73051] Val Loss : [1.21350] Val Weighted F1 Score : [0.69450]


100%|██████████████████████████████████████████████████████████████████████████████████| 76/76 [00:44<00:00,  1.72it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 33/33 [00:09<00:00,  3.62it/s]


Epoch [17], Train Loss : [0.69176] Val Loss : [1.09528] Val Weighted F1 Score : [0.71471]


100%|██████████████████████████████████████████████████████████████████████████████████| 76/76 [00:43<00:00,  1.74it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 33/33 [00:09<00:00,  3.63it/s]


Epoch [18], Train Loss : [0.69830] Val Loss : [1.12415] Val Weighted F1 Score : [0.73497]


100%|██████████████████████████████████████████████████████████████████████████████████| 76/76 [00:43<00:00,  1.75it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 33/33 [00:09<00:00,  3.66it/s]


Epoch [19], Train Loss : [0.71134] Val Loss : [1.08069] Val Weighted F1 Score : [0.71932]


100%|██████████████████████████████████████████████████████████████████████████████████| 76/76 [00:42<00:00,  1.77it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 33/33 [00:09<00:00,  3.62it/s]


Epoch [20], Train Loss : [0.63374] Val Loss : [1.25346] Val Weighted F1 Score : [0.68930]


100%|██████████████████████████████████████████████████████████████████████████████████| 76/76 [00:43<00:00,  1.75it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 33/33 [00:08<00:00,  3.70it/s]


Epoch [21], Train Loss : [0.66716] Val Loss : [1.10810] Val Weighted F1 Score : [0.71852]
Epoch 00021: reducing learning rate of group 0 to 1.5000e-04.


100%|██████████████████████████████████████████████████████████████████████████████████| 76/76 [00:43<00:00,  1.73it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 33/33 [00:08<00:00,  3.67it/s]


Epoch [22], Train Loss : [0.59663] Val Loss : [1.06709] Val Weighted F1 Score : [0.74590]


100%|██████████████████████████████████████████████████████████████████████████████████| 76/76 [00:43<00:00,  1.75it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 33/33 [00:09<00:00,  3.56it/s]


Epoch [23], Train Loss : [0.49411] Val Loss : [1.14435] Val Weighted F1 Score : [0.74053]


100%|██████████████████████████████████████████████████████████████████████████████████| 76/76 [00:44<00:00,  1.71it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 33/33 [00:09<00:00,  3.67it/s]


Epoch [24], Train Loss : [0.46800] Val Loss : [1.13468] Val Weighted F1 Score : [0.75023]


100%|██████████████████████████████████████████████████████████████████████████████████| 76/76 [00:43<00:00,  1.75it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 33/33 [00:09<00:00,  3.66it/s]

Epoch [25], Train Loss : [0.45644] Val Loss : [1.15421] Val Weighted F1 Score : [0.74454]





In [7]:
print("[*] Inference")

test = pd.read_csv('./test.csv')

test_dataset = CustomDataset(test['img_path'].values, None, test_transform)
test_loader = DataLoader(test_dataset, batch_size = CFG['BATCH_SIZE'], shuffle=False, num_workers=0)

[*] Inference


In [8]:
def inference(model, test_loader, device):
    model.to(device)
    model.eval()
    predictions = []
    with torch.no_grad():
        for imgs in tqdm(iter(test_loader)):
            imgs = imgs.float().to(device)

            preds = model(imgs)
#             print(preds)
            
            preds = preds.argmax(1)
            preds = preds.cpu().detach().numpy()
            predictions += preds.tolist()
#             preds += preds.argmax(1).detach().cpu().numpy().tolist()

#             probs = probs.cpu().detach().numpy()
#             preds = probs > 0.5
#             preds = preds.astype(int)
#             predictions += preds.tolist()
    prediction = le.inverse_transform(preds)
    return predictions

In [9]:
preds = inference(model, test_loader, device)

100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [00:07<00:00,  3.18it/s]


In [10]:
print("[*] Submission")
submit = pd.read_csv('./sample_submission.csv')
submit['label'] = preds
submit.head()


[*] Submission


Unnamed: 0,id,label
0,TEST_000,18
1,TEST_001,10
2,TEST_002,18
3,TEST_003,7
4,TEST_004,18


In [11]:
submit.loc[submit['label'] == 0, 'label'] = '가구수정'
submit.loc[submit['label'] == 1, 'label'] = '걸레받이수정'
submit.loc[submit['label'] == 2, 'label'] = '곰팡이'
submit.loc[submit['label'] == 3, 'label'] = '꼬임'
submit.loc[submit['label'] == 4, 'label'] = '녹오염'
submit.loc[submit['label'] == 5, 'label'] = '들뜸'
submit.loc[submit['label'] == 6, 'label'] = '면불량'
submit.loc[submit['label'] == 7, 'label'] = '몰딩수정'
submit.loc[submit['label'] == 8, 'label'] = '반점'
submit.loc[submit['label'] == 9, 'label'] = '석고수정'
submit.loc[submit['label'] == 10, 'label'] = '오염'
submit.loc[submit['label'] == 11, 'label'] = '오타공'
submit.loc[submit['label'] == 12, 'label'] = '울음'
submit.loc[submit['label'] == 13, 'label'] = '이음부불량'
submit.loc[submit['label'] == 14, 'label'] = '창틀,문틀수정'
submit.loc[submit['label'] == 15, 'label'] = '터짐'
submit.loc[submit['label'] == 16, 'label'] = '틈새과다'
submit.loc[submit['label'] == 17, 'label'] = '피스'
submit.loc[submit['label'] == 18, 'label'] = '훼손'

In [12]:
submit.head()

Unnamed: 0,id,label
0,TEST_000,훼손
1,TEST_001,오염
2,TEST_002,훼손
3,TEST_003,몰딩수정
4,TEST_004,훼손


In [13]:
submit.to_csv('./results/f1_'+str(f1_score) + '.csv', index=False)