## Import

In [1]:
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
from torch.utils.data import DataLoader, Dataset

from sklearn.metrics import f1_score
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split

import os
import pandas as pd
import numpy as np
from tqdm.auto import tqdm
import random

import warnings
warnings.filterwarnings(action='ignore') 

device = torch.device('cuda') if torch.cuda.is_available() else torch.device('cpu')

  from .autonotebook import tqdm as notebook_tqdm


## Hyperparameter setting

In [2]:
CFG = {
    'EPOCHS': 30,
    'LEARNING_RATE':1e-2,
    'BATCH_SIZE':512,
    'SEED':41
}

## Fixed RandomSeed

In [3]:
def seed_everything(seed):
    random.seed(seed)
    os.environ['PYTHONHASHSEED'] = str(seed)
    np.random.seed(seed)
    torch.manual_seed(seed)
    torch.cuda.manual_seed(seed)
    torch.backends.cudnn.deterministic = True
    torch.backends.cudnn.benchmark = True

seed_everything(CFG['SEED'])

## Data Load

In [4]:
train = pd.read_csv('./open/train.csv')
test = pd.read_csv('./open/test.csv')

## Data Preprocessing
#### 1. 결측치 처리
#### 2. Train / Validation 분할
#### 3. Data label-encoding, scaling

In [7]:
categorical_features = ['COMPONENT_ARBITRARY', 'YEAR']
# Inference(실제 진단 환경)에 사용하는 컬럼
test_stage_features = ['ANONYMOUS_1', 'ANONYMOUS_2', 'AG', 'CO', 'CR', 'CU', 'FE', 'H2O', 'MN', 'MO', 'NI', 'PQINDEX', 'TI', 'V', 'V40', 'ZN']

In [8]:
train = train.fillna(0)
test = test.fillna(0)

In [9]:
dummies_col = []
for c in categorical_features:
    df = pd.get_dummies(train[c])
    train[df.columns] = df
    train = train.drop(c, axis=1)
    df = pd.get_dummies(test[c])
    test[df.columns] = df
    test = test.drop(c, axis=1)
    dummies_col.extend(df.columns)
test_stage_features.extend(dummies_col)

In [10]:
all_X = train.drop(['ID', 'Y_LABEL'], axis = 1)
all_y = train['Y_LABEL']

test = test.drop(['ID'], axis = 1)

train_X, val_X, train_y, val_y = train_test_split(all_X, all_y, test_size=0.2, random_state=CFG['SEED'], stratify=all_y)

In [11]:
def get_values(value):
    return value.values.reshape(-1, 1)

for col in train_X.columns:
    if col not in dummies_col:
        scaler = StandardScaler()
        train_X[col] = scaler.fit_transform(get_values(train_X[col]))
        val_X[col] = scaler.transform(get_values(val_X[col]))
        if col in test.columns:
            test[col] = scaler.transform(get_values(test[col]))
            
le = LabelEncoder()
for col in dummies_col:    
    train_X[col] = le.fit_transform(train_X[col])
    val_X[col] = le.transform(val_X[col])
    if col in test.columns:
        test[col] = le.transform(test[col])

## CustomDataset

In [12]:
class CustomDataset(Dataset):
    def __init__(self, data_X, data_y, distillation=False):
        super(CustomDataset, self).__init__()
        self.data_X = data_X
        self.data_y = data_y
        self.distillation = distillation
        
    def __len__(self):
        return len(self.data_X)
    
    def __getitem__(self, index):
        if self.distillation:
            # 지식 증류 학습 시
            teacher_X = torch.Tensor(self.data_X.iloc[index].values)
            student_X = torch.Tensor(self.data_X[test_stage_features].iloc[index].values)
            y = self.data_y.values[index]
            return teacher_X, student_X, y
        else:
            if self.data_y is None:
                test_X = torch.Tensor(self.data_X.iloc[index].values)
                return test_X
            else:
                teacher_X = torch.Tensor(self.data_X.iloc[index].values)
                y = self.data_y.values[index]
                return teacher_X, y

In [13]:
train_dataset = CustomDataset(train_X, train_y, False)
val_dataset = CustomDataset(val_X, val_y, False)

In [14]:
train_loader = DataLoader(train_dataset, batch_size = CFG['BATCH_SIZE'], shuffle=True)
val_loader = DataLoader(val_dataset, batch_size = CFG['BATCH_SIZE'], shuffle=False)

## Define Teacher Model

In [15]:
class Teacher(nn.Module):
    def __init__(self):
        super(Teacher, self).__init__()
        self.classifier = nn.Sequential(
            nn.Linear(in_features=70, out_features=256),
            nn.BatchNorm1d(256),
            nn.LeakyReLU(),
            nn.Linear(in_features=256, out_features=1024),
            nn.BatchNorm1d(1024),
            nn.LeakyReLU(),
            nn.Linear(in_features=1024, out_features=4096),
            nn.BatchNorm1d(4096),
            nn.LeakyReLU(),
            nn.Linear(in_features=4096, out_features=1024),
            nn.BatchNorm1d(1024),
            nn.LeakyReLU(),
            nn.Linear(in_features=1024, out_features=256),
            nn.BatchNorm1d(256),
            nn.LeakyReLU(),
            nn.Linear(in_features=256, out_features=1),
            nn.Sigmoid()
        )
        
    def forward(self, x):
        output = self.classifier(x)
        return output

## Teacher Train / Validation

In [16]:
def train(model, optimizer, train_loader, val_loader, scheduler, device):
    model.to(device)

    best_score = 0
    best_model = None
    criterion = nn.BCELoss().to(device)

    for epoch in range(CFG["EPOCHS"]):
        train_loss = []
  
        model.train()
        for X, y in tqdm(train_loader):
            X = X.float().to(device)
            y = y.float().to(device)
            
            optimizer.zero_grad()
            
            y_pred = model(X)
            
            loss = criterion(y_pred, y.reshape(-1, 1))
            loss.backward()
            
            optimizer.step()

            train_loss.append(loss.item())

        val_loss, val_score = validation_teacher(model, val_loader, criterion, device)
        print(f'Epoch [{epoch}], Train Loss : [{np.mean(train_loss) :.5f}] Val Loss : [{np.mean(val_loss) :.5f}] Val F1 Score : [{val_score:.5f}]')

        if scheduler is not None:
            scheduler.step(val_score)
            
        if best_score < val_score:
            best_model = model
            best_score = val_score
        
    return best_model 

In [17]:
def competition_metric(true, pred):
    return f1_score(true, pred, average="macro")

def validation_teacher(model, val_loader, criterion, device):
    model.eval()

    val_loss = []
    pred_labels = []
    true_labels = []
    threshold = 0.35
    
    with torch.no_grad():
        for X, y in tqdm(val_loader):
            X = X.float().to(device)
            y = y.float().to(device)
            
            model_pred = model(X.to(device))
            
            loss = criterion(model_pred, y.reshape(-1, 1))
            val_loss.append(loss.item())      
            
            model_pred = model_pred.squeeze(1).to('cpu')  
            pred_labels += model_pred.tolist()
            true_labels += y.tolist()
        
        pred_labels = np.where(np.array(pred_labels) > threshold, 1, 0)
        val_f1 = competition_metric(true_labels, pred_labels)
    return val_loss, val_f1   

## Run (Teacher Model)

In [18]:
model = Teacher()
model.eval()
optimizer = torch.optim.Adam(model.parameters(), lr=CFG['LEARNING_RATE'])
scheduler = torch.optim.lr_scheduler.ReduceLROnPlateau(optimizer, mode='max', factor=0.5, patience=1, threshold_mode='abs',min_lr=1e-8, verbose=True)

teacher_model = train(model, optimizer, train_loader, val_loader, scheduler, device)

100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:06<00:00,  3.72it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00,  6.79it/s]


Epoch [0], Train Loss : [0.29411] Val Loss : [0.24794] Val F1 Score : [0.68851]


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:05<00:00,  3.97it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:01<00:00,  4.70it/s]


Epoch [1], Train Loss : [0.20035] Val Loss : [0.22106] Val F1 Score : [0.75563]


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:04<00:00,  4.67it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:01<00:00,  5.49it/s]


Epoch [2], Train Loss : [0.20722] Val Loss : [0.20290] Val F1 Score : [0.77209]


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:04<00:00,  5.41it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00,  7.41it/s]


Epoch [3], Train Loss : [0.18573] Val Loss : [0.19581] Val F1 Score : [0.77728]


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:04<00:00,  5.28it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00,  6.66it/s]


Epoch [4], Train Loss : [0.17761] Val Loss : [0.22396] Val F1 Score : [0.73783]


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:04<00:00,  4.82it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00,  7.86it/s]


Epoch [5], Train Loss : [0.20180] Val Loss : [0.20169] Val F1 Score : [0.75124]
Epoch 00006: reducing learning rate of group 0 to 5.0000e-03.


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:05<00:00,  4.24it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00,  7.84it/s]


Epoch [6], Train Loss : [0.17047] Val Loss : [0.17951] Val F1 Score : [0.78090]


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:04<00:00,  4.85it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00,  7.86it/s]


Epoch [7], Train Loss : [0.19993] Val Loss : [0.21939] Val F1 Score : [0.76643]


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:04<00:00,  5.65it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00,  7.83it/s]


Epoch [8], Train Loss : [0.21650] Val Loss : [0.20178] Val F1 Score : [0.76906]
Epoch 00009: reducing learning rate of group 0 to 2.5000e-03.


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:04<00:00,  5.65it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00,  7.87it/s]


Epoch [9], Train Loss : [0.16905] Val Loss : [0.19642] Val F1 Score : [0.77704]


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:03<00:00,  6.34it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00,  7.76it/s]


Epoch [10], Train Loss : [0.15424] Val Loss : [0.19054] Val F1 Score : [0.78272]


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:03<00:00,  5.78it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00,  7.83it/s]


Epoch [11], Train Loss : [0.14835] Val Loss : [0.17936] Val F1 Score : [0.78522]


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:04<00:00,  4.98it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00,  7.95it/s]


Epoch [12], Train Loss : [0.15562] Val Loss : [0.17634] Val F1 Score : [0.78952]


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:04<00:00,  4.79it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00,  6.34it/s]


Epoch [13], Train Loss : [0.15196] Val Loss : [0.18090] Val F1 Score : [0.78702]


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:04<00:00,  5.27it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00,  6.17it/s]


Epoch [14], Train Loss : [0.14882] Val Loss : [0.17582] Val F1 Score : [0.78674]
Epoch 00015: reducing learning rate of group 0 to 1.2500e-03.


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:04<00:00,  5.25it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00,  7.78it/s]


Epoch [15], Train Loss : [0.14063] Val Loss : [0.18021] Val F1 Score : [0.77943]


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:03<00:00,  6.29it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00,  7.80it/s]


Epoch [16], Train Loss : [0.14972] Val Loss : [0.17962] Val F1 Score : [0.78445]
Epoch 00017: reducing learning rate of group 0 to 6.2500e-04.


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:03<00:00,  5.80it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00,  7.80it/s]


Epoch [17], Train Loss : [0.13719] Val Loss : [0.17577] Val F1 Score : [0.78889]


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:03<00:00,  6.35it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00,  7.53it/s]


Epoch [18], Train Loss : [0.16686] Val Loss : [0.17741] Val F1 Score : [0.78965]


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:04<00:00,  5.52it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:01<00:00,  5.27it/s]


Epoch [19], Train Loss : [0.13442] Val Loss : [0.17779] Val F1 Score : [0.78802]


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:03<00:00,  6.03it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00,  7.88it/s]


Epoch [20], Train Loss : [0.13984] Val Loss : [0.17682] Val F1 Score : [0.78767]
Epoch 00021: reducing learning rate of group 0 to 3.1250e-04.


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:03<00:00,  5.87it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00,  7.78it/s]


Epoch [21], Train Loss : [0.13453] Val Loss : [0.17539] Val F1 Score : [0.79280]


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:03<00:00,  6.38it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00,  7.92it/s]


Epoch [22], Train Loss : [0.13798] Val Loss : [0.17317] Val F1 Score : [0.79534]


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:03<00:00,  6.15it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00,  7.79it/s]


Epoch [23], Train Loss : [0.13928] Val Loss : [0.17253] Val F1 Score : [0.79119]


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:03<00:00,  6.04it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00,  7.96it/s]


Epoch [24], Train Loss : [0.12750] Val Loss : [0.17384] Val F1 Score : [0.79542]
Epoch 00025: reducing learning rate of group 0 to 1.5625e-04.


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:03<00:00,  6.30it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00,  7.86it/s]


Epoch [25], Train Loss : [0.14129] Val Loss : [0.17572] Val F1 Score : [0.79203]


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:03<00:00,  6.31it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00,  7.88it/s]


Epoch [26], Train Loss : [0.13084] Val Loss : [0.17736] Val F1 Score : [0.78707]
Epoch 00027: reducing learning rate of group 0 to 7.8125e-05.


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:04<00:00,  5.07it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00,  6.32it/s]


Epoch [27], Train Loss : [0.13745] Val Loss : [0.17865] Val F1 Score : [0.78659]


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:04<00:00,  5.67it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00,  6.67it/s]


Epoch [28], Train Loss : [0.13313] Val Loss : [0.17425] Val F1 Score : [0.79349]
Epoch 00029: reducing learning rate of group 0 to 3.9063e-05.


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:03<00:00,  5.85it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00,  7.93it/s]

Epoch [29], Train Loss : [0.12701] Val Loss : [0.17504] Val F1 Score : [0.79438]





## Define Student Model

In [19]:
class Student(nn.Module):
    def __init__(self):
        super(Student, self).__init__()
        self.classifier = nn.Sequential(
            nn.Linear(in_features=36, out_features=128),
            nn.BatchNorm1d(128),
            nn.LeakyReLU(),
            nn.Linear(in_features=128, out_features=512),
            nn.BatchNorm1d(512),
            nn.LeakyReLU(),
            nn.Linear(in_features=512, out_features=1024),
            nn.BatchNorm1d(1024),
            nn.LeakyReLU(),
            nn.Linear(in_features=1024, out_features=512),
            nn.BatchNorm1d(512),
            nn.LeakyReLU(),
            nn.Linear(in_features=512, out_features=128),
            nn.BatchNorm1d(128),
            nn.LeakyReLU(),
            nn.Linear(in_features=128, out_features=1),
            nn.Sigmoid()
        )
        
    def forward(self, x):
        output = self.classifier(x)
        return output

## Define Knowledge distillation Loss

In [20]:
def distillation(student_logits, labels, teacher_logits, alpha):
    distillation_loss = nn.BCELoss()(student_logits, teacher_logits)
    student_loss = nn.BCELoss()(student_logits, labels.reshape(-1, 1))
    #distillation_loss = nn.BCEWithLogitsLoss()(student_logits, teacher_logits)
    #student_loss = nn.BCEWithLogitsLoss()(student_logits, labels.reshape(-1, 1))
    return alpha * student_loss + (1-alpha) * distillation_loss

In [21]:
def distill_loss(output, target, teacher_output, loss_fn=distillation, opt=optimizer):
    loss_b = loss_fn(output, target, teacher_output, alpha=0.1)

    if opt is not None:
        opt.zero_grad()
        loss_b.backward()
        opt.step()

    return loss_b.item()

## Student Train / Validation

In [22]:
def student_train(s_model, t_model, optimizer, train_loader, val_loader, scheduler, device):
    s_model.to(device)
    t_model.to(device)
    
    best_score = 0
    best_model = None

    for epoch in range(int(CFG["EPOCHS"]/2)):
    #for epoch in range(15):
        train_loss = []
        s_model.train()
        t_model.eval()
        
        for X_t, X_s, y in tqdm(train_loader):
            X_t = X_t.float().to(device)
            X_s = X_s.float().to(device)
            y = y.float().to(device)
            
            optimizer.zero_grad()

            output = s_model(X_s)
            with torch.no_grad():
                teacher_output = t_model(X_t)
                
            loss_b = distill_loss(output, y, teacher_output, loss_fn=distillation, opt=optimizer)

            train_loss.append(loss_b)

        val_loss, val_score = validation_student(s_model, t_model, val_loader, distill_loss, device)
        print(f'Epoch [{epoch}], Train Loss : [{np.mean(train_loss) :.5f}] Val Loss : [{np.mean(val_loss) :.5f}] Val F1 Score : [{val_score:.5f}]')
        
        if scheduler is not None:
            scheduler.step(val_score)
            
        if best_score < val_score:
            best_model = s_model
            best_score = val_score
        
    return best_model

In [23]:
def validation_student(s_model, t_model, val_loader, criterion, device):
    s_model.eval()
    t_model.eval()

    val_loss = []
    pred_labels = []
    true_labels = []
    threshold = 0.35
    
    with torch.no_grad():
        for X_t, X_s, y in tqdm(val_loader):
            X_t = X_t.float().to(device)
            X_s = X_s.float().to(device)
            y = y.float().to(device)
            
            model_pred = s_model(X_s)
            teacher_output = t_model(X_t)
            
            loss_b = distill_loss(model_pred, y, teacher_output, loss_fn=distillation, opt=None)
            val_loss.append(loss_b)
            
            model_pred = model_pred.squeeze(1).to('cpu')
            pred_labels += model_pred.tolist()
            true_labels += y.tolist()
        
        pred_labels = np.where(np.array(pred_labels) > threshold, 1, 0)
        val_f1 = competition_metric(true_labels, pred_labels)
    return val_loss, val_f1    

## Run (Student Model)

In [24]:
train_dataset = CustomDataset(train_X, train_y, True)
val_dataset = CustomDataset(val_X, val_y, True)

train_loader = DataLoader(train_dataset, batch_size = CFG['BATCH_SIZE'], shuffle=True)
val_loader = DataLoader(val_dataset, batch_size = CFG['BATCH_SIZE'], shuffle=False)

In [25]:
student_model = Student()
student_model.eval()
optimizer = torch.optim.Adam(student_model.parameters(), lr=CFG['LEARNING_RATE'])
scheduler = torch.optim.lr_scheduler.ReduceLROnPlateau(optimizer, mode='max', factor=0.5, patience=1, threshold_mode='abs',min_lr=1e-8, verbose=True)

best_student_model = student_train(student_model, teacher_model, optimizer, train_loader, val_loader, scheduler, device)

100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:31<00:00,  1.39s/it]
100%|████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:03<00:00,  1.76it/s]


Epoch [0], Train Loss : [0.33581] Val Loss : [0.29251] Val F1 Score : [0.49906]


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:31<00:00,  1.37s/it]
100%|████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:03<00:00,  1.74it/s]


Epoch [1], Train Loss : [0.27507] Val Loss : [0.27407] Val F1 Score : [0.48053]


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:29<00:00,  1.27s/it]
100%|████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:03<00:00,  1.60it/s]


Epoch [2], Train Loss : [0.28055] Val Loss : [0.27184] Val F1 Score : [0.48907]
Epoch 00003: reducing learning rate of group 0 to 5.0000e-03.


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:30<00:00,  1.33s/it]
100%|████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:03<00:00,  1.60it/s]


Epoch [3], Train Loss : [0.28391] Val Loss : [0.26997] Val F1 Score : [0.47767]


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:31<00:00,  1.39s/it]
100%|████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:03<00:00,  1.75it/s]


Epoch [4], Train Loss : [0.26957] Val Loss : [0.27013] Val F1 Score : [0.48582]
Epoch 00005: reducing learning rate of group 0 to 2.5000e-03.


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:29<00:00,  1.30s/it]
100%|████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:04<00:00,  1.45it/s]


Epoch [5], Train Loss : [0.25950] Val Loss : [0.26941] Val F1 Score : [0.48965]


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:31<00:00,  1.38s/it]
100%|████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:03<00:00,  1.62it/s]


Epoch [6], Train Loss : [0.26135] Val Loss : [0.26870] Val F1 Score : [0.48979]
Epoch 00007: reducing learning rate of group 0 to 1.2500e-03.


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:25<00:00,  1.13s/it]
100%|████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:03<00:00,  1.98it/s]


Epoch [7], Train Loss : [0.25644] Val Loss : [0.26791] Val F1 Score : [0.49703]


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:25<00:00,  1.09s/it]
100%|████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:02<00:00,  2.04it/s]


Epoch [8], Train Loss : [0.25405] Val Loss : [0.26695] Val F1 Score : [0.49322]
Epoch 00009: reducing learning rate of group 0 to 6.2500e-04.


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:24<00:00,  1.08s/it]
100%|████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:03<00:00,  2.00it/s]


Epoch [9], Train Loss : [0.25743] Val Loss : [0.26780] Val F1 Score : [0.50021]


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:24<00:00,  1.08s/it]
100%|████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:02<00:00,  2.01it/s]


Epoch [10], Train Loss : [0.25457] Val Loss : [0.26743] Val F1 Score : [0.49259]


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:24<00:00,  1.08s/it]
100%|████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:02<00:00,  2.04it/s]


Epoch [11], Train Loss : [0.25519] Val Loss : [0.26717] Val F1 Score : [0.50077]


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:24<00:00,  1.08s/it]
100%|████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:03<00:00,  2.00it/s]


Epoch [12], Train Loss : [0.25647] Val Loss : [0.26782] Val F1 Score : [0.50021]


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:25<00:00,  1.11s/it]
100%|████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:03<00:00,  1.97it/s]


Epoch [13], Train Loss : [0.25210] Val Loss : [0.26895] Val F1 Score : [0.50021]
Epoch 00014: reducing learning rate of group 0 to 3.1250e-04.


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:24<00:00,  1.08s/it]
100%|████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:02<00:00,  2.00it/s]

Epoch [14], Train Loss : [0.25301] Val Loss : [0.26830] Val F1 Score : [0.50405]





## Choose Inference Threshold

In [26]:
def choose_threshold(model, val_loader, device):
    model.to(device)
    model.eval()
    
    #thresholds = [0.1, 0.152, 0.164, 0.165, 0.166]
    thresholds = [0.1, 0.164, 0.165, 0.166, 0.2, 0.25, 0.3, 0.35, 0.4, 0.45, 0.5]
    pred_labels = []
    true_labels = []
    
    best_score = 0
    best_thr = None
    with torch.no_grad():
        for _, x_s, y in tqdm(iter(val_loader)):
            x_s = x_s.float().to(device)
            y = y.float().to(device)
            
            model_pred = model(x_s)
            
            model_pred = model_pred.squeeze(1).to('cpu')
            pred_labels += model_pred.tolist()
            true_labels += y.tolist()
        
        for threshold in thresholds:
            pred_labels_thr = np.where(np.array(pred_labels) > threshold, 1, 0)
            score_thr = competition_metric(true_labels, pred_labels_thr)
            if best_score < score_thr:
                best_score = score_thr
                best_thr = threshold
    return best_thr, best_score

Best Threshold : [0.165], Score : [0.55769]

In [27]:
best_threshold, best_score = choose_threshold(best_student_model, val_loader, device)
print(f'Best Threshold : [{best_threshold}], Score : [{best_score:.5f}]')

100%|████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:02<00:00,  2.36it/s]

Best Threshold : [0.164], Score : [0.56168]





## Inference

In [28]:
test_datasets = CustomDataset(test, None, False)
test_loaders = DataLoader(test_datasets, batch_size = CFG['BATCH_SIZE'], shuffle=False)

In [29]:
def inference(model, test_loader, threshold, device):
    model.to(device)
    model.eval()
    
    test_predict = []
    with torch.no_grad():
        for x in tqdm(test_loader):
            x = x.float().to(device)
            model_pred = model(x)

            model_pred = model_pred.squeeze(1).to('cpu')
            test_predict += model_pred
        
    test_predict = np.where(np.array(test_predict) > threshold, 1, 0)
    print('Done.')
    return test_predict

In [30]:
preds = inference(best_student_model, test_loaders, best_threshold, device)

100%|██████████████████████████████████████████████████████████████████████████████████| 12/12 [00:01<00:00,  9.52it/s]

Done.





## Submit

In [31]:
submit = pd.read_csv('./open/sample_submission.csv')
submit['Y_LABEL'] = preds
submit.head()

Unnamed: 0,ID,Y_LABEL
0,TEST_0000,0
1,TEST_0001,1
2,TEST_0002,0
3,TEST_0003,0
4,TEST_0004,0


In [32]:
submit.to_csv('./submit.csv', index=False)