In [1]:
import os
REPO_ROOT=os.path.dirname(os.path.abspath('.'))
os.chdir(REPO_ROOT)

# prepare essential environment

In [2]:
!pip install scikit-learn



# check the quality of latent topics and concept features

In [3]:
import pickle
import numpy as np
from config import Constants

itoc = pickle.load(open(os.path.join(Constants.base_data_path, 'MSRVTT', 'info_corpus.pkl'), 'rb'))['info']['itoc']

# obtain categories of all training and testing videos
train_y, test_y = [], []
for i in range(10000):
    if i < 7010:
        train_y.append(itoc[i])
    else:
        test_y.append(itoc[i])

train_y = np.array(train_y)
test_y = np.array(test_y)
print(train_y.shape, test_y.shape)

(7010,) (2990,)


In [4]:
from models import load_model
import torch, os
from tqdm import tqdm
from dataloader import get_loader
from misc.utils import to_device
from sklearn.svm import SVC

paths = [
    f'{Constants.base_checkpoint_path}/MSRVTT/Transformer/Concept/base_ViT_VA_VAT_Nc500_Nk30_G1Lc_ViT_Nr20_bias1', # GSG + LSG
    f'{Constants.base_checkpoint_path}/MSRVTT/Transformer/Concept/base_ViT_VA_VAT_Nc500_Nk30_G0Lc_ViT_Nr20_bias1', # LSG only
]

device = 'cuda' if torch.cuda.is_available() else 'cpu'

for path in paths:
    print('=' * 20)
    accs = []
    for postfix in ["", '-v1', '-v2', '-v3', '-v4']:
        
        ckpt_path = os.path.join(path, 'best%s.ckpt'%postfix)
        print('loading model from', ckpt_path)
        model = load_model(
            ckpt_path,
            device=device,
            strict=True,
            base_data_path=Constants.base_data_path
        )

        loader = get_loader(
            model.get_opt(), 
            mode='all',
            not_shuffle=True, 
            is_validation=True, 
        )

        latent_topic_vector = []
        semantic_embeddings = []
        with torch.no_grad():
            for batch in tqdm(loader):
                results = model.captioner.encoding_phase(to_device(batch['feats'], device))
                latent_topic_vector.append(results['semantic_hidden_states'])
                semantic_embeddings.append(results['semantic_embs'])
        
        if 'G1Lc' in path:
            x = torch.cat(latent_topic_vector, dim=0).cpu().numpy()
        else:
            x = torch.cat(semantic_embeddings, dim=0).mean(1).cpu().numpy()
        
        train_x, test_x = x[:7010], x[7010:]
        
        model = SVC(random_state=0, kernel="rbf")
        model.fit(train_x, train_y)
        
        pred_y = model.predict(test_x)
        acc = (pred_y == test_y).sum() * 1.0 / len(test_y)
        accs.append(acc * 100)
    
    accs = np.array(accs)
    print(accs.mean(), accs.std())

init COCO-EVAL scorer
loading model from ./exps/MSRVTT/Transformer/Concept/base_ViT_VA_VAT_Nc500_Nk30_G1Lc_ViT_Nr20_bias1/best.ckpt


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 157/157 [00:26<00:00,  6.00it/s]


loading model from ./exps/MSRVTT/Transformer/Concept/base_ViT_VA_VAT_Nc500_Nk30_G1Lc_ViT_Nr20_bias1/best-v1.ckpt


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 157/157 [00:23<00:00,  6.80it/s]


loading model from ./exps/MSRVTT/Transformer/Concept/base_ViT_VA_VAT_Nc500_Nk30_G1Lc_ViT_Nr20_bias1/best-v2.ckpt


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 157/157 [00:24<00:00,  6.43it/s]


loading model from ./exps/MSRVTT/Transformer/Concept/base_ViT_VA_VAT_Nc500_Nk30_G1Lc_ViT_Nr20_bias1/best-v3.ckpt


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 157/157 [00:24<00:00,  6.44it/s]


loading model from ./exps/MSRVTT/Transformer/Concept/base_ViT_VA_VAT_Nc500_Nk30_G1Lc_ViT_Nr20_bias1/best-v4.ckpt


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 157/157 [00:24<00:00,  6.33it/s]


63.53846153846153 0.2119462142843473
loading model from ./exps/MSRVTT/Transformer/Concept/base_ViT_VA_VAT_Nc500_Nk30_G0Lc_ViT_Nr20_bias1/best.ckpt


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 157/157 [00:23<00:00,  6.55it/s]


loading model from ./exps/MSRVTT/Transformer/Concept/base_ViT_VA_VAT_Nc500_Nk30_G0Lc_ViT_Nr20_bias1/best-v1.ckpt


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 157/157 [00:24<00:00,  6.33it/s]


loading model from ./exps/MSRVTT/Transformer/Concept/base_ViT_VA_VAT_Nc500_Nk30_G0Lc_ViT_Nr20_bias1/best-v2.ckpt


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 157/157 [00:24<00:00,  6.50it/s]


loading model from ./exps/MSRVTT/Transformer/Concept/base_ViT_VA_VAT_Nc500_Nk30_G0Lc_ViT_Nr20_bias1/best-v3.ckpt


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 157/157 [00:31<00:00,  4.93it/s]


loading model from ./exps/MSRVTT/Transformer/Concept/base_ViT_VA_VAT_Nc500_Nk30_G0Lc_ViT_Nr20_bias1/best-v4.ckpt


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 157/157 [00:36<00:00,  4.36it/s]


56.8561872909699 0.5734591371064282


In [5]:
# random guess
accs = []

for seed in range(5):
    np.random.seed(seed)
    pred = np.random.randint(0, 20, test_y.shape)
    acc = (pred == test_y).sum() * 1.0 / len(test_y)
    accs.append(acc * 100)

accs = np.array(accs)
print(accs.mean(), accs.std())

5.230769230769231 0.3822670785880815
