In [1]:
import click
import numpy as np
import seaborn as sns
from sklearn.metrics import confusion_matrix
from torch.optim import SGD, Adam
from torch.optim.lr_scheduler import StepLR
import torch
import torch.nn as nn
from torch.utils.data import Dataset
from torchvision import transforms
from torchvision.datasets import MNIST
from tensorboardX import SummaryWriter
import uuid

from ptdec.dec import DEC
# from ptdec.model import train, predict
from ptsdae.sdae import StackedDenoisingAutoEncoder
import ptsdae.model as ae
from ptdec.utils import cluster_accuracy

from sklearn.cluster import KMeans

In [2]:
def mmap_fvecs(fname):
    x = np.memmap(fname, dtype='int32', mode='r')
    d = x[0]
    return x.view('float32').reshape(-1, d + 1)[:, 1:]

def mmap_bvecs(fname):
    x = np.memmap(fname, dtype='uint8', mode='r')
    d = x[:4].view('int32')[0]
    return x.reshape(-1, d + 4)[:, 4:]

def ivecs_read(fname):
    a = np.fromfile(fname, dtype='int32')
    d = a[0]
    # Wenqi: Format of ground truth (for 10000 query vectors):
    #   1000(topK), [1000 ids]
    #   1000(topK), [1000 ids]
    #        ...     ...
    #   1000(topK), [1000 ids]
    # 10000 rows in total, 10000 * 1001 elements, 10000 * 1001 * 4 bytes
    return a.reshape(-1, d + 1)[:, 1:].copy()

def fvecs_read(fname):
    return ivecs_read(fname).view('float32')

In [3]:
dbname = 'SIFT1M'
num_vec_learn = int(1e4)

if dbname.startswith('SIFT'):
    # SIFT1M to SIFT1000M
    dbsize = int(dbname[4:-1])
    xb = mmap_bvecs('/mnt/scratch/wenqi/Faiss_experiments/bigann/bigann_base.bvecs')
    xq = mmap_bvecs('/mnt/scratch/wenqi/Faiss_experiments/bigann/bigann_query.bvecs')
    gt = ivecs_read('/mnt/scratch/wenqi/Faiss_experiments/bigann/gnd/idx_%dM.ivecs' % dbsize)

    N_VEC = int(dbsize * 1000 * 1000)

    # trim xb to correct size
    xb = xb[:dbsize * 1000 * 1000]

    # Wenqi: load xq to main memory and reshape
    xq = xq.astype('float32').copy()
#     xq = np.array(xq, dtype=np.float32)
    xb = xb.astype('float32').copy()
    gt = np.array(gt, dtype=np.int32)

    print("Vector shapes:")
    print("Base vector xb: ", xb.shape)
    print("Query vector xq: ", xq.shape)
    print("Ground truth gt: ", gt.shape)
else:
    print('unknown dataset', dbname, file=sys.stderr)
    sys.exit(1)

dim = xb.shape[1] # should be 128
nq = xq.shape[0]

# Normalize all to 0~1
xb = xb / 256
xq = xq / 256
xt = xb[:num_vec_learn]

Vector shapes:
Base vector xb:  (1000000, 128)
Query vector xq:  (10000, 128)
Ground truth gt:  (10000, 1000)


In [4]:
writer = SummaryWriter()  # create the TensorBoard object
# callback function to call during training, uses writer from the scope

def training_callback(epoch, lr, loss, validation_loss):
    writer.add_scalars(
        "data/autoencoder",
        {"lr": lr, "loss": loss, "validation_loss": validation_loss,},
        epoch,
    )

In [5]:
cuda=False
batch_size=256
pretrain_epochs=100
finetune_epochs=100
testing_mode=False # whether to run in testing mode (default False).

In [6]:
# DNN_arch = [128, 100, 100, 64, 32]
# DNN_arch = [128, 500, 500, 2000, 32]
# DNN_arch = [128, 500, 500, 2000, 64]
DNN_arch = [128, 500, 500, 500, 32]
num_partition = 32

autoencoder = StackedDenoisingAutoEncoder(
    DNN_arch, final_activation=None
)
if cuda:
    autoencoder.cuda()

In [7]:
# from torch.utils.data import Dataset
# https://pytorch.org/docs/stable/_modules/torch/utils/data/dataset.html#Dataset
# A blog about torch dataset: https://stanford.edu/~shervine/blog/pytorch-how-to-generate-data-parallel

class SIFTDataset(Dataset):
    "Characterizes a dataset for PyTorch"
    def __init__(self, vectors):
        'Initialization'
        # vectors: 2D vectors dim0: num_vec dim1: vec_dim
        self.vectors = vectors 

    def __len__(self):
        'Denotes the total number of samples'
        return self.vectors.shape[0]

    def __getitem__(self, index):
        'Generates one sample of data'
        # Select sample
        return self.vectors[index]

In [8]:
# data = torch.Tensor((1000, 128))
ds_train = SIFTDataset(
    torch.Tensor(xt))
ds_val = SIFTDataset(
    torch.Tensor(xb[num_vec_learn:2*num_vec_learn]))

In [9]:
# AE: takes a torch dataset as input
#   SDAE model: https://github.com/vlukiyanov/pt-sdae/blob/master/ptsdae/model.py
#   Torch dataset manual: https://pytorch.org/docs/stable/data.html
print("Pretraining stage.")
ae.pretrain(
    ds_train,
    autoencoder,
    cuda=cuda,
    validation=ds_val,
    epochs=pretrain_epochs,
    batch_size=batch_size,
    optimizer=lambda model: SGD(model.parameters(), lr=0.1, momentum=0.9),
    scheduler=lambda x: StepLR(x, 100, gamma=0.1),
    corruption=0.2,
)



Pretraining stage.


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:00<00:00, 44.18batch/s, epo=0, lss=0.028972, vls=-1.000000]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:00<00:00, 46.23batch/s, epo=1, lss=0.022903, vls=0.023438]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:00<00:00, 44.94batch/s, epo=2, lss=0.019757, vls=0.019358]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:01<00:00, 33.95batch/s, epo=3, lss=0.016981, vls=0.017416]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:01<00:00, 39.84batch/s, epo=4, lss=0.017611, vls=0.016260]
100%|████████████████████████████████████████████████████████████████████████████████

100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:00<00:00, 45.63batch/s, epo=44, lss=0.009786, vls=0.008170]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:00<00:00, 46.71batch/s, epo=45, lss=0.009162, vls=0.008090]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:00<00:00, 46.86batch/s, epo=46, lss=0.009383, vls=0.008010]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:00<00:00, 46.67batch/s, epo=47, lss=0.008754, vls=0.007934]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:00<00:00, 47.03batch/s, epo=48, lss=0.008695, vls=0.007862]
100%|████████████████████████████████████████████████████████████████████████████████

100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:01<00:00, 38.70batch/s, epo=88, lss=0.007719, vls=0.005879]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:01<00:00, 30.52batch/s, epo=89, lss=0.008610, vls=0.005845]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:01<00:00, 28.69batch/s, epo=90, lss=0.007439, vls=0.005809]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:01<00:00, 38.55batch/s, epo=91, lss=0.009232, vls=0.005777]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:00<00:00, 46.16batch/s, epo=92, lss=0.007850, vls=0.005745]
100%|████████████████████████████████████████████████████████████████████████████████

100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:00<00:00, 47.06batch/s, epo=32, lss=0.001797, vls=0.001667]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:00<00:00, 40.25batch/s, epo=33, lss=0.001649, vls=0.001662]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:00<00:00, 44.03batch/s, epo=34, lss=0.001739, vls=0.001657]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:00<00:00, 44.62batch/s, epo=35, lss=0.001683, vls=0.001653]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:00<00:00, 45.55batch/s, epo=36, lss=0.001650, vls=0.001648]
100%|████████████████████████████████████████████████████████████████████████████████

100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:00<00:00, 43.07batch/s, epo=76, lss=0.001749, vls=0.001587]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:00<00:00, 43.67batch/s, epo=77, lss=0.001609, vls=0.001586]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:00<00:00, 41.06batch/s, epo=78, lss=0.001626, vls=0.001586]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:00<00:00, 43.81batch/s, epo=79, lss=0.001490, vls=0.001585]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:00<00:00, 45.28batch/s, epo=80, lss=0.001733, vls=0.001585]
100%|████████████████████████████████████████████████████████████████████████████████

100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:00<00:00, 41.02batch/s, epo=20, lss=0.000027, vls=0.000025]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:00<00:00, 43.91batch/s, epo=21, lss=0.000048, vls=0.000025]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:00<00:00, 43.47batch/s, epo=22, lss=0.000028, vls=0.000025]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:00<00:00, 43.24batch/s, epo=23, lss=0.000025, vls=0.000024]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:00<00:00, 41.73batch/s, epo=24, lss=0.000024, vls=0.000024]
100%|████████████████████████████████████████████████████████████████████████████████

100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:00<00:00, 45.67batch/s, epo=64, lss=0.000022, vls=0.000021]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:00<00:00, 44.23batch/s, epo=65, lss=0.000022, vls=0.000021]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:00<00:00, 44.85batch/s, epo=66, lss=0.000018, vls=0.000021]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:00<00:00, 41.82batch/s, epo=67, lss=0.000022, vls=0.000021]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:00<00:00, 42.04batch/s, epo=68, lss=0.000017, vls=0.000021]
100%|████████████████████████████████████████████████████████████████████████████████

100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:00<00:00, 88.98batch/s, epo=8, lss=0.000002, vls=0.000001]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:00<00:00, 93.17batch/s, epo=9, lss=0.000000, vls=0.000001]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:00<00:00, 95.63batch/s, epo=10, lss=0.000003, vls=0.000001]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:00<00:00, 85.16batch/s, epo=11, lss=0.000002, vls=0.000001]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:00<00:00, 92.29batch/s, epo=12, lss=0.000001, vls=0.000001]
100%|████████████████████████████████████████████████████████████████████████████████

100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:00<00:00, 89.63batch/s, epo=52, lss=0.000001, vls=0.000001]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:00<00:00, 95.99batch/s, epo=53, lss=0.000001, vls=0.000001]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:00<00:00, 93.11batch/s, epo=54, lss=0.000004, vls=0.000001]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:00<00:00, 88.84batch/s, epo=55, lss=0.000001, vls=0.000001]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:00<00:00, 96.37batch/s, epo=56, lss=0.000001, vls=0.000001]
100%|████████████████████████████████████████████████████████████████████████████████

100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:00<00:00, 98.45batch/s, epo=96, lss=0.000003, vls=0.000001]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:00<00:00, 95.37batch/s, epo=97, lss=0.000001, vls=0.000001]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:00<00:00, 90.90batch/s, epo=98, lss=0.000001, vls=0.000001]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:00<00:00, 86.37batch/s, epo=99, lss=0.000000, vls=0.000001]


In [10]:
print("Training stage.")
ae_optimizer = SGD(params=autoencoder.parameters(), lr=0.1, momentum=0.9)
ae.train(
    ds_train,
    autoencoder,
    cuda=cuda,
    validation=ds_val,
    epochs=finetune_epochs,
    batch_size=batch_size,
    optimizer=ae_optimizer,
    scheduler=StepLR(ae_optimizer, 100, gamma=0.1),
    corruption=0.2,
    update_callback=training_callback,
)

Training stage.


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:04<00:00,  8.78batch/s, epo=0, lss=0.016427, vls=-1.000000]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:03<00:00, 10.23batch/s, epo=1, lss=0.016834, vls=0.016784]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:02<00:00, 14.09batch/s, epo=2, lss=0.016265, vls=0.016751]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:02<00:00, 14.00batch/s, epo=3, lss=0.015833, vls=0.016734]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:02<00:00, 14.10batch/s, epo=4, lss=0.015532, vls=0.016586]
100%|████████████████████████████████████████████████████████████████████████████████

100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:02<00:00, 13.53batch/s, epo=44, lss=0.008513, vls=0.007982]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:02<00:00, 14.09batch/s, epo=45, lss=0.008717, vls=0.007907]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:02<00:00, 14.04batch/s, epo=46, lss=0.008911, vls=0.007840]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:02<00:00, 13.65batch/s, epo=47, lss=0.008048, vls=0.007771]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:02<00:00, 14.05batch/s, epo=48, lss=0.009462, vls=0.007712]
100%|████████████████████████████████████████████████████████████████████████████████

100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:02<00:00, 13.81batch/s, epo=88, lss=0.006328, vls=0.006053]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:02<00:00, 13.43batch/s, epo=89, lss=0.007714, vls=0.006043]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:02<00:00, 13.72batch/s, epo=90, lss=0.006592, vls=0.006006]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:02<00:00, 13.87batch/s, epo=91, lss=0.007394, vls=0.005979]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:02<00:00, 13.89batch/s, epo=92, lss=0.007142, vls=0.005949]
100%|████████████████████████████████████████████████████████████████████████████████

In [11]:
# Save the SAE model
import pickle
import os

def save_obj(obj, dirc, name):
    # note use "dir/" in dirc
    with open(os.path.join(dirc, name + '.pkl'), 'wb') as f:
        pickle.dump(obj, f, protocol=4) # for py37,pickle.HIGHEST_PROTOCOL=4

def load_obj(dirc, name):
    with open(os.path.join(dirc, name + '.pkl'), 'rb') as f:
        return pickle.load(f)

In [12]:
# If model exists, refresh by read, otherwise read it

fdir = './models/'
if not os.path.exists(fdir): os.mkdir(fdir)
DNN_arch_name = ''
for i in DNN_arch: DNN_arch_name += '{}_'.format(i)
file_name = 'SAE_' + DNN_arch_name + 'epoch_{}_{}'.format(pretrain_epochs, finetune_epochs)
print('file_name', file_name)

if not os.path.exists(os.path.join(fdir, file_name + '.pkl')):
    save_obj(autoencoder, fdir, file_name)
autoencoder = load_obj(fdir, file_name)

file_name SAE_128_500_500_500_32_epoch_100_100


In [13]:
from torch.utils.data.dataloader import DataLoader, default_collate
from typing import Tuple, Callable, Optional, Union
from tqdm import tqdm
from ptdec.utils import target_distribution, cluster_accuracy

def train(
    dataset: torch.utils.data.Dataset,
    model: torch.nn.Module,
    epochs: int,
    batch_size: int,
    optimizer: torch.optim.Optimizer,
    stopping_delta: Optional[float] = None,
    collate_fn=default_collate,
    cuda: bool = True,
    sampler: Optional[torch.utils.data.sampler.Sampler] = None,
    silent: bool = False,
    update_freq: int = 10,
    evaluate_batch_size: int = 1024,
    update_callback: Optional[Callable[[float, float], None]] = None,
    epoch_callback: Optional[Callable[[int, torch.nn.Module], None]] = None,
) -> None:
    """
    Train the DEC model given a dataset, a model instance and various configuration parameters.
    :param dataset: instance of Dataset to use for training
    :param model: instance of DEC model to train
    :param epochs: number of training epochs
    :param batch_size: size of the batch to train with
    :param optimizer: instance of optimizer to use
    :param stopping_delta: label delta as a proportion to use for stopping, None to disable, default None
    :param collate_fn: function to merge a list of samples into mini-batch
    :param cuda: whether to use CUDA, defaults to True
    :param sampler: optional sampler to use in the DataLoader, defaults to None
    :param silent: set to True to prevent printing out summary statistics, defaults to False
    :param update_freq: frequency of batches with which to update counter, None disables, default 10
    :param evaluate_batch_size: batch size for evaluation stage, default 1024
    :param update_callback: optional function of accuracy and loss to update, default None
    :param epoch_callback: optional function of epoch and model, default None
    :return: None
    """
    static_dataloader = DataLoader(
        dataset,
        batch_size=batch_size,
        collate_fn=collate_fn,
        pin_memory=False,
        sampler=sampler,
        shuffle=False,
    )
    train_dataloader = DataLoader(
        dataset,
        batch_size=batch_size,
        collate_fn=collate_fn,
        sampler=sampler,
        shuffle=True,
    )
    data_iterator = tqdm(
        static_dataloader,
        leave=True,
        unit="batch",
        postfix={
            "epo": -1,
#             "acc": "%.4f" % 0.0,
            "lss": "%.8f" % 0.0,
            "dlb": "%.4f" % -1,
        },
        disable=silent,
    )
    kmeans = KMeans(n_clusters=model.cluster_number, n_init=20)
    model.train()
    features = []
    actual = []
    # form initial cluster centres
    for index, batch in enumerate(data_iterator):
        if (isinstance(batch, tuple) or isinstance(batch, list)) and len(batch) == 2:
            batch, value = batch  # if we have a prediction label, separate it to actual
            actual.append(value)
        if cuda:
            batch = batch.cuda(non_blocking=True)
        features.append(model.encoder(batch).detach().cpu())
    print("Initial clustering...")
    predicted = kmeans.fit_predict(torch.cat(features).numpy())
    print("Finished clustering...")
    predicted_previous = torch.tensor(np.copy(predicted), dtype=torch.long)
#     if actual: 
#         actual = torch.cat(actual).long()
#         _, accuracy = cluster_accuracy(predicted, actual.cpu().numpy())
    cluster_centers = torch.tensor(
        kmeans.cluster_centers_, dtype=torch.float, requires_grad=True
    )
    if cuda:
        cluster_centers = cluster_centers.cuda(non_blocking=True)
    with torch.no_grad():
        # initialise the cluster centers
        model.state_dict()["assignment.cluster_centers"].copy_(cluster_centers)
    loss_function = nn.KLDivLoss(size_average=False)
    delta_label = None
    for epoch in range(epochs):
        features = []
        data_iterator = tqdm(
            train_dataloader,
            leave=True,
            unit="batch",
            postfix={
                "epo": epoch,
#                 "acc": "%.4f" % (accuracy or 0.0),
                "lss": "%.8f" % 0.0,
                "dlb": "%.4f" % (delta_label or 0.0),
            },
            disable=silent,
        )
        model.train()
        for index, batch in enumerate(data_iterator):
            if (isinstance(batch, tuple) or isinstance(batch, list)) and len(
                batch
            ) == 2:
                batch, _ = batch  # if we have a prediction label, strip it away
            if cuda:
                batch = batch.cuda(non_blocking=True)
            output = model(batch)
            target = target_distribution(output).detach()
            loss = loss_function(output.log(), target) / output.shape[0]
#             print('output.log()', output.log())
#             print('target', target)
#             print('loss_function(output.log(), target)', loss_function(output.log(), target))
#             print('loss', loss)
            data_iterator.set_postfix(
                epo=epoch,
#                 acc="%.4f" % (accuracy or 0.0),
                lss="%.8f" % float(loss.item()),
                dlb="%.4f" % (delta_label or 0.0),
            )
            optimizer.zero_grad()
            loss.backward()
            optimizer.step(closure=None)
            features.append(model.encoder(batch).detach().cpu())
            if update_freq is not None and index % update_freq == 0:
                loss_value = float(loss.item())
                data_iterator.set_postfix(
                    epo=epoch,
#                     acc="%.4f" % (accuracy or 0.0),
                    lss="%.8f" % loss_value,
                    dlb="%.4f" % (delta_label or 0.0),
                )
#                 if update_callback is not None:
#                     update_callback(accuracy, loss_value, delta_label)
        predicted = predict(
            dataset,
            model,
            batch_size=evaluate_batch_size,
            collate_fn=collate_fn,
            silent=True,
            return_actual=False,
            cuda=cuda,
        )
#         print('predicted', predicted)

#         predicted, actual = predict(
#             dataset,
#             model,
#             batch_size=evaluate_batch_size,
#             collate_fn=collate_fn,
#             silent=True,
#             return_actual=True,
#             cuda=cuda,
#         )
        delta_label = (
            float((predicted != predicted_previous).float().sum().item())
            / predicted_previous.shape[0]
        )
        if stopping_delta is not None and delta_label < stopping_delta:
            print(
                'Early stopping as label delta "%1.5f" less than "%1.5f".'
                % (delta_label, stopping_delta)
            )
            break
        predicted_previous = predicted
#         _, accuracy = cluster_accuracy(predicted.cpu().numpy(), actual.cpu().numpy())
        data_iterator.set_postfix(
            epo=epoch,
#             acc="%.4f" % (accuracy or 0.0),
            lss="%.8f" % 0.0,
            dlb="%.4f" % (delta_label or 0.0),
        )
        if epoch_callback is not None:
            epoch_callback(epoch, model)


def predict(
    dataset: torch.utils.data.Dataset,
    model: torch.nn.Module,
    batch_size: int = 1024,
    collate_fn=default_collate,
    cuda: bool = True,
    silent: bool = False,
    return_actual: bool = False,
) -> Union[Tuple[torch.Tensor, torch.Tensor], torch.Tensor]:
    """
    Predict clusters for a dataset given a DEC model instance and various configuration parameters.
    :param dataset: instance of Dataset to use for training
    :param model: instance of DEC model to predict
    :param batch_size: size of the batch to predict with, default 1024
    :param collate_fn: function to merge a list of samples into mini-batch
    :param cuda: whether CUDA is used, defaults to True
    :param silent: set to True to prevent printing out summary statistics, defaults to False
    :param return_actual: return actual values, if present in the Dataset
    :return: tuple of prediction and actual if return_actual is True otherwise prediction
    """
    dataloader = DataLoader(
        dataset, batch_size=batch_size, collate_fn=collate_fn, shuffle=False
    )
    data_iterator = tqdm(dataloader, leave=True, unit="batch", disable=silent,)
    features = []
    actual = []
    model.eval()
    for batch in data_iterator:
        if (isinstance(batch, tuple) or isinstance(batch, list)) and len(batch) == 2:
            batch, value = batch  # unpack if we have a prediction label
            if return_actual:
                actual.append(value)
        elif return_actual:
            raise ValueError(
                "Dataset has no actual value to unpack, but return_actual is set."
            )
        if cuda:
            batch = batch.cuda(non_blocking=True)
        features.append(
            model(batch).detach().cpu()
        )  # move to the CPU to prevent out of memory on the GPU
    if return_actual:
        return torch.cat(features).max(1)[1], torch.cat(actual).long()
    else:
        return torch.cat(features).max(1)[1]

In [14]:
print("Note: should pretrain & train the models for enough epochs (e.g., 100), " \
      "otherwise this model can predict all vectors to a same centroid which lead to zero gradients")

print("DEC stage.")
model = DEC(cluster_number=num_partition, hidden_dimension=DNN_arch[-1], encoder=autoencoder.encoder)
if cuda:
    model.cuda()

Note: should pretrain & train the models for enough epochs (e.g., 100), otherwise this model can predict all vectors to a same centroid which lead to zero gradients
DEC stage.


In [15]:
# Learning rate: somehow the MNIST dataset has values from 0~5.x; we only have 0~1
# MNIST learning rate 0.01
# Our, set to 0.001 and try? 
dec_optimizer = SGD(model.parameters(), lr=0.01, momentum=0.9)
# dec_optimizer = Adam(model.parameters(), lr=0.001)

In [16]:
# for name, param in model.named_parameters():
#     if param.requires_grad:
#         print(name, param.data)

In [17]:
train(
    dataset=ds_train,
    model=model,
    epochs=100,
    batch_size=256,
    optimizer=dec_optimizer,
    stopping_delta=0.000001,
    cuda=cuda,
)

100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:00<00:00, 77.25batch/s, dlb=-1.0000, epo=-1, lss=0.00000000]


Initial clustering...




Finished clustering...


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:02<00:00, 17.31batch/s, dlb=0.0000, epo=0, lss=0.01172207]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:02<00:00, 17.56batch/s, dlb=0.1994, epo=1, lss=0.01355991]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:02<00:00, 14.99batch/s, dlb=0.1230, epo=2, lss=0.01676047]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:02<00:00, 17.73batch/s, dlb=0.1294, epo=3, lss=0.02279610]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:02<00:00, 18.45batch/s, dlb=0.1184, epo=4, lss=0.02544575]
100%|████████████████████████████████████████████████████████████████████████████████

100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:02<00:00, 18.14batch/s, dlb=0.0808, epo=44, lss=0.10981750]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:02<00:00, 17.49batch/s, dlb=0.0915, epo=45, lss=0.12660478]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:02<00:00, 18.20batch/s, dlb=0.0400, epo=46, lss=0.12519570]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:02<00:00, 18.22batch/s, dlb=0.0476, epo=47, lss=0.11360678]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:02<00:00, 17.75batch/s, dlb=0.0604, epo=48, lss=0.12749654]
100%|████████████████████████████████████████████████████████████████████████████████

100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:02<00:00, 17.49batch/s, dlb=0.0551, epo=88, lss=0.16301878]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:02<00:00, 17.84batch/s, dlb=0.0313, epo=89, lss=0.18000768]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:02<00:00, 18.00batch/s, dlb=0.1499, epo=90, lss=0.19580615]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:02<00:00, 17.84batch/s, dlb=0.1036, epo=91, lss=0.18409552]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:02<00:00, 18.26batch/s, dlb=0.0871, epo=92, lss=0.18997686]
100%|████████████████████████████████████████████████████████████████████████████████

In [18]:
# Observe unbalance factor on the training set

partition_IDs_train = predict(
    ds_train, model, batch_size=1024, silent=True, return_actual=False, cuda=cuda
).cpu().numpy() 
print(partition_IDs_train)

# Create a mapping: partition ID -> {list of vector IDs}

partition_id_vec_id_list_train = dict()
for i in range(num_partition):
    partition_id_vec_id_list_train[i] = []


for i in range(num_vec_learn):
    partition_ID = int(partition_IDs_train[i])
    partition_id_vec_id_list_train[partition_ID].append(i)
    
for i in range(num_partition):
    print('items in partition ', i, len(partition_id_vec_id_list_train[i]), 'average =', int(num_vec_learn/num_partition))

[ 4 17 11 ... 14 29 30]
items in partition  0 253 average = 312
items in partition  1 859 average = 312
items in partition  2 6 average = 312
items in partition  3 2 average = 312
items in partition  4 22 average = 312
items in partition  5 3 average = 312
items in partition  6 765 average = 312
items in partition  7 49 average = 312
items in partition  8 210 average = 312
items in partition  9 451 average = 312
items in partition  10 262 average = 312
items in partition  11 624 average = 312
items in partition  12 11 average = 312
items in partition  13 0 average = 312
items in partition  14 704 average = 312
items in partition  15 456 average = 312
items in partition  16 238 average = 312
items in partition  17 19 average = 312
items in partition  18 6 average = 312
items in partition  19 60 average = 312
items in partition  20 73 average = 312
items in partition  21 111 average = 312
items in partition  22 236 average = 312
items in partition  23 242 average = 312
items in partition

In [19]:
ds_all = ds_train = SIFTDataset(
    torch.Tensor(xb))

In [20]:
predicted = predict(
    ds_all, model, batch_size=1024, silent=True, return_actual=False, cuda=cuda
)
partition_IDs = predicted.cpu().numpy() 
print('partition_IDs', partition_IDs)

partition_IDs [ 4 17 11 ... 30  6  1]


In [21]:
# Create a mapping: partition ID -> {list of vector IDs}

partition_id_vec_id_list_1M = dict()
for i in range(num_partition):
    partition_id_vec_id_list_1M[i] = []


for i in range(int(1e6)):
    partition_ID = int(partition_IDs[i])
    partition_id_vec_id_list_1M[partition_ID].append(i)
    
for i in range(num_partition):
    print('items in partition ', i, len(partition_id_vec_id_list_1M[i]), 'average =', int(1e6/num_partition))

items in partition  0 21408 average = 31250
items in partition  1 75668 average = 31250
items in partition  2 731 average = 31250
items in partition  3 249 average = 31250
items in partition  4 1548 average = 31250
items in partition  5 321 average = 31250
items in partition  6 92537 average = 31250
items in partition  7 3720 average = 31250
items in partition  8 19329 average = 31250
items in partition  9 43017 average = 31250
items in partition  10 27715 average = 31250
items in partition  11 76651 average = 31250
items in partition  12 1234 average = 31250
items in partition  13 85 average = 31250
items in partition  14 72140 average = 31250
items in partition  15 35602 average = 31250
items in partition  16 19934 average = 31250
items in partition  17 2971 average = 31250
items in partition  18 831 average = 31250
items in partition  19 4853 average = 31250
items in partition  20 6954 average = 31250
items in partition  21 9226 average = 31250
items in partition  22 18704 average =

In [22]:
import heapq

def scan_partition(query_vec, partition_id_list, vector_set):
    """
    query_vec = (128, )
    partition_id_list = (N_num_vec, )
    vector_set = 1M dataset (1M, 128)
    """
    min_dist = 1e10
    min_dist_ID = None
    for vec_id in partition_id_list:
        dataset_vec = vector_set[vec_id]
        dist = np.linalg.norm(query_vec - dataset_vec)
        if dist <= min_dist:
            min_dist = dist
            min_dist_ID = vec_id
            
    return min_dist_ID

In [23]:
nearest_neighbors = []

# N = 1000
N = 100
#### Wenqi: here had a bug: previously xb, now xq
ds_xq = SIFTDataset(torch.Tensor(xq))

query_partition = predict(
    ds_xq, model, batch_size=1024, silent=True, return_actual=False, cuda=cuda
).cpu().numpy()

for i in range(N):
    partition_id = int(query_partition[i])
    nearest_neighbor_ID = scan_partition(xq[i], partition_id_vec_id_list_1M[partition_id], xb)
    nearest_neighbors.append(nearest_neighbor_ID)
    print(i, nearest_neighbor_ID)

0 344333
1 588616
2 552515
3 335355
4 482427
5 508403
6 298789
7 690898
8 834657
9 861942
10 878295
11 98168
12 993424
13 359275
14 368047
15 776345
16 373550
17 862239
18 602078
19 84644
20 68023
21 985334
22 756153
23 443149
24 698614
25 557309
26 922290
27 221028
28 962851
29 785288
30 425493
31 75864
32 613130
33 909787
34 303455
35 825435
36 46982
37 252712
38 341091
39 856200
40 982373
41 499763
42 626882
43 43368
44 77190
45 955770
46 130405
47 283703
48 28097
49 69177
50 849174
51 467756
52 337481
53 485412
54 498421
55 882827
56 535502
57 567574
58 111148
59 12747
60 534495
61 330350
62 795958
63 113130
64 943477
65 715285
66 734494
67 850184
68 571831
69 434096
70 116383
71 60426
72 222336
73 556801
74 436415
75 699017
76 470987
77 717995
78 680004
79 694111
80 498186
81 380662
82 555466
83 34810
84 632431
85 853398
86 895265
87 138747
88 698591
89 845760
90 744108
91 490742
92 190435
93 617987
94 657946
95 954160
96 898436
97 776360
98 957055
99 72670


In [24]:
correct_count = 0
for i in range(N):
    if nearest_neighbors[i] == gt[i][0]:
        correct_count += 1
        
print(correct_count, 'recall@1 = ', correct_count / N)

59 recall@1 =  0.59
