In [8]:
from google.colab import drive
drive.mount('/content/drive')
%cd drive/My Drive/SLOSH/notebooks

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
[Errno 2] No such file or directory: 'drive/My Drive/SLOSH/notebooks'
/content/drive/My Drive/SLOSH/notebooks


In [None]:
!pip install pot

In [None]:
!apt install libomp-dev
!python -m pip install --upgrade faiss faiss-gpu

In [None]:
!pip install torch-scatter -f https://data.pyg.org/whl/torch-1.11.0+cu113.html
!pip install torch-sparse -f https://data.pyg.org/whl/torch-1.11.0+cu113.html
!pip install torch-geometric

In [15]:
import os
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import json
from utils.experiment import Experiment

In [21]:
df_train = pd.read_csv('../dataset/pointcloud_mnist_2d/train.csv')

X = df_train[df_train.columns[1:]].to_numpy()
y = df_train[df_train.columns[0]].to_numpy()

X = X.reshape(X.shape[0], -1, 3)

In [22]:
num_points = np.sum((X[:, :, 2] > 0).astype(int), axis=1)

In [23]:
set_size_median = np.median(num_points).astype(int)

### for hash code length = 1024, num_slices = 16 seems to be a good choice. 

In [None]:
dataset = 'point_mnist'
n_slices = 16
code_length = 1024
ks = [4, 8, 16]
ref = 'rand'

for k in ks:
    exp = Experiment(dataset, 'swe', 'faiss-lsh', ref_func=ref, k=k, ref_size=set_size_median, code_length=code_length, num_slices=n_slices)
    exp.test()
    report = exp.get_exp_report()
    print(report)

loading dataset...
compute base embedding...


100%|██████████| 60000/60000 [01:07<00:00, 892.22it/s]


compute query embedding...


100%|██████████| 10000/10000 [00:11<00:00, 846.43it/s]


{'dataset': 'point_mnist', 'pooling': 'swe', 'ann': 'faiss-lsh', 'k': 4, 'code_length': 1024, 'emb_time_per_sample': 0.0012313811302185058, 'inf_time_per_sample': 0.00823898148536682, 'acc': 0.9239, 'precision_k': 0.8998}
loading dataset...
loading cached base embedding...
compute query embedding...


100%|██████████| 10000/10000 [00:10<00:00, 913.34it/s]


### WE

In [26]:
dataset = 'point_mnist'
code_length = 1024
ks = [4, 8, 16]
ref = 'rand'

for k in ks:
    exp = Experiment(dataset, 'we', 'faiss-lsh', ref_func=ref, k=k, ref_size=set_size_median, code_length=code_length)
    exp.test()
    report = exp.get_exp_report()
    print(report)

loading dataset...
compute base embedding...


100%|██████████| 60000/60000 [05:14<00:00, 191.03it/s]


compute query embedding...


100%|██████████| 10000/10000 [00:52<00:00, 190.02it/s]


{'dataset': 'point_mnist', 'pooling': 'we', 'ann': 'faiss-lsh', 'k': 4, 'code_length': 1024, 'emb_time_per_sample': 0.0053001612901687626, 'inf_time_per_sample': 0.008354066348075867, 'acc': 0.9176, 'precision_k': 0.8842}
loading dataset...
loading cached base embedding...
compute query embedding...


 31%|███▏      | 3136/10000 [00:14<00:32, 211.92it/s]


KeyboardInterrupt: ignored

### FS

In [None]:
for k in ks:
    exp = Experiment(dataset, 'fs', 'faiss-lsh', ref_func=ref
                     k=k, ref_size=set_size_median, code_length=code_length)
    exp.test()
    report = exp.get_exp_report()
    print(report)

loading dataset...
compute base embedding...


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 60000/60000 [00:18<00:00, 3293.40it/s]


compute query embedding...


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:03<00:00, 3263.33it/s]


{'dataset': 'point_mnist', 'pooling': 'fs', 'ann': 'faiss-lsh', 'k': 4, 'code_length': 1024, 'emb_time_per_sample': 0.0003403717279434204, 'inf_time_per_sample': 0.0017324817895889282, 'acc': 0.802, 'precision_k': 0.750975}
loading dataset...
loading cached base embedding...
compute query embedding...


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:03<00:00, 3314.94it/s]


{'dataset': 'point_mnist', 'pooling': 'fs', 'ann': 'faiss-lsh', 'k': 8, 'code_length': 1024, 'emb_time_per_sample': 0.0003352112054824829, 'inf_time_per_sample': 0.0017015770435333253, 'acc': 0.8103, 'precision_k': 0.73945}
loading dataset...
loading cached base embedding...
compute query embedding...


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:02<00:00, 3335.58it/s]


{'dataset': 'point_mnist', 'pooling': 'fs', 'ann': 'faiss-lsh', 'k': 16, 'code_length': 1024, 'emb_time_per_sample': 0.00033334760665893555, 'inf_time_per_sample': 0.0017384511709213257, 'acc': 0.8111, 'precision_k': 0.7252625}


### Cov

In [None]:
for k in ks:
    exp = Experiment(dataset, 'cov', 'faiss-lsh',
                     k=k, ref_size=set_size_median, code_length=code_length)
    exp.test()
    report = exp.get_exp_report()
    print(report)

loading dataset...
loading cached base embedding...
compute query embedding...


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:01<00:00, 8049.62it/s]


{'dataset': 'point_mnist', 'pooling': 'cov', 'ann': 'faiss-lsh', 'k': 4, 'code_length': 1024, 'emb_time_per_sample': 0.0001822086811065674, 'inf_time_per_sample': 0.0015516494989395143, 'acc': 0.2646, 'precision_k': 0.24735}
loading dataset...
loading cached base embedding...
compute query embedding...


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:01<00:00, 9815.25it/s]


{'dataset': 'point_mnist', 'pooling': 'cov', 'ann': 'faiss-lsh', 'k': 8, 'code_length': 1024, 'emb_time_per_sample': 0.00014947879314422609, 'inf_time_per_sample': 0.0015460384368896484, 'acc': 0.2759, 'precision_k': 0.248125}
loading dataset...
loading cached base embedding...
compute query embedding...


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:01<00:00, 9662.92it/s]


{'dataset': 'point_mnist', 'pooling': 'cov', 'ann': 'faiss-lsh', 'k': 16, 'code_length': 1024, 'emb_time_per_sample': 0.00014962878227233888, 'inf_time_per_sample': 0.0015449572324752808, 'acc': 0.2812, 'precision_k': 0.248075}


### GeM-1

In [None]:
for k in ks:
    exp = Experiment(dataset, 'gem', 'faiss-lsh',
                     k=k, ref_size=set_size_median, code_length=code_length, power=1)
    exp.test()
    report = exp.get_exp_report()
    print(report)

loading dataset...
loading cached base embedding...
compute query embedding...


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:01<00:00, 7619.97it/s]


{'dataset': 'point_mnist', 'pooling': 'gem', 'ann': 'faiss-lsh', 'k': 4, 'code_length': 1024, 'power': 1, 'emb_time_per_sample': 0.00017664244174957276, 'inf_time_per_sample': 0.0016095367908477783, 'acc': 0.1087, 'precision_k': 0.10435}
loading dataset...
loading cached base embedding...
compute query embedding...


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:00<00:00, 12088.44it/s]


{'dataset': 'point_mnist', 'pooling': 'gem', 'ann': 'faiss-lsh', 'k': 8, 'code_length': 1024, 'power': 1, 'emb_time_per_sample': 0.0001273646116256714, 'inf_time_per_sample': 0.0015622020959854125, 'acc': 0.1041, 'precision_k': 0.1022375}
loading dataset...
loading cached base embedding...
compute query embedding...


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:00<00:00, 11363.95it/s]


{'dataset': 'point_mnist', 'pooling': 'gem', 'ann': 'faiss-lsh', 'k': 16, 'code_length': 1024, 'power': 1, 'emb_time_per_sample': 0.0001340193510055542, 'inf_time_per_sample': 0.0015781039714813233, 'acc': 0.1, 'precision_k': 0.10121875}


### GeM-2

In [None]:
for k in ks:
    exp = Experiment(dataset, 'gem', 'faiss-lsh',
                     k=k, ref_size=set_size_median, code_length=code_length, power=2)
    exp.test()
    report = exp.get_exp_report()
    print(report)

loading dataset...
loading cached base embedding...
compute query embedding...


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:01<00:00, 6510.79it/s]


{'dataset': 'point_mnist', 'pooling': 'gem', 'ann': 'faiss-lsh', 'k': 4, 'code_length': 1024, 'power': 2, 'emb_time_per_sample': 0.0001901921272277832, 'inf_time_per_sample': 0.0015851128101348876, 'acc': 0.3213, 'precision_k': 0.2871}
loading dataset...
loading cached base embedding...
compute query embedding...


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:01<00:00, 6726.35it/s]


{'dataset': 'point_mnist', 'pooling': 'gem', 'ann': 'faiss-lsh', 'k': 8, 'code_length': 1024, 'power': 2, 'emb_time_per_sample': 0.00018369460105895996, 'inf_time_per_sample': 0.0015737371921539308, 'acc': 0.3468, 'precision_k': 0.285725}
loading dataset...
loading cached base embedding...
compute query embedding...


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:01<00:00, 6757.58it/s]


{'dataset': 'point_mnist', 'pooling': 'gem', 'ann': 'faiss-lsh', 'k': 16, 'code_length': 1024, 'power': 2, 'emb_time_per_sample': 0.00018286497592926026, 'inf_time_per_sample': 0.0015803641080856324, 'acc': 0.3706, 'precision_k': 0.289075}


### GeM-4

In [None]:
for k in ks:
    exp = Experiment(dataset, 'gem', 'faiss-lsh',
                     k=k, ref_size=set_size_median, code_length=code_length, power=4)
    exp.test()
    report = exp.get_exp_report()
    print(report)

loading dataset...
loading cached base embedding...
compute query embedding...


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:02<00:00, 3508.08it/s]


{'dataset': 'point_mnist', 'pooling': 'gem', 'ann': 'faiss-lsh', 'k': 4, 'code_length': 1024, 'power': 4, 'emb_time_per_sample': 0.00032054927349090575, 'inf_time_per_sample': 0.0015862467765808106, 'acc': 0.446, 'precision_k': 0.3936}
loading dataset...
loading cached base embedding...
compute query embedding...


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:02<00:00, 3565.40it/s]


{'dataset': 'point_mnist', 'pooling': 'gem', 'ann': 'faiss-lsh', 'k': 8, 'code_length': 1024, 'power': 4, 'emb_time_per_sample': 0.00032522447109222414, 'inf_time_per_sample': 0.0015526922941207885, 'acc': 0.4715, 'precision_k': 0.390475}
loading dataset...
loading cached base embedding...
compute query embedding...


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:02<00:00, 3601.88it/s]


{'dataset': 'point_mnist', 'pooling': 'gem', 'ann': 'faiss-lsh', 'k': 16, 'code_length': 1024, 'power': 4, 'emb_time_per_sample': 0.0003128605842590332, 'inf_time_per_sample': 0.0015791620016098022, 'acc': 0.4872, 'precision_k': 0.383075}
