In [1]:
import pickle

from pyprojroot import here

from fastwlk.kernel import WeisfeilerLehmanKernel


In [2]:
# Let's first load some graphs from a pickle file
with open(here() / "data/graphs.pkl", "rb") as f:
        graphs = pickle.load(f)

In [3]:
wl_kernel = WeisfeilerLehmanKernel(
        n_jobs=6, n_iter=4, node_label="residue", biased=True, verbose=True
)
# Returns self-similarity kernel matrix
KX = wl_kernel.compute_gram_matrix(graphs)

# Returns similarity kernel matrix between two different graph distributions
KXY = wl_kernel.compute_gram_matrix(graphs[:30], graphs[30:])

Compute hashes of X: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 100/100 [00:01<00:00, 95.26it/s]
Compute dot products: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 18.84it/s]
Compute hashes of X: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30/30 [00:00<00:00, 131.14it/s]
Compute hashes of Y: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 70/70 [00:00<00:00, 132.53it/s]
Compute dot products: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 21.19it/s]


In [4]:
print(KX.shape)
print(KXY.shape)

(100, 100)
(30, 70)


In [5]:
# It's also possible to get an unbiased version of the kernel matrix, avoiding comparing X_i to itself, saving even more computations.
# This can be useful when evaluating unbiased estimates of the maximum mean discrepancy and other similarity measures in RKHS.

wl_kernel_unbiased = WeisfeilerLehmanKernel(
        n_jobs=6, n_iter=4, node_label="residue", biased=False, verbose=True,
    )
# Returns unbiased self-similarity kernel matrix
KX_unbiased = wl_kernel_unbiased.compute_gram_matrix(graphs)

wl_kernel_biased = WeisfeilerLehmanKernel(
    n_jobs=6, n_iter=4, node_label="residue", biased=True, verbose=True,
)
# Returns biased self-similarity kernel matrix
KX_biased = wl_kernel_biased.compute_gram_matrix(graphs)

Compute hashes of X: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 136.93it/s]
Compute dot products: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 17.61it/s]
Compute hashes of X: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 133.78it/s]
Compute dot products: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 18.33it/s]


In [6]:
print("Unbiased kernel matrix:")
print(KX_unbiased)
print("Full kernel matrix:")
print(KX_biased)

Unbiased kernel matrix:
[[    0  5062  5009 ...  6347  7039 15688]
 [ 5062     0  9726 ... 13401 16818 34219]
 [ 5009  9726     0 ... 12198 15083 31149]
 ...
 [ 6347 13401 12198 ...     0 17613 43219]
 [ 7039 16818 15083 ... 17613     0 42820]
 [15688 34219 31149 ... 43219 42820     0]]
Full kernel matrix:
[[  3608   5062   5009 ...   6347   7039  15688]
 [  5062  14532   9726 ...  13401  16818  34219]
 [  5009   9726  13649 ...  12198  15083  31149]
 ...
 [  6347  13401  12198 ...  19780  17613  43219]
 [  7039  16818  15083 ...  17613  28336  42820]
 [ 15688  34219  31149 ...  43219  42820 130398]]
