Locality Sensitive Hashing (LSH)의 실습을 위하여 50차원 크기의 인공데이터 100만개를 만듦니다

In [1]:
import numpy as np

x = np.random.random_sample((1000000, 50))
x.shape

(1000000, 50)

LSHForest는 Cosine distance를 이용하는 LSH 입니다 (min-hash).빠른 검색을 위하여 hash table의 개수는 4개로 하였습니다.

In [2]:
%%time
from sklearn.neighbors import LSHForest

lsh = LSHForest(n_estimators=4)
lsh.fit(x)

CPU times: user 8.63 s, sys: 420 ms, total: 9.05 s
Wall time: 2.12 s


하나의 query vector의 최인접 이웃 10개를 검색합니다. Return 은 distance vector와 각 distance에 해당하는 x의 row id가 출력됩니다. query vector는 x의 33번째 row를 선택하였으며, 최인접이웃 10개를 선택하였습니다. 

In [3]:
%%time
dist, idxs = lsh.kneighbors(x[33,:], n_neighbors=10)

CPU times: user 68 ms, sys: 0 ns, total: 68 ms
Wall time: 10.4 ms




query vector와 동일한 벡터, 33번이 검색되었음을 확인했습니다. dist가 list of list인 이유는 한 번에 여러 개의 query vectors에 대하여 최인접이웃을 검색할 수 있기 때문입니다. 10개의 query vector에 대하여 5개의 neighbors를 구하겠습니다.

In [4]:
print(dist)
print(idxs)

[[ 0.          0.13185844  0.14851666  0.15954623  0.16006162  0.16303779
   0.16604408  0.16753315  0.16769955  0.16891401]]
[[    33 544853 967250 721124 277148  78465  56763 727885 737956  44941]]


kneighbors는 하나의 row에 대하여 최인접 이웃을 계산할 수도 있지만, 여러 개의 query points에 대해서도 최인접 이웃을 찾을 수도 있습니다. 그렇기 때문에 dist의 type이 list of list입니다. 

이번에는 0 ~ 9까지 10개의 rows에 대하여 각각 이웃을 5개씩 찾아봅니다. 

그 결과 dist의 shape은 (10, 5)임을 알 수 있습니다. dist의 각 row는 query point에 해당하고, 최인접이웃에 대하여 각각 row 마다 5개의 distance가 계산된 것입니다. 

In [5]:
%%time
dist, idxs = lsh.kneighbors(x[:10,], n_neighbors=5)
print(dist.shape)

(10, 5)
CPU times: user 736 ms, sys: 16 ms, total: 752 ms
Wall time: 133 ms


10개의 query vector에 대하여 full search로 최인접이웃을 찾을 때의 거리 계산 비용을 알아봅니다. 이를 통하여 full search 대비 LSH가 얼마나 효율적으로 최인접 이웃을 찾는지 비교해 봅니다. 

full search를 하였긔 때문에 dist_full의 크기는 (1000000, 10) 입니다. 이로부터 최인접이웃 5개를 선택하기 위하여 sorting을 수행합니다.

In [6]:
%%time

from sklearn.metrics import pairwise_distances
dist_full = pairwise_distances(x, x[:10])
dist_full.shape

CPU times: user 728 ms, sys: 28 ms, total: 756 ms
Wall time: 191 ms


거리 계산 이후 최인접 이웃을 찾기 위해 sorting 하는 시간도 오래 걸립니다. LSHForest.kneighbors는 이 부분까지 모두 합쳐져 연산한 속도입니다. pairwise_distances의 계산 외에도, sorting에 오랜 계산시간이 필요함을 볼 수 있습니다. 

In [7]:
%%time

dist = []
idxs = []

for i in range(dist_full.shape[1]):
    sorted_dist = sorted(enumerate(dist_full[:,i]), key=lambda x:x[1])[:5]
    idxs_, dist_ = zip(*sorted_dist)
    dist.append(dist_)
    idxs.append(idxs_)

CPU times: user 12 s, sys: 40 ms, total: 12.1 s
Wall time: 12.1 s


LSHForest는 pickling을 통하여 저장할 수도 있습니다. 결과는 학습했던 lsh와 동일함을 확인할 수 있습니다. 

In [8]:
import pickle

with open('test_lsh.pkl', 'wb') as f:
    pickle.dump(lsh, f)
    
with open('test_lsh.pkl', 'rb') as f:
    loaded_lsh = pickle.load(f)
    
loaded_lsh.kneighbors(x[0,:])



(array([[ 0.        ,  0.11667873,  0.11809049,  0.12341265,  0.12595964]]),
 array([[     0, 632818, 425507, 844380, 407543]]))