# Faiss 벡터 검색 사용 예제

Author: Seonghak Hong (euriion@gmail.com)


In [53]:
import faiss
import numpy as np
import random

# Euclidean distance 기반으로 가장 가까운 벡터를 찾는다.

# 랜덤으로 10차원 벡터를 10개 생성
vectors = [[random.uniform(0, 1) for _ in range(10)] for _ in range(10)]
# 10차원짜리 벡터를 검색하기 위한 Faiss index 생성
index = faiss.IndexFlatL2(10)
# Vector를 numpy array로 바꾸기
vectors = np.array(vectors).astype(np.float32)
# 아까 만든 10x10 벡터를 Faiss index에 넣기
index.add(vectors)
# query vector를 하나 만들기
query_vector = np.array([[random.uniform(0, 1) for x in range(10)]]).astype(np.float32)
print("query vector: {}".format(query_vector))
# 가장 가까운 것 10개 찾기
distances, indices = index.search(query_vector, 10)
# 결과룰 출력하자
idx = 0
for i in indices:
    print("v{}: {}, distance={}".format(idx+1, vectors[i], distances[idx]))
    idx += 1


query vector: [[0.99092835 0.6424907  0.19242574 0.44191882 0.9719657  0.32096317
  0.3221491  0.5291862  0.10524943 0.37904337]]
v1: [[0.48311773 0.5125576  0.04415051 0.19048905 0.640315   0.67975914
  0.62123054 0.19860634 0.1226014  0.14350584]
 [0.5231708  0.34349683 0.61495394 0.42633024 0.63343567 0.05917059
  0.5925913  0.6536068  0.16106145 0.8581775 ]
 [0.55810213 0.75012785 0.03090309 0.6702789  0.6343301  0.37299892
  0.16565157 0.27182403 0.9671715  0.5242486 ]
 [0.4282375  0.33768824 0.15171644 0.71543276 0.2411218  0.03796264
  0.97917724 0.41820064 0.00911446 0.08606671]
 [0.90534836 0.15784997 0.9030475  0.46479046 0.31039175 0.5322449
  0.38646728 0.31412506 0.5923455  0.01401036]
 [0.39931026 0.18326765 0.94036764 0.9344339  0.43895644 0.50720817
  0.13155618 0.94054854 0.5193809  0.71668357]
 [0.08157222 0.61879563 0.08331912 0.6033693  0.4613308  0.1446424
  0.09924842 0.953745   0.93600494 0.8260851 ]
 [0.18044488 0.84747636 0.15886351 0.37677786 0.6120634  0.8501

In [None]:
import faiss
import numpy as np
import random

# 코사인 유사도 (Cosine Similarity) 를 이용해서 가장 가까운 벡터를 찾으려면 몇가지를 바꿔줘야 한다.
# 코사인 유사도 (Cosine Similarity) 를 사용하려면 벡터 내적으로 색인하는 index를 만들면 된다.
# 코사인 유사도를 계산하라면 벡터 내적을 필연적으로 계산해야 하기 때문이다.

# 랜덤으로 10차원 벡터를 10개 생성
vectors = [[random.uniform(0, 1) for _ in range(10)] for _ in range(100)]
# 10차원짜리 벡터를 검색하기 위한 Faiss index를 생성
# 생성할 때 Inner Product을 검색할 수 있는 index를 생성한다.
index = faiss.IndexFlatIP(10)
# 아래는 위와 동일하다.
# index = faiss.index_factory(300, "Flat", faiss.METRIC_INNER_PRODUCT)

# Vector를 numpy array로 바꾸기
vectors = np.array(vectors).astype(np.float32)
# vectors를 노말라이즈 해준다.
faiss.normalize_L2(vectors)
# 아까 만든 10x10 벡터를 Faiss index에 넣기
index.add(vectors)
# query vector를 하나 만들기
query_vector = np.array([[random.uniform(0, 1) for x in range(10)]]).astype(np.float32)
print("query vector: {}".format(query_vector))
# 가장 가까운 것 10개 찾기
distances, indices = index.search(query_vector, 50)
# 결과룰 출력하자.
idx = 0
for i in indices:
    print("v{}: {}, distance={}".format(idx+1, vectors[i], distances[idx]))
    idx += 1

In [38]:
import faiss
import numpy as np
import random

# 코사인 유사도 (Cosine Similarity) 를 이용해서 가장 가까운 벡터를 찾으려면 몇가지를 바꿔줘야 한다.
# 코사인 유사도 (Cosine Similarity) 를 사용하려면 벡터 내적으로 색인하는 index를 만들면 된다.
# 코사인 유사도를 계산하라면 벡터 내적을 필연적으로 계산해야 하기 때문이다.

# 랜덤으로 10차원 벡터를 10개 생성
vectors = [[random.uniform(0, 1) for _ in range(10)] for _ in range(100)]
# 10차원짜리 벡터를 검색하기 위한 Faiss index를 생성
# 생성할 때 Inner Product을 검색할 수 있는 index를 생성한다.
index = faiss.IndexFlatIP(10)
# 아래는 위와 동일하다.
# index = faiss.index_factory(300, "Flat", faiss.METRIC_INNER_PRODUCT)

# Vector를 numpy array로 바꾸기
vectors = np.array(vectors).astype(np.float32)
# vectors를 노말라이즈 해준다.
# faiss.normalize_L2(vectors)
# # 아까 만든 10x10 벡터를 Faiss index에 넣기
# index.add(vectors)
# # query vector를 하나 만들기
# query_vector = np.array([[random.uniform(0, 1) for x in range(10)]]).astype(np.float32)
# print("query vector: {}".format(query_vector))
# # 가장 가까운 것 10개 찾기
# distances, indices = index.search(query_vector, 50)
# # 결과룰 출력하자.
# idx = 0
# for i in indices:
#     print("v{}: {}, distance={}".format(idx+1, vectors[i], distances[idx]))
#     idx += 1

x = vectors
ncentroids = 5
niter = 20
verbose = True
d = x.shape[1]
kmeans = faiss.Kmeans(d, ncentroids, niter=niter, verbose=verbose)
kmeans.train(x)
print(kmeans.centroids)
# print(kmeans.cp)
print(kmeans.d)
dists, ids = kmeans.index.search(x, 1)  # Need to run NN search again
print(ids)
print(table(ids))


[[0.51795244 0.51059    0.27449295 0.4227162  0.433006   0.64867437
  0.4996497  0.23361789 0.6905946  0.4505039 ]
 [0.57119924 0.73285085 0.28318357 0.49678525 0.4331371  0.28187403
  0.42733046 0.64524907 0.40087065 0.5333983 ]
 [0.46298298 0.7186831  0.79149437 0.4292828  0.3178853  0.69781345
  0.5875988  0.64751774 0.6327273  0.5934947 ]
 [0.64062786 0.37743732 0.60869217 0.39376754 0.5953659  0.2217783
  0.5766847  0.30119526 0.3944902  0.7059398 ]
 [0.5553941  0.31971022 0.5983054  0.39193648 0.67507285 0.5514962
  0.21154454 0.57149845 0.39249635 0.36750716]]
10
[[0]
 [2]
 [3]
 [4]
 [0]
 [0]
 [1]
 [0]
 [0]
 [4]
 [2]
 [1]
 [1]
 [0]
 [0]
 [3]
 [0]
 [0]
 [3]
 [0]
 [4]
 [3]
 [0]
 [4]
 [2]
 [1]
 [1]
 [1]
 [4]
 [0]
 [0]
 [0]
 [2]
 [2]
 [0]
 [4]
 [0]
 [1]
 [1]
 [4]
 [4]
 [2]
 [0]
 [2]
 [3]
 [0]
 [4]
 [0]
 [4]
 [0]
 [2]
 [3]
 [3]
 [4]
 [4]
 [0]
 [1]
 [3]
 [1]
 [4]
 [1]
 [4]
 [2]
 [2]
 [0]
 [3]
 [2]
 [4]
 [2]
 [1]
 [0]
 [0]
 [3]
 [3]
 [1]
 [3]
 [0]
 [0]
 [4]
 [1]
 [1]
 [1]
 [2]
 [0]
 [2

NameError: name 'table' is not defined