# Faiss 벡터 검색 사용 예제

Author: Seonghak Hong (euriion@gmail.com)


In [53]:
import faiss
import numpy as np
import random

# Euclidean distance 기반으로 가장 가까운 벡터를 찾는다.

# 랜덤으로 10차원 벡터를 10개 생성
vectors = [[random.uniform(0, 1) for _ in range(10)] for _ in range(10)]
# 10차원짜리 벡터를 검색하기 위한 Faiss index 생성
index = faiss.IndexFlatL2(10)
# Vector를 numpy array로 바꾸기
vectors = np.array(vectors).astype(np.float32)
# 아까 만든 10x10 벡터를 Faiss index에 넣기
index.add(vectors)
# query vector를 하나 만들기
query_vector = np.array([[random.uniform(0, 1) for x in range(10)]]).astype(np.float32)
print("query vector: {}".format(query_vector))
# 가장 가까운 것 10개 찾기
distances, indices = index.search(query_vector, 10)
# 결과룰 출력하자
idx = 0
for i in indices:
    print("v{}: {}, distance={}".format(idx+1, vectors[i], distances[idx]))
    idx += 1


query vector: [[0.99092835 0.6424907  0.19242574 0.44191882 0.9719657  0.32096317
  0.3221491  0.5291862  0.10524943 0.37904337]]
v1: [[0.48311773 0.5125576  0.04415051 0.19048905 0.640315   0.67975914
  0.62123054 0.19860634 0.1226014  0.14350584]
 [0.5231708  0.34349683 0.61495394 0.42633024 0.63343567 0.05917059
  0.5925913  0.6536068  0.16106145 0.8581775 ]
 [0.55810213 0.75012785 0.03090309 0.6702789  0.6343301  0.37299892
  0.16565157 0.27182403 0.9671715  0.5242486 ]
 [0.4282375  0.33768824 0.15171644 0.71543276 0.2411218  0.03796264
  0.97917724 0.41820064 0.00911446 0.08606671]
 [0.90534836 0.15784997 0.9030475  0.46479046 0.31039175 0.5322449
  0.38646728 0.31412506 0.5923455  0.01401036]
 [0.39931026 0.18326765 0.94036764 0.9344339  0.43895644 0.50720817
  0.13155618 0.94054854 0.5193809  0.71668357]
 [0.08157222 0.61879563 0.08331912 0.6033693  0.4613308  0.1446424
  0.09924842 0.953745   0.93600494 0.8260851 ]
 [0.18044488 0.84747636 0.15886351 0.37677786 0.6120634  0.8501

In [51]:
import faiss
import numpy as np
import random

# 코사인 유사도 (Cosine Similarity) 를 이용해서 가장 가까운 벡터를 찾으려면 몇가지를 바꿔줘야 한다.
# 코사인 유사도 (Cosine Similarity) 를 사용하려면 벡터 내적으로 색인하는 index를 만들면 된다.
# 코사인 유사도를 계산하라면 벡터 내적을 필연적으로 계산해야 하기 때문이다.

# 랜덤으로 10차원 벡터를 10개 생성
vectors = [[random.uniform(0, 1) for _ in range(10)] for _ in range(100)]
# 10차원짜리 벡터를 검색하기 위한 Faiss index를 생성
# 생성할 때 Inner Product을 검색할 수 있는 index를 생성한다.
index = faiss.IndexFlatIP(10)
# 아래는 위와 동일하다.
# index = faiss.index_factory(300, "Flat", faiss.METRIC_INNER_PRODUCT)

# Vector를 numpy array로 바꾸기
vectors = np.array(vectors).astype(np.float32)
# vectors를 노말라이즈 해준다.
faiss.normalize_L2(vectors)
# 아까 만든 10x10 벡터를 Faiss index에 넣기
index.add(vectors)
# query vector를 하나 만들기
query_vector = np.array([[random.uniform(0, 1) for x in range(10)]]).astype(np.float32)
print("query vector: {}".format(query_vector))
# 가장 가까운 것 10개 찾기
distances, indices = index.search(query_vector, 50)
# 결과룰 출력하자.
idx = 0
for i in indices:
    print("v{}: {}, distance={}".format(idx+1, vectors[i], distances[idx]))
    idx += 1


query vector: [[0.9539109  0.98588514 0.06137154 0.20406443 0.47436205 0.0840247
  0.8576965  0.51987016 0.2340505  0.26810268]]
v1: [[5.07359266e-01 3.47543508e-01 2.08085731e-01 2.26201519e-01
  2.49451339e-01 1.86013535e-01 5.82025111e-01 2.55678147e-01
  4.07425221e-04 1.62423924e-01]
 [4.17367101e-01 4.79687840e-01 2.40599718e-02 8.88273939e-02
  2.39837125e-01 1.70110345e-01 4.75901753e-01 1.62020758e-01
  1.85460463e-01 4.62219626e-01]
 [4.07184333e-01 3.94273788e-01 2.95143992e-01 1.45366579e-01
  1.41796932e-01 3.30610424e-02 3.81315619e-01 3.85614693e-01
  3.93291742e-01 3.17063808e-01]
 [3.46393168e-01 4.36849892e-01 1.38148382e-01 1.32537857e-01
  3.98356207e-02 2.63651371e-01 4.66068387e-01 5.31361401e-01
  3.22115049e-03 2.86092073e-01]
 [3.44326288e-01 4.19788837e-01 1.07735492e-01 1.18063152e-01
  1.32913321e-01 3.06226611e-01 4.78504002e-01 2.99537480e-01
  1.43470600e-01 4.78495210e-01]
 [3.57627928e-01 3.69877607e-01 2.14316666e-01 3.18009943e-01
  4.32272434e-01 2.3