`import faiss`와 `from langchain_community.vectorstores import FAISS`의 차이점을 마크다운 형태로 설명해드리겠습니다:

## `import faiss` vs `from langchain_community.vectorstores import FAISS`

### `import faiss`

- **원본 FAISS 라이브러리**: 이는 Facebook AI Research에서 개발한 원본 FAISS 라이브러리를 직접 임포트합니다.
- **저수준 API**: FAISS의 모든 저수준 기능에 직접 접근할 수 있습니다.
- **유연성**: 인덱스 생성, 검색, 클러스터링 등 FAISS의 모든 기능을 세밀하게 제어할 수 있습니다.
- **사용 사례**: 복잡한 벡터 검색 알고리즘을 직접 구현하거나 FAISS의 고급 기능을 사용해야 할 때 적합합니다.

### `from langchain_community.vectorstores import FAISS`

- **LangChain 래퍼**: 이는 LangChain 라이브러리에서 제공하는 FAISS 래퍼를 임포트합니다.
- **고수준 API**: LangChain의 추상화된 인터페이스를 통해 FAISS를 사용합니다.
- **통합성**: LangChain의 다른 컴포넌트들과 쉽게 통합할 수 있습니다.
- **사용 편의성**: 문서 임베딩, 저장, 검색 등의 작업을 LangChain의 인터페이스를 통해 간편하게 수행할 수 있습니다.
- **사용 사례**: RAG(Retrieval-Augmented Generation) 시스템 구축이나 LangChain의 다른 기능들과 함께 FAISS를 사용할 때 적합합니다.

### 주요 차이점

1. **추상화 수준**: `import faiss`는 저수준 접근을, `from langchain_community.vectorstores import FAISS`는 고수준 추상화를 제공합니다.
2. **사용 목적**: 전자는 FAISS의 모든 기능을 직접 다룰 때, 후자는 LangChain 생태계 내에서 FAISS를 사용할 때 적합합니다.
3. **통합성**: LangChain의 FAISS는 다른 LangChain 컴포넌트들과의 원활한 통합을 제공합니다.
4. **기능 범위**: 원본 FAISS는 모든 기능을 제공하지만, LangChain의 FAISS는 LangChain에 최적화된 기능들을 제공합니다.

선택은 프로젝트의 요구사항, 복잡성, 그리고 LangChain 생태계와의 통합 필요성에 따라 달라질 수 있습니다.

Citations:
[1] https://stackoverflow.com/questions/77883233/cannot-import-langchain-vectorstores-faiss-only-langchain-community-vectorstore
[2] https://github.com/facebookresearch/faiss
[3] https://ai.meta.com/tools/faiss/
[4] https://api.python.langchain.com/en/latest/vectorstores/langchain_community.vectorstores.faiss.FAISS.html
[5] https://python.langchain.com/docs/integrations/vectorstores/faiss/
[6] https://rfriend.tistory.com/826

In [2]:
# pip install faiss-cpu=1.9.0 설치 필요

In [1]:
import numpy as np 
import faiss  # faiss 라이브러리 직접 호출

In [3]:
dimension = 128    # 각 벡터의 차원                
n = 200    # 벡터 수                   
np.random.seed(1)             
db_vectors = np.random.random((n, dimension)).astype('float32') #(200 * 128) 벡터 행렬

In [4]:
db_vectors[0]

array([4.17021990e-01, 7.20324516e-01, 1.14374816e-04, 3.02332580e-01,
       1.46755889e-01, 9.23385918e-02, 1.86260208e-01, 3.45560730e-01,
       3.96767467e-01, 5.38816750e-01, 4.19194520e-01, 6.85219526e-01,
       2.04452246e-01, 8.78117442e-01, 2.73875929e-02, 6.70467496e-01,
       4.17304814e-01, 5.58689833e-01, 1.40386939e-01, 1.98101491e-01,
       8.00744593e-01, 9.68261600e-01, 3.13424170e-01, 6.92322612e-01,
       8.76389146e-01, 8.94606650e-01, 8.50442126e-02, 3.90547849e-02,
       1.69830427e-01, 8.78142476e-01, 9.83468369e-02, 4.21107620e-01,
       9.57889557e-01, 5.33165276e-01, 6.91877127e-01, 3.15515637e-01,
       6.86500907e-01, 8.34625661e-01, 1.82882771e-02, 7.50144303e-01,
       9.88861084e-01, 7.48165667e-01, 2.80443996e-01, 7.89279342e-01,
       1.03226006e-01, 4.47893530e-01, 9.08595502e-01, 2.93614149e-01,
       2.87775338e-01, 1.30028576e-01, 1.93669572e-02, 6.78835511e-01,
       2.11628109e-01, 2.65546650e-01, 4.91573155e-01, 5.33625446e-02,
      

In [5]:
len(db_vectors[0])

128

In [6]:
len(db_vectors)

200

#1. IndexFlatL2 (Flat Index)

가장 기본적인 인덱스로, 모든 벡터 간의 L2 거리(유클리드 거리)를 계산합니다. 정확도는 높지만 대규모 데이터셋에서는 속도가 느립니다.

주요 특징
L2 거리 측정: 벡터 간의 유클리드 거리를 계산하여 유사성을 평가합니다.

단순성: 복잡한 구조 없이 플랫(flat)하게 모든 벡터를 저장하고, 검색 시 전체 데이터셋을 순회하여 가장 유사한 벡터를 찾습니다.

빠른 검색 속도: 인덱스의 생성과 검색 속도가 매우 빠르며, GPU 가속을 사용할 경우 더욱 향상됩니다.

사용 용이성: 사용법이 직관적이며, 간단하게 인덱스를 생성하고 벡터를 추가할 수 있습니다.

In [7]:
# FAISS 인덱스 생성(가장 간단한 Index)
index_FlatL2 = faiss.IndexFlatL2(dimension) #128개 차원의 IndexFlatL2 생성

In [8]:
print(index_FlatL2.is_trained)   # Index의 훈련 유무 출력(False:훈련 안됨)
print(index_FlatL2.ntotal)       # Index에 들어있는 벡터 수 출력

True
0


In [9]:
index_FlatL2.add(db_vectors)     # Index 훈련
print(index_FlatL2.ntotal)       # Index에 들어있는 벡터 수 출력

200


In [10]:
# 질의 벡터 생성 및 검색 
query_vector = np.random.random((1, dimension)).astype('float32')


In [11]:
len(query_vector[0])

128

In [12]:
# 질의 벡터 검색
distances, indices = index_FlatL2.search(query_vector, 5) #검색 수행
print(indices) # 가까운 벡터의 인덱스 출력

[[ 16 167 160   8 163]]


In [13]:
print(distances) # 가까운 벡터의 거리 출력

[[17.039015 17.364923 17.437662 17.465065 17.481533]]


In [14]:
db_vectors[indices[0]][0]

array([0.495495  , 0.8244596 , 0.85397243, 0.59582996, 0.24017373,
       0.18649268, 0.7433905 , 0.23721406, 0.5394909 , 0.7492808 ,
       0.2282491 , 0.17450118, 0.03973569, 0.14756884, 0.8514389 ,
       0.10463591, 0.22364505, 0.0327572 , 0.6763566 , 0.23170315,
       0.4135917 , 0.13930117, 0.3772173 , 0.42443746, 0.47296494,
       0.42284182, 0.10275657, 0.77258027, 0.137206  , 0.4242924 ,
       0.27195612, 0.30100796, 0.6724208 , 0.51778674, 0.19008705,
       0.46913445, 0.33954087, 0.7044972 , 0.2260952 , 0.8449881 ,
       0.5262297 , 0.5006196 , 0.2536858 , 0.18615568, 0.47181907,
       0.9818244 , 0.13290624, 0.28346244, 0.8006412 , 0.6647769 ,
       0.2787584 , 0.31464761, 0.41994825, 0.6027868 , 0.7193388 ,
       0.85730034, 0.68111145, 0.23698206, 0.9257205 , 0.7811954 ,
       0.30738148, 0.30496565, 0.8811683 , 0.12607849, 0.6334608 ,
       0.27771273, 0.82720035, 0.36452344, 0.7333661 , 0.19241789,
       0.4814459 , 0.80359465, 0.3969882 , 0.16157404, 0.64898

In [15]:
#METRIC_L2 (유클리디안 거리의 제곱)
#가장 기본적이고 널리 사용되는 메트릭입니다.
#FAISS는 계산 효율성을 위해 실제 유클리디안 거리의 제곱값을 반환합니다15.
#정확한 유클리디안 거리가 필요한 경우, 결과값의 제곱근을 취해야 합니다.
np_distance = []

for a in db_vectors[indices[0]]:
    eu_distance = np.linalg.norm(query_vector- a)
    np_distance.append(eu_distance*eu_distance)


In [16]:
#index값으로 찾은 vector와 query vector 유클리디언값(의 제곱)
np_distance

[np.float32(17.039013),
 np.float32(17.364925),
 np.float32(17.437662),
 np.float32(17.465069),
 np.float32(17.481533)]

In [17]:
#index_FlatL2가 출력한 거리값(유클리디언값의 제곱)
print(distances) # 가까운 벡터의 거리 출력

[[17.039015 17.364923 17.437662 17.465065 17.481533]]


#2. IndexIVFFlat (Inverted File Index)

벡터 공간을 여러 클러스터로 나누어 검색을 최적화합니다. 속도와 정확도 사이의 균형을 제공합니다.

In [18]:
nlist = 5  # 클러스터 수 설정
quantizer = faiss.IndexFlatL2(dimension)  # 기본 인덱스로 사용할 L2 거리 인덱스
indexIVFFlat = faiss.IndexIVFFlat(quantizer, dimension, nlist, faiss.METRIC_L2)  # IVFFlat 인덱스 생성

# 인덱스 훈련 (벡터를 클러스터로 나누기 위해)
indexIVFFlat.train(db_vectors)


In [19]:
query_vector

array([[0.51896226, 0.47654015, 0.5368821 , 0.5282546 , 0.65948504,
        0.4634174 , 0.9187709 , 0.6178484 , 0.46681112, 0.41112924,
        0.29309502, 0.46059218, 0.31234762, 0.01826742, 0.58979994,
        0.87127876, 0.67501646, 0.18006566, 0.3065254 , 0.72627825,
        0.8692575 , 0.19019377, 0.9253766 , 0.70793074, 0.78773016,
        0.31132275, 0.01789206, 0.00957425, 0.49873832, 0.6273742 ,
        0.287044  , 0.9620488 , 0.60957676, 0.27828148, 0.77927214,
        0.03722881, 0.57655907, 0.32366726, 0.19875748, 0.9549968 ,
        0.9964548 , 0.46789098, 0.34161967, 0.20671977, 0.9509407 ,
        0.8603988 , 0.7644148 , 0.9189244 , 0.8834365 , 0.25827435,
        0.28686005, 0.06498376, 0.13621919, 0.650175  , 0.6910362 ,
        0.20218998, 0.18410665, 0.8459856 , 0.0833741 , 0.9938824 ,
        0.3509631 , 0.65216297, 0.9862028 , 0.04210377, 0.06414261,
        0.83648014, 0.25399518, 0.5138526 , 0.2941046 , 0.5587839 ,
        0.31048656, 0.8019319 , 0.09347726, 0.48

In [20]:
print(indexIVFFlat.is_trained)   # Index의 훈련 유무 출력(False:훈련 안됨)
print(indexIVFFlat.ntotal)       # Index에 들어있는 벡터 수 출력

True
0


In [21]:
indexIVFFlat.add(db_vectors)  # 데이터 추가

In [22]:
print(indexIVFFlat.is_trained)   # Index의 훈련 유무 출력(False:훈련 안됨)
print(indexIVFFlat.ntotal)       # Index에 들어있는 벡터 수 출력

True
200


In [None]:
#indexIVFFlat.nprobe = 2  # 검색 시 사용할 클러스터 수
# 질의 벡터 검색(검색시 사용할 클러스터 수를 선택하지 않으면 default값이 1이므로 1개의 cluster안에서만 찾는다)
# 장점 : 빠르다.(하나의 클러스터에서만 찾으므로)
# 단점 : 부정확해 진다.(Recall 하강) : 하나의 클러스터에서만 찾으므로로
distances_IVF, indices_IVF = indexIVFFlat.search(query_vector, 5) #검색 수행

In [28]:
print(f"IndexFlatL2 값 비교 index : {indices}")
print(f"IndexFlatL2 값 비교 distances : {distances}")  

IndexFlatL2 값 비교 index : [[ 16 167 160   8 163]]
IndexFlatL2 값 비교 distances : [[17.039015 17.364923 17.437662 17.465065 17.481533]]


In [None]:
print(f"indexIVFFlat 값 비교 index : {indices_IVF}")
print(f"indexIVFFlat 값 비교 distances : {distances_IVF}")

indexIVFFlat 값 비교 index : [[167 181  38 144 170]]
indexIVFFlat 값 비교 distances : [[17.364923 17.908379 18.201145 18.350655 19.192142]]
[[167 181  38 144 170]]


In [36]:
indexIVFFlat.nprobe = 3  # 검색 시 사용할 클러스터 수
distances_IVF_n3, indices_IVF_n3 = indexIVFFlat.search(query_vector, 5) #검색 수행

In [37]:
print(f"indexIVFFlat_n3 값 비교 index : {indices_IVF_n3}")
print(f"indexIVFFlat_n3 값 비교 distances : {distances_IVF_n3}")

indexIVFFlat_n3 값 비교 index : [[ 16 167 160   8 163]]
indexIVFFlat_n3 값 비교 distances : [[17.039015 17.364923 17.437662 17.465065 17.481533]]
