Facebook AI Similarity Search (Faiss)는 밀집 벡터의 효율적인 유사도 검색과 클러스터링을 위한 라이브러리입니다.

Faiss는 RAM에 맞지 않을 수도 있는 벡터 집합을 포함하여 모든 크기의 벡터 집합을 검색하는 알고리즘을 포함하고 있습니다.

또한 평가와 매개변수 튜닝을 위한 지원 코드도 포함되어 있습니다.

**참고**
- [LangChain FAISS 문서](https://python.langchain.com/v0.2/docs/integrations/vectorstores/faiss/)
- [FAISS 문서](https://faiss.ai/)

In [1]:
import os

os.environ["OPENAI_API_KEY"] = "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"

os.environ["LANGCHAIN_API_KEY"] = "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"
os.environ["LANGCHAIN_TRACING_V2"] = "true"
os.environ["LANGCHAIN_ENDPOINT"] = "https://api.smith.langchain.com"
os.environ["LANGCHAIN_PROJECT"] = "09-02"

In [2]:
!pip install -qU langchain_community

[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.5/2.5 MB[0m [31m26.5 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.0/1.0 MB[0m [31m40.1 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m412.2/412.2 kB[0m [31m23.7 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m49.6/49.6 kB[0m [31m3.7 MB/s[0m eta [36m0:00:00[0m
[?25h

In [3]:
from langchain_community.document_loaders import TextLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter


# 텍스트 분할
text_splitter = RecursiveCharacterTextSplitter(chunk_size=600, chunk_overlap=0)

# 텍스트 파일을 load -> List[Document] 형태로 변환
loader1 = TextLoader("data/nlp-keywords.txt")
loader2 = TextLoader("data/finance-keywords.txt")

# 문서 분할
split_doc1 = loader1.load_and_split(text_splitter)
split_doc2 = loader2.load_and_split(text_splitter)

In [4]:
# 문서 개수 확인
len(split_doc1), len(split_doc2)

(11, 6)

### 1. 생성

In [5]:
!pip install -qU faiss-cpu langchain_openai

[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m27.5/27.5 MB[0m [31m36.9 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m54.3/54.3 kB[0m [31m4.0 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.2/1.2 MB[0m [31m45.5 MB/s[0m eta [36m0:00:00[0m
[?25h

In [6]:
import faiss
from langchain_community.vectorstores import FAISS
from langchain_community.docstore.in_memory import InMemoryDocstore
from langchain_openai import OpenAIEmbeddings

# 임베딩
embeddings = OpenAIEmbeddings()

# 임베딩 차원 크기를 계산
dimension_size = len(embeddings.embed_query("hello world"))
print(dimension_size)

1536


In [7]:
# 임베딩 모델을 강제로 설정하는 방법

# embeddings = OpenAIEmbeddings(model="text-embedding-3-small")
embeddings = OpenAIEmbeddings(model="text-embedding-3-large")

In [8]:
# 정리하면...
import faiss
from langchain_community.vectorstores import FAISS
from langchain_community.docstore.in_memory import InMemoryDocstore
from langchain_openai import OpenAIEmbeddings

# 임베딩
embeddings = OpenAIEmbeddings(model="text-embedding-3-small")

# 임베딩 차원 크기를 계산
dimension_size = len(embeddings.embed_query("hello world"))
print(dimension_size)

1536


In [9]:
db=FAISS(
    embedding_function=embeddings,
    index=faiss.IndexFlatL2(dimension_size),
    docstore=InMemoryDocstore(), #메모리 상주 휘발
    index_to_docstore_id={},
)

In [10]:
db = FAISS.from_documents(split_doc1, embeddings)

In [11]:
# 문서 저장소 ID 확인
db.index_to_docstore_id

{0: '5de6c586-e04e-4b54-a1df-41238fc7335a',
 1: '4f6eaf19-961a-4867-9e4d-e2138d125c81',
 2: '7568adee-41eb-4f10-8320-09e40db4c787',
 3: '473ed87d-bc92-409c-830a-4b268fd5d6ac',
 4: '8b761f60-0722-4429-858b-2ce61f13020e',
 5: '31ba632e-c3ad-4ddf-a65f-f4a483a94c56',
 6: '6fde1c41-7670-4eb1-bca2-25f4b24d8ad2',
 7: 'c589bf87-5f8c-4276-9092-881e65d5705d',
 8: '03b41281-7db6-45c3-b56f-afa276da3ad5',
 9: '145eff39-e23b-43b9-90ea-c0b6b39e0659',
 10: 'fce0b80b-9448-4ff0-bde2-6d7187b871f0'}

In [13]:
db.docstore._dict

{'5de6c586-e04e-4b54-a1df-41238fc7335a': Document(id='5de6c586-e04e-4b54-a1df-41238fc7335a', metadata={'source': 'data/nlp-keywords.txt'}, page_content='Semantic Search\n\n정의: 의미론적 검색은 사용자의 질의를 단순한 키워드 매칭을 넘어서 그 의미를 파악하여 관련된 결과를 반환하는 검색 방식입니다.\n예시: 사용자가 "태양계 행성"이라고 검색하면, "목성", "화성" 등과 같이 관련된 행성에 대한 정보를 반환합니다.\n연관키워드: 자연어 처리, 검색 알고리즘, 데이터 마이닝\n\nEmbedding\n\n정의: 임베딩은 단어나 문장 같은 텍스트 데이터를 저차원의 연속적인 벡터로 변환하는 과정입니다. 이를 통해 컴퓨터가 텍스트를 이해하고 처리할 수 있게 합니다.\n예시: "사과"라는 단어를 [0.65, -0.23, 0.17]과 같은 벡터로 표현합니다.\n연관키워드: 자연어 처리, 벡터화, 딥러닝\n\nToken\n\n정의: 토큰은 텍스트를 더 작은 단위로 분할하는 것을 의미합니다. 이는 일반적으로 단어, 문장, 또는 구절일 수 있습니다.\n예시: 문장 "나는 학교에 간다"를 "나는", "학교에", "간다"로 분할합니다.\n연관키워드: 토큰화, 자연어 처리, 구문 분석\n\nTokenizer'),
 '4f6eaf19-961a-4867-9e4d-e2138d125c81': Document(id='4f6eaf19-961a-4867-9e4d-e2138d125c81', metadata={'source': 'data/nlp-keywords.txt'}, page_content='정의: 토크나이저는 텍스트 데이터를 토큰으로 분할하는 도구입니다. 이는 자연어 처리에서 데이터를 전처리하는 데 사용됩니다.\n예시: "I love programming."이라는 문장을 ["I", "love", "programming", "."]으로 분할합니다.\n연관키워

### from_text

In [14]:
# db2는 text를 불러와서 만든 데이터베이스

db2 = FAISS.from_texts(
    ["1번 문서 입니다.", "2번 문서 입니다."],
    embedding=OpenAIEmbeddings(),
    metadatas=[{"source": "텍스트문서"}, {"source": "텍스트문서"}],
    ids=["doc1", "doc2"],
)

In [15]:
db2.docstore._dict

{'doc1': Document(id='doc1', metadata={'source': '텍스트문서'}, page_content='1번 문서 입니다.'),
 'doc2': Document(id='doc2', metadata={'source': '텍스트문서'}, page_content='2번 문서 입니다.')}

### 유사도 검사
**매개변수**

- `query` (str): 유사한 문서를 찾기 위한 검색 쿼리 텍스트
- `k` (int): 반환할 문서 수. 기본값은 4
- `filter` (Optional[Union[Callable, Dict[str, Any]]]): 메타데이터 필터링 함수 또는 딕셔너리. 기본값은 None
- `fetch_k` (int): 필터링 전에 가져올 문서 수. 기본값은 20
- `**kwargs`: 추가 키워드 인자

In [17]:
db.similarity_search("TF IDF 에 대하여 알려줘", k=2)

[Document(id='6fde1c41-7670-4eb1-bca2-25f4b24d8ad2', metadata={'source': 'data/nlp-keywords.txt'}, page_content='정의: TF-IDF는 문서 내에서 단어의 중요도를 평가하는 데 사용되는 통계적 척도입니다. 이는 문서 내 단어의 빈도와 전체 문서 집합에서 그 단어의 희소성을 고려합니다.\n예시: 많은 문서에서 자주 등장하지 않는 단어는 높은 TF-IDF 값을 가집니다.\n연관키워드: 자연어 처리, 정보 검색, 데이터 마이닝\n\nDeep Learning\n\n정의: 딥러닝은 인공신경망을 이용하여 복잡한 문제를 해결하는 머신러닝의 한 분야입니다. 이는 데이터에서 고수준의 표현을 학습하는 데 중점을 둡니다.\n예시: 이미지 인식, 음성 인식, 자연어 처리 등에서 딥러닝 모델이 활용됩니다.\n연관키워드: 인공신경망, 머신러닝, 데이터 분석\n\nSchema\n\n정의: 스키마는 데이터베이스나 파일의 구조를 정의하는 것으로, 데이터가 어떻게 저장되고 조직되는지에 대한 청사진을 제공합니다.\n예시: 관계형 데이터베이스의 테이블 스키마는 열 이름, 데이터 타입, 키 제약 조건 등을 정의합니다.\n연관키워드: 데이터베이스, 데이터 모델링, 데이터 관리\n\nDataFrame'),
 Document(id='31ba632e-c3ad-4ddf-a65f-f4a483a94c56', metadata={'source': 'data/nlp-keywords.txt'}, page_content='정의: 오픈 소스는 소스 코드가 공개되어 누구나 자유롭게 사용, 수정, 배포할 수 있는 소프트웨어를 의미합니다. 이는 협업과 혁신을 촉진하는 데 중요한 역할을 합니다.\n예시: 리눅스 운영 체제는 대표적인 오픈 소스 프로젝트입니다.\n연관키워드: 소프트웨어 개발, 커뮤니티, 기술 협업\n\nStructured Data\n\n정의: 구조화된 데이터는 정해진 형식이나 스키마에 따라 조직된 데이터입니다. 이는 데이터베이

In [19]:
db.similarity_search(
    "TF IDF 에 대하여 알려줘", filter={"source": "data/nlp-keywords.txt"}, k=2
)

[]

## 문서 추가 방법

In [20]:
from langchain_core.documents import Document

db.add_documents(
        [
        Document(
            page_content="안녕하세요! 이번엔 도큐먼트를 새로 추가해 볼께요",
            metadata={"source": "mydata.txt"},
        )
    ],
    ids=["new_doc1"],
)

['new_doc1']

In [22]:
# 추가된 데이터를 확인
db.similarity_search("안녕하세요", k=2)

[Document(id='new_doc1', metadata={'source': 'mydata.txt'}, page_content='안녕하세요! 이번엔 도큐먼트를 새로 추가해 볼께요'),
 Document(id='7568adee-41eb-4f10-8320-09e40db4c787', metadata={'source': 'data/nlp-keywords.txt'}, page_content='정의: CSV(Comma-Separated Values)는 데이터를 저장하는 파일 형식으로, 각 데이터 값은 쉼표로 구분됩니다. 표 형태의 데이터를 간단하게 저장하고 교환할 때 사용됩니다.\n예시: 이름, 나이, 직업이라는 헤더를 가진 CSV 파일에는 홍길동, 30, 개발자와 같은 데이터가 포함될 수 있습니다.\n연관키워드: 데이터 형식, 파일 처리, 데이터 교환\n\nJSON\n\n정의: JSON(JavaScript Object Notation)은 경량의 데이터 교환 형식으로, 사람과 기계 모두에게 읽기 쉬운 텍스트를 사용하여 데이터 객체를 표현합니다.\n예시: {"이름": "홍길동", "나이": 30, "직업": "개발자"}는 JSON 형식의 데이터입니다.\n연관키워드: 데이터 교환, 웹 개발, API\n\nTransformer\n\n정의: 트랜스포머는 자연어 처리에서 사용되는 딥러닝 모델의 한 유형으로, 주로 번역, 요약, 텍스트 생성 등에 사용됩니다. 이는 Attention 메커니즘을 기반으로 합니다.\n예시: 구글 번역기는 트랜스포머 모델을 사용하여 다양한 언어 간의 번역을 수행합니다.\n연관키워드: 딥러닝, 자연어 처리, Attention\n\nHuggingFace')]

### Text 추가

In [24]:
db.add_texts(
    ["이번엔 텍스트 데이터를 추가합니다.", "추가한 2번째 텍스트 데이터 입니다."],
    metadatas=[{"source": "mydata.txt"}, {"source": "mydata.txt"}],
    ids=["new_doc4", "new_doc5"],
    )

ValueError: Tried to add ids that already exist: {'new_doc5', 'new_doc4'}

In [25]:
db.index_to_docstore_id

{0: '5de6c586-e04e-4b54-a1df-41238fc7335a',
 1: '4f6eaf19-961a-4867-9e4d-e2138d125c81',
 2: '7568adee-41eb-4f10-8320-09e40db4c787',
 3: '473ed87d-bc92-409c-830a-4b268fd5d6ac',
 4: '8b761f60-0722-4429-858b-2ce61f13020e',
 5: '31ba632e-c3ad-4ddf-a65f-f4a483a94c56',
 6: '6fde1c41-7670-4eb1-bca2-25f4b24d8ad2',
 7: 'c589bf87-5f8c-4276-9092-881e65d5705d',
 8: '03b41281-7db6-45c3-b56f-afa276da3ad5',
 9: '145eff39-e23b-43b9-90ea-c0b6b39e0659',
 10: 'fce0b80b-9448-4ff0-bde2-6d7187b871f0',
 11: 'new_doc1',
 12: 'new_doc4',
 13: 'new_doc5'}

### 데이테 삭제

In [27]:
ids = db.add_texts(
    ["삭제용 데이터를 추가합니다.", "2번째 삭제용 데이터입니다."],
    metadatas=[{"source": "mydata.txt"}, {"source": "mydata.txt"}],
    ids=["delete_doc1", "delete_doc2"],
)

In [28]:
db.index_to_docstore_id

{0: '5de6c586-e04e-4b54-a1df-41238fc7335a',
 1: '4f6eaf19-961a-4867-9e4d-e2138d125c81',
 2: '7568adee-41eb-4f10-8320-09e40db4c787',
 3: '473ed87d-bc92-409c-830a-4b268fd5d6ac',
 4: '8b761f60-0722-4429-858b-2ce61f13020e',
 5: '31ba632e-c3ad-4ddf-a65f-f4a483a94c56',
 6: '6fde1c41-7670-4eb1-bca2-25f4b24d8ad2',
 7: 'c589bf87-5f8c-4276-9092-881e65d5705d',
 8: '03b41281-7db6-45c3-b56f-afa276da3ad5',
 9: '145eff39-e23b-43b9-90ea-c0b6b39e0659',
 10: 'fce0b80b-9448-4ff0-bde2-6d7187b871f0',
 11: 'new_doc1',
 12: 'new_doc4',
 13: 'new_doc5',
 14: 'delete_doc1',
 15: 'delete_doc2'}

In [29]:
print(ids)

['delete_doc1', 'delete_doc2']


In [30]:
db.delete(ids)

True

In [31]:
db.index_to_docstore_id

{0: '5de6c586-e04e-4b54-a1df-41238fc7335a',
 1: '4f6eaf19-961a-4867-9e4d-e2138d125c81',
 2: '7568adee-41eb-4f10-8320-09e40db4c787',
 3: '473ed87d-bc92-409c-830a-4b268fd5d6ac',
 4: '8b761f60-0722-4429-858b-2ce61f13020e',
 5: '31ba632e-c3ad-4ddf-a65f-f4a483a94c56',
 6: '6fde1c41-7670-4eb1-bca2-25f4b24d8ad2',
 7: 'c589bf87-5f8c-4276-9092-881e65d5705d',
 8: '03b41281-7db6-45c3-b56f-afa276da3ad5',
 9: '145eff39-e23b-43b9-90ea-c0b6b39e0659',
 10: 'fce0b80b-9448-4ff0-bde2-6d7187b871f0',
 11: 'new_doc1',
 12: 'new_doc4',
 13: 'new_doc5'}

### Retriever(as_Retriever)

In [33]:
db = FAISS.from_documents(
    documents=split_doc1 + split_doc2, embedding=OpenAIEmbeddings()
)

In [40]:
retriever =  db.as_retriever()
retriever.invoke("Word2Vec 에 대하여 알려줘")

[Document(id='2a04418e-03c8-474d-8d02-5d3f33785bae', metadata={'source': 'data/nlp-keywords.txt'}, page_content='정의: Word2Vec은 단어를 벡터 공간에 매핑하여 단어 간의 의미적 관계를 나타내는 자연어 처리 기술입니다. 이는 단어의 문맥적 유사성을 기반으로 벡터를 생성합니다.\n예시: Word2Vec 모델에서 "왕"과 "여왕"은 서로 가까운 위치에 벡터로 표현됩니다.\n연관키워드: 자연어 처리, 임베딩, 의미론적 유사성\nLLM (Large Language Model)\n\n정의: LLM은 대규모의 텍스트 데이터로 훈련된 큰 규모의 언어 모델을 의미합니다. 이러한 모델은 다양한 자연어 이해 및 생성 작업에 사용됩니다.\n예시: OpenAI의 GPT 시리즈는 대표적인 대규모 언어 모델입니다.\n연관키워드: 자연어 처리, 딥러닝, 텍스트 생성\n\nFAISS (Facebook AI Similarity Search)\n\n정의: FAISS는 페이스북에서 개발한 고속 유사성 검색 라이브러리로, 특히 대규모 벡터 집합에서 유사 벡터를 효과적으로 검색할 수 있도록 설계되었습니다.\n예시: 수백만 개의 이미지 벡터 중에서 비슷한 이미지를 빠르게 찾는 데 FAISS가 사용될 수 있습니다.\n연관키워드: 벡터 검색, 머신러닝, 데이터베이스 최적화\n\nOpen Source'),
 Document(id='a6e68cf2-c31a-4890-aa1f-49d146193ad9', metadata={'source': 'data/nlp-keywords.txt'}, page_content='정의: HuggingFace는 자연어 처리를 위한 다양한 사전 훈련된 모델과 도구를 제공하는 라이브러리입니다. 이는 연구자와 개발자들이 쉽게 NLP 작업을 수행할 수 있도록 돕습니다.\n예시: HuggingFace의 Transformers 라이브러리를 사용하여 감정 분석, 텍스트 생성 등의 작업을 수행할 수 있

In [39]:
retriever = db.as_retriever(
    search_type="mmr", search_kwargs={"k": 6, "lambda_mult": 0.25, "fetch_k": 10}
)

retriever.invoke("Word2Vec 에 대하여 알려줘")

[Document(id='2a04418e-03c8-474d-8d02-5d3f33785bae', metadata={'source': 'data/nlp-keywords.txt'}, page_content='정의: Word2Vec은 단어를 벡터 공간에 매핑하여 단어 간의 의미적 관계를 나타내는 자연어 처리 기술입니다. 이는 단어의 문맥적 유사성을 기반으로 벡터를 생성합니다.\n예시: Word2Vec 모델에서 "왕"과 "여왕"은 서로 가까운 위치에 벡터로 표현됩니다.\n연관키워드: 자연어 처리, 임베딩, 의미론적 유사성\nLLM (Large Language Model)\n\n정의: LLM은 대규모의 텍스트 데이터로 훈련된 큰 규모의 언어 모델을 의미합니다. 이러한 모델은 다양한 자연어 이해 및 생성 작업에 사용됩니다.\n예시: OpenAI의 GPT 시리즈는 대표적인 대규모 언어 모델입니다.\n연관키워드: 자연어 처리, 딥러닝, 텍스트 생성\n\nFAISS (Facebook AI Similarity Search)\n\n정의: FAISS는 페이스북에서 개발한 고속 유사성 검색 라이브러리로, 특히 대규모 벡터 집합에서 유사 벡터를 효과적으로 검색할 수 있도록 설계되었습니다.\n예시: 수백만 개의 이미지 벡터 중에서 비슷한 이미지를 빠르게 찾는 데 FAISS가 사용될 수 있습니다.\n연관키워드: 벡터 검색, 머신러닝, 데이터베이스 최적화\n\nOpen Source'),
 Document(id='bad411cc-5652-4baa-bd0a-823aa3f1ef3f', metadata={'source': 'data/nlp-keywords.txt'}, page_content='GPT (Generative Pretrained Transformer)\n\n정의: GPT는 대규모의 데이터셋으로 사전 훈련된 생성적 언어 모델로, 다양한 텍스트 기반 작업에 활용됩니다. 이는 입력된 텍스트에 기반하여 자연스러운 언어를 생성할 수 있습니다.\n예시: 사용자가 제공한 질문에 대해 자세한 답변을 생

In [43]:
# 임계값 기반 검색 수행
retriever = db.as_retriever(
    search_type="similarity_score_threshold", search_kwargs={"score_threshold": 0.8}
)

retriever.invoke("Word2Vec 에 대하여 알려줘")

[Document(id='2a04418e-03c8-474d-8d02-5d3f33785bae', metadata={'source': 'data/nlp-keywords.txt'}, page_content='정의: Word2Vec은 단어를 벡터 공간에 매핑하여 단어 간의 의미적 관계를 나타내는 자연어 처리 기술입니다. 이는 단어의 문맥적 유사성을 기반으로 벡터를 생성합니다.\n예시: Word2Vec 모델에서 "왕"과 "여왕"은 서로 가까운 위치에 벡터로 표현됩니다.\n연관키워드: 자연어 처리, 임베딩, 의미론적 유사성\nLLM (Large Language Model)\n\n정의: LLM은 대규모의 텍스트 데이터로 훈련된 큰 규모의 언어 모델을 의미합니다. 이러한 모델은 다양한 자연어 이해 및 생성 작업에 사용됩니다.\n예시: OpenAI의 GPT 시리즈는 대표적인 대규모 언어 모델입니다.\n연관키워드: 자연어 처리, 딥러닝, 텍스트 생성\n\nFAISS (Facebook AI Similarity Search)\n\n정의: FAISS는 페이스북에서 개발한 고속 유사성 검색 라이브러리로, 특히 대규모 벡터 집합에서 유사 벡터를 효과적으로 검색할 수 있도록 설계되었습니다.\n예시: 수백만 개의 이미지 벡터 중에서 비슷한 이미지를 빠르게 찾는 데 FAISS가 사용될 수 있습니다.\n연관키워드: 벡터 검색, 머신러닝, 데이터베이스 최적화\n\nOpen Source')]