# FAISS vs ChromaDB 간단 비교

### 1. 왜 벡터 데이터베이스가 여러 개일까?

LLM은 모든 지식을 기억하지 못하기 때문에,
우리는 문서를 벡터로 바꿔 저장해두고,
**질문에 맞는 문서를 먼저 검색해서 GPT에 전달하는 구조**를 사용합니다.

이게 바로 **RAG (Retrieval-Augmented Generation)** 구조입니다.

그런데 벡터를 저장하는 DB가 하나가 아니라 여러 개입니다.
왜일까요?

→ 목적과 기능에 따라 적합한 도구가 다르기 때문입니다.
그래서 이번에는 대표적인 두 가지 벡터 DB인 **FAISS**와 **ChromaDB**를 비교해보겠습니다.

---

### 2. FAISS와 ChromaDB 간단 비교

| 항목           | FAISS               | ChromaDB              |
| ------------ | ------------------- | --------------------- |
| 만든 곳         | Meta (Facebook AI)  | Chroma 팀 (오픈소스)       |
| 설치 방식        | 빠르고 간단              | 최근엔 설치 쉬워짐 (서버 옵션 포함) |
| 저장 구조        | `.faiss`, `.pkl` 파일 | SQLite 기반 또는 서버 API   |
| 메타데이터 저장     | 제한적                 | 매우 강력 (필터, 태그 등 가능)   |
| 필터링 검색       | 불가능                 | 가능                    |
| 적합한 사용처      | 개인용, 빠른 테스트, 단일 챗봇  | 상용 서비스, 조건 검색 챗봇      |
| LangChain 지원 | 매우 좋음               | 좋음 (강화 중)             |

---

### 3. 예시로,

**FAISS는 이런 경우 좋아요:**

* 빠르게 챗봇을 테스트하고 싶다
* 문서가 많지 않다
* 단순한 질문-응답이면 충분하다

**ChromaDB는 이런 경우 좋아요:**

* 문서에 태그나 카테고리를 붙이고 싶다
* "2023년 이후 한국어 문서 중…" 같은 조건 검색이 필요하다
* 검색 결과를 필터링하고 싶다
* 여러 사용자가 공유하는 검색 시스템을 만들고 싶다

---

### 4. 설치 명령어

```bash
pip install faiss-cpu
pip install chromadb
```

---

### 5. LangChain 코드 예시

**FAISS 사용 예시**

```python
from langchain.vectorstores import FAISS
index = FAISS.from_texts(texts, embedding)
```

**Chroma 사용 예시**

```python
from langchain.vectorstores import Chroma
index = Chroma.from_texts(texts, embedding, metadatas=[{"source": "문서1"}, ...])
```

Chroma는 `metadatas` 인자를 통해 문서마다 부가 정보를 넣을 수 있어요.
예: 문서명, 날짜, 언어, 카테고리 등.

---

### 6. 어떤 DB를 선택해야 할까?

| 상황                     | 추천 DB    |
| ---------------------- | -------- |
| 빠르게 실습하고 싶다            | FAISS    |
| 간단한 검색 챗봇을 만들고 싶다      | FAISS    |
| 문서 필터링, 태깅이 필요하다       | ChromaDB |
| 상용 서비스로 확장할 계획이 있다     | ChromaDB |
| 여러 언어/카테고리를 동시에 다루고 싶다 | ChromaDB |

---

### 7. 정리

* **FAISS**는 빠르고 간단합니다. 실습, 데모, 개인 프로젝트에 적합합니다.
* **ChromaDB**는 필터링과 메타데이터 기능이 뛰어나고,
  대규모 서비스 또는 검색 조건이 복잡한 챗봇에 더 어울립니다.

두 도구 모두 LangChain과 잘 연동되기 때문에,
**프로젝트의 목표와 규모에 따라 적절히 선택하는 것이 중요합니다.**
