# Gemini 임베딩 & FAISS 벡터스토어 샘플 코드 설명

---

## 1. 코드의 목적

- **목적:**  
  Google Gemini 기반 임베딩(embedding)을 활용하여  
  여러 문장(문서)을 벡터로 변환하고,  
  FAISS 벡터스토어에 저장한 뒤  
  질의(query)와 가장 유사한 문서를 검색하는 RAG 핵심 파이프라인을 실습한다.

---

In [8]:
from dotenv import load_dotenv
from langchain_google_genai import GoogleGenerativeAIEmbeddings
from langchain_community.vectorstores import FAISS

# 환경변수 로드
load_dotenv()


# 문서 준비
documents = [
    "LangChain은 AI 애플리케이션 개발 프레임워크입니다.",
    "Python은 데이터 과학과 AI 개발에 널리 사용되는 언어입니다.",
    "OpenAI GPT 모델은 자연어 처리에 강력한 성능을 보입니다.",
    "벡터 데이터베이스는 유사도 검색에 최적화되어 있습니다.",
    "바닷가에 윈드 서핑 하면 재미 있습니다."
]

# 벡터DB(Vector Database)란 무엇인가?

---

## 1. 정의

- **벡터DB**는 텍스트·이미지·오디오 등 다양한 데이터를  
  **고차원 벡터(임베딩)** 형태로 저장하고,
  입력 쿼리 벡터와 **유사도 검색(Nearest Neighbor Search)**을  
  고속으로 처리하는 데이터베이스 시스템입니다.

---

## 2. 동작 원리

- 일반적인 RDB/NoSQL은 "정확 일치" 또는 "필드 기반" 검색이 주류
- 벡터DB는 임베딩(embedding)된 벡터 공간에서  
  **"의미적으로 유사한 데이터"를 빠르게 찾는** 것이 핵심
- ANN(Approximate Nearest Neighbor), 해싱, 트리, 인덱스 등  
  고속 유사도 탐색 알고리즘이 핵심 엔진

---

## 3. 주요 특징

- **초고속 유사도 검색:**  
  수십~수억 개 벡터에서 수 밀리초 이내로 가장 유사한 데이터 검색
- **확장성:**  
  대용량 분산 구조, 클라우드 지원, 수평 확장 용이
- **다양한 데이터 타입 지원:**  
  텍스트, 이미지, 비디오, 오디오, 복합 데이터 모두 저장 가능
- **현대 AI/RAG 파이프라인의 표준 스토리지**

---

## 4. 대표적인 벡터DB 솔루션

- **FAISS:**  
  Facebook이 개발한 오픈소스, 파이썬/C++ API
- **Pinecone:**  
  상용 클라우드 벡터DB, RAG에 최적화
- **Chroma:**  
  오픈소스, 간편한 로컬 DB/메모리 기반 실습에 강점
- **Milvus:**  
  분산형 오픈소스, 초대형 실시간 검색에 최적화
- **Weaviate:**  
  시맨틱 검색, 그래프, 온프렘/클라우드 지원

---

## 5. 실무에서의 역할

- **RAG(검색 증강 생성):**  
  LLM 질의와 의미적으로 가장 가까운 문서를 실시간 검색해  
  프롬프트에 자동 증강
- **시맨틱 검색:**  
  사용자가 입력한 자연어 쿼리와 의미적으로 유사한 컨텐츠 추천
- **추천 시스템, 이상 탐지, 이미지/비디오 검색 등**  
  의미 기반 유사도 비교가 중요한 모든 AI 분야에서 활용

---

In [12]:
# Gemini 임베딩 생성
embeddings = GoogleGenerativeAIEmbeddings(
    model="models/embedding-001"  # 최신 임베딩 모델명(생략 가능)
    # api_key는 .env의 GOOGLE_API_KEY를 자동 인식
)

# 벡터 저장소 생성
vectorstore = FAISS.from_texts(documents, embeddings)

# 유사도 검색
query = "AI 개발 프레임워크"
similar_docs = vectorstore.similarity_search(query, k=2)

print("검색 결과:")
for doc in similar_docs:
    print(f"- {doc.page_content}")

검색 결과:
- Python은 데이터 과학과 AI 개발에 널리 사용되는 언어입니다.
- OpenAI GPT 모델은 자연어 처리에 강력한 성능을 보입니다.
