# MultiVectorRetriever로 요약 기반 검색 구현하기

이 노트북에서는 **MultiVectorRetriever**를 사용하여 **요약으로 검색**하고 **원본 문서를 반환**하는 고급 RAG 패턴을 구현합니다.

## 일반 검색 vs MultiVector 검색

| 방식 | 검색 대상 | 반환 결과 |
|------|----------|----------|
| **일반** | 원본 청크 | 원본 청크 |
| **MultiVector** | 요약/임베딩 | 원본 문서 |

## MultiVectorRetriever의 장점

1. **검색 정확도 향상**: 요약이 핵심 내용을 담아 검색 품질 개선
2. **풍부한 컨텍스트**: 검색은 요약으로, 응답은 전체 문서로
3. **유연한 저장**: 벡터 저장소 + 문서 저장소 분리

## 아키텍처

```
┌─────────────────────────────────────────────────────────────┐
│                    MultiVectorRetriever                    │
├─────────────────────────┬───────────────────────────────────┤
│     Vector Store        │         Document Store           │
│   (요약 임베딩 저장)      │       (원본 문서 저장)            │
│                         │                                   │
│   요약1 → [벡터]         │   doc_id_1 → 원본 문서 1          │
│   요약2 → [벡터]         │   doc_id_2 → 원본 문서 2          │
└─────────────────────────┴───────────────────────────────────┘
            │                           │
            │  1. 쿼리로 요약 검색        │  2. doc_id로 원본 조회
            └───────────────────────────┘
```

---

# 1. Docker로 PGVector 실행

```bash
docker run --name pgvector-container \
    -e POSTGRES_USER=langchain -e POSTGRES_PASSWORD=langchain \
    -e POSTGRES_DB=langchain -p 6024:5432 -d pgvector/pgvector:pg16
```

# 2. 패키지 설치 및 Ollama 준비

In [None]:
!pip install -q langchain langchain-community langchain-postgres langchain-ollama langchain-text-splitters psycopg psycopg-binary

In [None]:
import subprocess
import time

!apt-get install -y zstd
!curl -fsSL https://ollama.com/install.sh | sh

subprocess.Popen(['ollama', 'serve'])
time.sleep(3)

!ollama pull llama3.2
!ollama pull nomic-embed-text

# 3. 테스트 문서 준비

In [None]:
sample_text = '''LangChain은 대규모 언어 모델(LLM)을 활용한 애플리케이션 개발을 위한 프레임워크입니다.
프롬프트 관리, 체인 구성, 데이터 연동 등 다양한 기능을 제공합니다.

RAG(Retrieval-Augmented Generation)는 검색 증강 생성 기술로, 외부 지식을 검색하여 LLM의 응답을 향상시킵니다.
Vector Store에 문서를 저장하고 유사도 검색을 통해 관련 정보를 찾습니다.

Embedding은 텍스트를 고차원 벡터로 변환하는 과정입니다. 의미가 비슷한 텍스트는 벡터 공간에서 가까운 위치에 있습니다.
OpenAI, Ollama 등 다양한 임베딩 모델을 사용할 수 있습니다.
'''

with open('./test.txt', 'w', encoding='utf-8') as f:
    f.write(sample_text)

print(f"test.txt 생성 완료 ({len(sample_text)}자)")

# 4. 문서 로드 및 분할

In [None]:
from langchain_community.document_loaders import TextLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter

# 문서 로드
loader = TextLoader('./test.txt', encoding='utf-8')
docs = loader.load()

# 문서 분할
splitter = RecursiveCharacterTextSplitter(chunk_size=200, chunk_overlap=50)
chunks = splitter.split_documents(docs)

print(f"원본 문서 길이: {len(docs[0].page_content)}자")
print(f"분할된 청크 수: {len(chunks)}")

# 5. 각 청크의 요약 생성

In [None]:
from langchain_ollama import ChatOllama
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser

# 요약 체인 생성
prompt = ChatPromptTemplate.from_template('다음 문서를 한 문장으로 요약하세요:\n\n{doc}')
llm = ChatOllama(model='llama3.2', temperature=0)

summarize_chain = {'doc': lambda x: x.page_content} | prompt | llm | StrOutputParser()

# 각 청크 요약 생성
summaries = summarize_chain.batch(chunks, {'max_concurrency': 2})

print("=== 생성된 요약 ===")
for i, summary in enumerate(summaries):
    print(f"\n[청크 {i+1}] {summary}")

# 6. MultiVectorRetriever 설정

In [None]:
from langchain_ollama import OllamaEmbeddings
from langchain_postgres.vectorstores import PGVector
from langchain.retrievers.multi_vector import MultiVectorRetriever
from langchain.storage import InMemoryStore
from langchain_core.documents import Document
import uuid

# 설정
connection = 'postgresql+psycopg://langchain:langchain@localhost:6024/langchain'
collection_name = 'summaries'
id_key = 'doc_id'

# 임베딩 모델
embeddings_model = OllamaEmbeddings(model='nomic-embed-text')

# Vector Store (요약 저장)
vectorstore = PGVector(
    embeddings=embeddings_model,
    collection_name=collection_name,
    connection=connection,
    use_jsonb=True,
)

# Document Store (원본 저장)
store = InMemoryStore()

# MultiVectorRetriever 생성
retriever = MultiVectorRetriever(
    vectorstore=vectorstore,
    docstore=store,
    id_key=id_key,
)

print("✅ MultiVectorRetriever 설정 완료")

# 7. 요약과 원본 문서 저장

In [None]:
# 각 청크에 고유 ID 부여
doc_ids = [str(uuid.uuid4()) for _ in chunks]

# 요약 문서 생성 (doc_id로 원본과 연결)
summary_docs = [
    Document(page_content=s, metadata={id_key: doc_ids[i]})
    for i, s in enumerate(summaries)
]

# Vector Store에 요약 저장
retriever.vectorstore.add_documents(summary_docs)

# Document Store에 원본 저장
retriever.docstore.mset(list(zip(doc_ids, chunks)))

print(f"✅ 요약 {len(summary_docs)}개 → Vector Store")
print(f"✅ 원본 {len(chunks)}개 → Document Store")

# 8. 검색 테스트

In [None]:
query = 'RAG가 뭔가요?'

# Vector Store에서 요약 검색
sub_docs = retriever.vectorstore.similarity_search(query, k=2)

print("=== Vector Store 검색 결과 (요약) ===")
for i, doc in enumerate(sub_docs):
    print(f"[{i+1}] {doc.page_content}")
    print(f"    길이: {len(doc.page_content)}자")

In [None]:
# MultiVectorRetriever로 검색 (원본 반환)
retrieved_docs = retriever.invoke(query)

print("\n=== Retriever 검색 결과 (원본) ===")
for i, doc in enumerate(retrieved_docs):
    print(f"\n[{i+1}] {doc.page_content}")
    print(f"    길이: {len(doc.page_content)}자")

---

## 코드 변경점 (OpenAI → Ollama)

```python
# 원본 (OpenAI)
from langchain_openai import OpenAIEmbeddings, ChatOpenAI
embeddings_model = OpenAIEmbeddings()
llm = ChatOpenAI(temperature=0, model='gpt-4o-mini')

# 변경 (Ollama)
from langchain_ollama import OllamaEmbeddings, ChatOllama
embeddings_model = OllamaEmbeddings(model='nomic-embed-text')
llm = ChatOllama(model='llama3.2', temperature=0)
```

## MultiVectorRetriever 활용 패턴

| 패턴 | Vector Store 저장 | Document Store 저장 |
|------|------------------|--------------------|
| **요약 기반** | 문서 요약 | 원본 문서 |
| **질문 기반** | 가상 질문들 | 원본 문서 |
| **작은 청크** | 작은 청크 | 큰 청크/전체 문서 |