# HyDE: 가상 문서로 검색하기

이 노트북에서는 **HyDE (Hypothetical Document Embeddings)** 기법을 배웁니다.

## HyDE란?

**HyDE**는 "가설적 문서 임베딩"이라는 뜻입니다.

### 기존 검색의 문제

```
┌────────────────────────────────────────────────────────────────────┐
│                     기존 검색의 한계                               │
├────────────────────────────────────────────────────────────────────┤
│                                                                    │
│   질문: "잘 알려지지 않은 고대 그리스 철학자는 누구인가요?"          │
│                       │                                           │
│                       ▼                                           │
│   질문을 임베딩 ───▶ [0.23, -0.45, ...] ───▶ 문서 검색            │
│                                                                    │
│   ❌ 문제: 질문의 임베딩 ≠ 답변 문서의 임베딩                       │
│           (질문과 답변은 형태가 다르기 때문!)                       │
│                                                                    │
└────────────────────────────────────────────────────────────────────┘
```

### HyDE의 해결책

```
┌────────────────────────────────────────────────────────────────────┐
│                      HyDE의 혁신적 접근                            │
├────────────────────────────────────────────────────────────────────┤
│                                                                    │
│   1️⃣ 질문을 받음                                                  │
│      "잘 알려지지 않은 고대 그리스 철학자는 누구인가요?"            │
│                       │                                           │
│                       ▼                                           │
│   2️⃣ LLM이 가상의 답변 문서를 생성                                │
│      "Among lesser-known Greek philosophers,                      │
│       Heraclitus proposed that fire is the..."                    │
│                       │                                           │
│                       ▼                                           │
│   3️⃣ 가상 문서를 임베딩하여 검색                                   │
│      [가상 문서 임베딩] ≈ [실제 답변 문서 임베딩]                   │
│                                                                    │
│   ✅ 문서 형태로 검색하니까 더 정확한 결과!                         │
│                                                                    │
└────────────────────────────────────────────────────────────────────┘
```

### 핵심 아이디어

> "질문으로 검색하지 말고, **답변처럼 생긴 가상 문서**로 검색하자!"

---

# 1. 환경 설정

In [None]:
!pip install -q langchain langchain-community langchain-postgres langchain-ollama langchain-text-splitters psycopg psycopg-binary

In [None]:
import subprocess
import time

!apt-get install -y zstd
!curl -fsSL https://ollama.com/install.sh | sh

subprocess.Popen(['ollama', 'serve'])
time.sleep(3)

!ollama pull llama3.2
!ollama pull nomic-embed-text

# 2. 벡터 저장소 준비

In [None]:
# 테스트 문서 생성
sample_text = '''고대 그리스 철학사

소크라테스(Socrates, BC 470-399)는 서양 철학의 창시자로 불립니다.
"너 자신을 알라"는 그의 유명한 가르침입니다.
소크라테스는 대화를 통해 진리를 탐구하는 문답법을 사용했습니다.

플라톤(Plato, BC 428-348)은 소크라테스의 제자였습니다.
그는 이데아론을 주장했는데, 현실 세계는 이상적인 형태(이데아)의 불완전한 복사본이라고 했습니다.
플라톤은 아카데미아라는 학교를 세웠습니다.

아리스토텔레스(Aristotle, BC 384-322)는 플라톤의 제자였습니다.
그는 논리학, 생물학, 윤리학 등 다양한 분야를 연구했습니다.
아리스토텔레스는 알렉산더 대왕의 스승이기도 했습니다.

헤라클레이토스(Heraclitus, BC 535-475)는 "만물은 유전한다"고 주장했습니다.
그는 불이 만물의 근원이라고 생각했습니다.
헤라클레이토스는 "같은 강에 두 번 들어갈 수 없다"는 말로 유명합니다.

파르메니데스(Parmenides, BC 515-450)는 존재론의 아버지로 불립니다.
그는 변화는 환상이고 진정한 존재는 불변한다고 주장했습니다.
'''

with open('./test.txt', 'w', encoding='utf-8') as f:
    f.write(sample_text)

print("test.txt 생성 완료")

In [None]:
from langchain_community.document_loaders import TextLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_ollama import OllamaEmbeddings, ChatOllama
from langchain_postgres.vectorstores import PGVector
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import chain

connection = 'postgresql+psycopg://langchain:langchain@localhost:6024/langchain'

# 문서 로드 및 분할
raw_documents = TextLoader('./test.txt', encoding='utf-8').load()
text_splitter = RecursiveCharacterTextSplitter(chunk_size=200, chunk_overlap=30)
documents = text_splitter.split_documents(raw_documents)

# 벡터 저장소 생성
embeddings_model = OllamaEmbeddings(model='nomic-embed-text')
db = PGVector.from_documents(documents, embeddings_model, connection=connection)
retriever = db.as_retriever(search_kwargs={'k': 5})

print(f"✅ 벡터 저장소 준비 완료 (문서 {len(documents)}개)")

# 3. 가상 문서 생성 체인 만들기

질문을 받아서 **가상의 답변 문서(구절)**를 생성하는 체인입니다.

In [None]:
# 가상 문서 생성용 프롬프트
prompt_hyde = ChatPromptTemplate.from_template(
    '''
질문에 답할 구절을 영문으로 작성해 주세요.
질문: {question}

구절:''')

# LLM
llm = ChatOllama(model='llama3.2', temperature=0)

# 가상 문서 생성 체인
generate_doc = prompt_hyde | llm | StrOutputParser()

print("✅ 가상 문서 생성 체인 준비 완료")

In [None]:
# 가상 문서 생성 테스트
query = '고대 그리스 철학사에서 잘 알려지지 않은 철학자는 누구인가요?'

hypothetical_doc = generate_doc.invoke(query)

print(f"질문: {query}\n")
print("=== 생성된 가상 문서 ===")
print(hypothetical_doc)

# 4. HyDE 검색 체인 구축

가상 문서를 생성하고, 그 문서로 검색을 수행합니다.

```
┌─────────────────────────────────────────────────────────────────────┐
│                     HyDE 검색 체인 구조                             │
├─────────────────────────────────────────────────────────────────────┤
│                                                                     │
│   질문 ──▶ generate_doc ──▶ 가상 문서 ──▶ retriever ──▶ 실제 문서  │
│                                                                     │
│   "철학자는          "Heraclitus was        가상 문서의    유사한    │
│    누구?"            a philosopher..."      임베딩으로    문서 검색  │
│                                             검색                    │
│                                                                     │
└─────────────────────────────────────────────────────────────────────┘
```

In [None]:
# HyDE 검색 체인
# 가상 문서 생성 → 가상 문서로 검색
retrieval_chain = generate_doc | retriever

print("✅ HyDE 검색 체인 준비 완료")

In [None]:
# HyDE 검색 테스트
docs = retrieval_chain.invoke(query)

print(f"질문: {query}\n")
print(f"검색된 문서 수: {len(docs)}개\n")
print("=== 검색된 문서 (상위 2개) ===")
for i, doc in enumerate(docs[:2]):
    print(f"\n[문서 {i+1}]")
    print(doc.page_content)

# 5. HyDE RAG 완성

In [None]:
# 답변 생성용 프롬프트
prompt = ChatPromptTemplate.from_template(
    '''
다음 컨텍스트만 사용해 질문에 답하세요.
컨텍스트:{context}

질문: {question}
'''
)

@chain
def hyde_qa(input):
    """
    HyDE RAG 체인
    
    1. 질문에 대한 가상의 답변 문서 생성
    2. 가상 문서로 실제 문서 검색
    3. 검색된 실제 문서로 최종 답변 생성
    """
    # HyDE 검색 (가상 문서 생성 → 검색)
    docs = retrieval_chain.invoke(input)
    
    # 최종 답변 생성
    formatted = prompt.invoke({'context': docs, 'question': input})
    answer = llm.invoke(formatted)
    
    return answer

print("✅ HyDE RAG 체인 준비 완료")

In [None]:
# HyDE RAG 실행
print("=== HyDE RAG 실행 ===")
print(f"질문: {query}\n")

result = hyde_qa.invoke(query)

print("=== 최종 답변 ===")
print(result.content)

# 6. 일반 검색 vs HyDE 비교

In [None]:
# 일반 검색 (질문으로 직접 검색)
@chain
def simple_qa(input):
    docs = retriever.invoke(input)  # 질문으로 직접 검색
    formatted = prompt.invoke({'context': docs, 'question': input})
    answer = llm.invoke(formatted)
    return answer

print("=" * 60)
print("비교: 일반 검색 vs HyDE")
print("=" * 60)

test_query = "잘 알려지지 않은 고대 그리스 철학자의 사상은?"
print(f"\n질문: {test_query}\n")

print("--- 일반 검색 ---")
result_simple = simple_qa.invoke(test_query)
print(f"답변: {result_simple.content}\n")

print("--- HyDE 검색 ---")
result_hyde = hyde_qa.invoke(test_query)
print(f"답변: {result_hyde.content}")

# 7. HyDE 과정 자세히 보기

In [None]:
# HyDE 과정을 단계별로 출력
test_query = "변화에 대한 고대 그리스 철학자들의 견해는?"

print("=== HyDE 단계별 실행 ===")
print(f"\n[1단계] 원본 질문")
print(f"    {test_query}")

print(f"\n[2단계] 가상 문서 생성")
hypothetical = generate_doc.invoke(test_query)
print(f"    {hypothetical[:200]}...")

print(f"\n[3단계] 가상 문서로 검색")
docs = retriever.invoke(hypothetical)
print(f"    검색된 문서 수: {len(docs)}개")
print(f"    첫 번째 문서: {docs[0].page_content[:100]}...")

print(f"\n[4단계] 최종 답변 생성")
result = hyde_qa.invoke(test_query)
print(f"    {result.content}")

---

## 정리: HyDE (Hypothetical Document Embeddings)

### HyDE의 핵심 아이디어

| 기존 방식 | HyDE 방식 |
|----------|----------|
| 질문 → 임베딩 → 검색 | 질문 → **가상 답변 생성** → 임베딩 → 검색 |
| 질문과 문서 형태가 다름 | 가상 문서와 실제 문서 형태가 비슷 |
| 의미 불일치 가능 | 더 정확한 매칭 |

### 언제 HyDE가 효과적일까요?

| 상황 | HyDE 효과 |
|------|----------|
| 질문이 추상적일 때 | ✅ 매우 효과적 |
| 전문 용어가 필요할 때 | ✅ 효과적 |
| 질문이 명확할 때 | △ 보통 |
| 간단한 키워드 검색 | ❌ 불필요 |

### 핵심 코드

```python
# 가상 문서 생성 프롬프트
prompt_hyde = ChatPromptTemplate.from_template(
    '질문에 답할 구절을 작성하세요: {question}'
)

# 가상 문서 생성 체인
generate_doc = prompt_hyde | llm | StrOutputParser()

# HyDE 검색 체인
retrieval_chain = generate_doc | retriever
```

## 코드 변경점 (OpenAI → Ollama)

```python
# 원본
llm = ChatOpenAI(temperature=0)

# 변경
llm = ChatOllama(model='llama3.2', temperature=0)
```

## 다음 단계

질문의 유형에 따라 **적절한 데이터 소스로 라우팅**하는 **Router** 기법을 배웁니다. (18-20번 노트북)