# SQLRecordManager로 문서 인덱싱 관리하기

이 노트북에서는 **SQLRecordManager**를 사용하여 문서 인덱싱을 관리하고 **중복 방지** 및 **자동 업데이트**를 구현하는 방법을 알아봅니다.

## 왜 Record Manager가 필요한가?

Vector Store에 문서를 반복 저장하면:
- 동일 문서가 **중복 저장**됨
- 수정된 문서의 **이전 버전이 남음**
- 삭제된 문서가 **여전히 검색**됨

**Record Manager**는 이런 문제를 해결합니다:
- 문서 해시로 중복 감지
- 변경된 문서만 업데이트
- 삭제된 문서 자동 정리

## cleanup 모드

| 모드 | 동작 |
|------|------|
| `None` | 중복 허용, 정리 안함 |
| `incremental` | 동일 source의 이전 버전 삭제 |
| `full` | 현재 배치에 없는 모든 문서 삭제 |

---

# 1. Docker로 PGVector 실행

```bash
docker run \
    --name pgvector-container \
    -e POSTGRES_USER=langchain \
    -e POSTGRES_PASSWORD=langchain \
    -e POSTGRES_DB=langchain \
    -p 6024:5432 \
    -d pgvector/pgvector:pg16
```

# 2. 패키지 설치 및 Ollama 준비

In [None]:
!pip install -q langchain langchain-postgres langchain-ollama psycopg psycopg-binary

In [None]:
import subprocess
import time

!apt-get install -y zstd
!curl -fsSL https://ollama.com/install.sh | sh

subprocess.Popen(['ollama', 'serve'])
time.sleep(3)

!ollama pull nomic-embed-text

# 3. Vector Store 및 Record Manager 설정

In [None]:
from langchain.indexes import SQLRecordManager, index
from langchain_postgres.vectorstores import PGVector
from langchain_ollama import OllamaEmbeddings
from langchain.docstore.document import Document

# 설정
connection = 'postgresql+psycopg://langchain:langchain@localhost:6024/langchain'
collection_name = 'my_docs'
namespace = 'my_docs_namespace'

# 임베딩 모델
embeddings_model = OllamaEmbeddings(model='nomic-embed-text')

# Vector Store
vectorstore = PGVector(
    embeddings=embeddings_model,
    collection_name=collection_name,
    connection=connection,
    use_jsonb=True,
)

# Record Manager
record_manager = SQLRecordManager(
    namespace,
    db_url=connection,
)

# 스키마 생성
record_manager.create_schema()

print("✅ Vector Store와 Record Manager 설정 완료")

# 4. 문서 인덱싱 (1회차)

**코드 설명:**

```python
index(
    docs,              # 인덱싱할 문서들
    record_manager,    # 레코드 관리자
    vectorstore,       # 벡터 저장소
    cleanup='incremental',  # 정리 모드
    source_id_key='source', # 출처 식별 키
)
```

In [None]:
# 문서 생성
docs = [
    Document(
        page_content='there are cats in the pond',
        metadata={'id': 1, 'source': 'cats.txt'}
    ),
    Document(
        page_content='ducks are also found in the pond',
        metadata={'id': 2, 'source': 'ducks.txt'}
    ),
]

# 1회차 인덱싱
result_1 = index(
    docs,
    record_manager,
    vectorstore,
    cleanup='incremental',
    source_id_key='source',
)

print("=== 인덱싱 1회차 ===")
print(result_1)

# 5. 동일 문서 재인덱싱 (2회차 - 중복 방지)

In [None]:
# 2회차 인덱싱 - 동일 문서
result_2 = index(
    docs,
    record_manager,
    vectorstore,
    cleanup='incremental',
    source_id_key='source',
)

print("=== 인덱싱 2회차 (동일 문서) ===")
print(result_2)
print("\n→ num_added=0: 중복이 방지됨!")

# 6. 문서 수정 후 재인덱싱 (3회차 - 자동 업데이트)

In [None]:
# 문서 내용 수정
docs[0].page_content = 'I just modified this document!'

# 3회차 인덱싱 - 수정된 문서
result_3 = index(
    docs,
    record_manager,
    vectorstore,
    cleanup='incremental',
    source_id_key='source',
)

print("=== 인덱싱 3회차 (수정된 문서) ===")
print(result_3)
print("\n→ num_added=1, num_deleted=1: 수정된 문서가 업데이트됨!")

---

## 코드 변경점 (OpenAI → Ollama)

```python
# 원본 (OpenAI)
from langchain_openai import OpenAIEmbeddings
embeddings_model = OpenAIEmbeddings(model='text-embedding-3-small')

# 변경 (Ollama)
from langchain_ollama import OllamaEmbeddings
embeddings_model = OllamaEmbeddings(model='nomic-embed-text')
```

## index() 반환값

```python
{
    'num_added': 2,      # 새로 추가된 문서 수
    'num_updated': 0,    # 업데이트된 문서 수
    'num_skipped': 0,    # 스킵된 문서 수 (이미 존재)
    'num_deleted': 0,    # 삭제된 문서 수
}
```

## cleanup 모드 선택 가이드

| 상황 | 추천 모드 |
|------|----------|
| 문서가 자주 업데이트됨 | `incremental` |
| 전체 문서 세트를 교체 | `full` |
| 단순 추가만 필요 | `None` |