# [pgvector VectorDB](https://github.com/pgvector/pgvector)


![image.png](attachment:image.png)

## 1. pgvector란?

pgvector는 PostgreSQL 데이터베이스에 벡터 유사도 검색 기능을 추가하는 오픈소스 확장입니다.

### 주요 특징
- **PostgreSQL 기반**: 기존 관계형 데이터베이스에 벡터 검색 기능 추가
- **ACID 보장**: 트랜잭션의 원자성, 일관성, 격리성, 지속성 보장
- **SQL 인터페이스**: 표준 SQL을 사용하여 벡터 검색 수행
- **확장성**: 대용량 데이터 처리에 적합한 PostgreSQL의 확장성 활용
- **LangChain 통합**: LangChain과 완벽하게 통합되어 RAG 시스템 구축 가능

### 사용 사례
- 기존 PostgreSQL 기반 시스템에 벡터 검색 기능 추가
- 대규모 RAG 시스템 구축
- 하이브리드 검색 (키워드 + 벡터 검색)
- 엔터프라이즈급 벡터 데이터베이스 솔루션


## 2. pgvector vs 다른 벡터 데이터베이스

### pgvector의 장점
- **기존 인프라 활용**: PostgreSQL이 이미 구축된 환경에서 추가 설정 없이 사용
- **데이터 일관성**: 관계형 데이터와 벡터 데이터를 동일한 트랜잭션에서 처리
- **복잡한 쿼리**: SQL의 강력한 기능을 활용한 복합 검색 가능
- **백업 및 복구**: PostgreSQL의 검증된 백업/복구 시스템 활용
- **보안**: PostgreSQL의 강력한 보안 기능 활용

### 다른 솔루션과의 비교
- **Chroma**: 간단한 설정, 메모리 기반, 소규모 프로젝트에 적합
- **Milvus**: 대규모 분산 환경, 높은 성능, 복잡한 설정
- **pgvector**: 기존 DB 활용, 중간 규모, 엔터프라이즈 환경


## 3. 설치 및 설정

pgvector를 사용하기 위한 설치와 설정 방법을 알아보겠습니다.


In [1]:
# 필요한 라이브러리 설치
# !pip install pgvector psycopg2-binary langchain langchain-community

# 기본 라이브러리 import
import os
import psycopg2
from pgvector.psycopg2 import register_vector
from langchain.vectorstores import PGVector
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.document_loaders import TextLoader
from langchain.schema import Document

print("필요한 라이브러리가 import되었습니다.")


필요한 라이브러리가 import되었습니다.


### PostgreSQL 설정

pgvector를 사용하려면 PostgreSQL 데이터베이스에 pgvector 확장을 설치해야 합니다.


In [2]:
import psycopg2

conn = psycopg2.connect(
    host="localhost",
    port=5432,
    database="vectordb",
    user="admin",
    password="admin123"
)

In [3]:
# 데이터베이스 연결 및 pgvector 확장 활성화
def setup_pgvector_extension(connection_string):
    """PostgreSQL에 pgvector 확장을 설치하고 활성화"""
    try:
        # 데이터베이스 연결
        conn = psycopg2.connect(connection_string)
        conn.autocommit = True
        cursor = conn.cursor()
        
        # pgvector 확장 설치 (이미 설치되어 있다면 무시됨)
        cursor.execute("CREATE EXTENSION IF NOT EXISTS vector;")
        
        # 벡터 타입 등록
        register_vector(conn)
        
        print("pgvector 확장이 성공적으로 설치되었습니다.")
        
        cursor.close()
        conn.close()
        
    except Exception as e:
        print(f"pgvector 설정 중 오류 발생: {e}")
        print("PostgreSQL이 실행 중이고 연결 정보가 올바른지 확인하세요.")


In [4]:
# PostgreSQL 연결 설정
# 실제 환경에서는 환경변수나 설정 파일을 사용하세요
# "postgresql://아이디:비밀번호@localhost:5432/데이터베이스명"
CONNECTION_STRING = "postgresql://admin:admin123@localhost:5432/vectordb"

# 실제 사용시에는 아래 주석을 해제하세요
setup_pgvector_extension(CONNECTION_STRING)


pgvector 확장이 성공적으로 설치되었습니다.


## 4. LangChain과 pgvector 연결
LangChain의 PGVector 클래스를 사용하여 PostgreSQL과 연결하는 방법을 알아보겠습니다.


### CustomPGVector
- 이미 만들어진 테이블 사용

In [78]:
from typing import List, Dict, Any, Optional, Tuple
from langchain.schema import Document
from langchain.vectorstores.base import VectorStore
import psycopg2
import psycopg2.extras
import json

class CustomPGVector(VectorStore):
    def __init__(self, conn_str: str, embedding_fn, table: str = "my_vectors"):
        self.conn = psycopg2.connect(conn_str)
        self.embedding_fn = embedding_fn
        self.table = table

    @classmethod
    def from_texts(
        cls,
        texts: List[str],
        embedding_fn,
        metadatas: Optional[List[Dict[str, Any]]] = None,
        conn_str: str = None,
        table: str = "my_vectors",
        **kwargs,
    ):
        store = cls(conn_str=conn_str, embedding_fn=embedding_fn, table=table)
        store.add_texts(texts, metadatas=metadatas)
        return store

    def add_texts(self, texts: List[str], metadatas: List[Dict[str, Any]] = None):
        metadatas = metadatas or [{} for _ in texts]
        embeddings = self.embedding_fn.embed_documents(texts)

        with self.conn.cursor() as cur:
            for text, emb, meta in zip(texts, embeddings, metadatas):
                cur.execute(
                    f"""
                    INSERT INTO {self.table} (content, embedding, metadata)
                    VALUES (%s, %s, %s)
                    """,
                    (text, emb, psycopg2.extras.Json(meta)),
                )
        self.conn.commit()

    def similarity_search(self, query: str, k: int = 4,
                          filter: Optional[Dict[str, Any]] = None) -> List[Document]:
        
        query_emb = self.embedding_fn.embed_query(query)
        
        # 쿼리 매개변수 리스트 초기화. 필터 매개변수가 있다면 여기에 먼저 추가됩니다.
        params = []
        
        # SQL 쿼리 기본 구조 설정
        sql_query_template = f"""
            SELECT content, metadata
            FROM {self.table}
        """
        
        # WHERE 절을 위한 리스트
        where_clauses = []
        
        if filter:
            # 1. 필터 딕셔너리를 JSON 문자열로 변환합니다.
            filter_json = json.dumps(filter)
            
            # 2. WHERE 절에 'metadata @> %s::jsonb' 조건을 추가합니다.
            where_clauses.append("metadata @> %s::jsonb")
            
            # 3. 필터 JSON 문자열을 params 리스트에 먼저 추가합니다.
            #    이것이 SQL 쿼리에서 가장 먼저 나오는 %s에 바인딩됩니다.
            params.append(filter_json)

        if where_clauses:
            sql_query_template += " WHERE " + " AND ".join(where_clauses)
        
        # ORDER BY 및 LIMIT 절 추가
        # ORDER BY에는 임베딩 비교가 들어가며, 이는 필터가 있든 없든 항상 두 번째 (혹은 첫 번째) %s가 됩니다.
        sql_query_template += """
            ORDER BY embedding <-> %s::vector
            LIMIT %s
        """
        
        # 4. 임베딩 벡터를 params에 추가합니다.
        #    이는 ORDER BY의 %s에 바인딩됩니다.
        params.append(query_emb)
        
        # 5. LIMIT 값 (k)을 params에 마지막으로 추가합니다.
        #    이는 LIMIT의 %s에 바인딩됩니다.
        params.append(k)
        
        # 최종 SQL 쿼리: (필터가 있을 경우) WHERE [조건] ORDER BY [임베딩] LIMIT [k]
        
        with self.conn.cursor() as cur:
            # 쿼리와 매개변수를 실행
            # 매개변수의 순서는 SQL 쿼리에 나타나는 %s의 순서와 정확히 일치해야 합니다.
            cur.execute(sql_query_template, tuple(params))
            rows = self.__get_unique_documents(cur.fetchall())

        return [Document(page_content=row[0], metadata=row[1]) for row in rows]


    def similarity_search_with_score(
        self, query: str, k: int = 4
    ) -> List[Tuple[Document, float]]:
        """쿼리와 유사도 점수를 함께 반환"""
        query_emb = self.embedding_fn.embed_query(query)

        with self.conn.cursor() as cur:
            cur.execute(
                f"""
                SELECT content, metadata, (embedding <-> %s::vector) AS score
                FROM {self.table}
                ORDER BY score
                LIMIT %s
                """,
                (query_emb, k),
            )
            rows = self.__get_unique_documents(cur.fetchall())
            

        return [
            (Document(page_content=row[0], metadata=row[1]), float(row[2]))
            for row in rows
        ]
    
    def __get_unique_documents(self, rows):
        # 중복 제거를 위한 후처리
        unique_contents = set()
        unique_documents = []
        
        for row in rows:
            content = row[0]
            metadata = row[1]
            
            if content not in unique_contents:
                unique_contents.add(content)
                unique_documents.append(row) # 중복이 아닐 때 원본 튜플을 저장

        return unique_documents # 중복 제거된 리스트 반환



### PGVector 인스턴스 생성

In [79]:
def create_pgvector_store(connection_string, collection_name, embeddings):
    """PGVector 스토어 생성"""
    try:
        vectorstore = CustomPGVector(
            conn_str=connection_string,
            embedding_fn=embeddings,
            table=collection_name, # 테이블 이름과 매칭
        )
        print(f"PGVector 스토어 '{collection_name}'이 생성되었습니다.")
        return vectorstore
    except Exception as e:
        print(f"PGVector 스토어 생성 중 오류: {e}")
        return None

### 임베딩 모델 설정

In [None]:
import os

os.environ['OPENAI_API_KEY'] = ''

In [15]:
from langchain_openai import OpenAIEmbeddings

embeddings = OpenAIEmbeddings(
    model="text-embedding-3-small"
)


### PGVector 설정

In [80]:
COLLECTION_NAME = "documents"

vectorstore = create_pgvector_store(CONNECTION_STRING, COLLECTION_NAME, embeddings)


PGVector 스토어 'documents'이 생성되었습니다.


## 5. 데이터 저장 및 검색

pgvector를 사용하여 문서를 저장하고 검색하는 방법을 알아보겠습니다.


### 샘플 문서 데이터

In [22]:

sample_documents = [
    Document(
        page_content="인공지능은 인간의 지능을 모방하는 기술입니다.",
        metadata={"category": "AI", "topic": "기본개념", "source": "ai_basics.txt"}
    ),
    Document(
        page_content="머신러닝은 데이터로부터 패턴을 학습하는 AI의 한 분야입니다.",
        metadata={"category": "ML", "topic": "학습방법", "source": "ml_intro.txt"}
    ),
    Document(
        page_content="딥러닝은 신경망을 사용하는 머신러닝의 하위 분야입니다.",
        metadata={"category": "DL", "topic": "신경망", "source": "dl_guide.txt"}
    ),
    Document(
        page_content="자연어처리는 컴퓨터가 인간의 언어를 이해하고 생성하는 기술입니다.",
        metadata={"category": "NLP", "topic": "언어처리", "source": "nlp_handbook.txt"}
    )
]

print(f"샘플 문서 {len(sample_documents)}개가 준비되었습니다.")
for i, doc in enumerate(sample_documents, 1):
    print(f"{i}. {doc.page_content[:30]}... (카테고리: {doc.metadata['category']})")


샘플 문서 4개가 준비되었습니다.
1. 인공지능은 인간의 지능을 모방하는 기술입니다.... (카테고리: AI)
2. 머신러닝은 데이터로부터 패턴을 학습하는 AI의 한 분야... (카테고리: ML)
3. 딥러닝은 신경망을 사용하는 머신러닝의 하위 분야입니다.... (카테고리: DL)
4. 자연어처리는 컴퓨터가 인간의 언어를 이해하고 생성하는 ... (카테고리: NLP)


### 문서를 벡터스토어에 추가하는 함수

In [75]:

def add_documents_to_pgvector(vectorstore, documents):
    """문서를 PGVector에 추가"""
    try:
        # add_documents 메서드로 문서 추가
        vectorstore.add_documents(documents)
        print(f"{len(documents)}개 문서가 성공적으로 추가되었습니다.")
        return True
    except Exception as e:
        print(f"문서 추가 중 오류 발생: {e}")
        return False


In [43]:

add_documents_to_pgvector(vectorstore, sample_documents)

4개 문서가 성공적으로 추가되었습니다.


True

### 벡터 검색 함수들

In [81]:

def similarity_search_example(vectorstore, query, k=3):
    """유사도 검색 예제"""
    try:
        # 기본 유사도 검색
        results = vectorstore.similarity_search(query, k=k)
        
        print(f"검색 쿼리: '{query}'")
        print(f"검색 결과 ({len(results)}개):")
        print("-" * 50)
        
        for i, doc in enumerate(results, 1):
            print(f"{i}. {doc.page_content}")
            print(f"   메타데이터: {doc.metadata}")
            print()
            
        return results
    except Exception as e:
        print(f"검색 중 오류 발생: {e}")
        return []

In [82]:
similarity_search_example(vectorstore, "신경망에 대해 알려주세요")

검색 쿼리: '신경망에 대해 알려주세요'
검색 결과 (2개):
--------------------------------------------------
1. 딥러닝은 신경망을 사용하는 머신러닝의 하위 분야입니다.
   메타데이터: {'topic': '신경망', 'source': 'dl_guide.txt', 'category': 'DL'}

2. 자연어처리는 컴퓨터가 인간의 언어를 이해하고 생성하는 기술입니다.
   메타데이터: {'topic': '언어처리', 'source': 'nlp_handbook.txt', 'category': 'NLP'}



[Document(metadata={'topic': '신경망', 'source': 'dl_guide.txt', 'category': 'DL'}, page_content='딥러닝은 신경망을 사용하는 머신러닝의 하위 분야입니다.'),
 Document(metadata={'topic': '언어처리', 'source': 'nlp_handbook.txt', 'category': 'NLP'}, page_content='자연어처리는 컴퓨터가 인간의 언어를 이해하고 생성하는 기술입니다.')]

In [83]:
def similarity_search_with_score_example(vectorstore, query, k=3):
    """유사도 점수와 함께 검색"""
    try:
        # 유사도 점수와 함께 검색
        results = vectorstore.similarity_search_with_score(query, k=k)
        
        print(f"검색 쿼리: '{query}' (점수 포함)")
        print(f"검색 결과 ({len(results)}개):")
        print("-" * 50)
        
        for i, (doc, score) in enumerate(results, 1):
            print(f"{i}. {doc.page_content}")
            print(f"   유사도 점수: {score:.4f}")
            print(f"   메타데이터: {doc.metadata}")
            print()
            
        return results
    except Exception as e:
        print(f"검색 중 오류 발생: {e}")
        return []


In [84]:
similarity_search_with_score_example(vectorstore, "인공지능 기술")

검색 쿼리: '인공지능 기술' (점수 포함)
검색 결과 (2개):
--------------------------------------------------
1. 인공지능은 인간의 지능을 모방하는 기술입니다.
   유사도 점수: 0.6897
   메타데이터: {'topic': '기본개념', 'source': 'ai_basics.txt', 'category': 'AI'}

2. 머신러닝은 데이터로부터 패턴을 학습하는 AI의 한 분야입니다.
   유사도 점수: 1.1118
   메타데이터: {'topic': '학습방법', 'source': 'ml_intro.txt', 'category': 'ML'}



[(Document(metadata={'topic': '기본개념', 'source': 'ai_basics.txt', 'category': 'AI'}, page_content='인공지능은 인간의 지능을 모방하는 기술입니다.'),
  0.6896832652063515),
 (Document(metadata={'topic': '학습방법', 'source': 'ml_intro.txt', 'category': 'ML'}, page_content='머신러닝은 데이터로부터 패턴을 학습하는 AI의 한 분야입니다.'),
  1.1117968919839938)]

## 6. 고급 검색 기능

pgvector의 고급 검색 기능들을 알아보겠습니다.


### 메타데이터 필터링 검색

In [66]:

def filtered_search_example(vectorstore, query, filter_dict, k=3):
    """메타데이터로 필터링된 검색"""
    try:
        # 메타데이터 필터를 사용한 검색
        results = vectorstore.similarity_search(
            query, 
            k=k,
            filter=filter_dict
        )
        
        print(f"검색 쿼리: '{query}'")
        print(f"필터 조건: {filter_dict}")
        print(f"검색 결과 ({len(results)}개):")
        print("-" * 50)
        
        for i, doc in enumerate(results, 1):
            print(f"{i}. {doc.page_content}")
            print(f"   메타데이터: {doc.metadata}")
            print()
            
        return results
    except Exception as e:
        print(f"필터링 검색 중 오류 발생: {e}")
        return []

In [67]:
filtered_search_example(vectorstore, "인공지능", {"category": "AI"})

검색 쿼리: '인공지능'
필터 조건: {'category': 'AI'}
검색 결과 (2개):
--------------------------------------------------
1. 인공지능은 인간의 지능을 모방하는 기술입니다.
   메타데이터: {'topic': '기본개념', 'source': 'ai_basics.txt', 'category': 'AI'}

2. 인공지능은 인간의 지능을 모방하는 기술입니다.
   메타데이터: {'topic': '기본개념', 'source': 'ai_basics.txt', 'category': 'AI'}



[Document(metadata={'topic': '기본개념', 'source': 'ai_basics.txt', 'category': 'AI'}, page_content='인공지능은 인간의 지능을 모방하는 기술입니다.'),
 Document(metadata={'topic': '기본개념', 'source': 'ai_basics.txt', 'category': 'AI'}, page_content='인공지능은 인간의 지능을 모방하는 기술입니다.')]

### 하이브리드 검색 (벡터 + 키워드)

In [68]:

def hybrid_search_example(vectorstore, query, k=3):
    """하이브리드 검색 예제"""
    try:
        # 1. 벡터 검색
        vector_results = vectorstore.similarity_search(query, k=k)
        
        # 2. 키워드 검색 (PostgreSQL의 텍스트 검색 기능 활용)
        # 실제로는 SQL 쿼리를 직접 실행해야 함
        print("하이브리드 검색 결과:")
        print("=" * 50)
        
        print("벡터 검색 결과:")
        for i, doc in enumerate(vector_results, 1):
            print(f"{i}. {doc.page_content}")
            print(f"   메타데이터: {doc.metadata}")
            print()
            
        return vector_results
    except Exception as e:
        print(f"하이브리드 검색 중 오류 발생: {e}")
        return []


In [69]:
hybrid_search_example(vectorstore, "머신러닝 학습")

하이브리드 검색 결과:
벡터 검색 결과:
1. 머신러닝은 데이터로부터 패턴을 학습하는 AI의 한 분야입니다.
   메타데이터: {'topic': '학습방법', 'source': 'ml_intro.txt', 'category': 'ML'}

2. 머신러닝은 데이터로부터 패턴을 학습하는 AI의 한 분야입니다.
   메타데이터: {'topic': '학습방법', 'source': 'ml_intro.txt', 'category': 'ML'}

3. 딥러닝은 신경망을 사용하는 머신러닝의 하위 분야입니다.
   메타데이터: {'topic': '신경망', 'source': 'dl_guide.txt', 'category': 'DL'}



[Document(metadata={'topic': '학습방법', 'source': 'ml_intro.txt', 'category': 'ML'}, page_content='머신러닝은 데이터로부터 패턴을 학습하는 AI의 한 분야입니다.'),
 Document(metadata={'topic': '학습방법', 'source': 'ml_intro.txt', 'category': 'ML'}, page_content='머신러닝은 데이터로부터 패턴을 학습하는 AI의 한 분야입니다.'),
 Document(metadata={'topic': '신경망', 'source': 'dl_guide.txt', 'category': 'DL'}, page_content='딥러닝은 신경망을 사용하는 머신러닝의 하위 분야입니다.')]

## 7. 실제 파일을 사용한 예제
실제 텍스트 파일을 로드하여 pgvector에 저장하고 검색하는 완전한 예제를 만들어보겠습니다.


### 텍스트 파일 로드

In [70]:
try:
    
    loader = TextLoader("./data/rag-keywords.txt", encoding="utf-8")
    documents = loader.load()
    print(f"파일 로드 완료: {len(documents)}개 문서")
except FileNotFoundError:
    print("rag-keywords.txt 파일을 찾을 수 없습니다. 샘플 데이터를 사용합니다.")
    documents = sample_documents

파일 로드 완료: 1개 문서


### 텍스트 분할

In [71]:
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=200,
    chunk_overlap=50
)

splits = text_splitter.split_documents(documents)
print(f"텍스트 분할 완료: {len(splits)}개 청크")

텍스트 분할 완료: 41개 청크


### 임베딩 모델 설정

In [None]:
from langchain_openai import OpenAIEmbeddings

embeddings = OpenAIEmbeddings(
    model="text-embedding-3-small"
)

### PGVector 스토어 생성

#### 자동으로 생성되는 테이블들
> collection_name="my_collection" 이라고 하면, 내부적으로 컬렉션 관리용 메타 테이블과 데이터 저장 테이블이 만들어집니다.

- 컬렉션 관리 테이블
    ```sql
    CREATE TABLE langchain_pg_collection (
        uuid UUID PRIMARY KEY,          -- 컬렉션 고유 ID
        name TEXT UNIQUE,               -- collection_name (예: "my_collection")
        cmetadata JSONB                 -- 컬렉션 메타데이터 (옵션)
    );
    ```

- 벡터 + 문서 저장 테이블
    ```sql
    CREATE TABLE langchain_pg_embedding (
        uuid UUID PRIMARY KEY,          -- 각 문서 벡터의 고유 ID
        collection_id UUID NOT NULL,    -- 어떤 컬렉션에 속하는지 (FK: langchain_pg_collection.uuid)
        embedding VECTOR(1536),         -- pgvector 타입 (차원은 임베딩 모델에 따라 다름)
        document TEXT,                  -- 원문 텍스트 (Document.page_content)
        metadata JSONB,                 -- 문서 메타데이터 (Document.metadata)
        cmetadata JSONB                 -- 내부적으로 쓰이는 추가 메타데이터
    );
    ```

In [None]:
from langchain_community.vectorstores.utils import DistanceStrategy

vectorstore = PGVector.from_documents(
    documents=splits, # 분할된 문서 사용
    embedding=embeddings, # 임베딩 함수
    connection_string=CONNECTION_STRING, # PostgreSQL 연결 문자열
    collection_name="rag_keywords", # 테이블 이름
    distance_strategy=DistanceStrategy.COSINE, # 코사인 유사도 사용
    pre_delete_collection=False, # 기존 테이블 삭제 여부
    use_jsonb=True, # 메타데이터를 JSONB로 저장 (더 나은 성능과 유연성 제공)
)

  store = cls(


### 질문 답변

In [26]:
def search_documents(query, k=3):
    # 유사도 검색
    return vectorstore.similarity_search(query, k=k)


In [30]:
def answer_question(question, k=3):
    # 질문에 대한 답변 생성
    docs = search_documents(question, k)
    context = "\n".join([doc.page_content for doc in docs])
    
    # 실제로는 LLM을 사용하여 답변 생성
    return f"질문: {question}\n관련 문서: {context}"

In [31]:
answer = answer_question("인공지능이란 무엇인가요?")
print(answer)

질문: 인공지능이란 무엇인가요?
관련 문서: 연관키워드: 인공지능, 자연어 이해, 명령 기반 처리
연관키워드: 데이터 융합, 인공지능, 딥러닝
Deep Learning

정의: 딥러닝은 인공신경망을 이용하여 복잡한 문제를 해결하는 머신러닝의 한 분야입니다. 이는 데이터에서 고수준의 표현을 학습하는 데 중점을 둡니다.
예시: 이미지 인식, 음성 인식, 자연어 처리 등에서 딥러닝 모델이 활용됩니다.
연관키워드: 인공신경망, 머신러닝, 데이터 분석

Schema
