In [4]:
import os
from glob import glob
from datetime import datetime
from typing import List

# LangChain core
from langchain_core.documents import Document

# Loaders / Splitters
from langchain_community.document_loaders import PyPDFLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_experimental.text_splitter import SemanticChunker

# OpenAI + Postgres
from langchain_openai import OpenAIEmbeddings, ChatOpenAI
from langchain_postgres import PGVector

# Retrieval
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.runnables import RunnablePassthrough
from langchain_core.output_parsers import StrOutputParser

In [16]:
# -----------------------------
# 환경/설정
# -----------------------------
# PostgreSQL 접속 정보 (pgvector 설치되어 있어야 함)
connection_string = "postgresql+psycopg2://play:123@192.168.0.22:5432/team3"
collection_name = 'samsung'

# PDF 폴더
PDF_GLOB = "./samsung_pdf/*.pdf"

# OpenAI 임베딩 모델: text-embedding-3-small (1536 차원)
embedding = OpenAIEmbeddings(model="text-embedding-3-small")

# SemanticChunker: 의미 단절이 큰 지점에서 쪼갬 (percentile=50이므로 절반 이상 변화 지점)
# 비용/속도 때문에 임베딩 호출이 많아질 수 있음. 느리면 RecursiveCharacterTextSplitter로 교체 가능.
text_splitter = SemanticChunker(
    embedding,
    breakpoint_threshold_type="percentile",
    breakpoint_threshold_amount=50,
)

# (대안) 너무 느리면 주석을 바꿔 이걸로:
# text_splitter = RecursiveCharacterTextSplitter(
#     chunk_size=1200, chunk_overlap=150, separators=["\n\n", "\n", " ", ""]
# )

In [17]:
# -----------------------------
# 1) PDF 로드 + 청크
# -----------------------------
def load_and_chunk_pdfs(pdf_glob: str) -> List[Document]:
    pdf_files = glob(pdf_glob)
    if not pdf_files:
        print(f"[경고] 패턴에 맞는 PDF가 없습니다: {pdf_glob}")
        return []

    all_chunks: List[Document] = []
    total_pages, total_files = 0, 0

    for pdf_path in pdf_files:
        try:
            total_files += 1
            print(f"[로드] {pdf_path}")
            loader = PyPDFLoader(pdf_path)
            # 페이지 단위로 Document 리스트가 나옴 (metadata에 page 정보가 들어있음)
            docs = loader.load()
            total_pages += len(docs)

            # 의미 단위로 분할
            split_docs = text_splitter.split_documents(docs)

            # 너무 짧은 조각은 제거(예: 공백/잡음)
            filtered = []
            for d in split_docs:
                text = (d.page_content or "").strip()
                if len(text) < 20:
                    continue
                # 메타데이터에 파일명/경로 보강
                md = dict(d.metadata or {})
                md.setdefault("source", pdf_path)  # 검색 결과에 파일 경로 보이게
                filtered.append(Document(page_content=text, metadata=md))

            all_chunks.extend(filtered)

            print(f"  -> {len(filtered)}개 청크 추가 (누적 {len(all_chunks)}개)")
        except Exception as e:
            print(f"[오류] '{pdf_path}' 처리 중 예외: {e}")

    print(f"[요약] 파일 {total_files}개, 원본 페이지 {total_pages}p, 생성 청크 {len(all_chunks)}개")
    return all_chunks


In [18]:

# -----------------------------
# 2) Vector Store (PGVector) 생성/적재
# -----------------------------
def build_vectorstore(documents: List[Document]) -> PGVector:
    if not documents:
        raise RuntimeError("적재할 문서가 없습니다. PDF 경로나 권한을 확인하세요.")

    # 기존 컬렉션 덮어쓰기 원하면 pre_delete_collection=True
    vectorstore = PGVector(
        embeddings=embedding,
        collection_name=collection_name,
        connection=connection_string,
        use_jsonb=True,
        pre_delete_collection=True,   # 덮어쓰기/초기화
    )

    # add_documents 가 내부에서 임베딩 → pgvector 저장까지 처리
    # (메타데이터는 JSONB로 들어감)
    print(f"[임베딩/저장] 문서 {len(documents)}개 → PGVector 컬렉션 '{collection_name}'")
    vectorstore.add_documents(documents)
    print("[완료] 벡터 적재 완료")
    return vectorstore


In [None]:
# -----------------------------
# 3) 리트리버 + 간단 질의 체인
# -----------------------------
def make_retriever(vectorstore: PGVector, k: int = 2):
    return vectorstore.as_retriever(search_kwargs={"k": k})

def make_qa_chain(retriever):
    system_prompt = (
        "너는 사용자의 질문에 대해 제공된 문서 조각만 근거로 간결히 답한다. "
        "모르면 모른다고 말해라. 출처 문서의 파일 경로(source)와 페이지(page)도 함께 알려줘."
    )
    prompt = ChatPromptTemplate.from_messages([
        ("system", system_prompt),
        ("human", "질문: {question}\n\n관련 컨텍스트:\n{context}\n\n답변:")
    ])

    def _format_docs(docs: List[Document]) -> str:
        lines = []
        for i, d in enumerate(docs, 1):
            src = d.metadata.get("source")
            page = d.metadata.get("page", d.metadata.get("page_number", ""))
            preview = (d.page_content[:500] + "…") if len(d.page_content) > 500 else d.page_content
            lines.append(f"[{i}] source={src}, page={page}\n{preview}")
        return "\n\n".join(lines)

    llm = ChatOpenAI(model="gpt-4o-mini", temperature=0.0)
    chain = (
        {"question": RunnablePassthrough(), "context": retriever | _format_docs}
        | prompt
        | llm
        | StrOutputParser()
    )
    return chain


In [None]:
# -----------------------------
# 실행부
# -----------------------------
if __name__ == "__main__":
    # 1) 폴더 내 모든 PDF 텍스트만 읽어 청크로 분할
    documents = load_and_chunk_pdfs(PDF_GLOB)

    # 2) PGVector 컬렉션에 임베딩 저장
    vectorstore = build_vectorstore(documents)
                                                   
    # # 3) 리트리버 & 테스트 질의
    # retriever = make_retriever(vectorstore, k=2)

    # query = "교통사고 구비 서류 뭐가 있어?"
    # retrieved_docs = retriever.invoke(query)

    # print("\n--- 질문:", query)
    # print("--- 검색된 문서 조각:")
    # for i, doc in enumerate(retrieved_docs, 1):
    #     src = doc.metadata.get("source")
    #     page = doc.metadata.get("page", doc.metadata.get("page_number", ""))
    #     print(f"[{i}] source={src}, page={page}\n{doc.page_content[:500]}...\n")

    # # (선택) RAG 간단 답변
    # qa_chain = make_qa_chain(retriever)
    # answer = qa_chain.invoke(query)
    # print("=== 답변 ===")
    # print(answer)

Collection not found


[임베딩/저장] 문서 15592개 → PGVector 컬렉션 'samsung'
[완료] 벡터 적재 완료


In [15]:
documents

[Document(metadata={'producer': '3-Heights™ PDF Merge Split API 6.18.2.7 (http://www.pdf-tools.com)', 'creator': 'PyPDF', 'creationdate': '', 'moddate': '2025-03-28T18:26:05+09:00', 'source': './samsung_pdf/무배당 삼성화재 다이렉트 국방가족안심 운전자보험.pdf', 'total_pages': 331, 'page': 0, 'page_label': '1'}, page_content='보험약관 이 약관은 금융소비자보호법 및 소비자보호 내부통제기준에 따른 절차를 거쳐 제공됩니다. 국방가족안심 운전자보험\n2407.1\n2025년 4월 1일부터 적용\n무배당 삼성화재 다이렉트'),
 Document(metadata={'producer': '3-Heights™ PDF Merge Split API 6.18.2.7 (http://www.pdf-tools.com)', 'creator': 'PyPDF', 'creationdate': '', 'moddate': '2025-03-28T18:26:05+09:00', 'source': './samsung_pdf/무배당 삼성화재 다이렉트 국방가족안심 운전자보험.pdf', 'total_pages': 331, 'page': 2, 'page_label': '3'}, page_content='2 / 330\n[ 목 차 ]\n약관이용 Guide Book 6\n쉽게 이해하는 상품 및 약관 요약서 9\n자주 발생하는 민원 예시 25\n개인신용정보 제공·이용에 대한 고객 권리 안내문 30\n보통약관 31\n      제1관 목적 및 용어의 정의 33\n        제1조 (목적) 33\n        제2조 (용어의 정의) 33\n      제2관 보험금의 지급 34\n        제3조 (보험금의 지급사유) 34\n        제4조 (보험금 지급에 관한 세부규정) 34\n      