In [None]:
import os
from langchain_core.documents import Document
from langchain_core.output_parsers import StrOutputParser
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.runnables import RunnablePassthrough
from langchain_openai import OpenAIEmbeddings, ChatOpenAI
from langchain_postgres import PGVector

connection_string = "postgresql+psycopg2://play:123@192.168.0.22:5432/team3"

collection_name = 'kb'

from langchain_community.document_loaders import PyPDFLoader
from glob import glob
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_experimental.text_splitter import SemanticChunker

# 1) 임베딩/LLM
embedding = OpenAIEmbeddings()  # 모델 생략 시 기본(text-embedding-3-large 계열)
llm = ChatOpenAI(model="gpt-4o-mini", temperature=0)

# 2) PDF 로드
pdf_files = glob("./kb_pdf/*.pdf")
documents = []

# 의미 단락 + 길이 상한 병행(권장)
semantic_splitter = SemanticChunker(
    OpenAIEmbeddings(),
    breakpoint_threshold_type="percentile",
    breakpoint_threshold_amount=50,
)
fallback_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1200, chunk_overlap=150, separators=["\n\n", "\n", " ", ""]
)

for pdf_file in pdf_files:
    try:
        print(f"'{pdf_file}' 파일을 로드 중...")
        loader = PyPDFLoader(pdf_file)
        docs = loader.load()  # 각 페이지가 Document, metadata에 source/page 포함

        # 2단 분할: 의미 분할 → 너무 긴 chunk는 문자 분할로 재분절
        sem_chunks = semantic_splitter.split_documents(docs)
        chunks = []
        for d in sem_chunks:
            if len(d.page_content) > 1600:
                chunks.extend(fallback_splitter.split_documents([d]))
            else:
                chunks.append(d)

        documents.extend(chunks)
    except Exception as e:
        print(f"'{pdf_file}' 파일 로드 중 오류 발생: {e}")

if not documents:
    print("PDF 파일이 없거나 로드에 실패했습니다..")
else:
    print(f"총 {len(documents)}개의 문서 조각이 생성되었습니다.")

# 3) 벡터스토어 생성/초기화
vectorstore = PGVector(
    embeddings=embedding,
    collection_name=collection_name,
    connection=connection_string,
    use_jsonb=True,
    # pre_delete_collection=True  # 매번 새로 구축
)

# 4) 색인
if documents:
    vectorstore.add_documents(documents)


'./kb_pdf/24734_2_1.pdf' 파일을 로드 중...
'./kb_pdf/KB_Direct_MotoDrivr(24763)_202504.pdf' 파일을 로드 중...
'./kb_pdf/KB_Direct_ShtrDrivr(15506)_202506.pdf' 파일을 로드 중...
'./kb_pdf/KB_Direct_LngtrmDriver(24755)_202508.pdf' 파일을 로드 중...
총 12867개의 문서 조각이 생성되었습니다.
