In [1]:
# extract_pdf.py
from pathlib import Path
import json

PDF_PATH = Path("/home/sojung/workspace/sk네트웍스 family ai camp/3차 프로젝트/6AECH_20250707.pdf")  # 프로젝트 폴더의 파일명으로 맞춰줘
OUT_JSON = Path("/home/sojung/workspace/sk네트웍스 family ai camp/3차 프로젝트/pages_raw.json")

def extract_text_pages(pdf_path: Path):
    text_pages = []
    # 1) pdfplumber 우선 시도
    try:
        import pdfplumber
        with pdfplumber.open(str(pdf_path)) as pdf:
            for p in pdf.pages:
                text_pages.append(p.extract_text() or "")
    except Exception:
        text_pages = []

    # 2) PyPDF2 보조
    if not any(s.strip() for s in text_pages):
        from PyPDF2 import PdfReader
        reader = PdfReader(str(pdf_path))
        text_pages = [(p.extract_text() or "") for p in reader.pages]

    return text_pages

def ocr_pdf(pdf_path: Path):
    from pdf2image import convert_from_path
    import pytesseract
    imgs = convert_from_path(str(pdf_path), dpi=300)
    texts = []
    for im in imgs:
        texts.append(pytesseract.image_to_string(im, lang="kor+eng"))
    return texts

if __name__ == "__main__":
    assert PDF_PATH.exists(), f"PDF not found: {PDF_PATH}"
    pages = extract_text_pages(PDF_PATH)

    if not any(s.strip() for s in pages):
        # 스캔본 → OCR
        pages = ocr_pdf(PDF_PATH)

    print(f"총 페이지: {len(pages)}")
    print("첫 페이지 미리보기:\n", pages[0][:800])

    OUT_JSON.write_text(json.dumps(pages, ensure_ascii=False, indent=2))
    print(f"저장 완료: {OUT_JSON.resolve()}")


총 페이지: 639
첫 페이지 미리보기:
 장기 약관_제2025-14호
(무) 2507
메리츠 운전자 상해 종합보험
판매버전 1.0
보험약관
판매개시 2025. 7. 7
※ 본 약관은 관계 법령 및 내부통제기준에 따른 절차를 거쳐 제공됩니다.
저장 완료: /home/sojung/workspace/sk네트웍스 family ai camp/3차 프로젝트/pages_raw.json


In [None]:
# 필수 라이브러리
# !pip -q install "langchain-postgres>=0.0.12" "langchain-openai>=0.2.0" "langchain>=0.2.12" tqdm python-dotenv

import os, json
from pathlib import Path
from tqdm import tqdm

# from dotenv import load_dotenv
# load_dotenv()  # .env에 OPENAI_API_KEY가 있어야 합니다.

# ----- 연결/콜렉션 설정 -----
CONNECTION_STRING = "postgresql+psycopg2://play:123@192.168.0.22:5432/team3"  # 네가 쓰던 값
COLLECTION_NAME   = "test"  # 기존 'test' 재사용 (필요시 변경)

# ----- JSON 경로 설정 -----
# 1) 프로젝트 내 생성한 파일 경로를 먼저 시도
CANDIDATES = [
    Path("/home/sojung/workspace/3차 단위플젝/pages_raw.json")
]

JSON_PATH = next((p for p in CANDIDATES if p.exists()), None)
assert JSON_PATH is not None, f"JSON 파일을 찾지 못했습니다. 후보: {[str(p) for p in CANDIDATES]}"

print("✅ JSON 경로:", JSON_PATH)
print("✅ OPENAI_API_KEY 존재:", bool(os.getenv("OPENAI_API_KEY")))


In [None]:
from typing import List
from langchain_core.documents import Document

def load_pages_as_texts(json_path: Path) -> List[str]:
    data = json.loads(json_path.read_text(encoding="utf-8"))
    # 형태 1: ["p1 text", "p2 text", ...]
    # 형태 2: {"texts": [...], "engines": [...]}
    if isinstance(data, dict) and "texts" in data:
        texts = data["texts"]
    elif isinstance(data, list):
        texts = data
    else:
        raise ValueError("지원하지 않는 JSON 형식입니다. 리스트 또는 {'texts': [...]} 이어야 합니다.")
    return [(t or "").strip() for t in texts]

texts = load_pages_as_texts(JSON_PATH)
raw_docs = [
    Document(
        page_content=txt,
        metadata={
            "source": str(JSON_PATH.resolve()),
            "page": i+1,
            "doc_name": JSON_PATH.stem,
            "doc_type": "insurance_tos",
        },
    )
    for i, txt in enumerate(texts) if txt
]
print(f"총 페이지: {len(texts)} | 빈 페이지 제외 문서: {len(raw_docs)}")
if raw_docs:
    print("미리보기:", raw_docs[0].metadata, raw_docs[0].page_content[:120].replace("\n"," "))

In [None]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

splitter = RecursiveCharacterTextSplitter(
    separators=["\n\n", "\n", " ", ""],
    chunk_size=512,     # 문서 길이에 맞춰 800~1500 사이 조정 가능
    chunk_overlap=150,
)

docs = splitter.split_documents(raw_docs)
print(f"청크 수: {len(docs)}, 평균 길이: {sum(len(d.page_content) for d in docs)//max(1,len(docs))}자")


In [None]:
from langchain_openai import OpenAIEmbeddings
from langchain_postgres import PGVector

# 이미 앞에서 설정했다면 재사용:
# CONNECTION_STRING = "postgresql+psycopg2://play:123@192.168.0.22:5432/team1"
# COLLECTION_NAME   = "test"

embeddings = OpenAIEmbeddings(model="text-embedding-3-small")  # 1536차원, 비용/속도 균형

vectorstore = PGVector(
    embeddings=embeddings,
    collection_name=COLLECTION_NAME,
    connection=CONNECTION_STRING,
    use_jsonb=True,           # 메타데이터 JSONB 저장
    # recreate_collection=False  # 기본값; 절대 초기화 안 함
)

print("✅ PGVector 준비 완료 (기존 컬렉션에 append)")

In [None]:
import re
from copy import deepcopy
from langchain_core.documents import Document

# NUL(\x00) 포함 제어문자 제거 정규식 (탭/개행 제외)
CTRL_RE = re.compile(r"[\x00-\x08\x0B\x0C\x0E-\x1F]")

def clean_text(s: str) -> str:
    if not s:
        return ""
    # 1) NUL 및 기타 제어문자 제거
    s = CTRL_RE.sub("", s)
    # 2) 유니코드 비정상 공백 정규화(선택)
    s = s.replace("\u200b", "").replace("\ufeff", "")
    return s

def clean_doc(doc: Document) -> Document:
    d = deepcopy(doc)
    d.page_content = clean_text(d.page_content)
    # 메타데이터 값이 문자열이면 동일 처리
    for k, v in list(d.metadata.items()):
        if isinstance(v, str):
            d.metadata[k] = clean_text(v)
    return d

In [None]:
cleaned_docs = []
dropped = 0
for d in docs:
    cd = clean_doc(d)
    if cd.page_content.strip():
        cleaned_docs.append(cd)
    else:
        dropped += 1

print(f"정리 완료: {len(cleaned_docs)}개 유지, 빈 청크 {dropped}개 제외")

In [None]:
# %pip install -q tiktoken

import tiktoken
from uuid import uuid5, NAMESPACE_URL

# 임베딩 모델과 맞는 토크나이저 (OpenAI 임베딩: cl100k_base)
enc = tiktoken.get_encoding("cl100k_base")

# 모델 한계: text-embedding-3-small 는 입력 8191 tokens 권장
MAX_TOKENS_PER_ITEM = 8000         # 안전 마진
MAX_TOKENS_PER_BATCH = 250_000     # OpenAI 요청당 30만 제한보다 여유있게
MAX_ITEMS_PER_BATCH  = 128         # 과도한 리스트 방지

def n_tokens(s: str) -> int:
    return len(enc.encode(s or ""))

def truncate_to_tokens(s: str, max_tokens: int = MAX_TOKENS_PER_ITEM) -> str:
    toks = enc.encode(s or "")
    if len(toks) <= max_tokens:
        return s
    return enc.decode(toks[:max_tokens])

def make_id(doc) -> str:
    head = (doc.page_content or "")[:64]
    key = f"{doc.metadata.get('source')}|{doc.metadata.get('page')}|{head}"
    return str(uuid5(NAMESPACE_URL, key))

def build_safe_batches(documents):
    """총 토큰 수/아이템 수를 제한해 안전한 배치로 묶어줌."""
    batch, ids = [], []
    tok_sum = 0
    for d in documents:
        text = truncate_to_tokens(d.page_content)
        d.page_content = text  # 실제로 잘라서 저장

        nt = n_tokens(text)
        # 비어있는 청크는 스킵
        if nt == 0:
            continue

        # 현재 배치에 추가 불가하면 flush
        if (tok_sum + nt > MAX_TOKENS_PER_BATCH) or (len(batch) >= MAX_ITEMS_PER_BATCH):
            if batch:
                yield batch, ids
            batch, ids, tok_sum = [], [], 0

        batch.append(d)
        ids.append(make_id(d))
        tok_sum += nt

    if batch:
        yield batch, ids


In [None]:
from tqdm import tqdm

total_added = 0
num_batches = 0

for docs_batch, ids_batch in tqdm(build_safe_batches(cleaned_docs), desc="임베딩+저장(배치)", unit="batch"):
    # 여기서 vectorstore가 배치 단위로 OpenAI 임베딩 호출 → DB 저장
    vectorstore.add_documents(documents=docs_batch, ids=ids_batch)
    total_added += len(docs_batch)
    num_batches += 1

print(f"✅ 완료: {total_added} 청크 저장, {num_batches}개 배치 사용")

In [None]:
retriever = vectorstore.as_retriever(search_kwargs={'k': 3})
query = "청약철회는 언제까지 가능한가요?"
retrieved_docs = retriever.invoke(query)

print("🔎 Query:", query)
for i, doc in enumerate(retrieved_docs, 1):
    print(f"\n[{i}] page={doc.metadata.get('page')}")
    print(doc.page_content[:300].replace("\n", " "))