In [1]:
from dotenv import load_dotenv
load_dotenv()

from langchain_openai import ChatOpenAI
import fitz  # pymupdf
import os
import faiss
import numpy as np
from langchain_openai import OpenAIEmbeddings
import pickle
from datetime import datetime

# LangGraph 관련 라이브러리
from langgraph.graph import StateGraph, END
from langgraph.prebuilt import ToolNode
from langchain_core.tools import tool
from langchain_core.messages import HumanMessage, AIMessage, ToolMessage
from typing import TypedDict, List, Dict, Any
import json

In [2]:
llm = ChatOpenAI(model="gpt-4o", streaming=True)

In [3]:
# === 텍스트 추출 및 청킹 ===
def extract_text_with_fitz(pdf_path):
    """PyMuPDF로 텍스트 추출 - 한글 처리 개선"""
    try:
        doc = fitz.open(pdf_path)
        print(f"PDF 파일: {pdf_path}")
        print(f"총 페이지 수: {len(doc)}")
        
        full_text = ""
        
        for page_num in range(len(doc)):
            print(f"페이지 {page_num + 1} 처리 중...")
            page = doc[page_num]
            
            # 텍스트 추출
            text = page.get_text()
            
            if text and text.strip():
                # 한글 처리 및 텍스트 정리
                text = text.replace('\x00', '')  # null 문자 제거
                text = text.replace('\ufeff', '')  # BOM 제거
                text = text.replace('\r\n', '\n')  # 줄바꿈 정리
                text = text.replace('\r', '\n')
                
                print(f"  페이지 {page_num + 1}: {len(text)} 글자 추출")
                print(f"  첫 50글자: {text[:50]}")
                
                full_text += text + "\n\n"  # 페이지 구분
            else:
                print(f"  페이지 {page_num + 1}: 텍스트 없음")
        
        doc.close()
        print(f"\n총 추출된 텍스트: {len(full_text)} 글자")
        return full_text
        
    except Exception as e:
        print(f"PyMuPDF 오류: {e}")
        return ""

def chunk_text(text, chunk_size=2000, overlap=100):
    """텍스트를 청크로 나누는 함수"""
    if not text.strip():
        print("빈 텍스트입니다.")
        return []
    
    chunks = []
    start = 0
    
    while start < len(text):
        end = start + chunk_size
        chunk = text[start:end].strip()
        
        if chunk:  # 빈 청크가 아닌 경우만 추가
            chunks.append(chunk)
        
        start = end - overlap
    
    return chunks

In [4]:
# === 벡터 스토어 관련 함수들 ===
def search_documents_openai(query, index, embedding_model, chunks, metadatas, k=3):
    """OpenAI 임베딩을 사용한 문서 검색"""
    try:
        # 쿼리를 임베딩으로 변환
        query_embedding = embedding_model.embed_query(query)
        query_embedding = np.array([query_embedding]).astype('float32')
        
        # FAISS로 유사한 문서 검색
        distances, indices = index.search(query_embedding, k)
        
        # 결과 포맷팅
        results = []
        for i, (distance, idx) in enumerate(zip(distances[0], indices[0])):
            if idx < len(chunks):  # 유효한 인덱스인지 확인
                results.append({
                    'chunk_id': idx,
                    'content': chunks[idx],
                    'score': 1.0 - (distance / 2.0),  # 거리를 유사도로 변환
                    'metadata': metadatas[idx] if idx < len(metadatas) else {}
                })
        
        return results
        
    except Exception as e:
        print(f"검색 오류: {e}")
        return []

def save_vectorstore_openai(index, chunks, metadatas, pdf_filename, save_name="pdf_openai_vectors"):
    """벡터 스토어 저장"""
    try:
        # FAISS 인덱스 저장
        faiss.write_index(index, f'{save_name}_vectors.index')
        
        # 청크와 메타데이터 저장
        with open(f'{save_name}_data.pkl', 'wb') as f:
            pickle.dump({
                'chunks': chunks,
                'metadatas': metadatas,
                'pdf_filename': pdf_filename,
                'chunk_count': len(chunks),
                'embedding_model': 'text-embedding-3-large',
                'embedding_type': 'openai'
            }, f)
        
        return True
        
    except Exception as e:
        print(f"저장 오류: {e}")
        return False

def create_faiss_vectorstore_openai(chunks, pdf_filename, save_name="pdf_openai_vectors"):
    """청크들을 FAISS 벡터 스토어로 변환하고 자동 저장 (OpenAI 임베딩 사용)"""
    if not chunks:
        print("청크가 없습니다.")
        return None, None, None, None
    
    print("OpenAI 임베딩 모델 로드 중...")
    embedding = OpenAIEmbeddings(model='text-embedding-3-large')
    
    print(f"임베딩 생성 중... ({len(chunks)}개 청크)")
    print("OpenAI API 호출 중이므로 시간이 걸릴 수 있습니다...")
    
    try:
        # 청크들을 임베딩으로 변환
        embeddings = embedding.embed_documents(chunks)
        embeddings = np.array(embeddings).astype('float32')
        
        print(f"임베딩 완료! 차원: {embeddings.shape[1]}, 개수: {embeddings.shape[0]}")
        
        # FAISS 인덱스 생성
        dimension = embeddings.shape[1]
        index = faiss.IndexFlatL2(dimension)  # L2 거리 기반 인덱스
        index.add(embeddings)
        
        # 메타데이터 생성
        metadatas = []
        for i, chunk in enumerate(chunks):
            metadatas.append({
                'chunk_id': i,
                'source': pdf_filename,
                'chunk_size': len(chunk),
                'preview': chunk[:100] + "..." if len(chunk) > 100 else chunk
            })
        
        print(f"FAISS 벡터 스토어 생성 완료! {index.ntotal}개 벡터 저장됨")
        
        # 자동 저장
        print("벡터 스토어를 자동 저장 중...")
        if save_vectorstore_openai(index, chunks, metadatas, pdf_filename, save_name):
            print("✓ 자동 저장 완료!")
        else:
            print("⚠️  자동 저장 실패")
        
        return index, embedding, chunks, metadatas
        
    except Exception as e:
        print(f"임베딩 생성 오류: {e}")
        print("OpenAI API 키가 설정되어 있는지 확인해주세요.")
        return None, None, None, None

def load_or_create_vectorstore(chunks, pdf_filename, save_name="pdf_openai_vectors"):
    """벡터 스토어가 있으면 로드하고, 없으면 새로 생성하는 함수"""
    index_file = f'{save_name}_vectors.index'
    data_file = f'{save_name}_data.pkl'
    
    # 저장된 파일들이 모두 존재하는지 확인
    if os.path.exists(index_file) and os.path.exists(data_file):
        print("기존 벡터 스토어를 찾았습니다. 로드 중...")
        
        try:
            # 저장된 데이터 로드
            index = faiss.read_index(index_file)
            
            with open(data_file, 'rb') as f:
                data = pickle.load(f)
            
            # 저장된 PDF 파일명과 현재 파일명 비교
            if data['pdf_filename'] == pdf_filename:
                print("✓ 동일한 PDF 파일의 벡터 스토어 로드 성공!")
                
                # OpenAI 임베딩 모델 로드
                embedding_model = OpenAIEmbeddings(model='text-embedding-3-large')
                
                print(f"- 벡터 개수: {index.ntotal}")
                print(f"- 청크 개수: {data['chunk_count']}")
                print(f"- 원본 파일: {data['pdf_filename']}")
                print(f"- 임베딩 모델: {data.get('embedding_model', '정보 없음')}")
                
                return index, embedding_model, data['chunks'], data['metadatas']
            else:
                print(f"⚠️  다른 PDF 파일의 벡터 스토어입니다.")
                print(f"   저장된 파일: {data['pdf_filename']}")
                print(f"   현재 파일: {pdf_filename}")
                print("   새로운 벡터 스토어를 생성합니다...")
                
        except Exception as e:
            print(f"⚠️  벡터 스토어 로드 중 오류 발생: {e}")
            print("   새로운 벡터 스토어를 생성합니다...")
    
    else:
        print("저장된 벡터 스토어를 찾을 수 없습니다. 새로 생성합니다...")
    
    # 새로운 벡터 스토어 생성
    print("\n=== 새로운 벡터 스토어 생성 ===")
    return create_faiss_vectorstore_openai(chunks, pdf_filename, save_name)


In [5]:
# === 상태 정의 ===
class AgentState(TypedDict):
    messages: List[Any]
    user_query: str
    search_results: List[Dict]
    summary: str
    tool_calls: List[Dict]

In [6]:
# === 전역 변수들 ===
# 전역 변수로 벡터 스토어 관련 객체들을 저장
vector_store_data = {
    'index': None,
    'embedding_model': None,
    'chunks': None,
    'metadatas': None
}

In [7]:
# === 도구 정의 ===
@tool
def search_pdf_documents(query: str, k: int = 3) -> str:
    """
    PDF 문서에서 관련 내용을 검색합니다.
    
    Args:
        query: 검색할 키워드나 질문
        k: 반환할 결과 개수 (기본값: 3)
    
    Returns:
        검색된 문서 내용들
    """
    if vector_store_data['index'] is None:
        return "벡터 스토어가 준비되지 않았습니다. 먼저 PDF를 처리해주세요."
    
    try:
        # 검색 실행
        results = search_documents_openai(
            query, 
            vector_store_data['index'], 
            vector_store_data['embedding_model'], 
            vector_store_data['chunks'], 
            vector_store_data['metadatas'], 
            k
        )
        
        if not results:
            return f"'{query}'에 대한 검색 결과가 없습니다."
        
        # 검색 결과를 문자열로 포맷팅
        formatted_results = []
        for i, result in enumerate(results):
            formatted_results.append(
                f"[검색결과 {i+1}]\n"
                f"유사도: {result['score']:.4f}\n"
                f"내용: {result['content'][:500]}{'...' if len(result['content']) > 500 else ''}\n"
            )
        
        return "\n\n".join(formatted_results)
        
    except Exception as e:
        return f"검색 중 오류 발생: {str(e)}"

@tool
def summarize_content(content: str, focus: str = "general") -> str:
    """
    주어진 내용을 요약합니다.
    
    Args:
        content: 요약할 내용
        focus: 요약 초점 ("general", "key_points", "technical", "brief")
    
    Returns:
        요약된 내용
    """
    if not content.strip():
        return "요약할 내용이 없습니다."
    
    # OpenAI LLM 모델 사용
    llm = ChatOpenAI(model="gpt-4o-mini", temperature=0.3)
    
    focus_prompts = {
        "general": "다음 내용을 전반적으로 요약해주세요:",
        "key_points": "다음 내용에서 핵심 포인트들만 정리해주세요:",
        "technical": "다음 내용에서 기술적인 부분을 중심으로 요약해주세요:",
        "brief": "다음 내용을 간단히 한 문단으로 요약해주세요:"
    }
    
    prompt = focus_prompts.get(focus, focus_prompts["general"])
    
    try:
        response = llm.invoke([
            HumanMessage(content=f"{prompt}\n\n{content}")
        ])
        return response.content
    except Exception as e:
        return f"요약 중 오류 발생: {str(e)}"

@tool
def get_document_info() -> str:
    """
    현재 로드된 PDF 문서의 정보를 반환합니다.
    
    Returns:
        문서 정보
    """
    if vector_store_data['chunks'] is None:
        return "로드된 문서가 없습니다."
    
    total_chars = sum(len(chunk) for chunk in vector_store_data['chunks'])
    
    return f"""
현재 로드된 문서 정보:
- 파일명: {vector_store_data.get('pdf_filename', '알 수 없음')}
- 총 청크 수: {len(vector_store_data['chunks'])}
- 총 글자 수: {total_chars:,}
- 평균 청크 크기: {total_chars // len(vector_store_data['chunks']):,} 글자
"""

In [8]:
# === 에이전트 노드 함수들 ===
def should_continue(state: AgentState) -> str:
    """다음 단계를 결정하는 함수"""
    messages = state["messages"]
    last_message = messages[-1]
    
    # 도구 호출이 있으면 도구 실행
    if hasattr(last_message, 'tool_calls') and last_message.tool_calls:
        return "tools"
    
    # 그렇지 않으면 종료
    return END

def call_model(state: AgentState) -> AgentState:
    """LLM 모델 호출"""
    messages = state["messages"]
    
    # 시스템 프롬프트
    system_prompt = """
당신은 PDF 문서 검색 및 요약 전문 에이전트입니다.

사용 가능한 도구들:
1. search_pdf_documents: PDF에서 관련 내용 검색
2. summarize_content: 내용 요약
3. get_document_info: 문서 정보 조회

사용자의 질문에 따라 적절한 도구를 사용하여 답변하세요:
- 특정 내용을 찾고 싶다면 search_pdf_documents를 사용
- 검색된 내용을 요약하고 싶다면 summarize_content를 사용
- 문서 정보가 궁금하다면 get_document_info를 사용

항상 한국어로 친절하고 정확하게 답변해주세요.
"""
    
    # 시스템 메시지가 없다면 추가
    if not messages or not any(hasattr(msg, 'content') and system_prompt in str(msg.content) for msg in messages[:1]):
        messages = [HumanMessage(content=system_prompt)] + messages
    
    # LLM 호출
    llm = ChatOpenAI(model="gpt-4o", temperature=0.1)
    llm_with_tools = llm.bind_tools([search_pdf_documents, summarize_content, get_document_info])
    
    response = llm_with_tools.invoke(messages)
    
    return {"messages": messages + [response]}

In [9]:
# 도구 노드 생성
tools = [search_pdf_documents, summarize_content, get_document_info]
tool_node = ToolNode(tools)

def call_tools(state: AgentState) -> AgentState:
    """도구 실행 - ToolNode를 사용한 새로운 방식"""
    return tool_node.invoke(state)


In [10]:
# === 에이전트 생성 ===
def create_pdf_agent():
    """PDF 검색 요약 에이전트 생성"""
    
    # 그래프 생성
    graph_builder = StateGraph(AgentState)

    # 노드 추가
    graph_builder.add_node("agent", call_model)
    graph_builder.add_node("tools", call_tools)

    # 시작점 설정
    graph_builder.set_entry_point("agent")

    # 조건부 엣지 추가
    graph_builder.add_conditional_edges(
        "agent",
        should_continue,
        {
            "tools": "tools",
            END: END
        }
    )

    # 도구에서 다시 에이전트로
    graph_builder.add_edge("tools", "agent")

    # 그래프 컴파일
    graph = graph_builder.compile()

    return graph

# === 실행 함수들 ===
def run_pdf_agent(user_query: str, pdf_agent) -> str:
    """PDF 에이전트 실행"""
    
    # 초기 상태
    initial_state = {
        "messages": [HumanMessage(content=user_query)],
        "user_query": user_query,
        "search_results": [],
        "summary": "",
        "tool_calls": []
    }
    
    try:
        # 에이전트 실행
        result = pdf_agent.invoke(initial_state)
        
        # 최종 응답 추출
        final_message = result["messages"][-1]
        if hasattr(final_message, 'content'):
            return final_message.content
        else:
            return str(final_message)
            
    except Exception as e:
        return f"에이전트 실행 중 오류 발생: {str(e)}"

In [11]:
def interactive_pdf_agent(pdf_agent):
    """대화형 PDF 에이전트"""
    print("\n" + "="*60)
    print("🤖 PDF 검색 요약 에이전트")
    print("="*60)
    print("• '종료', 'quit', 'exit'를 입력하면 종료됩니다")
    print("• 예시 질문:")
    print("  - '교통약자에 대해 검색해서 요약해줘'")
    print("  - '고령자 정책 관련 내용을 찾아줘'")
    print("  - '문서 정보를 알려줘'")
    print("-"*60)
    
    while True:
        try:
            user_input = input("\n💬 질문을 입력하세요: ").strip()
            
            if user_input.lower() in ['종료', 'quit', 'exit', 'q']:
                print("에이전트를 종료합니다. 👋")
                break
            
            if not user_input:
                continue
            
            print("\n🤖 에이전트가 작업 중입니다...")
            print("-" * 40)
            
            # 에이전트 실행
            response = run_pdf_agent(user_input, pdf_agent)
            
            print(f"\n🎯 답변:\n{response}")
            print("-" * 60)
            
        except KeyboardInterrupt:
            print("\n\n에이전트를 종료합니다. 👋")
            break
        except Exception as e:
            print(f"오류 발생: {e}")


In [None]:
# === 메인 실행 ===
def main():
    """메인 실행 함수"""
    # 1. PDF 텍스트 추출
    pdf_file = "2024-PR-15.pdf"
    
    if not os.path.exists(pdf_file):
        print(f"✗ PDF 파일을 찾을 수 없습니다: {pdf_file}")
        return
    
    print("=== PDF 텍스트 추출 ===")
    full_text = extract_text_with_fitz(pdf_file)
    
    if not full_text:
        print("✗ 텍스트 추출 실패")
        return
    
    print("✓ 텍스트 추출 성공!")
    
    # 2. 텍스트 청킹
    print("\n=== 텍스트 청킹 ===")
    chunks = chunk_text(full_text)
    print(f"✓ 청킹 완료: {len(chunks)}개 청크")
    
    # 3. 벡터 스토어 생성/로드
    print("\n=== 벡터 스토어 처리 ===")
    index, embedding_model, chunks, metadatas = load_or_create_vectorstore(
        chunks, 
        pdf_file, 
        save_name="my_pdf_vectors"
    )
    
    if index is None:
        print("✗ 벡터 스토어 준비 실패")
        return
    
    print("✓ 벡터 스토어 준비 완료!")
    
    # 4. 전역 변수에 저장
    vector_store_data['index'] = index
    vector_store_data['embedding_model'] = embedding_model
    vector_store_data['chunks'] = chunks
    vector_store_data['metadatas'] = metadatas
    vector_store_data['pdf_filename'] = pdf_file
    
    # 5. 에이전트 생성
    print("\n=== PDF 에이전트 생성 ===")
    pdf_agent = create_pdf_agent()
    print("✓ PDF 에이전트 생성 완료!")
    
    # 6. 테스트 실행
    test_query = "문서 정보를 알려줘"
    print(f"\n🧪 테스트 실행: {test_query}")
    result = run_pdf_agent(test_query, pdf_agent)
    print(f"결과: {result}")
    
    # 7. 대화형 실행
    print("\n🚀 대화형 에이전트를 시작하시겠습니까? (y/n)")
    if input("입력: ").lower() in ['y', 'yes', '네', 'ㅇ']:
        interactive_pdf_agent(pdf_agent)

if __name__ == "__main__":
    main()

=== PDF 텍스트 추출 ===
PDF 파일: 2024-PR-15.pdf
총 페이지 수: 127
페이지 1 처리 중...
  페이지 1: 61 글자 추출
  첫 50글자: 약자와 동행하는 서울의 교통
이신해   김승준   한영준   양재환 
윤서연   연준형  
페이지 2 처리 중...
  페이지 2: 16 글자 추출
  첫 50글자: 약자와 동행하는 서울의 교통

페이지 3 처리 중...
  페이지 3: 257 글자 추출
  첫 50글자: 이 보고서의 내용은 연구진의 견해로서 
서울특별시의 정책과는 다를 수도 있습니다.
연구책임
페이지 4 처리 중...
  페이지 4: 1010 글자 추출
  첫 50글자: i
약
자
와
 동
행
하
는
 서
울
의
 교
통
서울시, 다양한 교통약자 불편 개선 위
페이지 5 처리 중...
  페이지 5: 979 글자 추출
  첫 50글자: ii
요
약
서울 장시간 통근자 지원 시급…혼잡 완화·서비스 수준 보장 방안 필요
교통 체
페이지 6 처리 중...
  페이지 6: 321 글자 추출
  첫 50글자: iii
약
자
와
 동
행
하
는
 서
울
의
 교
통
목차
01 연구개요
2
1_연구배경
페이지 7 처리 중...
  페이지 7: 649 글자 추출
  첫 50글자: iv
목
차
표목차
[표 2-1] 교통부문에서의 약자 정의와 권리, 책무 
14
[표 3-
페이지 8 처리 중...
  페이지 8: 752 글자 추출
  첫 50글자: v
약
자
와
 동
행
하
는
 서
울
의
 교
통
그림목차
[그림 1-1] 약자의 범위 
페이지 9 처리 중...
  페이지 9: 1125 글자 추출
  첫 50글자: vi
목
차
[그림 3-15] 고령자가 걸어서 동네 외출 시 가장 불편한 점
38
[그림 
페이지 10 처리 중...
  페이지 10: 820 글자 추출
  첫 50글자: vii
약
자
와
 동
행
하
는
 서
울
의
 교
통
[그림 4-24] 현재 거주지 선택
페이지 11 처리 중...
  페이지 11: 32 글자 추출
  첫