# LangGraph test

In [8]:
!pip install langgraph dotenv langchain langchain-openai langchain-community openai faiss-cpu rank_bm25

Collecting langgraph
  Downloading langgraph-0.6.3-py3-none-any.whl.metadata (6.8 kB)
Collecting langgraph-checkpoint<3.0.0,>=2.1.0 (from langgraph)
  Downloading langgraph_checkpoint-2.1.1-py3-none-any.whl.metadata (4.2 kB)
Collecting langgraph-prebuilt<0.7.0,>=0.6.0 (from langgraph)
  Downloading langgraph_prebuilt-0.6.3-py3-none-any.whl.metadata (4.5 kB)
Collecting langgraph-sdk<0.3.0,>=0.2.0 (from langgraph)
  Downloading langgraph_sdk-0.2.0-py3-none-any.whl.metadata (1.5 kB)
Collecting ormsgpack>=1.10.0 (from langgraph-checkpoint<3.0.0,>=2.1.0->langgraph)
  Downloading ormsgpack-1.10.0-cp312-cp312-win_amd64.whl.metadata (44 kB)
Downloading langgraph-0.6.3-py3-none-any.whl (152 kB)
Downloading langgraph_checkpoint-2.1.1-py3-none-any.whl (43 kB)
Downloading langgraph_prebuilt-0.6.3-py3-none-any.whl (28 kB)
Downloading langgraph_sdk-0.2.0-py3-none-any.whl (50 kB)
Downloading ormsgpack-1.10.0-cp312-cp312-win_amd64.whl (121 kB)
Installing collected packages: ormsgpack, langgraph-sdk, l


[notice] A new release of pip is available: 25.1.1 -> 25.2
[notice] To update, run: python.exe -m pip install --upgrade pip


# set env

In [43]:
from dotenv import load_dotenv
from langchain_community.vectorstores import FAISS
from langchain_openai import OpenAIEmbeddings, ChatOpenAI
import os
from collections import defaultdict

load_dotenv()

os.environ["OPENAI_API_KEY"] = os.getenv("OPENAI_API_KEY")
os.environ["OPENAI_API_BASE"] = os.getenv("OPENAI_API_BASE")

llm = ChatOpenAI(model="gpt-4o-mini")
embeddings = OpenAIEmbeddings(model="text-embedding-3-small")

faiss_store = (
    FAISS.load_local(
        "faiss_store", embeddings=embeddings, allow_dangerous_deserialization=True
    )
    if os.path.exists("faiss_store")
    else None
)

all_docs = list(faiss_store.docstore._dict.values())


all_texts = [doc.page_content for doc in faiss_store.docstore._dict.values()]

# FAISS + ensemble[bm25 / similarity]


In [45]:
from langchain_community.retrievers import BM25Retriever
from langchain.retrievers import EnsembleRetriever

common_docs = [doc for doc in all_docs if doc.metadata.get("main_topic") == "공통 구조 해석"]

# 나머지 카테고리별로 문서 그룹화
specific_docs_grouped = defaultdict(list)
for doc in all_docs:
    category = doc.metadata.get("main_topic")
    if category and category != "공통 구조 해석":
        specific_docs_grouped[category].append(doc)

# BM25 리트리버 캐시 생성: 각 카테고리에 '공통' 문서를 합쳐서 생성
bm25_retriever_cache = {}
for category, docs in specific_docs_grouped.items():
    # 해당 카테고리 문서와 공통 문서를 합칩니다.
    combined_docs = docs + common_docs
    bm25_retriever_cache[category] = BM25Retriever.from_documents(combined_docs)

# '공통 해석 사항' 자체에 대한 리트리버도 추가 (필요 시 사용)
if common_docs:
    bm25_retriever_cache["공통 구조 해석"] = BM25Retriever.from_documents(common_docs)

print(f"✅ BM25 캐시 생성 완료! 대상: {list(bm25_retriever_cache.keys())}")

def get_ensemble_retriever_by_category(
    faiss_store: FAISS,
    bm25_cache: dict,
    category: str,
    k: int = 3,
    weights: list[float] = [0.3, 0.7]
):
    """
    지정된 카테고리(+공통)에 맞는 리트리버를 동적으로 조합하여 반환합니다.
    """
    # 1. 캐시에서 미리 생성된 BM25 리트리버를 가져옵니다.
    # 이 리트리버는 이미 '공통' 문서를 포함하고 있습니다.
    sparse_bm25_retriever = bm25_cache.get(category)
    if not sparse_bm25_retriever:
        raise ValueError(f"'{category}' 카테고리에 대한 BM25 리트리버가 캐시에 없습니다.")
    sparse_bm25_retriever.k = k

    # 2. FAISS 리트리버는 'filter'와 '$in'을 사용하여 동적으로 생성합니다.
    # '공통'과 '지정된 카테고리'를 모두 포함하도록 필터링합니다.
    search_categories = ["공통 구조 해석", category]
    # 만약 카테고리가 '공통 해석 사항'이라면 중복을 피합니다.
    if category == "공통 구조 해석":
        search_categories = ["공통 구조 해석"]
    
    dense_similarity_retriever = faiss_store.as_retriever(
        search_type="similarity",
        search_kwargs={
            "k": k, 
            # 중요: 메타데이터 키를 'main_topic'으로 통일합니다.
            "filter": {"main_topic": {"$in": search_categories}}
        }
    )

    # 3. 두 리트리버를 앙상블로 묶습니다.
    return EnsembleRetriever(
        retrievers=[sparse_bm25_retriever, dense_similarity_retriever],
        weights=weights,
    )




K = 3
weights = [0.3, 0.7]

# Sparse
sparse_bm25_retriever = BM25Retriever.from_texts(texts=all_texts)
sparse_bm25_retriever.k = K  # k값을 통일하여 설정
# Dense
dense_similarity_retriever = faiss_store.as_retriever(
    search_type="similarity", search_kwargs={"k": K}
)

retriever = EnsembleRetriever(
    retrievers=[sparse_bm25_retriever, dense_similarity_retriever],
    weights=weights,
)

✅ BM25 캐시 생성 완료! 대상: ['집', '나무', '사람', '공통 구조 해석']


# state 정의

In [46]:
from typing import List, TypedDict

class GraphState(TypedDict):
    """
    Graph RAG 파이프라인의 상태

    Attributes:
        original_question (str): 사용자가 입력한 원본 질문 (그림 묘사)
        decomposed_questions (List[str]): 의미 단위로 분해된 질문 리스트
        retrieved_contexts (List[str]): 검색된 관련 문서(해석) 조각 리스트
        generation (str): LLM이 생성한 최종 해석
        relevance_check (str): 질문의 HTP 검사 관련성 여부 ("yes" or "no")
        hallucination_check (str): 생성된 답변의 환각 현상 유무 ("yes" or "no")
        category (str): 질문 범주(집, 나무, 사람)
    """
    original_question: str
    decomposed_questions: List[str]
    retrieved_contexts: List[str]
    generation: str
    relevance_check: str
    hallucination_check: str
    category: str

# 실행 시간 체크

In [47]:
import time
import functools

execution_times = {}

def timing_decorator(func):
    """
    각 노드 실행 시간 측정
    """
    @functools.wraps(func)
    def wrapper(*args, **kwargs):
        start_time = time.time()
        result = func(*args, **kwargs)
        end_time = time.time()
        elapsed_time = end_time - start_time
        print(f"Execution time for {func.__name__}: {elapsed_time:.2f} seconds")
        execution_times[func.__name__] = elapsed_time
        return result
    return wrapper

# 노드 정의

In [60]:
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser, JsonOutputParser
from langchain_core.runnables import RunnableConfig

# 2-1. Relevance Check Node (질문 관련성 검사)
@timing_decorator
def relevance_check_node(state: GraphState):
    """
    입력된 질문이 HTP 심리검사 해석과 관련이 있는지 확인합니다.
    """
    print("--- 1. 질문 관련성 검사 시작 ---")
    question = state["original_question"]
    
    prompt = ChatPromptTemplate.from_template(
        """당신은 심리검사 전문가입니다. 주어진 질문이 'HTP(집-나무-사람) 그림 심리검사' 해석과 관련된 내용인지 판단해주세요.
        HTP 검사는 집, 나무, 사람 그림의 특징(예: 지붕, 문, 창문, 나무 기둥, 가지, 사람의 눈, 코, 입 등)을 분석하는 것입니다.
        질문은 HTP 그림에 대한 관찰 묘사로, 그림의 요소나 특징에 대한 내용입니다.
        이에 해당하면 'yes', 전혀 관련 없는 내용(예: 오늘 날씨, 스포츠 경기 결과 등)이면 'no'로만 대답해주세요.

        질문: {question}
        판단 (yes/no):"""
    )
    
    chain = prompt | llm | StrOutputParser()
    relevance = chain.invoke({"question": question})
    
    print(f"질문 관련성: {relevance}")
    state["relevance_check"] = relevance.lower()
    if state["relevance_check"] == "no":
        # print("질문이 HTP 검사와 관련이 없습니다. 프로세스를 종료합니다.")
        state["generation"] = "관찰 결과를 다시 입력해주세요."
        print(state)
    return state

# 2-2. Decompose Node (질문 분해)
@timing_decorator
def decompose_query_node(state: GraphState):
    """
    입력된 질문을 의미 단위의 여러 하위 질문으로 분해합니다.
    """
    print("--- 2. 질문 분해 시작 ---")
    question = state["original_question"]
    
    prompt = ChatPromptTemplate.from_template(
        """당신은 HTP 그림 심리검사 문장 분석 전문가입니다. 상담사가 그림을 보고 관찰한 내용을 나열한 문장이 주어집니다. 
        이 문장을 그림의 각 요소(예: 문, 창문, 지붕, 길 등)에 대한 독립적인 해석이 가능한 단위로 분해하여 JSON 리스트 형태로 반환해주세요.

        예시:
        입력: "집에 창문은 2개 존재하고 크기는 적절함. 문은 집의 크기에 비해 작으며 문과 바깥이 길로 이어져 있지 않음."
        출력: {{"queries": ["집 창문의 개수는 2개이고 크기는 적절하다.", "집 문의 크기가 집 전체에 비해 작다.", "집과 외부를 잇는 길이 그려져 있지 않다."]}}

        입력: {question}
        출력:"""
    )
    
    chain = prompt | llm | JsonOutputParser()
    decomposed = chain.invoke({"question": question})
    
    decomposed_questions = decomposed.get("queries", [])
    print(f"분해된 질문: {decomposed_questions}")
    state["decomposed_questions"] = decomposed_questions
    return state

# 2-3. Retrieve Node (정보 검색)
@timing_decorator
def meta_retrieve_node(state: GraphState, config: RunnableConfig):
    """
    분해된 각 질문에 대해, state의 category에 맞춰 동적으로 Ensemble Retriever를
    생성하고 관련 문서를 검색합니다.
    """
    print(f"--- 3. 정보 검색 시작 (카테고리: {state['category']}) ---")
    
    # FastAPI의 app.state에 저장해 둔 구성요소를 config를 통해 가져옵니다.
    faiss_store = config["configurable"]["faiss_store"]
    bm25_cache = config["configurable"]["bm25_retriever_cache"]
    
    # 현재 요청의 카테고리에 맞는 앙상블 리트리버를 즉시 생성합니다.
    try:
        retriever = get_ensemble_retriever_by_category(
            faiss_store=faiss_store,
            bm25_cache=bm25_cache,
            category=state["category"]
        )
    except ValueError as e:
        # 특정 카테고리가 없는 경우에 대한 예외 처리
        print(e)
        state["retrieved_contexts"] = []
        # 또는 에러 메시지를 generation에 담아 사용자에게 전달할 수도 있습니다.
        state["generation"] = "죄송합니다. 요청하신 카테고리의 정보를 찾을 수 없습니다."
        return state

    decomposed_questions = state["decomposed_questions"]
    all_retrieved_docs = []
    for query in decomposed_questions:
        print(f"  - 검색 쿼리: '{query}'")
        retrieved_docs = retriever.invoke(query)
        doc_texts = [doc.page_content for doc in retrieved_docs]
        all_retrieved_docs.extend(doc_texts)
    
    unique_contexts = list(set(all_retrieved_docs))
    print(f"검색된 해석 Context 수: {len(unique_contexts)}")
    state["retrieved_contexts"] = unique_contexts
    return state

@timing_decorator
def retrieve_node(state: GraphState):
    """
    분해된 각 질문에 대해 Ensemble Retriever를 사용하여 관련 문서를 검색합니다.
    """
    print("--- 3. 정보 검색 시작 ---")
    decomposed_questions = state["decomposed_questions"]
    all_retrieved_docs = []

    for query in decomposed_questions:
        print(f"  - 검색 쿼리: '{query}'")
        # 여기서 사용자가 제공한 retriever를 사용합니다.
        retrieved_docs = retriever.invoke(query)
        
        # 검색 결과의 내용을 문자열로 변환하여 추가
        doc_texts = [doc.page_content for doc in retrieved_docs]
        all_retrieved_docs.extend(doc_texts)
    
    # 중복 제거
    unique_contexts = list(set(all_retrieved_docs))
    print(f"검색된 해석 Context 수: {len(unique_contexts)}")
    state["retrieved_contexts"] = unique_contexts
    return state

# 2-4. Generate Node (답변 생성)
@timing_decorator
def generate_node(state: GraphState):
    """
    검색된 Context를 바탕으로 최종 해석 답변을 생성합니다.
    """
    print("--- 4. 답변 생성 시작 ---")
    question = state["original_question"]
    contexts = "\n\n".join(state["retrieved_contexts"])
    
    prompt = ChatPromptTemplate.from_template(
        """당신은 HTP 그림 심리검사 결과 해석 전문가입니다.
        상담사가 관찰한 '그림 특징'과 그에 대한 '해석 참고자료'가 주어집니다. 
        두 정보를 종합하여, 내담자의 심리상태에 대한 최종 해석 보고서를 작성해주세요.
        ## 유의사항
        전문적이고 이해하기 쉬운 말투로 설명하고, 각 특징과 해석을 논리적으로 연결하여 설명해주세요.
        정보는 반드시 주어진 '해석 참고자료'에 근거해야 하며, 환각(hallucination)이 없어야 합니다.
        답변은 질문에 대한 관찰 내용과 관련된 것만 작성해야 합니다.
        각 특징에 대한 해석 내용을 분석하고 참고 자료에서 관련 내용을 찾아 종합적으로 해석하세요.
        답변은 너무 극단적이지 않고 충분히 납득할 수 있는 수준으로 작성해야 합니다.
        참고자료가 너무 적거나 관련성이 낮다면, 답변은 간단하게 작성해주세요.
        특이한 관찰결과가 아니라면 부정적인 해석을 하면 안됩니다.
        
        [보고서 작성 지침]

        서론: 그림의 전반적인 특징을 간략히 요약하며 해석을 시작합니다.
        본론 (구조적 특징별 해석):
        입력된 그림 묘사를 바탕으로, 주요 구조적 특징별로 소제목을 나누어 분석합니다.
        각 특징에 대한 해석은 반드시 **참고할 해석 내용(RAG 검색 결과)**에 근거하여 작성해야 합니다. 문서에 없는 내용을 추측하거나 환각(hallucination)을 생성해서는 안 됩니다. 각 해석은 전문가적인 용어와 어조를 사용하되, 이해하기 쉽게 풀어 설명합니다.
        종합 소견:
        위에서 분석된 개별 해석들을 종합하여, 해당 그림이 시사하는 핵심적인 심리 상태에 대한 통합적인 가설을 제시합니다.
        여러 특징이 공통적으로 가리키는 심리적 주제(예: 불안, 위축, 방어 등)를 중심으로 요약합니다.


        출력 형식: 아래의 마크다운 형식을 반드시 준수하여 보고서를 작성하세요.

        ## 상담사의 그림 특징 관찰 내용:
        {question}

        ## 해석 참고자료:
        {context}

        ## 최종 해석 보고서:
        [출력 보고서 형식 예시]
        관찰 결과 : {question}

        주요 특징 및 해석적 가설
        입력해주신 그림의 묘사를 바탕으로, 주요 구조적 특징에 대한 심리적 의미를 아래와 같이 분석할 수 있습니다.
        [질문 개수에 맞추어 생성합니다.]
        특징 1:
        (해당하는 묘사가 있을 경우, 해석 내용을 여기에 작성)
        특징 2:
        (해당하는 묘사가 있을 경우, 내용을 여기에 작성)
        특징 3:
        (해당하는 묘사가 있을 경우, 내용을 여기에 작성)
        특징 4:
        (해당하는 묘사가 있을 경우, 내용을 여기에 작성)
        ...

        종합 소견
        종합적으로 볼 때, (예: 외부 세계와의 관계에서의 위축감과 방어적 태도) ~~ 특징과 ~~ 특징이 공통적으로 ~~한 내면 상태를 반영할 가능성을 보여줍니다. 이는 ~~ 어려움으로 이어질 수 있음을 암시합니다.
        
        """
    )
    
    chain = prompt | llm | StrOutputParser()
    generation = chain.invoke({"question": question, "context": contexts})
    
    print("생성된 답변 일부:", generation[:200] + "...")
    state["generation"] = generation
    return state

# 2-5. Hallucination Check Node (환각 검사)
@timing_decorator
def hallucination_check_node(state: GraphState):
    """
    생성된 답변에 환각(hallucination)이 있는지 검사합니다.
    """
    print("--- 5. 환각 검사 시작 ---")
    contexts = state["retrieved_contexts"]
    generation = state["generation"]
    
    prompt = ChatPromptTemplate.from_template(
        """당신은 AI 답변 검증 전문가입니다. 주어진 '참고 자료'를 바탕으로 '생성된 답변'이 만들어졌는지 확인해야 합니다.
        '생성된 답변'의 모든 내용이 '참고 자료'에 근거하고 있다면 'yes'를, '참고 자료'에 없는 내용이 포함되어 있다면 'no'를 반환해주세요.

        ## 참고 자료:
        {context}

        ## 생성된 답변:
        {generation}

        판단 (yes/no):"""
    )
    
    chain = prompt | llm | StrOutputParser()
    check_result = chain.invoke({"context": "\n\n".join(contexts), "generation": generation})

    print(f"환각 검사 결과: {check_result}")
    state["hallucination_check"] = check_result.lower()
    return state

# Edge 정의

In [61]:
# 3-1. 질문 관련성 검사 후 분기
def decide_after_relevance_check(state: GraphState):
    """
    질문 관련성 검사 결과에 따라 다음 단계를 결정합니다.
    - "yes": 질문 분해 단계로 이동
    - "no": 종료
    """
    if state["relevance_check"] == "yes":
        print("결과: 관련성 있음. 질문 분해를 진행합니다.")
        return "decompose"
    else:
        print("결과: 관련성 없음. 프로세스를 종료합니다.")
        return "end"

# 3-2. 환각 검사 후 분기
def decide_after_hallucination_check(state: GraphState):
    """
    환각 검사 결과에 따라 다음 단계를 결정합니다.
    - "yes": 환각 없음, 종료
    - "no": 환각 존재, 답변 재생성
    """
    if state["hallucination_check"] == "yes":
        print("결과: 환각 없음. 최종 답변을 반환합니다.")
        # print(state)
        return "end"
    else:
        print("결과: 환각 존재. 답변을 다시 생성합니다.")
        return "regenerate"

# 그래프 통합

## Naive RAG vs Graph RAG

In [62]:
from langgraph.graph import END, StateGraph

# 그래프 빌더 생성
def create_graph_rag():
    graph_workflow = StateGraph(GraphState)

    # 노드 추가
    graph_workflow.add_node("relevance_check", relevance_check_node)
    graph_workflow.add_node("decompose_query", decompose_query_node)
    graph_workflow.add_node("retrieve", retrieve_node)
    graph_workflow.add_node("generate", generate_node)
    graph_workflow.add_node("hallucination_check", hallucination_check_node)

    # 엣지 연결
    graph_workflow.set_entry_point("relevance_check")
    graph_workflow.add_conditional_edges(
        "relevance_check",
        decide_after_relevance_check,
        {"decompose": "decompose_query", "end": END}
    )
    graph_workflow.add_edge("decompose_query", "retrieve")
    graph_workflow.add_edge("retrieve", "generate")
    graph_workflow.add_edge("generate", "hallucination_check")
    graph_workflow.add_conditional_edges(
        "hallucination_check",
        decide_after_hallucination_check,
        {"regenerate": "generate", "end": END}
    )

    # 그래프 컴파일
    return graph_workflow.compile()

def create_meta_graph_rag():
    graph_workflow = StateGraph(GraphState)

    # 노드 추가
    graph_workflow.add_node("relevance_check", relevance_check_node)
    graph_workflow.add_node("decompose_query", decompose_query_node)
    graph_workflow.add_node("retrieve", meta_retrieve_node)
    graph_workflow.add_node("generate", generate_node)
    graph_workflow.add_node("hallucination_check", hallucination_check_node)

    # 엣지 연결
    graph_workflow.set_entry_point("relevance_check")
    graph_workflow.add_conditional_edges(
        "relevance_check",
        decide_after_relevance_check,
        {"decompose": "decompose_query", "end": END}
    )
    graph_workflow.add_edge("decompose_query", "retrieve")
    graph_workflow.add_edge("retrieve", "generate")
    graph_workflow.add_edge("generate", "hallucination_check")
    graph_workflow.add_conditional_edges(
        "hallucination_check",
        decide_after_hallucination_check,
        {"regenerate": "generate", "end": END}
    )

    # 그래프 컴파일
    return graph_workflow.compile()

def create_naive_rag():
    naive_workflow = StateGraph(GraphState)
    # 노드 추가
    naive_workflow.add_node("decompose_query", decompose_query_node)
    naive_workflow.add_node("retrieve", retrieve_node)
    naive_workflow.add_node("generate", generate_node)

    # 엣지 연결
    naive_workflow.set_entry_point("decompose_query")
    naive_workflow.add_edge("decompose_query", "retrieve")
    naive_workflow.add_edge("retrieve", "generate")
    naive_workflow.add_edge("generate", END)
    # 그래프 컴파일
    return naive_workflow.compile()

# test 정의

In [63]:
# app 생성
graph_app = create_graph_rag()
naive_app = create_naive_rag()
graph_meta_app = create_meta_graph_rag()

# HTP 그림 검사 예시 질문
inputs = {
    "original_question": "집에 창문은 2개 존재하고 크기는 적절함. 문은 집의 크기에 비해 작으며 문과 바깥이 길로 이어져 있지 않음.",
    "category": "집",
}

interupt_inputs = {
    "original_question": "오늘의 날씨는? 대한민국의 수도는? 최근 야구 경기 결과는?",
    "category": "집"
}

# Naive RAG time check

In [60]:
# 시간 초기화
execution_times = {}
# 노드수행
config = {
    "configurable": {
        "faiss_store": faiss_store, # 초기화 단계에서 생성한 faiss_store 객체
        "bm25_retriever_cache": bm25_retriever_cache # 초기화 단계에서 생성한 bm25_retriever_cache 객체
    }
}
naive_app.invoke(interupt_inputs, config=config)

# --- 최종 결과 분석 ---
print("--- Individual Node Execution Times ---")
for node_name, duration in execution_times.items():
    print(f"- {node_name}: {duration:.4f} seconds")

total_time = sum(execution_times.values())
print("\n-----------------------------------------")
print(f"Total execution time (sum of nodes): {total_time:.4f} seconds")

--- 2. 질문 분해 시작 ---
분해된 질문: ['오늘의 날씨에 대한 질문이 있다.', '대한민국의 수도에 대한 질문이 있다.', '최근 야구 경기 결과에 대한 질문이 있다.']
Execution time for decompose_query_node: 1.20 seconds
--- 3. 정보 검색 시작 (카테고리: 집) ---
  - 검색 쿼리: '오늘의 날씨에 대한 질문이 있다.'
  - 검색 쿼리: '대한민국의 수도에 대한 질문이 있다.'
  - 검색 쿼리: '최근 야구 경기 결과에 대한 질문이 있다.'
검색된 해석 Context 수: 11
Execution time for retrieve_node: 1.17 seconds
--- 4. 답변 생성 시작 ---
생성된 답변 일부: ## 최종 해석 보고서

본 보고서는 내담자의 HTP 그림 심리검사 결과를 토대로 심리상태를 종합적으로 분석한 내용입니다. 상담사가 관찰한 그림 특징을  해석 참고자료에 기반하여 논리적으로 연결하여 설명하겠습니다.

### 1. 그림 크기
내담자가 그림을 지나치게 작게 그렸다면, 이는 내면에 열등감이나 부적절감을 느끼고 있다는 가능성을 제시합니다. 이는 자...
Execution time for generate_node: 21.84 seconds
--- Individual Node Execution Times ---
- decompose_query_node: 1.1987 seconds
- retrieve_node: 1.1719 seconds
- generate_node: 21.8375 seconds

-----------------------------------------
Total execution time (sum of nodes): 24.2081 seconds


# Graph RAG time check

In [64]:
# 시간 초기화
execution_times = {}
# 노드수행
config = {
    "configurable": {
        "faiss_store": faiss_store, # 초기화 단계에서 생성한 faiss_store 객체
        "bm25_retriever_cache": bm25_retriever_cache # 초기화 단계에서 생성한 bm25_retriever_cache 객체
    }
}
graph_result = graph_app.invoke(inputs, config=config)

# --- 최종 결과 분석 ---
print("--- Individual Node Execution Times ---")
for node_name, duration in execution_times.items():
    print(f"- {node_name}: {duration:.4f} seconds")

total_time = sum(execution_times.values())
print("\n-----------------------------------------")
print(f"Total execution time (sum of nodes): {total_time:.4f} seconds")

print("\n--- Graph RAG Result ---")
print(f"Graph RAG Generation: {graph_result['generation']}")

--- 1. 질문 관련성 검사 시작 ---
질문 관련성: yes
Execution time for relevance_check_node: 0.70 seconds
결과: 관련성 있음. 질문 분해를 진행합니다.
--- 2. 질문 분해 시작 ---
분해된 질문: ['집 창문의 개수는 2개이고 크기는 적절하다.', '집 문의 크기가 집 전체에 비해 작다.', '집과 외부를 잇는 길이 그려져 있지 않다.']
Execution time for decompose_query_node: 1.76 seconds
--- 3. 정보 검색 시작 ---
  - 검색 쿼리: '집 창문의 개수는 2개이고 크기는 적절하다.'
  - 검색 쿼리: '집 문의 크기가 집 전체에 비해 작다.'
  - 검색 쿼리: '집과 외부를 잇는 길이 그려져 있지 않다.'
검색된 해석 Context 수: 12
Execution time for retrieve_node: 1.08 seconds
--- 4. 답변 생성 시작 ---
생성된 답변 일부: ## 상담사의 그림 특징 관찰 내용:
집에 창문은 2개 존재하고 크기는 적절함. 문은 집의 크기에 비해 작으며 문과 바깥이 길로 이어져 있지 않음.

## 최종 해석 보고서:

### 주요 특징 및 해석적 가설
입력해주신 그림의 묘사를 바탕으로, 주요 구조적 특징에 대한 심리적 의미를 아래와 같이 분석할 수 있습니다.

#### 특징 1: 창문 두 개와 적...
Execution time for generate_node: 10.91 seconds
--- 5. 환각 검사 시작 ---
환각 검사 결과: yes
Execution time for hallucination_check_node: 0.82 seconds
결과: 환각 없음. 최종 답변을 반환합니다.
--- Individual Node Execution Times ---
- relevance_check_node: 0.6982 seconds
- decompose_query_node: 1.7647 seconds
- ret

# Meta Graph RAG time check

In [32]:
# 시간 초기화
execution_times = {}
config = {
    "configurable": {
        "faiss_store": faiss_store, # 초기화 단계에서 생성한 faiss_store 객체
        "bm25_retriever_cache": bm25_retriever_cache # 초기화 단계에서 생성한 bm25_retriever_cache 객체
    }
}
# 노드수행

meta_graph_result = graph_app.invoke(inputs, config=config)

# --- 최종 결과 분석 ---
print("--- Individual Node Execution Times ---")
for node_name, duration in execution_times.items():
    print(f"- {node_name}: {duration:.4f} seconds")

total_time = sum(execution_times.values())
print("\n-----------------------------------------")
print(f"Total execution time (sum of nodes): {total_time:.4f} seconds")

print("\n--- Graph RAG Result ---")
print(f"Graph RAG Generation: {graph_result['generation']}")

--- 1. 질문 관련성 검사 시작 ---
질문 관련성: yes
Execution time for relevance_check_node: 0.62 seconds
결과: 관련성 있음. 질문 분해를 진행합니다.
--- 2. 질문 분해 시작 ---
분해된 질문: ['집 창문의 개수는 2개이고 크기는 적절하다.', '집 문의 크기가 집 전체에 비해 작다.', '집과 외부를 잇는 길이 그려져 있지 않다.']
Execution time for decompose_query_node: 1.74 seconds
--- 3. 정보 검색 시작 ---
  - 검색 쿼리: '집 창문의 개수는 2개이고 크기는 적절하다.'
  - 검색 쿼리: '집 문의 크기가 집 전체에 비해 작다.'
  - 검색 쿼리: '집과 외부를 잇는 길이 그려져 있지 않다.'
검색된 해석 Context 수: 12
Execution time for retrieve_node: 1.58 seconds
--- 4. 답변 생성 시작 ---


KeyError: "Input to ChatPromptTemplate is missing variables {'category'}.  Expected: ['category', 'context', 'question'] Received: ['question', 'context']\nNote: if you intended {category} to be part of the string and not a variable, please escape it with double curly braces like: '{{category}}'.\nFor troubleshooting, visit: https://python.langchain.com/docs/troubleshooting/errors/INVALID_PROMPT_INPUT "

# LLM as a judge
평가자 gpt-4o
[https://galtea.ai/2025/05/02/evaluation-of-judges.html]


In [24]:
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import JsonOutputParser
from pydantic import BaseModel, Field

judge_llm = ChatOpenAI(model="gpt-4o", temperature=0.0)


class JudgeOutput(BaseModel):
    """
    LLM 평가 결과를 저장하는 모델
    """

    better_answer: str = Field(description="더 우수한 답변 (A 또는 B)")
    evaluation_reason: str = Field(description="평가 사유 및 비교 분석 근거")


# 1. 평가 프롬프트 템플릿 정의
judge_prompt = ChatPromptTemplate.from_template(
    """
    당신은 심리검사 해석 전문가이자 평가자입니다.
    그림 심리 해석에 대한 결과를 보고 비교 평가를 진행해야 합니다. 질문은 그림에 대한 관찰 묘사의 종합 쿼리입니다. 해당 question을 분해하여 각 쿼리에 대한 질문을 검색하고 RAG를 통해 해석합니다.
    아래 두 개의 답변(A, B)은 동일한 질문에 대해 서로 다른 RAG 파이프라인에서 생성된 결과입니다.
    - 답변은 무작위 적으로 응답된다.
    - 어떤 시스템에서 생성되었는지 고려하지 말고, 오직 답변의 품질만을 기준으로 공정하게 평가하라.
    - 각 항목에 대해 점수를 부여하고, 최종 점수를 기준으로 winner를 선정하라 
    평가 기준:
    정확성: 사실에 기반한 정확한 정보인지
    관련성: 질문에 적절히 답변하는지
    일관성: 논리적이고 모순 없는 답변인지
    유용성: 실질적으로 도움이 되는 답변인지

    - 질문: {question}
    - 답변 A : {answer_a}
    - 답변 B : {answer_b}

    두 답변을 비교하여 다음 기준에 따라 평가하세요:
    1. 해석의 전문성 및 신뢰성
    2. 질문과의 관련성
    3. 환각(hallucination) 여부
    4. 답변의 풍부함과 논리적 연결성

    아래 형식으로 평가 결과를 작성하세요:
    {{
        "better_answer": "A" or "B",  # 더 우수한 답변
        "evaluation_reason": "이유 및 비교 분석"  # 평가 사유 및 비교 분석 근거
    }}
    """
)

# 2. 평가 체인 생성 (LLM + 프롬프트 + 출력 파서)
judge_chain = judge_prompt | judge_llm | JsonOutputParser(pydantic_object=JudgeOutput)

# 3. 평가 함수 정의
def evaluate_rag_outputs(question, result_A, result_B):
    """
    두 RAG 파이프라인의 결과를 LLM 평가자에게 비교 평가받는 함수
    """

    # 평가자에게 입력 전달
    judge_result = judge_chain.invoke(
        {
            "question": question,
            "answer_a": result_A["generation"],  # Graph RAG의 최종 답변
            "answer_b": result_B["generation"],  # Meta Graph RAG의 최종 답변
        }
    )
    return judge_result



In [25]:
import json

with open("LLMjudgeQAset.json", "r", encoding="utf-8") as f:
    judge_qa_set_json = json.load(f)

final_judge_result = []  # 초기화

for qa in judge_qa_set_json:
    inputs = {"original_question": qa["original_question"], "category": qa["category"]}

    config = {
        "configurable": {
            "faiss_store": faiss_store,  # 초기화 단계에서 생성한 faiss_store 객체
            "bm25_retriever_cache": bm25_retriever_cache,  # 초기화 단계에서 생성한 bm25_retriever_cache 객체
        }
    }

    # 1. Graph RAG 실행
    graph_result = graph_app.invoke(inputs, config=config)

    # 2. Meta Graph RAG 실행
    meta_graph_result = graph_meta_app.invoke(inputs, config=config)

    # 3. LLM 평가 실행
    temp = evaluate_rag_outputs(
        question=inputs["original_question"],
        result_A=graph_result,
        result_B=meta_graph_result,
    )

    final_judge_result.append(temp)



--- 1. 질문 관련성 검사 시작 ---
질문 관련성: yes
Execution time for relevance_check_node: 0.69 seconds
결과: 관련성 있음. 질문 분해를 진행합니다.
--- 2. 질문 분해 시작 ---
분해된 질문: ['집은 종이의 왼쪽 하단 구석에 치우쳐 그려져 있다.', '문의 크기는 매우 작다.', '문은 자물쇠로 잠겨 있다.', '창문에는 커튼이 쳐져 있어 안이 보이지 않는다.', '전체적으로 선의 필압이 매우 약하다.', '그림의 선이 흐리게 표현되어 있다.']
Execution time for decompose_query_node: 2.61 seconds
--- 3. 정보 검색 시작 ---
  - 검색 쿼리: '집은 종이의 왼쪽 하단 구석에 치우쳐 그려져 있다.'
  - 검색 쿼리: '문의 크기는 매우 작다.'
  - 검색 쿼리: '문은 자물쇠로 잠겨 있다.'
  - 검색 쿼리: '창문에는 커튼이 쳐져 있어 안이 보이지 않는다.'
  - 검색 쿼리: '전체적으로 선의 필압이 매우 약하다.'
  - 검색 쿼리: '그림의 선이 흐리게 표현되어 있다.'
검색된 해석 Context 수: 28
Execution time for retrieve_node: 3.40 seconds
--- 4. 답변 생성 시작 ---
생성된 답변 일부: # HTP 그림 심리검사 해석 보고서

## 내담자 심리상태 종합 해석

본 보고서는 내담자가 그린 HTP 그림을 바탕으로 심리 상태를 해석한 결과입니다. 특히 집의 위치, 문과 창문 처리, 선의 필압 및 상태 등을 중점적으로 분석하였습니다.

### 1. 집의 위치 및 구조
내담자는 집을 종이의 왼쪽 하단 구석에 그렸습니다. 이는 내담자의 우울감이나 위축...
Execution time for generate_node: 14.33 seconds
--- 5. 환각 검사 시작 ---
환각 검사 결과: yes
Execution time for hallucination_check_node: 0.7

In [26]:
A = 0
B = 0

for jud_res in final_judge_result:
    if jud_res["better_answer"] == "A":
        A += 1
    elif jud_res["better_answer"] == "B":
        B += 1

print(f"Graph RAG이 더 우수한 답변을 한 비율: {A / len(final_judge_result) * 100:.2f}%")
print(f"Meta Graph RAG이 더 우수한 답변을 한 비율: {B / len(final_judge_result) * 100:.2f}%")
        

Graph RAG이 더 우수한 답변을 한 비율: 93.33%
Meta Graph RAG이 더 우수한 답변을 한 비율: 6.67%
