# [Lv4-Day2-Lab2] Building a Robust Agent: Human-in-the-Loop and Error Handling

### 실습 목표
이전 실습에서 만든 'Self-Correcting 리서처'는 스스로 계획하고 작업을 반복하는 놀라운 능력을 보여주었습니다. 하지만 실무 환경에서는 예측 불가능한 오류가 발생하거나, Agent의 자율적인 판단을 사람이 중간에 검토해야 하는 경우가 빈번합니다.

이번 실습에서는 우리 Agent를 한 단계 더 진화시켜, **'인간과 협업'**하고 **'스스로 오류를 복구'**하는 **견고한(Robust) Agent**로 업그레이드합니다.

1.  **Human-in-the-Loop 구현:** Agent가 세운 리서치 계획을 자동으로 실행하기 전에, 작업을 **일시정지(interrupt)**하고 사용자에게 **승인**을 요청하는 상호작용 지점을 만듭니다.
2.  **에러 핸들링 및 재시도 로직 추가:** 웹 검색 Tool이 일시적인 오류로 실패했을 때, Agent가 멈추지 않고 **자동으로 재시도(Retry)**하는 복구 메커니즘을 `State`에 구현합니다.
3.  **고급 제어 흐름 설계:** '성공', '실패', '인간의 승인' 등 다양한 시나리오에 따라 Agent가 각기 다른 행동을 하도록, 여러 갈래로 나뉘는 **복합적인 조건부 분기(Conditional Branching)**를 설계합니다.

### 0. 사전 준비: 라이브러리 및 API 키
이전 실습과 동일한 환경에서 진행합니다. 혹시 세션이 초기화되었다면 아래 셀들을 다시 실행해주세요.

In [None]:
# !pip install langgraph langchain langchain_google_genai langchain_community beautifulsoup4 tavily-python -q

In [1]:
import os

# API 키 설정
if "GOOGLE_API_KEY" not in os.environ:
    os.environ["GOOGLE_API_KEY"] = "AIzaSyDVYEpxB86k5-Oi2BApqTr47nnGJ0BwkOc"

# Tavily AI API 키 설정 (웹 검색 Tool용)
if "TAVILY_API_KEY" not in os.environ:
    os.environ["TAVILY_API_KEY"] = "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"

print("✅ 모든 API 키가 성공적으로 설정되었습니다.")

✅ 모든 API 키가 성공적으로 설정되었습니다.


### 1. State 확장: 재시도 횟수(Retry Count) 추가
에러 핸들링을 위해 기존 `ResearchAgentState`에 `retries`라는 새로운 키를 추가합니다. 이 값은 특정 작업의 실패 횟수를 추적하는 데 사용됩니다. 만약 재시도 횟수가 특정 임계값(예: 3회)을 초과하면, Agent가 무한 루프에 빠지지 않고 다른 조치를 취하도록 만들 수 있습니다.

In [2]:
from typing import TypedDict, Annotated, List
import operator
from langchain_core.messages import BaseMessage, HumanMessage


# 이전 실습의 State를 그대로 가져와 'retries' 키만 추가합니다.
class RobustAgentState(TypedDict):
    topic: str
    sub_questions: List[str]
    researched_data: Annotated[list, operator.add]
    messages: Annotated[List[BaseMessage], operator.add]
    retries: int  # 재시도 횟수를 추적하기 위한 상태

### 2. Tool 및 노드 함수 재정의
이전 실습에서 사용했던 Tool과 노드 함수들을 그대로 가져옵니다. 단, 에러 핸들링을 시뮬레이션하기 위해 `research_step` 함수에 약간의 수정을 가할 것입니다 (실제 구현에서는 Tool 자체의 오류를 `try-except`로 잡게 됩니다).

In [3]:
from langchain_google_genai import ChatGoogleGenerativeAI
from pydantic import BaseModel, Field
from langchain_community.tools.tavily_search import TavilySearchResults

# Tool 및 LLM 초기화
web_search_tool = TavilySearchResults(max_results=2)
llm = ChatGoogleGenerativeAI(model="gemini-2.5-pro", temperature=0)


class SubQuestions(BaseModel):
    questions: List[str] = Field(description="생성된 세부 질문들의 리스트")


structured_llm = llm.with_structured_output(SubQuestions)


# 노드 함수들 (이전 실습과 대부분 동일)
def plan_step(state: RobustAgentState):
    print("--- 🧠 [Node] 계획 수립 중... ---")
    prompt = f"'{state['topic']}'이라는 주제에 대한 리서치 보고서를 작성하려고 합니다. 이 주제를 3개의 핵심적인 세부 질문으로 분해해주세요."
    sub_questions_pydantic = structured_llm.invoke(prompt)
    sub_questions = sub_questions_pydantic.questions
    print(f"생성된 세부 질문: {sub_questions}")
    return {"sub_questions": sub_questions, "researched_data": [], "retries": 0}


def research_step(state: RobustAgentState):
    print("--- 🛠️ [Node] 자료 조사 중... ---")
    current_questions = state["sub_questions"]
    if not current_questions:
        return {}

    question_to_research = current_questions[0]
    remaining_questions = current_questions[1:]
    current_retry = state.get("retries", 0)
    print(f"조사할 질문: '{question_to_research}' (재시도 {current_retry}회)")

    try:
        # 첫 번째 질문의 첫 번째 시도에서만 에러 발생
        is_first_question = len(remaining_questions) == 2  # 3개 중 첫 번째
        if current_retry == 0 and is_first_question:
            print("🔴 첫 번째 시도 - 의도적 에러 발생")
            raise ValueError("의도적으로 발생시킨 API 네트워크 오류입니다.")

        researched_info = web_search_tool.invoke(question_to_research)
        print(f"✅ 조사 성공! (재시도 {current_retry}회 후)")
        return {
            "sub_questions": remaining_questions,
            "researched_data": [(question_to_research, researched_info)],
            "retries": 0,  # 성공 시 재시도 횟수 초기화
        }
    except Exception as e:
        print(f"🔴 조사 실패: {e}")
        new_retry_count = current_retry + 1
        print(f"재시도 횟수: {new_retry_count}")
        return {
            "retries": new_retry_count
            # sub_questions는 그대로 유지 (덮어쓰지 않음)
        }


def summarize_step(state: RobustAgentState):
    print("--- 📝 [Node] 최종 보고서 작성 중... ---")
    research_summary = "\n".join([f"질문: {q}\n답변: {a}" for q, a in state["researched_data"]])
    prompt = f"다음은 '{state['topic']}'에 대한 리서치 결과입니다.\n\n{research_summary}\n\n이 내용을 바탕으로 최종 종합 보고서를 작성해주세요."
    final_report = llm.invoke(prompt)
    return {"messages": [final_report]}

  web_search_tool = TavilySearchResults(max_results=2)


### 3. Human-in-the-Loop를 위한 그래프 설계
이제 `LangGraph`의 진정한 묘미를 경험할 시간입니다. 이전보다 훨씬 복잡한, '인간의 개입'과 '오류 처리'가 포함된 워크플로우를 구축합니다.

1.  **일시정지(Interrupt) 추가:** `plan` 노드 다음에 `add_edge(..., END)` 대신 `Interrupt(before=["research"])`를 사용하여, `research` 노드 실행 직전에 그래프를 멈추도록 설정합니다. 이것이 바로 Human-in-the-loop의 핵심입니다.
2.  **복합 라우터(Router) 함수:** `should_continue` 함수를 개선하여 3가지 상황을 판단하도록 합니다.
    - 재시도 횟수가 2회를 초과하면 -> `give_up` (포기)
    - 남은 질문이 있으면 -> `continue_research` (조사 계속)
    - 남은 질문이 없으면 -> `summarize` (종합)

In [4]:
from langgraph.graph import StateGraph, END
from langgraph.checkpoint.memory import MemorySaver

memory = MemorySaver()


def should_continue(state: RobustAgentState):
    print("--- 🤔 [Router] 다음 단계 판단 중... ---")
    if state.get("retries", 0) > 2:
        print("판단: 재시도 횟수 초과. 조사를 포기합니다.")
        return "give_up"
    if state["sub_questions"]:
        print("판단: 남은 질문이 있으므로 조사를 계속합니다.")
        return "continue_research"
    else:
        print("판단: 모든 질문에 대한 조사가 완료되어 종합 단계로 넘어갑니다.")
        return "summarize"


graph_robust = StateGraph(RobustAgentState)
graph_robust.add_node("plan", plan_step)
graph_robust.add_node("research", research_step)
graph_robust.add_node("summary", summarize_step)

graph_robust.set_entry_point("plan")
graph_robust.add_edge("plan", "research")

graph_robust.add_conditional_edges(
    "research",
    should_continue,
    {
        "continue_research": "research",
        "summarize": "summary",
        "give_up": END,  # 'give_up' 신호를 받으면 바로 워크플로우 종료
    },
)
graph_robust.add_edge("summary", END)

# interrupt_before 옵션으로 research 노드 실행 전에 일시정지
chain_robust = graph_robust.compile(
    checkpointer=memory, interrupt_before=["research"]  # research 노드 실행 전에 interrupt
)

print("\n✅ Part 2: Robust 리서처 Agent 그래프가 성공적으로 생성되었습니다.")


✅ Part 2: Robust 리서처 Agent 그래프가 성공적으로 생성되었습니다.


### 4. Robust Agent 실행 및 상호작용
이제 새로운 Agent를 실행하고 그 과정을 관찰해 봅시다. `chain.invoke`를 실행하면, 계획 수립 후 Agent가 멈추고 사용자 입력을 기다립니다. `chain.update_state`를 사용하여 사용자의 승인('yes')을 전달하면, Agent는 멈췄던 지점부터 작업을 재개합니다.

실행 로그를 통해 첫 번째 조사에서 의도된 오류가 발생하고, Agent가 자동으로 재시도 상태로 진입한 뒤, 성공적으로 작업을 이어나가는 전 과정을 관찰할 수 있습니다.

In [7]:
import uuid

session_id_part2 = str(uuid.uuid4())
config_robust = {"configurable": {"thread_id": session_id_part2}}

user_topic = "LangGraph와 CrewAI의 주요 차이점은 무엇인가?"

initial_state = {"messages": [HumanMessage(content="리서치를 시작합니다.")], "topic": user_topic}

# 1. 첫 번째 실행: 계획 수립 후 '일시정지' 됩니다.
print("--- 🚀 Agent 실행 시작 ---")
paused_state = chain_robust.invoke(initial_state, config=config_robust)
print("\n--- ⏸️ Agent 일시정지: 사용자 승인 대기 중 ---")
print(f"생성된 계획: {paused_state['sub_questions']}")

# 2. Human-in-the-Loop: 사용자가 계획을 검토하고 승인합니다.
user_approval = input("\n이 계획대로 리서치를 진행하시겠습니까? (yes/no): ")

if user_approval.lower() == "yes":
    print("\n--- ▶️ Agent 작업 재개 ---")

    # 모든 이벤트를 처리하면서 최종 상태 추적
    final_state = None
    completed = False

    while not completed:
        try:
            for event in chain_robust.stream(None, config=config_robust):
                print(f"Event: {list(event.keys())}")

                # '__interrupt__' 이벤트가 나오면 다시 재개
                if "__interrupt__" in event:
                    print("⚠️ 추가 interrupt 발생 - 계속 진행")
                    continue

                # 각 노드의 출력 확인
                for node_name, node_output in event.items():
                    if node_name == "summary" and isinstance(node_output, dict):
                        if "messages" in node_output and node_output["messages"]:
                            final_state = node_output
                            completed = True
                            print(f"✅ 최종 보고서가 완성되었습니다!")
                            break

                if completed:
                    break

        except Exception as e:
            print(f"⚠️ 스트림 처리 중 오류: {e}")
            break

    # 최종 결과 출력
    print("\n" + "=" * 80)
    print("                           ✅ 최종 보고서 ✅")
    print("=" * 80)

    if final_state and "messages" in final_state and final_state["messages"]:
        print(final_state["messages"][-1].content)
    else:
        # 대안: 현재 전체 상태에서 확인
        current_state = chain_robust.get_state(config_robust)
        if current_state.values.get("messages"):
            # 초기 메시지가 아닌 실제 보고서 찾기
            messages = current_state.values["messages"]
            for msg in reversed(messages):
                if msg.content != "리서치를 시작합니다." and len(msg.content) > 50:
                    print(msg.content)
                    break
            else:
                print("⚠️ 최종 보고서를 찾을 수 없습니다.")
        else:
            print("⚠️ 메시지가 없습니다.")

else:
    print("사용자가 계획을 거부하여 작업을 중단합니다.")

--- 🚀 Agent 실행 시작 ---
--- 🧠 [Node] 계획 수립 중... ---
생성된 세부 질문: ['LangGraph와 CrewAI의 핵심 아키텍처와 설계 철학은 어떻게 다른가요?', '두 프레임워크에서 에이전트 개발 프로세스와 맞춤 설정 기능은 어떻게 비교되나요?', 'LangGraph와 CrewAI가 각각 가장 적합한 특정 사용 사례나 애플리케이션 유형은 무엇인가요?']

--- ⏸️ Agent 일시정지: 사용자 승인 대기 중 ---
생성된 계획: ['LangGraph와 CrewAI의 핵심 아키텍처와 설계 철학은 어떻게 다른가요?', '두 프레임워크에서 에이전트 개발 프로세스와 맞춤 설정 기능은 어떻게 비교되나요?', 'LangGraph와 CrewAI가 각각 가장 적합한 특정 사용 사례나 애플리케이션 유형은 무엇인가요?']

이 계획대로 리서치를 진행하시겠습니까? (yes/no): yes

--- ▶️ Agent 작업 재개 ---
--- 🛠️ [Node] 자료 조사 중... ---
조사할 질문: 'LangGraph와 CrewAI의 핵심 아키텍처와 설계 철학은 어떻게 다른가요?' (재시도 0회)
🔴 첫 번째 시도 - 의도적 에러 발생
🔴 조사 실패: 의도적으로 발생시킨 API 네트워크 오류입니다.
재시도 횟수: 1
--- 🤔 [Router] 다음 단계 판단 중... ---
판단: 남은 질문이 있으므로 조사를 계속합니다.
Event: ['research']
Event: ['__interrupt__']
⚠️ 추가 interrupt 발생 - 계속 진행
--- 🛠️ [Node] 자료 조사 중... ---
조사할 질문: 'LangGraph와 CrewAI의 핵심 아키텍처와 설계 철학은 어떻게 다른가요?' (재시도 1회)
✅ 조사 성공! (재시도 1회 후)
--- 🤔 [Router] 다음 단계 판단 중... ---
판단: 남은 질문이 있으므로 조사를 계속합니다.
Event: ['research']
Event: ['__interrupt__']
⚠️ 추가 int