### 스트리밍 (Streaming)

LangChain의 **스트리밍 시스템(Streaming system)** 은
에이전트 실행(agent run) 중 발생하는 **실시간 피드백(live feedback)** 을
애플리케이션으로 직접 전달할 수 있게 해줍니다.

스트리밍을 사용하면 **전체 응답이 완성되기 전에** 부분적으로 결과를 점진적으로 표시할 수 있습니다.
이를 통해 **LLM의 지연(latency)** 으로 인한 대기 시간을 줄이고,
사용자에게 더 빠르고 자연스러운 **실시간 인터랙션 경험(UX)** 을 제공합니다.

### LangChain 스트리밍으로 가능한 기능들

* **에이전트 진행 상황 스트리밍 (Stream agent progress)**
  → 각 에이전트 단계가 끝날 때마다 상태 업데이트(state update)를 수신할 수 있습니다.

* **LLM 토큰 스트리밍 (Stream LLM tokens)**
  → 언어 모델이 토큰을 생성할 때마다, 생성되는 즉시 스트리밍으로 받아볼 수 있습니다.

* **사용자 정의 업데이트 스트리밍 (Stream custom updates)**
  → 예를 들어 `"100개 중 10개 레코드 가져옴"` 같은
  사용자 정의 신호(user-defined signals)를 실시간으로 전송할 수 있습니다.

* **다중 모드 스트리밍 (Stream multiple modes)**
  → 다음과 같은 모드 중 선택적으로 사용할 수 있습니다:

  1. **Updates** – 에이전트 진행 상황 중심의 업데이트
  2. **Messages** – LLM 토큰 및 관련 메타데이터
  3. **Custom** – 임의의 사용자 정의 데이터 (예: 로그, 상태 메시지 등)

In [2]:
from dotenv import load_dotenv

load_dotenv()

True

In [3]:
from langchain.chat_models import init_chat_model

# model = init_chat_model("gpt-5-nano", model_provider="openai")
model = init_chat_model("gemini-2.5-flash", model_provider="google_genai")

In [4]:
from langchain.agents import create_agent

def get_weather(city: str) -> str:
    """특정 도시의 날씨를 가져옵니다."""
    return f"{city}의 날씨는 언제나 맑습니다!"

# 에이전트 생성
agent = create_agent(
    model=model,  # 사용할 모델 지정
    tools=[get_weather],        # 사용할 도구(함수) 등록
)

# 스트리밍 실행
for chunk in agent.stream(  
    {"messages": [{"role": "user", "content": "SF(샌프란시스코)의 날씨는 어때?"}]},
    stream_mode="updates",  # 스트리밍 모드를 'updates'(단계별 진행 상황)로 설정
):
    for step, data in chunk.items():
        print(f"단계(step): {step}")
        print(f"내용(content): {data['messages'][-1].content_blocks}")

단계(step): model
내용(content): [{'type': 'tool_call', 'id': '61955179-b99a-4d20-b9b4-616aefe3dcc2', 'name': 'get_weather', 'args': {'city': 'San Francisco'}}]
단계(step): tools
내용(content): [{'type': 'text', 'text': 'San Francisco의 날씨는 언제나 맑습니다!'}]
단계(step): model
내용(content): [{'type': 'text', 'text': '샌프란시스코의 날씨는 언제나 맑습니다!'}]


### LLM 토큰 (LLM tokens)

LLM이 **토큰을 생성하는 즉시 실시간으로 스트리밍**하려면
`stream_mode="messages"` 옵션을 사용하면 됩니다.

이 모드를 사용하면, **에이전트가 실행 중 호출하는 도구(tool)들의 스트리밍 출력**과
**최종 응답(final response)** 을 모두 실시간으로 확인할 수 있습니다.

In [5]:
from langchain.agents import create_agent

def get_weather(city: str) -> str:
    """특정 도시의 날씨를 가져옵니다."""
    return f"{city}의 날씨는 언제나 맑습니다!"

# 에이전트 생성
agent = create_agent(
    model=model,  # 사용할 언어 모델 지정
    tools=[get_weather],        # 사용할 도구(함수) 등록
)

# LLM이 토큰을 생성할 때마다 실시간으로 스트리밍 받기
for token, metadata in agent.stream(  
    {"messages": [{"role": "user", "content": "SF(샌프란시스코)의 날씨는 어때?"}]},
    stream_mode="messages",  # 'messages' 모드: LLM 토큰 스트리밍
):
    print(f"노드(node): {metadata['langgraph_node']}")     # 현재 실행 중인 LangGraph 노드 이름
    print(f"내용(content): {token.content_blocks}")       # 실시간으로 생성되는 텍스트 블록(토큰)
    print("\n")

노드(node): model
내용(content): [{'type': 'tool_call', 'id': 'e56d8da5-6939-4179-80b0-37bafa7eb737', 'name': 'get_weather', 'args': {'city': 'San Francisco'}}]


노드(node): model
내용(content): []


노드(node): tools
내용(content): [{'type': 'text', 'text': 'San Francisco의 날씨는 언제나 맑습니다!'}]


노드(node): model
내용(content): [{'type': 'text', 'text': '샌프란시'}]


노드(node): model
내용(content): [{'type': 'text', 'text': '스코의 날씨는 언제나 맑습니다!\n'}]


노드(node): model
내용(content): []




## 스트리밍과 청크 (Streaming and Chunks)

스트리밍 중에는 **`AIMessageChunk` 객체**들이 순차적으로 전달되며,
이 청크(chunk)들을 결합하면 **완전한 메시지 객체(full message object)** 를 구성할 수 있습니다.


In [6]:
chunks = []
full_message = None

for chunk in model.stream("LangChain이 뭔지 한줄로 답해주세요."):
    chunks.append(chunk)
    print(chunk.text)
    full_message = chunk if full_message is None else full_message + chunk

full_message

LangChain은 LLM(대규모 언어 모델)을 활용하는 애플리케이션을 쉽고 효율적으로 개발할 수 있도록 돕는 개발 프레임워크입니다.



AIMessageChunk(content='LangChain은 LLM(대규모 언어 모델)을 활용하는 애플리케이션을 쉽고 효율적으로 개발할 수 있도록 돕는 개발 프레임워크입니다.', additional_kwargs={}, response_metadata={'finish_reason': 'STOP', 'model_name': 'gemini-2.5-flash', 'safety_ratings': [], 'grounding_metadata': {}, 'model_provider': 'google_genai'}, id='lc_run--bebc7d0d-416e-483f-8206-91f0a4d91f2b', usage_metadata={'input_tokens': 12, 'output_tokens': 412, 'total_tokens': 424, 'input_token_details': {'cache_read': 0}, 'output_token_details': {'reasoning': 374}}, chunk_position='last')