# 5. 스트리밍
- 스트리밍은 LLM의 응답을 토큰 단위로 실시간 수신하는 기능입니다.

## 스트리밍의 필요성
방식 | 특징 | 사용 시점
| :--- | :--- | :--- |
일반 호출 (`invoke`) | 전체 응답 완료 후 반환 | 내부 처리, 배치 작업
스트리밍 (`stream`) | 토큰 단위 실시간 반환 | 사용자 인터페이스, 챗봇

### 기본 스트리밍
**모델 직접 스트리밍**

In [2]:
from langchain.chat_models import init_chat_model
from langchain_core.messages import HumanMessage

model = init_chat_model("gpt-4o-mini")

# 스트리밍 호출
for chunk in model.stream([HumanMessage(content="파이썬의 장점 5가지를 설명해주세요.")]):
    print(chunk.content, end="", flush=True)

파이썬은 여러 가지 장점 덕분에 널리 사용되는 프로그래밍 언어입니다. 다음은 파이썬의 주요 장점 5가지입니다:

1. **쉬운 문법**: 
   파이썬의 문법은 간결하고 직관적입니다. 이는 프로그래밍 초보자에게 접근성을 높여주며, 코드가 읽기 쉽고 유지보수가 용이하게 만듭니다. 예를 들어, 다른 언어에서 세미콜론이나 괄호를 사용하는 대신, 파이썬은 들여쓰기를 통해 코드를 구분합니다.

2. **광범위한 라이브러리와 프레임워크**:
   파이썬은 데이터 분석, 웹 개발, 인공지능, 과학 컴퓨팅 등 다양한 분야에 사용되는 방대한 라이브러리와 프레임워크를 제공합니다. NumPy, pandas, Django, Flask 등이 그 예입니다. 이들 라이브러리는 개발자가 복잡한 기능을 쉽게 구현할 수 있도록 도와줍니다.

3. **활발한 커뮤니티**:
   파이썬은 세계적으로 큰 커뮤니티를 가지고 있으며, 사용자들이 활발하게 기여하고 있습니다. 이는 문제를 해결하기 위한 자료를 쉽게 찾을 수 있고, 다양한 튜토리얼 및 예제를 통해 학습할 수 있는 기회를 제공합니다.

4. **멀티 플랫폼 지원**:
   파이썬은 Windows, macOS, Linux 등 다양한 운영 체제를 지원합니다. 이 덕분에 한 번 작성한 코드를 여러 플랫폼에서 실행할 수 있어, 호환성 문제를 최소화합니다.

5. **다양한 프로그래밍 패러다임 지원**:
   파이썬은 객체 지향 프로그래밍, 함수형 프로그래밍, 절차적 프로그래밍 등 여러 프로그래밍 패러다임을 지원합니다. 이는 개발자가 문제를 해결하기 위해 선택할 수 있는 다양한 방법을 제공하여 코드 작성의 유연성을 높입니다.

이와 같은 장점들 덕분에 파이썬은 데이터 과학, 웹 개발, 자동화 스크립트 작성 등 여러 분야에서 매우 인기가 높습니다.

**체인 스트리밍**
- LCEL 체인에서도 동일하게 스트리밍을 사용할 수 있습니다.

In [1]:
from langchain.chat_models import init_chat_model
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser

model = init_chat_model("gpt-4o-mini")
prompt = ChatPromptTemplate.from_template("{topic}에 대해 설명해주세요.")

chain = prompt | model | StrOutputParser()

# 체인 스트리밍
for chunk in chain.stream({"topic": "머신러닝"}):
    print(chunk, end="", flush=True)

머신러닝(Machine Learning)은 인공지능(AI)의 한 분야로, 컴퓨터가 명시적인 프로그래밍 없이 데이터에서 학습하고 패턴을 인식하여 예측이나 결정을 내릴 수 있도록 하는 기술입니다. 머신러닝은 다양한 알고리즘과 통계적 모델을 사용하여 데이터를 분석하고, 이를 통해 새로운 데이터에 대한 인사이트를 제공하거나 자동화된 결정을 내리게 도와줍니다.

### 머신러닝의 주요 구성 요소

1. **데이터**: 머신러닝의 기초는 데이터입니다. 알고리즘이 학습할 수 있는 충분한 양질의 데이터가 필요합니다.

2. **특징(Features)**: 입력 데이터에서 모델이 학습하는 데 사용할 수 있는 속성이나 변수입니다. 예를 들어, 주택 가격 예측 모델에서는 위치, 크기, 방 개수 등이 특징이 될 수 있습니다.

3. **모델**: 데이터에서 패턴을 학습하여 예측이나 분류를 할 수 있는 수학적 구조입니다. 다양한 유형의 모델이 있으며, 각각의 모델은 특정 문제에 적합합니다.

4. **학습 알고리즘**: 모델이 데이터를 통해 학습하는 방법입니다. 주로 지도 학습(Supervised Learning), 비지도 학습(Unsupervised Learning), 강화 학습(Reinforcement Learning)으로 분류할 수 있습니다.

### 머신러닝의 유형

1. **지도 학습(Supervised Learning)**: 입력과 정답(label)이 있는 데이터셋을 사용하여 모델을 학습시킵니다. 예를 들어, 이메일 스팸 필터링이 이에 해당하며, 모델은 스팸 메일과 일반 메일의 특징을 학습합니다.

2. **비지도 학습(Unsupervised Learning)**: 정답이 없는 데이터셋을 사용하여 데이터 간의 패턴이나 구조를 찾아냅니다. 클러스터링이 대표적인 예입니다.

3. **강화 학습(Reinforcement Learning)**: 에이전트가 환경과 상호작용하면서 보상을 최대화하도록 학습하는 방법입니다. 게임 AI나 로봇 제어 등에 사용됩니다.

### 머신러닝의 응

### 비동기 스트리밍
- `async for`를 사용하여 비동기 스트리밍을 구현합니다.

In [None]:
import asyncio
from langchain.chat_models import init_chat_model
from langchain_core.messages import HumanMessage

async def async_stream():
    model = init_chat_model("gpt-4o-mini")

    async for chunk in model.astream([HumanMessage(content="짧은 시를 써주세요.")]):
        print(chunk.content, end="", flush=True)

# 실행
asyncio.run(async_stream())


### 에이전트 스트리밍
- `create_agent`로 생성한 에이전트도 스트리밍을 지원합니다.

**stream_mode="updates" - 에이전트 진행 상황**
- 각 에이전트 단계 완료 후 상태 업데이트를 받습니다.

In [3]:
from langchain.agents import create_agent
from langchain.chat_models import init_chat_model
from langchain.tools import tool

@tool
def get_weather(city: str) -> str:
    """도시의 날씨를 조회합니다."""
    return f"{city}의 현재 날씨는 맑음, 25도입니다."

model = init_chat_model("openai:gpt-4o-mini")
agent = create_agent(model, tools=[get_weather])

# 에이전트 진행 상황 스트리밍
for event in agent.stream(
    {"messages": [("user", "서울 날씨 알려줘")]},
    stream_mode="updates"
):
    print(f"이벤트: {event}")

이벤트: {'model': {'messages': [AIMessage(content='', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 14, 'prompt_tokens': 50, 'total_tokens': 64, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_provider': 'openai', 'model_name': 'gpt-4o-mini-2024-07-18', 'system_fingerprint': 'fp_c4585b5b9c', 'id': 'chatcmpl-D0KwXXA833lyEReLqAywUwuRhREwP', 'service_tier': 'default', 'finish_reason': 'tool_calls', 'logprobs': None}, id='lc_run--019bdeff-9aa1-73b3-bc27-c9fd4391c83d-0', tool_calls=[{'name': 'get_weather', 'args': {'city': '서울'}, 'id': 'call_tfyKkVCdjPGximL1PWC7QHlQ', 'type': 'tool_call'}], invalid_tool_calls=[], usage_metadata={'input_tokens': 50, 'output_tokens': 14, 'total_tokens': 64, 'input_token_details': {'audio': 0, 'cache_read': 0}, 'output_token_details': {'audio': 0, 'reason

**stream_mode="messages" - LLM 토큰 스트리밍**
- 모델이 생성하는 토큰을 실시간으로 받습니다.

In [4]:
# LLM 토큰 스트리밍
for event in agent.stream(
    {"messages": [("user", "서울 날씨 알려줘")]},
    stream_mode="messages"
):
    # event는 (token, metadata) 튜플
    token, metadata = event
    if token.content:
        print(token.content, end="", flush=True)

서울의 현재 날씨는 맑음, 25도입니다.서울의 현재 날씨는 맑고, 기온은 25도입니다.

**멀티 모드 스트리밍**
- 여러 스트림 모드를 동시에 사용할 수 있습니다.

In [5]:
# updates + messages 동시 스트리밍
for event in agent.stream(
    {"messages": [("user", "서울 날씨 알려줘")]},
    stream_mode=["updates", "messages"]
):
    mode, data = event
    if mode == "updates":
        print(f"[상태 업데이트] {data}")
    elif mode == "messages":
        token, _ = data
        if token.content:
            print(f"[토큰] {token.content}")


[상태 업데이트] {'model': {'messages': [AIMessage(content='', additional_kwargs={}, response_metadata={'finish_reason': 'tool_calls', 'model_name': 'gpt-4o-mini-2024-07-18', 'system_fingerprint': 'fp_c4585b5b9c', 'service_tier': 'default', 'model_provider': 'openai'}, id='lc_run--019bdf04-9f78-7822-bae6-2d8657ad5345', tool_calls=[{'name': 'get_weather', 'args': {'city': '서울'}, 'id': 'call_uThckNtRO519B61DU4iMomM1', 'type': 'tool_call'}], invalid_tool_calls=[], usage_metadata={'input_tokens': 50, 'output_tokens': 14, 'total_tokens': 64, 'input_token_details': {'audio': 0, 'cache_read': 0}, 'output_token_details': {'audio': 0, 'reasoning': 0}})]}}
[토큰] 서울의 현재 날씨는 맑음, 25도입니다.
[상태 업데이트] {'tools': {'messages': [ToolMessage(content='서울의 현재 날씨는 맑음, 25도입니다.', name='get_weather', id='7eb18f50-2588-4f53-ad8c-7a01c9bc8b29', tool_call_id='call_uThckNtRO519B61DU4iMomM1')]}}
[토큰] 현재
[토큰]  서울
[토큰] 의
[토큰]  날
[토큰] 씨
[토큰] 는
[토큰]  맑
[토큰] 고
[토큰] ,
[토큰]  기
[토큰] 온
[토큰] 은
[토큰]  
[토큰] 25
[토큰] 도
[토큰] 입니다
[토큰] .
[상태 

### 커스텀 스트리밍
**get_stream_writer로 커스텀 업데이트**
- 도구 내부에서 커스텀 스트림 이벤트를 전송할 수 있습니다.

In [6]:
from langchain.agents import create_agent
from langchain.chat_models import init_chat_model
from langchain.tools import tool
from langgraph.config import get_stream_writer

@tool
def process_documents(count: int) -> str:
    """문서를 처리합니다."""
    writer = get_stream_writer()

    for i in range(count):
        # 커스텀 진행 상황 전송
        writer({"progress": f"문서 {i+1}/{count} 처리 중..."})
    
    return f"{count}개 문서 처리 완료"

model = init_chat_model("openai:gpt-4o")
agent = create_agent(model, tools=[process_documents])

# 커스텀 스트리밍 수신
for event in agent.stream(
    {"messages": [("user", "5개 문서를 처리해주세요")]},
    stream_mode="custom"
):
    print(f"커스텀 이벤트: {event}")

커스텀 이벤트: {'progress': '문서 1/5 처리 중...'}
커스텀 이벤트: {'progress': '문서 2/5 처리 중...'}
커스텀 이벤트: {'progress': '문서 3/5 처리 중...'}
커스텀 이벤트: {'progress': '문서 4/5 처리 중...'}
커스텀 이벤트: {'progress': '문서 5/5 처리 중...'}


### 웹 어플리케이션 통합
**FastAPI 스트리밍 엔드포인트**

In [7]:
from fastapi import FastAPI
from fastapi.responses import StreamingResponse
from langchain.chat_models import init_chat_model
from langchain_core.messages import HumanMessage

app = FastAPI()
model = init_chat_model("gpt-4o-mini")

@app.get("/stream")
async def stream_response(query: str):
    async def generate():
        async for chunk in model.astream([HumanMessage(content=query)]):
            if chunk.content:
                yield f"data: {chunk.content}\n\n"
        
        yield "data: [DONE]\n\n"
    
    return StreamingResponse(
        generate(),
        media_type="text/event-stream"
    )

### 스트리밍 옵션
**스트리밍 타임아웃**

In [8]:
from langchain.chat_models import init_chat_model

# 타임아웃 설정
model = init_chat_model(
    "gpt-4o-mini",
    timeout=30.0,  # 30초 타임아웃
    max_retries=2
)

# 스트리밍 호출
for chunk in model.stream([HumanMessage(content="파이썬의 장점 5가지를 설명해주세요.")]):
    print(chunk.content, end="", flush=True)

파이썬의 장점은 다음과 같습니다:

1. **읽기 쉬운 문법**: 파이썬은 간결하고 명확한 문법을 가지고 있어, 코드가 쉽게 읽히고 이해할 수 있습니다. 이는 프로그래밍 초급자뿐만 아니라 전문가들에게도 코드 유지보수를 쉽게 만들어줍니다.

2. **강력한 라이브러리와 프레임워크**: 파이썬은 다양한 분야에서 사용할 수 있는 방대한 라이브러리와 프레임워크를 제공합니다. 예를 들어, 데이터 과학을 위한 NumPy와 pandas, 웹 개발을 위한 Django와 Flask, 머신러닝을 위한 TensorFlow와 scikit-learn 등이 있습니다.

3. **다양한 응용 분야**: 파이썬은 웹 개발, 데이터 분석, 인공지능, 머신러닝, 자동화, 과학 계산 등 다양한 분야에서 사용될 수 있는 다목적 언어입니다. 이러한 유연성 덕분에 여러 분야의 프로젝트에 쉽게 적용할 수 있습니다.

4. **강력한 커뮤니티 지원**: 파이썬은 매우 활발한 커뮤니티를 가지고 있어, 많은 자료와 문서, 포럼, 튜토리얼을 쉽게 찾을 수 있습니다. 문제 발생 시 빠르고 쉽게 도움을 받을 수 있는 점이 큰 장점입니다.

5. **플랫폼 독립성**: 파이썬은 윈도우, 리눅스, macOS 등 다양한 운영체제에서 실행 가능하여, 플랫폼에 구애받지 않고 개발이 가능합니다. 이로 인해 개발자들은 자신이 선호하는 환경에서 작업할 수 있습니다.

이러한 장점들 덕분에 파이썬은 많은 개발자와 데이터 과학자들 사이에서 인기가 높은 프로그래밍 언어입니다.

### 스트리밍 모드 비교
| 모드 | 설명 | 반환 형식 |
|---|---|---|
| `updates` | 에이전트 단계별 상태 업데이트 | 딕셔너리 |
| `messages` | LLM 토큰 단위 출력 | (token, metadata) 튜플 |
| `custom` | 도구 내 커스텀 이벤트 | 사용자 정의 형식 |
| `values` | 전체 상태 스냅샷 | 상태 딕셔너리 |

### 정리
- 스트리밍은 사용자 경험을 크게 향상시키는 핵심 기능입니다.

**핵심 포인트**

- `model.stream()`: 기본 토큰 스트리밍

- `chain.stream()`: LCEL 체인 스트리밍

- `agent.stream(stream_mode=...)`: 에이전트 스트리밍

- `get_stream_writer()`: 커스텀 스트림 이벤트

**스트리밍 선택 가이드**
- 사용자 인터페이스: `stream_mode="messages"` - 토큰 단위 출력

- 디버깅/모니터링: `stream_mode="updates"` - 단계별 진행 상황

- 복합 사용: `stream_mode=["updates", "messages"]` - 둘 다 필요할 때

- 도구 진행 상황: `stream_mode="custom"` + `get_stream_writer()`