### Short-term Memory

메모리는 이전 상호작용에 대한 정보를 기억하는 시스템입니다. AI 에이전트에게 메모리는 이전 상호작용을 기억하고, 피드백을 통해 학습하며, 사용자 선호도에 맞춰 정응할 수 있도록 해주기 때문에 매우 중요합니다. 
단기 메모리를 사용하면 애플리케이션이 단일 스레드 또는 대화 내용에 수행된 이전 상호 작용을 기억할 수 있습니다.

대화 이력은 가장 흔한 형태의 단기 기억입니다. 긴 대화는 오늘날의 LLM(학습 목표)에 어려움을 야기합니다. 전체 이력이 LLM의 맥락 창에 맞지 ​​않아 맥락 손실이나 오류가 발생할 수 있습니다.
모델이 전체 맥락 길이를 지원하더라도 대부분의 LLM은 긴 맥락에서는 여전히 성능이 좋지 않습니다. 오래되거나 주제에서 벗어난 콘텐츠로 인해 주의가 산만해지고, 응답 시간이 느려지고 비용이 증가하기 때문입니다.

채팅 모델은 메시지를 사용하여 컨텍스트를 수용하는데 , 여기에는 지시(시스템 메시지)와 입력(사용자 메시지)이 포함됩니다. 채팅 애플리케이션에서 메시지는 사용자 입력과 모델 응답을 번갈아 가며 전달되므로 시간이 지남에 따라 메시지 목록이 길어집니다. 컨텍스트 창은 제한되어 있기 때문에 많은 애플리케이션에서 오래된 정보를 제거하거나 "잊는" 기술을 사용하면 이점을 얻을 수 있습니다.

- Usage
에이전트에 단기 메모리(스레드 수준 지속성)를 추가하려면 에이전트를 생성할 때, `checkpointer` 를 지정해야 합니다.

In [6]:
from langchain.agents import create_agent
from langgraph.checkpoint.memory import InMemorySaver

def get_user_list():
    """유저 정보 목록을 가져옵니다."""
    return [{"name": "A", "age": 10}, {"name": "B", "age": 20}]

agent = create_agent(
    # "openai:gpt-5-nano",
    "openai:gpt-4o-mini",
    [get_user_list],
    checkpointer=InMemorySaver(),
)

response = agent.invoke(
    {"messages": [{"role": "user", "content": "A 라는 유저는 몇살이야?"}]},
    {"configurable": {"thread_id": "1"}},
)

print(f"{response}")

response = agent.invoke(
    {"messages": [{"role": "user", "content": "내가 이전에 했던 질문 기억해?"}]},
    {"configurable": {"thread_id": "1"}},
)

print(f"{response}")

{'messages': [HumanMessage(content='A 라는 유저는 몇살이야?', additional_kwargs={}, response_metadata={}, id='24421249-cbf7-4c0c-85ea-33f5a357b5a5'), AIMessage(content='', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 11, 'prompt_tokens': 52, 'total_tokens': 63, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_provider': 'openai', 'model_name': 'gpt-4o-mini-2024-07-18', 'system_fingerprint': 'fp_560af6e559', 'id': 'chatcmpl-CGho3HMwnO0SqATEHaTDkNeTTf6kZ', 'service_tier': 'default', 'finish_reason': 'tool_calls', 'logprobs': None}, id='lc_run--0e485660-dd1f-4dd0-b3ba-0d57aaf210ef-0', tool_calls=[{'name': 'get_user_list', 'args': {}, 'id': 'call_mUr9OP4UKpAELNm8VFwDbKVn', 'type': 'tool_call'}], usage_metadata={'input_tokens': 52, 'output_tokens': 11, 'total_tokens': 63, 'input_token_detail

In [None]:
# 운영환경 - 데이터베이스로 지원되는 체크포인터 사용
from langchain.agents import create_agent
from langgraph.checkpoint.postgres import PostgresSaver

DB_URI = "postgresql://postgres:postgres@localhost:5442/postgres?sslmode=disable"
with PostgresSaver.from_conn_string(DB_URI) as checkpointer:
    agent = create_agent(
        "openai:gpt-5",
        [get_user_list],
        checkpointer=checkpointer,
    )

- 메시지 트리밍 (Message treaming)
LLM을 호출하기 전에 첫 번째 또는 마지막 N개 메시지를 제거합니다.
대부분의 LLM에는 지원되는 최대 컨텍스트 창(토큰으로 표시)이 있습니다.
메시지를 잘라낼 시점을 결정하는 한 가지 방법은 메시지 기록에서 토큰을 세어 그 개수가 한계에 도달할 때마다 잘라내는 것입니다.
LangChain을 사용하는 경우, 메시지 유틸리티를 사용해서 목록에서 유지할 토큰 수와 경계 처리에 사용할 토큰 수 를 지정할 수 있습니다. 


### `trim_messages`

이 함수는 지정된 \*\*최대 토큰 수(`max_tokens`)\*\*를 넘지 않도록 메시지 리스트를 자릅니다. 어떤 메시지를 남기고 어떤 메시지를 제거할지는 \*\*전략(`strategy`)\*\*과 다른 파라미터들을 통해 결정됩니다.

- 주요 파라미터 분석
`messages`

  - **역할**: 잘라낼 대상이 되는 메시지 객체들의 리스트입니다.
  - **예시**: `[HumanMessage(...), AIMessage(...), ToolMessage(...)]`

`strategy`
  - **역할**: 메시지를 자르는 방식을 결정하는 핵심 전략입니다.
  - **`"last"`** (사용자 코드의 경우): 리스트의 **가장 마지막 메시지부터 역순으로** 메시지를 수집합니다. 최대 토큰 수를 넘지 않을 때까지 이 과정을 반복합니다. 이는 "최근 N개의 메시지 유지"와 유사하게 동작합니다.
  - **`"first"`**: 리스트의 **가장 첫 번째 메시지부터 순서대로** 메시지를 수집합니다. 오래된 대화의 맥락을 유지할 때 유용할 수 있습니다.
  - **사용자 정의 함수**: 직접 메시지 선택 로직을 구현한 함수를 전달할 수도 있습니다.

`token_counter`
  - **역할**: 각 메시지의 토큰 수를 계산하는 함수입니다.
  - **`count_tokens_approximately`**: LangChain에서 제공하는 **근사치 계산 함수**입니다. 정확한 토큰 계산을 위해서는 모델의 실제 토크나이저(예: `tiktoken`)를 사용하는 것이 더 좋습니다.

`max_tokens`
  - **역할**: 잘라낸 후의 메시지 리스트가 포함할 수 있는 **최대 토큰 수**를 지정합니다.
  - **동작**: 전략에 따라 메시지를 하나씩 추가하면서, 이 값을 초과하기 직전까지의 메시지만 최종 결과에 포함됩니다.

`start_on`
  - **역할**: 메시지 수집을 시작할 **메시지 타입**을 지정합니다. (선택 사항)
  - **`"human"`** (사용자 코드의 경우): 메시지 리스트를 탐색할 때, `HumanMessage` 타입의 메시지를 만나면 수집을 시작합니다. 이는 대화가 항상 사용자 메시지로 시작하도록 강제하여 모델이 더 안정적으로 응답하도록 돕습니다.

`end_on`
  - **역할**: 메시지 수집을 마칠 **메시지 타입**을 지정합니다. (선택 사항)
  - **`("human", "tool")`** (사용자 코드의 경우): `HumanMessage` 또는 `ToolMessage` 타입의 메시지를 마지막으로 수집한 후, 프로세스를 종료합니다. 이는 잘라낸 메시지 리스트의 마지막이 AI의 답변 도중(`AIMessage`)에 끝나지 않도록 보장합니다. 즉, 완전한 "질문-답변" 또는 "질문-도구사용" 사이클을 유지하려는 의도입니다.

In [8]:
from langchain_core.messages.utils import trim_messages, count_tokens_approximately
from langchain_core.messages import BaseMessage
from langgraph.checkpoint.memory import InMemorySaver
from langchain.agents import create_agent
from langchain_core.runnables import RunnableConfig

def pre_model_hook(state) -> dict[str, list[BaseMessage]]:
    """
    This function will be called prior to every llm call to prepare the messages for the llm.
    """

# 1. `state["messages"]` 리스트의 **가장 마지막 메시지부터** 역순으로 탐색을 시작합니다 (`strategy="last"`).
# 2. 탐색 도중 `HumanMessage`를 만나면 메시지 수집을 시작합니다 (`start_on="human"`).
# 3. 계속해서 이전 메시지들을 하나씩 수집하면서, `count_tokens_approximately`로 계산한 누적 토큰 수가 **384개**를 넘지 않는지 확인합니다 (`max_tokens=384`).
# 4. 만약 `HumanMessage`나 `ToolMessage`를 수집한 직후에 누적 토큰이 384개를 초과하면, 해당 메시지까지만 포함하고 프로세스를 중단합니다 (`end_on`).
# 5. 최종적으로, 잘라낸 메시지 리스트를 반환합니다. 이 리스트는 항상 `HumanMessage`로 시작하고, `HumanMessage` 또는 `ToolMessage`로 끝나며, 총 토큰 수는 384개를 넘지 않습니다.
    trimmed_messages = trim_messages(
        state["messages"],
        strategy="last",
        token_counter=count_tokens_approximately,
        max_tokens=100,
        start_on="human",
        end_on=("human", "tool"),
    )
    return {"llm_input_messages": trimmed_messages}


checkpointer = InMemorySaver()
agent = create_agent(
    "openai:gpt-5-nano",
    tools=[],
    pre_model_hook=pre_model_hook,  # 모델 진입전 작동
    checkpointer=checkpointer,
)

config: RunnableConfig = {"configurable": {"thread_id": "1"}}

agent.invoke({"messages": "hi, my name is bob"}, config)
agent.invoke({"messages": "write a short poem about cats"}, config)
agent.invoke({"messages": "now do the same but for dogs"}, config)
final_response = agent.invoke({"messages": "what's my name?"}, config)

final_response["messages"][-1].pretty_print()
"""
================================== Ai Message ==================================

Your name is Bob. You told me that earlier.
If you'd like me to call you a nickname or use a different name, just say the word.
"""


I don’t know your name yet—you haven’t shared it in this chat. Tell me your name and I’ll use it, or I can suggest a dog-inspired name if you’re looking for one. Want to play a quick guessing game or just pick a nickname?




- 메시지 삭제 (Delete messages)

In [None]:
from langchain_core.messages import RemoveMessage

# 특정 메시지 삭제
def delete_messages(state):
    messages = state["messages"]
    if len(messages) > 2:
        # remove the earliest two messages
        return {"messages": [RemoveMessage(id=m.id) for m in messages[:2]]}
    
# 모든 메시지 삭제
from langgraph.graph.message import REMOVE_ALL_MESSAGES

def delete_messages(state):
    return {"messages": [RemoveMessage(id=REMOVE_ALL_MESSAGES)]}

agent = create_agent(
    "openai:gpt-5-nano",
    tools=[],
    prompt="Please be concise and to the point.",
    post_model_hook=delete_messages,
    checkpointer=InMemorySaver(),
)

- 메시지 요약 (Summarize messages)
위에서 설명한 것처럼 메시지를 다듬거나 제거하는 데에는 메시지 큐를 정리하는 과정에서 정보가 손실될 수 있습니다. 따라서 일부 애플리케이션에서는 채팅 모델을 사용하여 메시지 기록을 요약하는 방식이 더 좋을 수도 있습니다.

In [None]:
from langmem.short_term import SummarizationNode, RunningSummary
from langchain_core.messages.utils import count_tokens_approximately
from langchain.agents import create_agent, AgentState
from langgraph.checkpoint.memory import InMemorySaver
from langchain_openai import ChatOpenAI
from langchain_core.runnables import RunnableConfig

model = ChatOpenAI(model="gpt-4o-mini")

summarization_node = SummarizationNode(
    token_counter=count_tokens_approximately,
    model=model,
    max_tokens=384,
    max_summary_tokens=128,
    output_messages_key="llm_input_messages",
)

class State(AgentState):
    # Added for the SummarizationNode to be able to keep track of the running summary information
    context: dict[str, RunningSummary]


checkpointer = InMemorySaver()

agent = create_agent(
    model=model,
    tools=[],
    pre_model_hook=summarization_node,
    state_schema=State,
    checkpointer=checkpointer,
)

config: RunnableConfig = {"configurable": {"thread_id": "1"}}
agent.invoke({"messages": "hi, my name is bob"}, config)
agent.invoke({"messages": "write a short poem about cats"}, config)
agent.invoke({"messages": "now do the same but for dogs"}, config)
final_response = agent.invoke({"messages": "what's my name?"}, config)

print(final_response.keys())

final_response["messages"][-1].pretty_print()
print("\nSummary:", final_response["context"]["running_summary"].summary)

dict_keys(['messages', 'context'])

I'm sorry, but I don't have access to personal information about users, including names. If you'd like to share your name or any other details, feel free to do so!

Summary: The conversation began with a request to create a poem about dogs, similar to a previous one (presumably about another topic). In response, a brief and heartfelt poem about dogs was provided, highlighting their loyalty, joy, and the special bond they share with humans.


### Access
short-term memory에 접근 하는 방법

- 도구 (Tools)
실행 도중에 에이전트의 단기 메모리(상태)를 수정하려면 도구에서 직접 상태 업데이트를 반환할 수 있음.

In [3]:
from typing import Annotated
from langchain_core.tools import InjectedToolCallId
from langchain_core.runnables import RunnableConfig
from langchain_core.messages import ToolMessage
from langchain.agents import create_agent, AgentState
from langchain.agents.tool_node import InjectedState
from langgraph.runtime import get_runtime
from langgraph.types import Command
from pydantic import BaseModel

class CustomState(AgentState):
    user_name: str

class CustomContext(BaseModel):
    user_id: str

def update_user_info(
    tool_call_id: Annotated[str, InjectedToolCallId],
) -> Command:
    """Look up and update user info."""
    runtime = get_runtime(CustomContext)
    user_id = runtime.context.user_id
    name = "John Smith" if user_id == "user_123" else "Unknown user"
    return Command(update={
        "user_name": name,
        # update the message history
        "messages": [
            ToolMessage(
                "Successfully looked up user information",
                tool_call_id=tool_call_id
            )
        ]
    })

def greet(
    state: Annotated[CustomState, InjectedState]
) -> str:
    """Use this to greet the user once you found their info."""
    user_name = state["user_name"]
    return f"Hello {user_name}!"

agent = create_agent(
    model="openai:gpt-5-nano",
    tools=[update_user_info, greet],
    state_schema=CustomState,
    context_schema=CustomContext,
)

agent.invoke(
    {"messages": [{"role": "user", "content": "greet the user"}]},
    context=CustomContext(user_id="user_123"),
)

{'messages': [HumanMessage(content='greet the user', additional_kwargs={}, response_metadata={}, id='a2e62a7d-95c1-4f4f-85da-a35fb2d2f5e9'),
  AIMessage(content='', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 211, 'prompt_tokens': 143, 'total_tokens': 354, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 192, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_provider': 'openai', 'model_name': 'gpt-5-nano-2025-08-07', 'system_fingerprint': None, 'id': 'chatcmpl-CGxTv7G9sFIIFK2euBJl0O0sXKVKb', 'service_tier': 'default', 'finish_reason': 'tool_calls', 'logprobs': None}, id='lc_run--851795e6-91fe-4d8f-8e67-cd966b58d102-0', tool_calls=[{'name': 'greet', 'args': {}, 'id': 'call_MNurXAj5oF5qWT0bAsCa8cT6', 'type': 'tool_call'}], usage_metadata={'input_tokens': 143, 'output_tokens': 211, 'total_tokens': 354, 'input_token_details': {'audi

- Prompt
에이전트의 상태를 프롬프트 함수 시그니처에 주입하여 동적 프롬프트 함수에서 단기 메모리(상태)에 엑세스.

In [4]:

from langchain_core.messages import AnyMessage
from langchain.agents import create_agent, AgentState
from langgraph.runtime import get_runtime
from typing import TypedDict


class CustomContext(TypedDict):
    user_name: str


def get_weather(city: str) -> str:
    """Get the weather in a city."""
    return f"The weather in {city} is always sunny!"


def prompt(state: AgentState) -> list[AnyMessage]:
    user_name = get_runtime(CustomContext).context["user_name"]
    system_msg = f"You are a helpful assistant. Address the user as {user_name}."
    return [{"role": "system", "content": system_msg}] + state["messages"]


agent = create_agent(
    model="openai:gpt-5-nano",
    tools=[get_weather],
    prompt=prompt,
    context_schema=CustomContext,
)

result = agent.invoke(
    {"messages": [{"role": "user", "content": "What is the weather in SF?"}]},
    context=CustomContext(user_name="John Smith"),
)
for msg in result["messages"]:
    msg.pretty_print()


What is the weather in SF?
Tool Calls:
  get_weather (call_lHeiEKiwhOM42T3chBbLhC18)
 Call ID: call_lHeiEKiwhOM42T3chBbLhC18
  Args:
    city: San Francisco
Name: get_weather

The weather in San Francisco is always sunny!

Hi John Smith, the latest result says: The weather in San Francisco is always sunny!

Would you like me to fetch real-time conditions (temperature, wind, etc.) or a forecast for the next few days?


- Pre model hook

In [None]:
from langchain_core.messages.utils import trim_messages, count_tokens_approximately
from langchain_core.messages import BaseMessage
from langgraph.checkpoint.memory import InMemorySaver
from langchain.agents import create_agent, AgentState


def pre_model_hook(state: AgentState) -> dict[str, list[BaseMessage]]:
    """
    This function will be called prior to every llm call to prepare the messages for the llm.
    """
    trimmed_messages = trim_messages(
        state["messages"],
        strategy="last",
        token_counter=count_tokens_approximately,
        max_tokens=384,
        start_on="human",
        end_on=("human", "tool"),
    )
    return {"llm_input_messages": trimmed_messages}

agent = create_agent(
    model="openai:gpt-5-nano",
    tools=[],
    pre_model_hook=pre_model_hook,
    checkpointer=InMemorySaver(),
)

result = agent.invoke({"messages": "hi, my name is bob"}, {"configurable": {"thread_id": "1"}})
print(result["messages"][-1].content)

- Post model hook

In [None]:
from langchain.agents import create_agent, AgentState

STOP_WORDS = ["password", "secret"]

def validate_response(state: AgentState) -> dict[str, list[BaseMessage]]:
    """Confirm the response doesn't have any content that is in the stop words list."""
    last_message = state["messages"][-1]
    if any(word in last_message.content for word in STOP_WORDS):
        return {"messages": [RemoveMessage(id=last_message.id)]}
    return {}

agent = create_agent(
    model="openai:gpt-5-nano",
    tools=[],
    post_model_hook=validate_response,
    checkpointer=InMemorySaver(),
)