# AI Agents: Agentic Memory (Part-9)

![image.png](attachment:image.png)

# Table of Contents
1. Introduction
- 1.1 The Illusion of Memory in Today's AI
- 1.2 What do we mean by Memory in AI Agents?
- 1.3 How Memory Fits into the Agent Stack
- 1.4 Context Window ≠ Memory
- 1.5 Why RAG is Not the Same as Memory
2. Types of Memory in Agents
- 2.1 Short-Term Memory (Or Working Memory)
- 2.2 Long-Term Memory
  - 2.2.1 Procedural Memory
  - 2.2.2 Episodic Memory (Examples)
  - 2.2.3 Semantic Memory (Facts)
3. Manage Memory
4. Writing Memories
- 4.1 Writing memories on the hot path
- 4.2 Writing memories in the background
5. Add Short-Term memory
- 5.1 In Production
- 5.2 With Subgraphs
- 5.3 Manage checkpoints
6. Add Long-Term Memory
- 6.1 In Production
- 6.2 Semantic Search
7. Building Email Agent: Step-by-Step
- 7.1 Defining Our Agent's "Brain": The State
- 7.2 The Triage Center: Deciding What to Do (with Episodic Memory)
- 7.3 Defining Tools with Semantic Memory
- 7.4 The Response Agent: Creating Our Core Assistant (with Semantic Memory )
- 7.5 Building the Graph: Connecting the Pieces
- 7.6 Let's Run It! (and Store Some Memories)
- 7.7 Adding Procedural Memory (Updating Instructions) — The Final Touch!
- 7.8 Let's Run Our Complete Memory-Enhanced Agent!
8. Conclusion

# Overview

1. "Ảo giác" về bộ nhớ trong AI hiện nay
- Nhiều hệ thống AI khiến chúng ta có cảm giác rằng chúng có khả năng "nhớ". Điều này nhờ vào kỹ thuật prompt engineering và quản lý cửa sổ ngữ cảnh (window context)
- Tuy nhiên chúng không có bộ nhớ thực sự, ảnh hưởng của prompt hoặc ngữ cảnh được giữ lại tạm thời trong một phiên tương tác
2. Định nghĩa và vai trò của bộ nhớ tron AI agent
- Bộ nhớ là nền tảng giúp AI agent nhớ, khôi phục và sử dụng thông tin hiệu quả
- Memory không phải là một phần của context window, và RAG cũng không tương đương với bộ nhớ thực sự
3. Phân loại bộ nhớ trong AI agents
- Short-term memory: Lưu trữ thông tin tạm thời trong mỗi phiên tương tác
- Long-term memory gồm:
  - Procedural memory: các quy trình, hành động đã thực hiện
  - Episodic memory: ghi chép các sự kiện cụ thể có ngữ cảnh theo thời gian
  - Semantic memory: Kiến thức chung, sự kiện, dữ liệu thực tế
4. Cách quản lý và ghi nhớ thông tin
- Cần xác định cách ghi nhớ:
  - Hot-path writing: Lưu thông tin quan trọng ngay trong luồng xử lý chính
  - Background writing: xử lý và lưu trữ thông tin ngoài luồng (e.g. xử lý, tóm tắt, phân loại...)

Finally:
- Memory ≠ Context Window ≠ RAG — Bộ nhớ thực sự cho agent là một hệ thống riêng biệt.
- Ngộ nhận bộ nhớ: Hiện tại AI chỉ “nhớ” nhờ ngữ cảnh và prompt, chưa có hệ thống memory thực sự.
- Các loại memory: Short-Term, Procedural, Episodic, Semantic.
- Quản lý memory: Ghi thông tin ngay trong luồng hoặc xử lý và lưu trữ sau.
- Ứng dụng thực tế: Thiết kế state và cơ chế phân loại để lưu và quản lý memory (ví dụ: trong email agent).

# 1. Introduction

## 1.1 The Illusion of Memory in Today's AI
- Để buil một agent có thể học, phát triển và hợp tác => bộ nhớ thực sự không chỉ có lợi, mà còn rất cần thiết
- Chỉ với context windown và prompt engineering thôi là chưa đủ để gọi là bộ nhớ của agent, đó là một sự ảo tưởng
- Trên thực tế, hầu hết các tác nhân hiện nay đều không có trạng thái, không có khả năng học hỏi từ các tương tác trong quá khứ hoặc thích nghi theo thời gian

Để khiến các tác nhân không có trạng thái sang các tác nhân thực sự thông minh, cần cung cấp cho chúng bộ nhớ, lời nhắc lớn hơn và khả năng truy xuất tốt hơn là chưa đủ.

## 1.2 What do we mean by Memory in AI Agents?
Trong bối cảnh AI agent, trí nhớ là khả năng lưu trữ và nhớ lại thông tin liên quan theo thời gian, tác vụ và tương tác của người dùng . Cho phép tác nhân ghi nhớ những gì xảy ra trong quá khứ và sử dụng thông tin đó để cải thiện hành vi trong tương lai

"Trí nhớ" không chỉ lưu giữ lịch sử cuộc trò chuyện hay thêm mã thông báo vào lời nhắc, nó còn là việc xây dựng một trạng thái nội bộ bền bỉ, liên tục phát triển và cập nhật mọi tương tác, ngay cả khi cách nhau vài tuần hoặc vài tháng

Có 3 trụ cột xác định trí nhớ trong các tác nhân:
- State: Biết những gì đang diễn ra ngay lúc này
- Persistance (bền bỉ): Lưu giữ kiến thức trong suốt các phiên
- Selection: Quyết định điều gì đáng ghi nhớ

Những thứ này kết hợp lại với nhau tạo thành một thứ mới: continuity (tính liên tục)

## 1.3 How Memory Fits into the Agent Stack
![image.png](attachment:image.png)

Hãy đặt bộ nhớ vào kiến trúc của một tác nhân hiện đại, các thành phần chính gồm:
- Một LLM về lý luận và tạo câu trả lời
- Chính sách hoặc người lập kế hoạch (ví dụ: ReAct, kiểu AutoGPT)
- Truy cập vào các công cụ/API
- Một trình thu thập để lấy tài liệu hoặc dữ liệu quá khứ (retriever)

**Vấn đề ở đây là:** Không có thành phần nào ở trên nhớ được những gì đã xảy ra (e.g. ngày hôm qua, hôm kia...), không có trạng thái nội tại, không có sự phát triển hiểu biết, không có trí nhớ.

## 1.4 Context Window ≠ Memory
Quan niệm sai lầm là khi context window lớn sẽ loại bỏ nhu cầu của bộ nhớ. Cách tiếp cận này không hiệu quả và có nhiều hạn chế nhất định. Nhược điểm lớn khi gọi LLM với ngữ cảnh lớn là:
- expensive: nhiều mã thông báo hơn -> chi phí và độ trễ cao hơn (có thể đang nói về cấp độ mô hình)

Context window giúp tác nhân duy trì tính nhất quán trong một phiên. Nhưng bộ nhớ thậm chí cho phép các tác nhân hoạt động thông minh xuyên suốt các phiên. 

Ngay cả khi các mô hình có context window lên tới 100.000 tokens, việc thiếu tính bền vững, ưu tiên và nổi bật khiến nó không đủ để cung cấp thông tin quan trọng thực sự

![image.png](attachment:image.png)

## 1.5 Why RAG is Not the Same as Memory
RAG và bộ nhớ (memory) có nhiệm vụ rất khác nhau, mặc dù đều là cung cấp thêm thông tin để hỗ trợ LLM:
- RAG: đưa kiến thức bên ngoài vào lời nhắc (prompt) tại thời điểm suy luận. Nó củng cố câu trả lời bằng các dữ kiện từ dữ liệu. Về cơ bản RAG không có trạng thái, nó không biết được các tương tác trước đó, danh tính người dùng hoặc các truy vấn hiện tại có liên quan đến thông tin trước đó hay không
- Memory: mang lại tính liên tục, nó ghi lại sở thích, truy vấn, quyết định và thất bại trước đây của người dùng và giúp chúng khả dụng với các tương tác sau này.

**Hãy nghĩ theo cách này**: RAG giúp tác nhân trả lời tốt hơn. Trí nhớ giúp tác nhân hành động thông minh hơn.

![image.png](attachment:image.png)

# 2. Types of Memory in Agents

Ở cấp độ cơ bản, memory trong ai agent có hai hình thức:
- Bộ nhớ ngắn hạn: Lưu trữ bối cảnh tức thời trong một lần tương tác duy nhất.
- Bộ nhớ dài hạn: Lưu giữ kiến thức qua các phiên làm việc, nhiệm vụ và thời gian.

Giống như ở người, các loại trí nhớ này đảm nhiệm các chức năng nhận thức khác nhau. Trí nhớ ngắn hạn giúp tác nhân duy trì sự mạch lạc trong khoảnh khắc. Trí nhớ dài hạn giúp học hỏi, cá nhân hóa và thích nghi.

👉 Nguyên tắc đơn giản:
- Short-Term Memory = Những gì AI "nhớ ngay bây giờ" khi nói chuyện với bạn.
- Long-Term Memory = Những gì AI "học và nhớ lại sau" sau nhiều cuộc trò chuyện.

![image.png](attachment:image.png)

### 2.1 Short-Term Memory (Or Working Memory)
Hình thức bộ nhớ cơ bản nhất trong hệ thống AI lưu giữ ngữ cảnh tức thời (giống như những gì vừa được nói xong trong một cuộc trò chuyện), điều này bao gồm:
- Conversation History: những cuộc trò chuyện gần đây và thứ tự của nó
- Working Memory: các biến tạm thời và trạng thái
- Attention Context: trọng tâm hiện tai của cuộc trò chuyện

## 2.2 Long-Term Memory
Ứng dụng AI phức tạp hơn triển khai bộ nhớ dài hạn để lưu trữ thông tin trong suốt các cuộc trò chuyện. Điều này bao gồm:

### 2.2.1 Procedural Memory
Bộ nhớ thủ tục xác định những gì tác nhân AI cần phải làm, được mã hóa trực tiếp trong mã hóa của bạn. Từ các mẫu đơn giản đến các luồng suy luận phức tạp -> đây chính là lớp logic của bạn

Đây chính là "trí nhớ cơ bắp" của tác nhân cấp thấp, những hành vi đã được học và trở nên tự động.

### 2.2.2 Episodic Memory (Examples)
Trí nhớ tình tiết (các ví dụ). Những tương tác và trải nghiệm trước đây của người dùng là yếu tố tạo nên tính liên tục, cá nhân hóa và khả năng học hỏi theo thời gian

### 2.2.3 Semantic Memory (Facts)
Bộ nhớ ngữ nghĩa. Kiến thức thực tế về xung quanh (thế giới) được thu thập thông qua tìm kiếm vector hoặc RAG.

![image.png](attachment:image.png)

# 3. Manage Memory

Nhiều ứng dụng AI cần chia sẻ ngữ cảnh thông qua đa tương tác. LangGraph hỗ trợ hai kiểu memory cần thiết để xây dựng các tác nhân hội thoại:
- Short-term memory: Theo dõi những gì đang diễn ra bằng cách duy trì lịch sử tin nhắn trong một phiên
- Long-term memory: Lưu trữ những thông tin đặc biệt về người dùng hoặc dữ liệu cấp ứng dụng trong nhiều phiên

Khi bộ nhớ ngắn hạn được kích hoạt, các cuộc trò chuyện dài có thể vượt quá phạm vi context của LLM. Các giải pháp phổ biến là:
- Trimming: Xóa N tin nhắn đầu tiên hoặc cuối cùng (trước khi gọi LLM)
- Summarization: Tóm tắt các tin nhắn trước đó trong lịch sử và thay thế chúng bằng một bản tóm tắt
- Xóa vĩnh viễn tin nhắn khỏi trạng thái LangGraph
- chiến lược tùy chỉnh (ví dụ: lọc tin nhắn, v.v.)

Điều này cho phép tác nhân theo dõi cuộc trò chuyện mà không vượt quá cửa sổ ngữ cảnh của LLM.

# 4. Writing Memories

Khi nào và bằng cách nào tác nhân AI nên tạo ra ký ức mới?

Có ít nhất hai phương pháp chính:
- "on the hot path": trên đường dẫn nóng
- "in the background": trong nền

![image.png](attachment:image.png)

![image-2.png](attachment:image-2.png)

## 4.1 Writing memories on the hot path
Việc tạo ký ức trong thời gian chạy mang lại cả lợi ích lẫn thách thức
- Lợi: Cho phép cập nhật theo thời gian thực, giúp ký ức mới có thể sử dụng ngay lập tức trong các tương tác tiếp theo. Đảm bảo tính minh bạch, người dùng được thông báo ngay khi ký ức mới được cập nhật và lưu trữ.

Ví dụ, ChatGPT sử dụng công cụ save_memories để chèn các ký ức dưới dạng chuỗi nội dung, quyết định xem có nên sử dụng công cụ này với mỗi tin nhắn của người dùng hay không và cách sử dụng

## 4.2 Writing memories in the background

Việc tạo bộ nhớ như một tác vụ nền riêng biệt mang lại nhiều lợi thế:
- Nó loại bỏ độ trễ trong ứng dụng chính, tách biệt logic ứng dụng khỏi việc quản lý bộ nhớ và cho phép tác nhân hoàn thành tác vụ một cách tập trung hơn
- hương pháp này cũng mang lại sự linh hoạt trong việc định thời gian tạo bộ nhớ để tránh công việc dư thừa.

# 5. Add Short-Term memory

Bộ nhớ ngắn hạn (tính bền vững ở cấp độ luồng) cho phép các tác nhân theo dõi các cuộc trò chuyện nhiều lượt. Để thêm bộ nhớ ngắn hạn:

In [None]:
from langchain.chat_models import init_chat_model
from langgraph.graph import StateGraph, MessagesState, START
from langgraph.checkpoint.memory import InMemorySaver


model = init_chat_model(model="anthropic:claude-3-5-haiku-latest")


def call_model(state: MessagesState):
    response = model.invoke(state["messages"])
    return {"messages": response}


builder = StateGraph(MessagesState)
builder.add_node(call_model)
builder.add_edge(START, "call_model")

checkpointer = InMemorySaver()
graph = builder.compile(checkpointer=checkpointer)
config = {
    "configurable": {
        "thread_id": "1"
    }
}

for chunk in graph.stream(
    {"messages": [{"role": "user", "content": "hi! I'm Uc"}]},
    config,
    stream_model="values",
):
    chunk["messages"][-1].pretty_print()

for chunk in graph.stream(
    {"messages": [{"role": "user", "content": "What's my name?"}]},
    config,
    stream_model="values",
):
    chunk["messages"][-1].pretty_print()

## 5.1 In Production
Trong sản xuất, bạn sẽ muốn sử dụng một con trỏ kiểm tra được hỗ trợ bởi cơ sở dữ liệu, ví dụ: MongoDB checkpointer

Để sử dụng checkpointer MongoDB, bạn cần có một cụm (cluster) MongoDB.
https://www.mongodb.com/docs/guides/atlas/cluster/

In [None]:
%pip install -U pymongo langgraph langgraph-checkpoint-mongodb

In [7]:
from langchain.chat_models import init_chat_model
from langgraph.graph import StateGraph, MessagesState, START
from langgraph.checkpoint.mongodb import MongoDBSaver

import os
from dotenv import load_dotenv

load_dotenv()

model = init_chat_model(
    # model_name="anthropic:claude-3-5-haiku-latest",
    model="command-a-03-2025",
    api_key=os.getenv("COHERE_API_KEY")
)
DB_URI = "localhost:27017"

with MongoDBSaver.from_conn_string(DB_URI) as checkpointer:

    def call_model(state: MessagesState):
        response = model.invoke(state["messages"])
        return {"messages": response}

    builder = StateGraph(MessagesState)
    builder.add_node(call_model)
    builder.add_edge(START, "call_model")

    graph = builder.compile(checkpointer=checkpointer)

    config = {
        "configurable": {
            "thread_id": "1"
        }
    }

    for chunk in graph.stream(
        {"messages": [{"role": "user", "content": "hi! I'm bob"}]},
        config,
        stream_mode="values"
    ):
        chunk["messages"][-1].pretty_print()

    for chunk in graph.stream(
        {"messages": [{"role": "user", "content": "what's my name?"}]},
        config,
        stream_mode="values"
    ):
        chunk["messages"][-1].pretty_print()


hi! I'm bob

Hello Bob! It's great to meet you. How can I help you today?

what's my name?

You mentioned your name is Bob. Is there anything else you'd like to know or discuss?


## 5.2 With Subgraphs
Nếu đồ thị chứa các đồ thị con, chỉ cần cung cấp con trỏ kiểm tra (checkpointer) khi biên dịch đồ thị cha. LangGraph sẽ tự động truyền con trỏ kiểm tra đến các đồ thị con.

In [None]:
from langgraph.graph import StateGraph, START
from langgraph.checkpoint.memory import InMemorySaver
from typing import TypedDict


class State(TypedDict):
    foo: str

# Subgraph
def subgraph_node_1(state: State):
    return {"foo": state["foo"] + "bar"}

subgraph_builder = StateGraph(State)
subgraph_builder.add_node(subgraph_node_1)
subgraph_builder.add_edge(START, "subgraph_node_1")
subgraph = subgraph_builder.compile()


# Parent graph
def node_1(state: State):
    return {"foo": "hi!" + state["foo"]}

builder = StateGraph(State)
builder.add_node("node_1", subgraph)
builder.add_edge(START, "node_1")

checkpointer = InMemorySaver()
graph = builder.compile(checkpointer=checkpointer)

## 5.3 Manage checkpoints

Bạn có thể xem và xóa thông tin được lưu trữ vởi con trỏ kiểm tra

In [None]:
# View thread state (checkpoint)
config = {
    "configurable": {
        "thread_id": "1",
        # optionally provide an ID for a specific checkpoint,
        # otherwise the latest checkpoint is shown
        # "checkpoint_id": "1f029ca3-1f5b-6704-8004-820c16b69a5a"
    }
}
graph.get_state(config)
StateSnapshot(
    values={'messages': [HumanMessage(content="hi! I'm bob"), AIMessage(content="Hi Bob! How are you doing today?"), HumanMessage(content="what's my name?"), AIMessage(content='Your name is Bob.')]}, next=(),
    config={'configurable': {'thread_id': '1', 'checkpoint_ns': '', 'checkpoint_id': '1f029ca3-1f5b-6704-8004-820c16b69a5a'}},
    metadata={
        'source': 'loop',
        'writes': {'call_model': {'messages': AIMessage(content='Your name is Bob.')}},
        'step': 4,
        'parents': {},
        'thread_id': '1'
    },
    created_at='2025-05-05T16:01:24.680462+00:00',
    parent_config={'configurable': {'thread_id': '1', 'checkpoint_ns': '', 'checkpoint_id': '1f029ca3-1790-6b0a-8003-baf965b6a38f'}}, 
    tasks=(),
    interrupts=()
)

In [None]:
# View the history of the thread (checkpoints)
config = {
    "configurable": {
        "thread_id": "1"
    }
}
list(graph.get_state_history(config))
[
    StateSnapshot(
        values={'messages': [HumanMessage(content="hi! I'm bob"), AIMessage(content='Hi Bob! How are you doing today? Is there anything I can help you with?'), HumanMessage(content="what's my name?"), AIMessage(content='Your name is Bob.')]}, 
        next=(), 
        config={'configurable': {'thread_id': '1', 'checkpoint_ns': '', 'checkpoint_id': '1f029ca3-1f5b-6704-8004-820c16b69a5a'}}, 
        metadata={'source': 'loop', 'writes': {'call_model': {'messages': AIMessage(content='Your name is Bob.')}}, 'step': 4, 'parents': {}, 'thread_id': '1'},
        created_at='2025-05-05T16:01:24.680462+00:00',
        parent_config={'configurable': {'thread_id': '1', 'checkpoint_ns': '', 'checkpoint_id': '1f029ca3-1790-6b0a-8003-baf965b6a38f'}},
        tasks=(),
        interrupts=()
    ),
    StateSnapshot(
        values={'messages': [HumanMessage(content="hi! I'm bob"), AIMessage(content='Hi Bob! How are you doing today? Is there anything I can help you with?'), HumanMessage(content="what's my name?")]}, 
        next=('call_model',), 
        config={'configurable': {'thread_id': '1', 'checkpoint_ns': '', 'checkpoint_id': '1f029ca3-1790-6b0a-8003-baf965b6a38f'}},
        metadata={'source': 'loop', 'writes': None, 'step': 3, 'parents': {}, 'thread_id': '1'},
        created_at='2025-05-05T16:01:23.863421+00:00',
        parent_config={...}
        tasks=(PregelTask(id='8ab4155e-6b15-b885-9ce5-bed69a2c305c', name='call_model', path=('__pregel_pull', 'call_model'), error=None, interrupts=(), state=None, result={'messages': AIMessage(content='Your name is Bob.')}),),
        interrupts=()
    ),
    StateSnapshot(
        values={'messages': [HumanMessage(content="hi! I'm bob"), AIMessage(content='Hi Bob! How are you doing today? Is there anything I can help you with?')]}, 
        next=('__start__',), 
        config={...}, 
        metadata={'source': 'input', 'writes': {'__start__': {'messages': [{'role': 'user', 'content': "what's my name?"}]}}, 'step': 2, 'parents': {}, 'thread_id': '1'},
        created_at='2025-05-05T16:01:23.863173+00:00',
        parent_config={...}
        tasks=(PregelTask(id='24ba39d6-6db1-4c9b-f4c5-682aeaf38dcd', name='__start__', path=('__pregel_pull', '__start__'), error=None, interrupts=(), state=None, result={'messages': [{'role': 'user', 'content': "what's my name?"}]}),),
        interrupts=()
    ),
    StateSnapshot(
        values={'messages': [HumanMessage(content="hi! I'm bob"), AIMessage(content='Hi Bob! How are you doing today? Is there anything I can help you with?')]}, 
        next=(), 
        config={...}, 
        metadata={'source': 'loop', 'writes': {'call_model': {'messages': AIMessage(content='Hi Bob! How are you doing today? Is there anything I can help you with?')}}, 'step': 1, 'parents': {}, 'thread_id': '1'},
        created_at='2025-05-05T16:01:23.862295+00:00',
        parent_config={...}
        tasks=(),
        interrupts=()
    ),
    StateSnapshot(
        values={'messages': [HumanMessage(content="hi! I'm bob")]}, 
        next=('call_model',), 
        config={...}, 
        metadata={'source': 'loop', 'writes': None, 'step': 0, 'parents': {}, 'thread_id': '1'}, 
        created_at='2025-05-05T16:01:22.278960+00:00', 
        parent_config={...}
        tasks=(PregelTask(id='8cbd75e0-3720-b056-04f7-71ac805140a0', name='call_model', path=('__pregel_pull', 'call_model'), error=None, interrupts=(), state=None, result={'messages': AIMessage(content='Hi Bob! How are you doing today? Is there anything I can help you with?')}),), 
        interrupts=()
    ),
    StateSnapshot(
        values={'messages': []}, 
        next=('__start__',), 
        config={'configurable': {'thread_id': '1', 'checkpoint_ns': '', 'checkpoint_id': '1f029ca3-0870-6ce2-bfff-1f3f14c3e565'}},
        metadata={'source': 'input', 'writes': {'__start__': {'messages': [{'role': 'user', 'content': "hi! I'm bob"}]}}, 'step': -1, 'parents': {}, 'thread_id': '1'}, 
        created_at='2025-05-05T16:01:22.277497+00:00', 
        parent_config=None,
        tasks=(PregelTask(id='d458367b-8265-812c-18e2-33001d199ce6', name='__start__', path=('__pregel_pull', '__start__'), error=None, interrupts=(), state=None, result={'messages': [{'role': 'user', 'content': "hi! I'm bob"}]}),), 
        interrupts=()
    )
]

In [None]:
# Delete all checkpoints for a thread
thread_id = "1"
checkpointer.delete_thread(thread_id)

# 6. Add Long-Term Memory

Sử dụng bộ nhớ dài hạn (lưu trữ liên luồng) để lưu trữ dữ liệu cụ thể của người dùng hoặc ứng dụng trong các cuộc trò chuyện. Điều này hữu ích cho các ứng dụng như chatbot, nơi bạn muốn ghi nhớ sở thích của người dùng hoặc thông tin khác

Để dùng bộ nhớ dài hạn, chúng ta cần BaseStore khi tạp đồ thị:
https://langchain-ai.github.io/langgraph/reference/store/#langgraph.store.base.BaseStore

In [None]:
import uuid
from typing_extensions import Annotated, TypedDict

from langchain_core.runnables import RunnableConfig
from langgraph.graph import StateGraph, MessagesState, START
from langgraph.checkpoint.memory import InMemorySaver
from langgraph.store.memory import InMemoryStore
from langgraph.store.base import BaseStore


model  = init_chat_model(
    model="command-a-03-2025",
    api_key=os.getenv("COHERE_API_KEY")
)


def call_model(state: MessagesState, config: RunnableConfig, *, store: BaseStore):
    user_id = config["configurable"]["user_id"]
    namespace = ("memory", "user_id")
    memories = store.search(namespace, query=str(state["messages"[-1].content]))
    info = "\n".join([d.value["data"] for d in memories])
    system_msg = f"You are a helpful assistant talking to the user. User info: {info}"

    # Store new memories if the user asks the model to remember
    last_message = state["messages"][-1]
    if "remember" in last_message.content.lower():
        memory = "User name is Bob"
        store.put(namespace, str(uuid.uuid4()), {"data": memory})
    
    response = model.invoke(
        [{"role": "system", "content": system_msg}] + state["messges"]
    )
    return {"messges": response}


builder = StateGraph(MessagesState)
builder.add_node(call_model)
builder.add_edge(START, "call_model")

checkpointer = InMemorySaver()
store = InMemoryStore()

graph = builder.compile(
    checkpointer=checkpointer,
    store=store
)

config = {
    "configurable": {
        "thread_id": "1",
        "user_id": "1"
    }
}
for chunk in graph.stream(
    {"messages": [{"role": "user", "content": "Hi! Remember: my name is Bob"}]},
    config,
    stream_model="values"
):
    chunk["messages"][-1].pretty_print()

    

## 6.1 In Production
Trong production, nếu muốn dùng một checkpointer đằng sau bằng một database: 

Ex: https://pypi.org/project/langgraph-checkpoint-postgres/

Chúng ta cần gọi store.setup() lần đầu tiên khi dùng postgres store


In [9]:
%pip install -U "psycopg[binary,pool]" langgraph langgraph-checkpoint-postgres

Collecting langgraph-checkpoint-postgres
  Downloading langgraph_checkpoint_postgres-2.0.23-py3-none-any.whl.metadata (4.6 kB)
Collecting psycopg[binary,pool]
  Downloading psycopg-3.2.9-py3-none-any.whl.metadata (4.5 kB)
Collecting psycopg-binary==3.2.9 (from psycopg[binary,pool])
  Downloading psycopg_binary-3.2.9-cp312-cp312-win_amd64.whl.metadata (3.0 kB)
Collecting psycopg-pool (from psycopg[binary,pool])
  Downloading psycopg_pool-3.2.6-py3-none-any.whl.metadata (2.6 kB)
Downloading psycopg_binary-3.2.9-cp312-cp312-win_amd64.whl (2.9 MB)
   ---------------------------------------- 0.0/2.9 MB ? eta -:--:--
   ------------------------- -------------- 1.8/2.9 MB 14.4 MB/s eta 0:00:01
   ---------------------------------------- 2.9/2.9 MB 13.1 MB/s eta 0:00:00
Downloading langgraph_checkpoint_postgres-2.0.23-py3-none-any.whl (40 kB)
Downloading psycopg-3.2.9-py3-none-any.whl (202 kB)
Downloading psycopg_pool-3.2.6-py3-none-any.whl (38 kB)
Installing collected packages: psycopg-pool, 

In [None]:
# Setup
import os
from dotenv import load_dotenv
import uuid

from langchain_core.runnables import RunnableConfig
from langchain.chat_models import init_chat_model
from langgraph.graph import StateGraph, MessagesState, START
from langgraph.checkpoint.postgres import PostgresSaver
from langgraph.store.postgres import PostgresStore
from langgraph.store.base import BaseStore


# Init model and Postgres DB
load_dotenv()
model = init_chat_model(
    model="command-a-03-2025",
    api_key=os.getenv("COHERE_API_KEY")
)
DB_URI = "postgresql://postgres:postgres@localhost:5442/postgres?sslmode=disable"

# Init Store and Checkpointer
with (
    PostgresStore.from_conn_string(DB_URI) as store,
    PostgresSaver.from_conn_string(DB_URI) as checkpointer,
):
    # store.setup()
    # checkpointer.setup()

    # Define agent node
    def call_model(
        state: MessagesState,
        config: RunnableConfig,
        *,
        store: BaseStore,
    ):
        user_id = config["configurable"]["user_id"]
        namespace = ("memorie+s", user_id)
        memories = store.search(namespace, query=str(state["messages"][-1].content))
        info = "\n".join([d.value["data"] for d in memories])
        system_msg = f"You are a helpful assistant talking to the user. User info: {info}"

        # Store new memories if the user asks the model to remember
        last_message = state["messages"][-1]
        if "remember" in last_message.content.lower():
            memory = "User name is Bob"
            store.put(namespace, str(uuid.uuid4()), {"data": memory})

        response = model.invoke(
            [{"role": "system", "content": system_msg}] + state["messages"]
        )
        return {"messages": response}

    builder = StateGraph(MessagesState)
    builder.add_node(call_model)
    builder.add_edge(START, "call_model")

    graph = builder.compile(
        checkpointer=checkpointer,
        store=store,
    )

    config = {
        "configurable": {
            "thread_id": "1",
            "user_id": "1",
        }
    }
    for chunk in graph.stream(
        {"messages": [{"role": "user", "content": "Hi! Remember: my name is Bob"}]},
        config,
        stream_mode="values",
    ):
        chunk["messages"][-1].pretty_print()

    config = {
        "configurable": {
            "thread_id": "2",
            "user_id": "1",
        }
    }

    for chunk in graph.stream(
        {"messages": [{"role": "user", "content": "what is my name?"}]},
        config,
        stream_mode="values",
    ):
        chunk["messages"][-1].pretty_print()

## 6.2 Semantic Search
Cũng có thể kích hoạt tìm kiếm ngữ nghĩa trong kho đồ thị trí nhớ, điều này cho phép tác nhân đồ thị tìm kiếm các mục trong store theo mức độ tương đồng về mặt ngữ nghĩa.

In [None]:
from typing import Optional

from langchain.embeddings import init_embeddings
from langchain.chat_models import init_chat_model
from langgraph.store.base import BaseStore
from langgraph.store.memory import InMemoryStore
from langgraph.graph import START, MessageGraph, StateGraph


llm = init_chat_model(
    model="command-a-03-2025",
    api_key=os.getenv("COHERE_API_KEY")
)
# Create store with semantic search enabled
embeddings = init_embeddings("openai:text-embedding-3-small")
store = InMemoryStore(
    index={
        "embed": embeddings,
        "dims": 1536,
    }
)

store.put(("user_123", "memories"), "1", {"text": "I love pizza"})
store.put(("user_123", "memories"), "2", {"text": "I am a plumber"})


def chat(state, *, store: BaseStore):
    # Search based on user's last message
    items = store.search(
        ("user_123", "memories"), query=state["messages"][-1].content, limit=2
    )
    memories = "\n".join(item.value["text"] for item in items)
    memories = f"## Memories of user \n{memories}" if memories else ""
    response = llm.invoke(
        [
            {"role": "system", "content": f"You are a helpful assistant.\n{memories}"},
            *state["messages"],
        ]
    )
    return {"messages": [response]}


builder = StateGraph(MessagesState)
builder.add_node(chat)
builder.add_edge(START, "chat")
graph = builder.compile(store=store)

for message, metadata in graph.stream(
    input={"messages": [{"role": "user", "content": "I'm hungry"}]},
    stream_model="messages",
):
    print(message.content, end="")

Khi thiết kế các tác nhân, những câu hỏi sau đây có thể đóng vai trò là hướng dẫn hữu ích:
- tác nhân của bạn nên họ loại nội dung nào? (facts/knowledge?, sự kiện trong quá khứ? quy tắc/phong cách)
- Khi nào thì ký ức được hình thành (và ai là người hình thành ký ức?)
- memory nên được lưu trữ ở đâu (prompt/semantic store?). Điều này phần lớn quyết định cách chúng được nhớ lại

# 7. Building Email Agent: Step-by-Step

Bằng cách kết hợp cả ba loại trí nhớ dài hạn, trợ lý của chúng ta sẽ trở nên thực sự thông minh và được cá nhân hóa. Hãy tưởng tượng một trợ lý có thể:
- Lưu ý email từ một khách hàng cụ thể cần được theo dõi nếu không được trả lời trong vòng 24h
- Học được phong cách và giọng điệu viết của bạn, điều chỉnh các phản hồi trang tọng cho giao tiếp bên ngoài và phản hồi thân mật cho các thành viên
- Ghi nhớ các bối cảnh dự án phức tạp mà không cần giải thích nhiều lần
- Trở nên tốt hơn trong việc dự đoán email nào bạn muốn xem thay vì xử lý tự động

![image.png](attachment:image.png)

workflow:

![image-2.png](attachment:image-2.png)

Code:

In [12]:
%pip install langmem langchain_community python-dotenv --quiet

Note: you may need to restart the kernel to use updated packages.


In [14]:
import os
import warnings
import numpy as np
from dotenv import load_dotenv
from typing import TypedDict, Literal, Annotated, List

from langgraph.graph import StateGraph, add_messages, START, END
from langgraph.prebuilt import create_react_agent
from langgraph.store.memory import InMemoryStore
from langchain.chat_models import init_chat_model
from langchain_core.tools import tool
from langchain.prompts import PromptTemplate
from langchain.schema import HumanMessage
from pydantic import BaseModel, Field

from langmem import create_manage_memory_tool
from langmem import create_search_memory_tool
from langmem import create_multi_prompt_optimizer

from IPython.display import Image, display


# Suppress numpy warnings from embedding calculations
warnings.filterwarnings("ignore", category=RuntimeWarning, module="numpy")
warnings.filterwarnings("ignore", category=RuntimeWarning, module="langgraph")

initialize our environment and tools:

In [None]:
%env OPENAI_API_KEY=<your_openai_api_key>
# Load enviroment variables
load_dotenv()

# User Configuration
USER_ID = "test_user"
CONFIG = {"config": {"langgraph_user_id"}}

# Initialize core components
llm = init_chat_model("openai:gpt-4o-mini")
store = InMemoryStore(index={"embed": "openai:text-embedding-3-small"})

Store lưu trữ bộ nhớ đặc biệt quan trọng ở đây, nó giống như việc trao cho tác nhân của chúng ta một bộ não để lưu trữ và truy xuất thông tin. chung ta sử dụng kho lưu trữ trong bộ nhớ để đơn giản hòa, nhưng trong môi trườn sản xuất, bạn có thể muốn sử dụng cơ sở dữ liệu liên tục

## 7.1 Defining Our Agent's "Brain": The State
Bây giờ chúng ta cần thiết kế bộ nhớ làm việc của tác nhân, sổ ghi chép nơi lưu lại các quy trình xử lý. Điều này khác với bộ nhớ dài hạn. Nó giống như những điều bạn chủ động ghi nhớ trong khi thực hiện một nhiệm vụ

In [15]:
class State(TypedDict):
    """
    State management for the email agent workflow.
    
    This state is passed between nodes in the LangGraph workflow and contains:
    - email_input: The incoming email to be processed
    - messages: Conversation history for the response agent
    - triage_result: Classification result from triage ('ignore', 'notify', 'respond')
    
    The state evolves as it moves through the workflow, accumulating information
    that helps the agent make better decisions and provide contextual responses.
    """
    email_input: dict   # The conversation history
    messages: Annotated[list, add_messages]    # The conversation history
    triage_result: str  # The result of the triage (ignore, notify, response)

Đối tượng State chứa 3 thông tin quan trọng:
- Email hiện tại đang xử lý
- Cuộc trò chuyện đang diễn ra (nếu có)
- Quyết định về cách xử lý email

Nó chứa thông tin cần thiết để đưa ra quyết định trong trạng thái hiện tại

## 7.2 The Triage Center: Deciding What to Do (with Episodic Memory)
Đầu tiên, tạo ra một cấu trúc để tác nhân giải thích lý do và phân loại của nó:

In [16]:
class Router(BaseModel):
    """
    Structured output model for email triage classification.
    
    This model ensures that the LLM provides both reasoning and classification
    in a consistent format, making the triage process transparent and debuggable.
    
    The reasoning field helps us understand how the agent made its decision,
    which is crucial for improving prompts and training examples.
    """
    reasoning: str = Field(description="Step-by-step reasoning behind the classification.")
    classification: Literal["ignore", "respond", "notify"] = Field(
        description="The classification of an email: 'ignore', 'notify', or 'respond'."
    )

# Initialize LLM router with structured output
llm_router = llm.with_structured_output(Router)

Để tận dụng trí nhớ theo giai đoạn, chúng ta cần một cách để định dạng các ví dụ từ các tương tác trong quá khứ:


In [None]:
def format_few_shot_examples(examples):
    """
    Format episodic memory examples for few-shot learning.
    
    This function converts stored email examples from the episodic memory
    into a formatted string that can be included in the triage prompt.
    
    Args:
        examples: List of stored email examples from memory.search()
        
    Returns:
        str: Formatted examples string for few-shot learning
    """
    formatted_examples = []
    for eg in examples:
        email = eg.value["email"]
        label = eg.value["label"]
        formatted_examples.append(
            f"From: {email['author']}\nSubject: {email['subject']}\nBody: {email['email_thread'][:300]}...\n\nClassification: {label}"
        )
    return "\n\n".join(formatted_examples)

Hàm trên chuyển đổi các ví dụ đã lưu trữ của chúng ta thành một định dạng giúp mô hình học hỏi từ chúng, chẳng hạn như cho nhân viên mới xem một tài liệu đào tạo với các ví dụ được chú thích về cách sử lý các tình huống khác nhau. Bây giờ hãy tạo hàm phân loại email sử dụng bộ nhớ theo giai đoạn:

In [None]:
def triage_email(state: State, config: dict, store: InMemoryStore) -> dict:
    """
    Basic email triage function using episodic memory.
    
    This function classifies incoming emails using:
    1. Static prompt template
    2. Few-shot examples from episodic memory
    
    Args:
        state: Current workflow state containing email_input
        config: Configuration containing user_id for memory namespacing
        store: InMemoryStore for accessing episodic memory
        
    Returns:
        dict: Updated state with triage_result
    """
    email = state["email_input"]
    user_id = config["configurable"]["langgraph_user_id"]
    namespace = ("email_assistant", user_id, "examples") # Namespace for episodic memory

    # Retrieval relevent examples from memory
    examples = store.search(namespace, query=str(email))
    formatted_examples = format_few_shot_examples(examples)

    prompt_template = PromptTemplate.from_template("""You are an email triage assistant.  Classify the following email:
    From: {author}
    To: {to}
    Subject: {subject}
    Body: {email_thread}

    Classify as 'ignore', 'notify', or 'respond'.

    Here are some examples of previous classifications:
    {examples}
    """)

    prompt = prompt_template.format(examples=formatted_examples, **email)
    messages = [HumanMessage(content=prompt)]
    result = llm_router.invoke(messages)
    return {"triage_result": result.classification}


Hàm này là cốt lõi của trí nhớ sự kiện. Khi một email mới đến, nó không phân tích email đó một cách riêng lẻ, nó tìm kiếm các email tương tự từ quá khứ và xem chúng được xử lý như thế nào. Từ đó có thể đưa ra phương hướng xử lý tiếp theo

## 7.3 Defining Tools with Semantic Memory
Bây giờ hãy cung cấp cho agent một công cụ làm việc, đầu tiên là các kỹ năng cơ bản để biết email và kiểm tra lịch.

In [None]:
# Trong các AI framework, @tool được dùng để đánh dấu một hàm python
# thành công cụ (tool) mà agent có thể gọi khi LLM ra quyết định cần dùng
@tool
def write_email(to: str, subject: str, content: str) -> str:
    """
    Tool for composing and sending email responses.
    
    This tool is available to the Response Agent and allows it to:
    - Draft professional email responses
    - Send replies to email inquiries
    - Handle email communication tasks
    
    Args:
        to: Recipient email address
        subject: Email subject line
        content: Email body content
        
    Returns:
        str: Confirmation message of email sent
    """
    print(f"Sending email to {to} with subject {subject}\nContent: {content}\n")
    return f"Email sent to {to} with subject {subject}"

@tool
def check_calendar_availability(day: str) -> str:
    """
    Tool for checking calendar availability.
    
    This tool allows the Response Agent to:
    - Check available meeting times
    - Schedule appointments
    - Provide calendar information
    
    Args:
        day: Day to check availability for
        
    Returns:
        str: Available time slots for the specified day
    """
    return f"Available times on {day}: 9:00 AM, 2:00 PM, 4:00 PM"

Lưu ý rằng đây là những ví dụ triển khai đơn giản cho mục đích tham khảo. Trong môi trường sản xuất, bạn sẽ kết nối với chức năng này tới các email và gọi API lên lịch thực sự (tương tác với các dịch vụ email như Google,...)

Bây giờ, hãy thêm công cụ trí nhớ ngữ nghĩa, agent của chúng ta có khả năng lưu trữ và truy xuất những thực tế về "world"

In [None]:
# Create LangMem memory tools
manage_memory_tool = create_manage_memory_tool(namespace=("email_assistant", "{langgraph_user_id}", "collection"))
search_memory_tool = create_search_memory_tool(namespace=("email_assistant", "{langgraph_user_id}", "collection"))

# All available tools for the response agent
tools = [write_email, check_calendar_availability, manage_memory_tool, search_memory_tool]


## 7.4 The Response Agent: Creating Our Core Assistant (with Semantic Memory )
Giờ sẽ tạo tác nhân cốt lõi xử lý phản hồi bằng cách sử dụng tất cả các bộ nhớ hệ thống của nó.


In [None]:
def create_agent_prompt(state, config, store):
    """
    Create dynamic prompts for the Response Agent using procedural memory.
    
    This function demonstrates how PROCEDURAL MEMORY enables adaptive behavior:
    1. Retrieves the current response prompt from memory storage
    2. Combines it with conversation history
    3. Returns properly formatted prompt for the LLM
    
    Args:
        state: Current workflow state with message history
        config: Configuration containing user_id for memory access
        store: InMemoryStore for accessing procedural memory
        
    Returns:
        list: Formatted messages for the LLM including system prompt + history
    """
    messages = state["messages"]
    user_id = config["configurable"]["langgraph_user_id"]

    print("RESPONSE AGENT: Initializing with adaptive system prompt")

    # Get the current response prompt from procedural memory
    system_prompt = store.get(("email_assistant", user_id, "prompt"), "response_prompt")
    print("PROCEDURAL MEMORY: Retrieved current response prompt")

    # Ensure the system prompt is a string
    if not isinstance(system_prompt, str):
        system_prompt = str(system_prompt.value) if hasattr(system_prompt, "value") else str(system_prompt)
    
    return [{"role": "system", "content": system_prompt}] + messages

Hàm này tạo ra một lời nhắc lấy hướng dẫn từ bộ nhớ thủ tục và truyền cuộc hội thoại hiện tại cùng với nó. Giống như một người quản lý kiểm tra sổ tay trước khi phản hồi một tình huống phức tạp, đảm bảo họ tuân thủ các giao thức mới nhất.

Lưu ý rằng chúng ta đã thiết lập hai hệ thống bộ nhớ chính:
- bộ nhớ tình tiết 9trong chức năng phân loại
- bộ nhớ ngữ nghĩa (trong các công cụ tác nhân này)

Nhưng chúng ta vẫn cần bổ sung bộ nhớ thủ tục để hoàn thiện khả năng nhận thức của tác nhân. Điều này sẽ được trình bày trong các phần sau, nơi chúng ta sẽ cho phép tác nhân tự tinh chỉnh hành vi của mình theo thời gian dựa trên phản hồi.

## 7.5 Building the Graph: Connecting the Pieces
Bây giờ, lắp ráp mọi thứ lại với nhau:

In [None]:
def create_basic_email_agent(store):
    """
    Factory function to create a basic email processing agent using only episodic memory.

    This function creates a simpler workflow for comparison purposes that only uses:
    1. EPISODIC MEMORY: Past email examples for few-shot learning

    Args:
        store: InMemoryStore containing episodic memory

    Returns:
        CompiledGraph: Executable workflow with basic memory capabilities
    """
    # Define the workflow
    workflow = StateGraph(State)

    # Use the basic triage function (episodic memory only)
    workflow.add_node("triage", lambda state, config: triage_email(state, config, store))

    # Create a basic response agent with static prompts
    response_agent = create_react_agent(
        tools=tools,
        prompt=create_agent_prompt,
        store=store,
        model=llm
    )

    workflow.add_node("response_agent", response_agent)

    def route_based_on_triage(state):
        if state["triage_result"] == "respond":
            return "response_agent"
        else:
            return END

    # The routing logic remains the same
    workflow.add_edge(START, 'triage')
    workflow.add_conditional_edges("triage", route_based_on_triage, 
                                   {
                                       "response_agent": "response_agent",
                                       END: END
                                   })
    
    # Compile and return graph
    return workflow.compile(store=store)

In [None]:
# This is how our agent looks:
from langchain_core.runnables.graph import MermaidDrawMethod
from IPython.display import display, Image

display(
    Image(
        create_basic_email_agent(store).get_graph().draw_mermaid_png(
            draw_method=MermaidDrawMethod.API,
        )
    )
)

Quy trình làm việc này xác định đường dẫn logic cho tác nhân của chúng ta:
- đầu tiên, phân loại email đến bằng bộ nhớ tình tiết
- Nếu cần phản hồi, hãy kích hoạt tác nhân phản hồi bằng bộ nhớ ngữ nghĩa. 
- nếu không, hãy kết thúc quy trình (đối với email bỏ qua hoặc thông báo)

Giống như việc thiết lập các trạm lắp ráp trong một nhà máy, mỗi bộ phận có nhiệm vụ riêng nhưng chúng phối hợp với nhau để tạo ra sản phẩm cuối cùng.

## 7.6 Let's Run It! (and Store Some Memories)
Time to put our agent to the test:


In [None]:
email_input = {
    "author": "Alice Smith <alice.smith@company.com>",
    "to": "John Doe <john.doe@company.com>",
    "subject": "Quick question about API documentation",
    "email_thread": """Hi John,

I was reviewing the API documentation and noticed a few endpoints are missing. Could you help?

Thanks,
Alice""",
}

# Initial prompts
initial_triage_prompt = """You are an email triage assistant. Classify the following email:
From: {author}
To: {to}
Subject: {subject}
Body: {email_thread}

Classify as 'ignore', 'notify', or 'respond'.

Here are some examples of previous classifications:
{examples}
"""

initial_response_prompt = """You are a helpful assistant. Use the tools available, including memory tools, to assist the user."""

hãy têhm một ví dụ đào tạo vào bộ nhớ theo từng giai đoạn để giúp tác nhân nhận ra thư rác trong tương lai:

In [None]:
def initialize_memory():
    """Initialize memory with default examples and prompts."""
    # Add few shot examples to episodic memory
    example_1 = {
        "email": {
            "author": "Spammy Marketer <spam@example.com>",
            "to": "John Doe <john.doe@company.com>",
            "subject": "BIG SALE!!!",
            "email_thread": "Buy our product now and get 50% off!",
        },
        "label": "ignore",
    }
    store.put(("email_assistant", USER_ID, "examples"), "spam_example", example_1)

    # Initialize procedural memory with default prompts
    store.put(("email_assistant", USER_ID, "prompts"), "triage_prompt", initial_triage_prompt)
    store.put(("email_assistant", USER_ID, "prompts"), "response_prompt", initial_response_prompt)
    

Điều này giống như việc đào tạo một trợ lý mới: "Bạn thấy loại email này chứ? Bạn có thể bỏ qua chúng một cách an toàn." Chúng ta càng đưa ra nhiều ví dụ, thì khả năng hiểu của trợ lý sẽ càng trở nên tinh tế hơn.

## 7.7 Adding Procedural Memory (Updating Instructions) — The Final Touch!
Bây giờ, đối với hệ thống bộ nhớ phức tạp nhất, bộ nhớ thủ tục cho phép tác nhân của chúng ta cải thiện các lệnh của chính nó dựa trên phản hồi. Hãy tạo một phiên bản hàm phân loại của chúng ta để lấy các lệnh từ bộ nhớ:


In [None]:
def triage_email_with_procedural_memory(state: State, config: dict, store: InMemoryStore) -> dict:
    """
    Advanced email triage using BOTH episodic and procedural memory.

    This is the heart of the adaptive learning system, combining:
    1. PROCEDURAL MEMORY: Dynamic prompts that improve over time
    2. EPISODIC MEMORY: Few-shot examples from past classifications

    Args:
        state: Current workflow state containing email_input
        config: Configuration with user_id for memory namespacing
        store: InMemoryStore with both memory types

    Returns:
        dict: Updated state with triage_result classification
    """
    email = state["email_input"]
    user_id = config["configurable"]["langgraph-user_id"]

    print(f"TRIAGE: Analyzing email from {email['author']} with subject: '{email['subject']}'")

    # Retrieve the current triage prompt (procedural memory)
    current_prompt_template = store.get(("email_assistant", user_id, "prompts"), "triage_prompt")
    print("PROCEDURAL MEMORY: Retrieved current triage prompt")

    # Ensure the prompt template is a string
    if not isinstance(current_prompt_template, str):
        current_prompt_template = str(current_prompt_template) # Convert to string if it's an Item object

    # Retrieve relevent examples from memory (episodic memory)
    namespace = ("email_assistant", user_id, "examples")
    examples = store.search(namespace, query=str(email))
    formatted_examples = format_few_shot_examples(examples)
    print(f"EPISODIC MEMORY: Found {len(examples)} relevant examples from past classifications")

    # Format the prompt
    prompt = PromptTemplate.from_template(current_prompt_template).format(examples=formatted_examples, **email)
    messages = [HumanMessage(content=prompt)]
    result = llm.router.invoke(messages)

    print(f"TRIAGE RESULT: {result.classification}")
    print(f"REASONING: {result.reasoning}")

    return {"triage_result": result.classification}



Hàm này tích hợp bộ nhớ thủ tục (mẫu prompt hiện tại) với bộ nhớ tình tiết (ví dụ liên quan) để đưa ra quyết định phân loại. Bây giờ, hãy tạp một hàm có thể cải thiện lời nhắc của chúng ta dựa trên phản hồi

In [None]:
def optimize_prompts(feedback: str, config: dict, store: InMemoryStore):
    """
    PROCEDURAL MEMORY LEARNING: Optimize prompts based on performance feedback.

    This function implements the core learning mechanism that enables gradual improvement:
    1. Analyzes current prompt performance via feedback
    2. Uses AI-powered optimization to improve prompts
    3. Updates procedural memory with better prompts
    4. Future agent instances automatically use improved prompts

    Args:
        feedback: Human feedback describing performance issues
        config: Configuration with user_id for memory access
        store: InMemoryStore for updating procedural memory

    Returns:
        str: Confirmation message about improvements made

    Example Evolution:
    Initial: "How can I assist you today?"
    After feedback: "How can I assist you with API documentation?"
    """
    print("\nOPTIMIZATION: Starting prompt improvement process...")
    user_id = config["configurable"]["langgraph_user_id"]

    # Get current prompts
    print("RETRIEVING: Current prompts from procedural memory")
    triage_prompt = store.get(("email_assistant", user_id, "prompts"), "triage_prompt").value
    response_prompt = store.get(("email_assistant", user_id, "prompts"), "response_prompt").value

    # Create a more relevant test example based on our actual email
    sample_email = {
        "author": "Alice Smith <alice.smith@company.com>",
        "to": "John Doe <john.doe@company.com>",
        "subject": "Quick question about API documentation",
        "email_thread": "Hi John, I was reviewing the API documentation and noticed a few endpoints are missing. Could you help? Thanks, Alice",
    }

    print("ANALYZING: Creating conversation trajectory with feedback")

    # Create the optimizer
    optimizer = create_multi_prompt_optimizer(llm)

    # Create a more relevant conversation trajectory with feedback
    conversation = [
        {"role": "system", "content": response_prompt},
        {"role": "user", "content": f"I received this email: {sample_email}"},
        {"role": "assistant", "content": "How can I assist you today?"}
    ]

    # Format prompts
    prompts = [
        {"name": "triage", "prompt": triage_prompt},
        {"name": "response", "prompt": response_prompt}        
    ]

    # More relevant trajectories
    trajectories = [(conversation, {"feedback": feedback})]
    print("OPTIMIZING: Using AI to improve prompts based on feedback...")
    result = optimizer.invoke({"trajectories": trajectories, "prompts": prompts})

    # Extract the improved prompts
    improved_triage_prompt = next(p["prompts"] for p in result if p["name"] == "triage")
    improved_response_prompt = next(p["prompt"] for p in result if p["name"] == "response")

    # Append specific instruction for API documentation issues
    improved_triage_prompt = improved_triage_prompt + "\n\nPay special attention to emails about API documentation or missing endpoints - these are high priority and should ALWAYS be classified as 'respond'."
    improved_response_prompt = improved_response_prompt + "\n\nWhen responding to emails about documentation or API issues, acknowledge the specific issue mentioned and offer specific assistance rather than generic responses."

    print("STORING: Updated prompts in procedural memory")

    # Store the improved prompts
    store.put(("email_assistant", user_id, "prompts"), "triage_prompt", improved_triage_prompt)
    store.put(("email_assistant", user_id, "prompts"), "response_prompt", improved_response_prompt)

    print("IMPROVEMENT COMPLETE: Prompts have been enhanced!")
    print(f"Triage prompt preview: {improved_triage_prompt[:100]}...")
    print(f"Response prompt preview: {improved_response_prompt[:100]}...")

    return "Prompts improved based on feedback!"

Hàm này là cốt lõi của bộ nhớ thủ tục. Nó tiếp nhận phản hồi và sử dụng phản hồi đó để viết lại các hướng dẫn cốt lõi của tác nhân. Bộ tối ưu hóa hoạt động giống như một huấn luyện viên, nghiên cứu lỗi sai và cập nhật sổ tay hướng dẫn cho phù hợp.

Nó phân tích các ví dụ hội thoại cùng với phản hồi, sau đó tinh chỉnh các gợi ý hướng dẫn hành vi của tác nhân. Thay vì chỉ ghi nhớ các sửa đổi cụ thể, nó thấp thụ các bài học cơ bản vào phương pháp tiếp cận tổng thể.

## 7.8 Let's Run Our Complete Memory-Enhanced Agent!
Bây giờ đưa mọi thứ lại thành một hệ thống hoàn chỉnh có thể phát triển theo thời gian:

In [None]:
def create_email_agent(store):
    """
    Factory function to create a memory-enabled email processing agent.

    This function builds a LangGraph workflow that combines all three memory types:
    1. EPISODIC MEMORY: Past email examples for few-shot learning
    2. SEMANTIC MEMORY: Contextual information via memory tools
    3. PROCEDURAL MEMORY: Adaptive prompts that improve over time

    Args:
        store: InMemoryStore containing all memory systems

    Returns:
        CompiledGraph: Executable workflow with memory capabilities
    """
    # Define the workflow
    workflow = StateGraph(State)
    workflow.add_node("triage", lambda state, config: triage_email_with_procedural_memory(state, config, store))
    
    # Create a fresh response agent that will use the latest prompts
    response_agent = create_react_agent(
        tools=tools,
        prompt=create_agent_prompt,
        store=store,
        model=llm,
    )

    workflow.add_node("response_agent", response_agent)

    def route_based_on_triage(state):
        if state["triage_result"] == "respond":
            return "response_agent"
        else:
            return END
        
    # The routing logic  remains the same
    workflow.add_edge(START, "triage")
    workflow.add_conditional_edges("triage", route_based_on_triage,
                                   {
                                       "response_agent": "response_agent",
                                       END: END
                                   })
    
    # Compile and return the graph
    return workflow.compile(store=store)

Hàm này tạo ra một tác nhân mới sử dụng phiên bản lời nhắc mới nhất, đảm bảo tác nhân này luôn phản ánh những bài học và phản hồi mới nhất.

Bây giờ, đây là phiên bản cuối cùng của agent (bao gồm tất cả mọi thứ):

![image.png](attachment:image.png)

Hãy chạy hai lần, lần đầu với cài đăt ban đầu và lần sau với phản hồi được cải thiện

In [None]:
"""
This demonstration shows how the agent learns and improves over time:

1. BEFORE OPTIMIZATION: Agent uses initial prompts and minimal examples
2. MEMORY ACCUMULATION: Add new examples to episodic memory  
3. FEEDBACK PROCESSING: Human feedback triggers prompt optimization
4. AFTER OPTIMIZATION: Agent uses improved prompts with more examples

The key insight: Each run benefits from ALL previous learning!
"""

def run_demonstration():
    """Main demonstration of the memory-enabled learning system"""
    
    print("🚀 STARTING MEMORY-ENABLED EMAIL AGENT DEMONSTRATION")
    print("=" * 60)
    
    # Initialize memory with default examples and prompts
    print("📚 INITIALIZATION: Setting up memory systems...")
    initialize_memory()
    print("✅ MEMORY INITIALIZED: Episodic and procedural memory ready")
    
    # Setup for demonstration
    inputs = {"email_input": email_input, "messages": []}
    
    # COMPARISON: Basic vs Advanced Agent
    print("\n" + "=" * 60)
    print("📧 PHASE 1: BASIC AGENT (Episodic Memory Only)")
    print("=" * 60)
    
    basic_agent = create_basic_email_agent(store)
    print("🏗️  BASIC AGENT CREATED: Using only episodic memory")

    print("\n🔄 BASIC WORKFLOW EXECUTION:")
    for output in basic_agent.stream(inputs, config=CONFIG):
        for key, value in output.items():
            if key not in ['triage', 'response_agent']:  # Skip internal node outputs
                print(f"-----\n{key}:")
                print(value)
        print("-----")

    # Advanced Agent - Before Optimization
    print("\n" + "=" * 60)
    print("📧 PHASE 2: ADVANCED AGENT (Before Optimization)")
    print("=" * 60)
    
    agent = create_email_agent(store)
    print("🏗️  ADVANCED AGENT CREATED: Using episodic + procedural memory")

    print("\n🔄 ADVANCED WORKFLOW EXECUTION (Before Learning):")
    for output in agent.stream(inputs, config=CONFIG):
        for key, value in output.items():
            if key not in ['triage', 'response_agent']:  # Skip internal node outputs
                print(f"-----\n{key}:")
                print(value)
        print("-----")

    print("\n" + "=" * 60)
    print("🧠 PHASE 3: MEMORY ENHANCEMENT & FEEDBACK")
    print("=" * 60)

    # Add a specific example to episodic memory
    api_doc_example = {
        "email": {
            "author": "Developer <dev@company.com>",
            "to": "John Doe <john.doe@company.com>",
            "subject": "API Documentation Issue", 
            "email_thread": "Found missing endpoints in the API docs. Need urgent update.",
        },
        "label": "respond",
    }
    store.put(("email_assistant", USER_ID, "examples"), "api_doc_example", api_doc_example)
    print("📚 EPISODIC MEMORY: Added API documentation example")

    # Provide feedback for optimization
    feedback = """The agent didn't properly recognize that emails about API documentation issues 
    are high priority and require immediate attention. When an email mentions 
    'API documentation', it should always be classified as 'respond' with a helpful tone.
    Also, instead of just responding with 'How can I assist you today?', the agent should 
    acknowledge the specific documentation issue mentioned and offer assistance."""

    print("💬 FEEDBACK RECEIVED: Performance improvement suggestions")

    # Optimize prompts based on feedback
    optimize_prompts(feedback, CONFIG, store)

    # Process the SAME email after optimization with a FRESH agent
    print("\n" + "=" * 60)
    print("📧 PHASE 4: ADVANCED AGENT (After Optimization)")
    print("=" * 60)
    
    new_agent = create_email_agent(store)
    print("🏗️  OPTIMIZED AGENT CREATED: Fresh agent with optimized memory state")

    print("\n🔄 ADVANCED WORKFLOW EXECUTION (After Learning):")
    for output in new_agent.stream(inputs, config=CONFIG):
        for key, value in output.items():
            if key not in ['triage', 'response_agent']:  # Skip internal node outputs
                print(f"-----\n{key}:")
                print(value)
        print("-----")
    
    print("\n" + "=" * 60)
    print("🎉 DEMONSTRATION COMPLETE: Comparison shows memory-enabled learning!")
    print("📊 RESULTS SUMMARY:")
    print("   1️⃣  Basic Agent: Static prompts, episodic memory only")
    print("   2️⃣  Advanced Agent (Before): Initial procedural memory + episodic memory")
    print("   3️⃣  Advanced Agent (After): Optimized procedural memory + enhanced episodic memory")
    print("=" * 60)

# Run the demonstration
if __name__ == "__main__":
    run_demonstration()

Output:

```python
🚀 STARTING MEMORY-ENABLED EMAIL AGENT DEMONSTRATION
============================================================
📚 INITIALIZATION: Setting up memory systems...
✅ MEMORY INITIALIZED: Episodic and procedural memory ready

============================================================
📧 PHASE 1: BASIC AGENT (Episodic Memory Only)
============================================================
🏗️  BASIC AGENT CREATED: Using only episodic memory

🔄 BASIC WORKFLOW EXECUTION:
-----
RESPONSE AGENT: Initializing with adaptive system prompt
PROCEDURAL MEMORY: Retrieved current response prompt
-----

============================================================
📧 PHASE 2: ADVANCED AGENT (Before Optimization)
============================================================
🏗️  ADVANCED AGENT CREATED: Using episodic + procedural memory

🔄 ADVANCED WORKFLOW EXECUTION (Before Learning):
TRIAGE: Analyzing email from Alice Smith <alice.smith@company.com> with subject: 'Quick question about API documentation'
PROCEDURAL MEMORY: Retrieved current triage prompt
EPISODIC MEMORY: Found 2 relevant examples from past classifications
TRIAGE RESULT: respond
REASONING: The email from Alice Smith is a request for help regarding missing endpoints in the API documentation. This indicates a requirement for a response to assist her with the issue, as it relates to important documentation that is likely affecting her work or the work of her team. Unlike spam or non-urgent inquiries, this is a valid work-related request that warrants a response.
-----
RESPONSE AGENT: Initializing with adaptive system prompt
PROCEDURAL MEMORY: Retrieved current response prompt
-----

============================================================
🧠 PHASE 3: MEMORY ENHANCEMENT & FEEDBACK
============================================================
📚 EPISODIC MEMORY: Added API documentation example
💬 FEEDBACK RECEIVED: Performance improvement suggestions

OPTIMIZATION: Starting prompt improvement process...
RETRIEVING: Current prompts from procedural memory
ANALYZING: Creating conversation trajectory with feedback
OPTIMIZING: Using AI to improve prompts based on feedback...
STORING: Updated prompts in procedural memory
IMPROVEMENT COMPLETE: Prompts have been enhanced!
Triage prompt preview: You are an email triage assistant. Classify the following email based on its content and determine i...
Response prompt preview: You are a helpful assistant. Use the tools available, including memory tools, to assist the user. Wh...

============================================================
📧 PHASE 4: ADVANCED AGENT (After Optimization)
============================================================
🏗️  OPTIMIZED AGENT CREATED: Fresh agent with optimized memory state

🔄 ADVANCED WORKFLOW EXECUTION (After Learning):
TRIAGE: Analyzing email from Alice Smith <alice.smith@company.com> with subject: 'Quick question about API documentation'
PROCEDURAL MEMORY: Retrieved current triage prompt
EPISODIC MEMORY: Found 2 relevant examples from past classifications
TRIAGE RESULT: respond
REASONING: The email from Alice Smith discusses missing endpoints in the API documentation, which aligns perfectly with the high-priority key phrases outlined in the triage prompt. The prompt explicitly states that such emails should ALWAYS be classified as 'respond'. Given the importance of API documentation for the workflow, it is necessary to provide assistance.
-----
RESPONSE AGENT: Initializing with adaptive system prompt
PROCEDURAL MEMORY: Retrieved current response prompt
-----

============================================================
🎉 DEMONSTRATION COMPLETE: Comparison shows memory-enabled learning!
📊 RESULTS SUMMARY:
   1️⃣  Basic Agent: Static prompts, episodic memory only
   2️⃣  Advanced Agent (Before): Initial procedural memory + episodic memory
   3️⃣  Advanced Agent (After): Optimized procedural memory + enhanced episodic memory
============================================================
```

Hãy xem sự khác biệt trong phản hồi. Sau khi nhận được phản hồi, assistant nên:
- nhận diện các vấn đề liên quan đến tài liệu API một cách nhất quán hơn, coi đó là ưu tiên hàng đầu 
- cung cấp các phản hồi cụ thể hơn và hữu ích hơn, ghi nhận vấn đề thực tế
- cung cấp hỗ trợ cụ thể thay vì những lời sáo rỗng chung chung

# 8. Conclusion

- Bộ nhớ là nền tảng của các tác nhân AI thông minh, cho phép chúng lưu giữ, nhớ lại và thích ứng với thông tin.
- đã khám phá cách bộ nhớ ngắn hạn và dài hạn — thủ tục, tình tiết và ngữ nghĩa — tích hợp vào ngăn xếp tác nhân, vượt ra ngoài phạm vi cửa sổ ngữ cảnh đơn thuần hay RAG
- Bằng cách xây dựng một tác nhân email được tăng cường bộ nhớ, chúng tôi đã chứng minh các ứng dụng thực tế của những khái niệm này, từ quản lý trạng thái đến tìm kiếm ngữ nghĩa và hướng dẫn thích ứng
- Việc làm chủ bộ nhớ cho phép AI cung cấp các giải pháp cá nhân hóa, nhận biết ngữ cảnh, mở đường cho các hệ thống thông minh hơn và có khả năng hơn trong môi trường sản xuất.

![image.png](attachment:image.png)