In [13]:
# # tài liệu 
# https://docs.langchain.com/oss/python/langchain/rag

# # Nếu bạn thay đổi API keys hoặc project settings, chạy:
# from langchain_core import utils
# utils.get_env_var.cache_clear()
# # Sau đó reload lại environment variables.

!pip install -qU langchain-ollama

import getpass
import os

os.environ["LANGSMITH_TRACING"] = "true"
os.environ["LANGSMITH_API_KEY"] = getpass.getpass()

# LANGSMITH_TRACING="true" bật tính năng tracing để theo dõi và debug ứng dụng của bạn.
# LANGSMITH_API_KEY xác thực với LangSmith.
# Đây là công cụ monitoring và observability - giúp bạn xem logs, traces, và debug ứng dụng RAG sau khi chạy.
# hữu ích cho development và debugging!



#1. cài đặt các dependencies cần thiết cho RAG (Retrieval-Augmented Generation):
# langchain: Package chính
# langchain-text-splitters: Chia nhỏ documents thành chunks
# langchain-community: Integrations cộng đồng
# bs4 (BeautifulSoup4): Parse HTML/XML khi load documents từ web
# ( bước chuẩn bị để xử lý và index documents.)

# => !pip install langchain langchain-text-splitters langchain-community bs4

#2. Embedding model: OllamaEmbeddings(model="gpt-oss") để chuyển text thành vector

# code khởi tạo embedding model từ Ollama sử dụng model gpt-oss
# OllamaEmbeddings chuyển đổi text thành vector số (embeddings) để biểu diễn ý nghĩa ngữ nghĩa.
# Các vector này dùng cho similarity search trong vector store.
# Model gpt-oss chạy local qua Ollama, không cần API key.
from langchain_ollama import OllamaEmbeddings
#embeddings = OllamaEmbeddings(model="gpt-oss") #  không hỗ trợ embeddings.
embeddings = OllamaEmbeddings(model="nomic-embed-text") # ollama pull nomic-embed-text


#3. Vector store: InMemoryVectorStore để lưu embedding

# Đây là code tạo một vector store trong bộ nhớ (in-memory) để lưu trữ embeddings.
# InMemoryVectorStore là một vector database chạy trong RAM, không lưu trữ vĩnh viễn.
# embeddings là model embedding bạn đã khởi tạo trước đó.
from langchain_core.vectorstores import InMemoryVectorStore
vector_store = InMemoryVectorStore(embeddings)
# vector store này sẽ dùng để tìm kiếm tương tự (similarity search) trên dữ liệu đã được vector hóa.
# Phù hợp cho testing hoặc ứng dụng nhỏ, không cần persistence.

import bs4
from langchain_community.document_loaders import WebBaseLoader

# Only keep post title, headers, and content from the full HTML.
bs4_strainer = bs4.SoupStrainer(class_=("post-title", "post-header", "post-content"))
# # SoupStrainer là một công cụ của thư viện BeautifulSoup (bs4) giúp lọc và chỉ parse những phần HTML cụ thể thay vì toàn bộ trang web.
# Dùng bs4.SoupStrainer để chỉ lấy nội dung quan trọng (post-title, post-header, post-content)
loader = WebBaseLoader(
    web_paths=("https://lilianweng.github.io/posts/2023-06-23-agent/",),
    bs_kwargs={"parse_only": bs4_strainer},
)
docs = loader.load()

assert len(docs) == 1
print(f"Total characters: {len(docs[0].page_content)}")  # Load được bao nhiêu kí tự?

print(docs[0].page_content[:500])
#print(docs[0].page_content) # lấy ra toàn bộ nội dung

 ········


Total characters: 43047


      LLM Powered Autonomous Agents
    
Date: June 23, 2023  |  Estimated Reading Time: 31 min  |  Author: Lilian Weng


Building agents with LLM (large language model) as its core controller is a cool concept. Several proof-of-concepts demos, such as AutoGPT, GPT-Engineer and BabyAGI, serve as inspiring examples. The potentiality of LLM extends beyond generating well-written copies, stories, essays and programs; it can be framed as a powerful general problem solver.
Agent System Overview#
In


In [17]:
from langchain_text_splitters import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1000,  # chunk size (characters)
    chunk_overlap=200,  # chunk overlap (characters)
    add_start_index=True,  # track index in original document
)
all_splits = text_splitter.split_documents(docs)

print(f"Split blog post into {len(all_splits)} sub-documents.")

# dùng để lưu trữ và đánh chỉ mục (index) các tài liệu vào vector store.
# Phương thức add_documents() nhúng (embed) nội dung của từng document split 
# và lưu vào vector store để sau này có thể tìm kiếm ngữ nghĩa (semantic search).
# trả về danh sách các ID duy nhất cho mỗi document đã thêm, có thể dùng để xóa hoặc cập nhật sau này.
# Đây là bước quan trọng trong giai đoạn Indexing của hệ thống RAG.

document_ids = vector_store.add_documents(documents=all_splits)
print(document_ids[:3])

# Retrieval (Truy xuất)
results = vector_store.similarity_search(
    "What is Task Decomposition?",
    k=2
)
for res in results:
    print(f"* {res.page_content} [{res.metadata}]")

# Generation (Tạo câu trả lời):

#1. tạo một tool (công cụ) để truy xuất thông tin từ vector store.
#2. Tạo agent kết hợp LLM + retrieval tool
#3. Chạy agent để trả lời câu hỏi dựa trên context đã retrieve


# Decorator @tool(response_format="content_and_artifact") cấu hình tool trả về hai giá trị:
#1. Content: Chuỗi văn bản đã được định dạng (gửi cho model)
#2. Artifact: Danh sách tài liệu gốc (dùng cho xử lý sau, không gửi cho model)

from langchain.tools import tool # Import thư viện để tạo công cụ (tool)

@tool(response_format="content_and_artifact") # Decorator - đánh dấu hàm bên dưới là một tool.
#response_format="content_and_artifact" nghĩa là tool sẽ trả về 2 thứ:
# content: Văn bản gửi cho model (LLM)
# artifact: Dữ liệu thô (metadata) dùng cho ứng dụng, không gửi cho model

# similarity_search là method của vector store dùng để tìm kiếm tài liệu tương tự (semantic search) dựa trên vector embeddings.
# Cách hoạt động:
#1. Nhận query text (câu hỏi)
#2. Chuyển query thành vector embedding
#3. So sánh với các vectors đã lưu trong store (dùng cosine similarity, euclidean distance...)
#4. Trả về k documents gần nhất

# Tham số chính:
# query: Câu hỏi/text cần tìm
# k: Số lượng kết quả trả về (mặc định thường là 4)
# filter: Lọc theo metadata (tùy chọn)

# k là số lượng documents (chunks) phù hợp nhất mà bạn muốn lấy về từ vector store.
# Ví dụ đơn giản:
# Bạn có 256 chunks về Hà Nội trong vector store
# Bạn hỏi: "Hà Nội có biệt danh gì?"
# Vector store tìm và xếp hạng 256 chunks theo độ liên quan
# k=2 nghĩa là: Chỉ lấy 2 chunks liên quan nhất
# k=5 nghĩa là: Lấy 5 chunks liên quan nhất
# Tại sao cần k?

# k nhỏ (2-3): Ít context, nhanh hơn, tập trung
# k lớn (10+): Nhiều context, chậm hơn, có thể thêm noise
# Thường dùng k=3 đến k=5 cho RAG.
    
def retrieve_context(query: str): # Định nghĩa hàm tên retrieve_context, nhận tham số query (câu truy vấn)
    """Retrieve information to help answer a query.""" # Mô tả công dụng của tool - giúp model hiểu khi nào cần dùng
    retrieved_docs = vector_store.similarity_search(query, k=2) # Tìm kiếm 2 documents giống nhất với câu hỏi trong vector store
    serialized = "\n\n".join( # Ghép nối các documents thành chuỗi văn bản dễ đọc (gửi cho model)
        (f"Source: {doc.metadata}\nContent: {doc.page_content}")
        for doc in retrieved_docs
    )
    return serialized, retrieved_docs # Trả về 2 giá trị: văn bản (cho model) và documents gốc (cho ứng dụng)
# Note:  
# Model embeddings và model generation không cần giống nhau:

# tích hợp nó vào agent. Tool này sẽ được gọi tự động khi agent cần truy xuất thông tin.
#1. Tạo agent với create_agent() và truyền tool vào
#2. Invoke agent với câu hỏi của người dùng
#3. Agent sẽ tự động gọi tool khi cần và trả về câu trả lời

# *************************

# Import thư viện ChatOllama để sử dụng mô hình Ollama
from langchain_ollama import ChatOllama
# Khởi tạo mô hình chat với tên "gpt-oss" và temperature=0 (để kết quả ổn định, không ngẫu nhiên)
model = ChatOllama(model="gpt-oss", temperature=0)
# Import hàm create_agent để tạo agent
from langchain.agents import create_agent
# Định nghĩa danh sách các công cụ (tools) mà agent có thể sử dụng
tools = [retrieve_context] 
# Tạo prompt hướng dẫn cho agent về cách sử dụng công cụ
prompt = "You have access to a tool that retrieves context. Use it to help answer queries."
# Tạo agent với model, tools và system_prompt đã định nghĩa
agent = create_agent(
    model=model,              # Mô hình ngôn ngữ sẽ được sử dụng
    tools=tools,              # Danh sách công cụ agent có thể gọi
    system_prompt=prompt      # Hướng dẫn hệ thống cho agent
)
query = (
    "What is the standard method for Task Decomposition?\n\n"
    "Once you get the answer, look up common extensions of that method."
)

# ************************
# Gọi agent với một tin nhắn từ người dùng
# .invoke(): Đợi agent chạy xong hoàn toàn rồi mới trả về kết quả cuối cùng.

# result = agent.invoke({"messages": [{"role": "user", "content": query}]})
# # In ra nội dung của tin nhắn cuối cùng trong kết quả (câu trả lời của agent)
# print(result['messages'][-1].content)

# ************************

# .stream(): Trả về kết quả theo thời gian thực (real-time), cho phép bạn thấy từng bước agent đang làm gì
# Mỗi event chứa toàn bộ state của graph sau mỗi bước:
# event["messages"]: Danh sách tất cả messages từ đầu đến hiện tại
# event["messages"][-1]: Message mới nhất (vừa được thêm vào)
# .pretty_print(): Hiển thị message dễ đọc với format đẹp
# TÀI LIỆU Streaming (https://docs.langchain.com/oss/python/langgraph/streaming)

for event in agent.stream(
    {"messages": [{"role": "user", "content": query}]},
    stream_mode="values",):event["messages"][-1].pretty_print()
    
# agent.stream(...): Chạy agent và trả về kết quả dần dần (không chờ hết)
# {"messages": [{"role": "user", "content": query}]}: Input - tin nhắn từ user
# stream_mode="values": Trả về toàn bộ state sau mỗi bước (bao gồm tất cả messages)
# for event in ...: Lặp qua từng event (mỗi bước agent thực hiện)
# event["messages"][-1]: Lấy message mới nhất trong state
# .pretty_print(): In ra màn hình dễ đọc


# Các loại messages bạn sẽ thấy:
# Human Message: Câu hỏi của user
# AI Message với tool_calls: Agent quyết định gọi tool nào
# Tool Message: Kết quả từ tool
# AI Message cuối: Câu trả lời cuối cùng

# ************************

# SAU ĐÓ:
# 1. Đánh giá agent (Evaluation): Kiểm tra chất lượng câu trả lời, trajectory (đường đi của agent), và từng bước riêng lẻ

# 2. Thêm memory/checkpointer: Lưu trữ lịch sử hội thoại để agent nhớ ngữ cảnh qua nhiều lượt tương tác

# 3. Tùy chỉnh nâng cao: Thêm middleware, custom tools, hoặc xây dựng multi-agent system (như supervisor pattern)

# 4. Deploy và monitor: Triển khai agent và theo dõi performance qua LangSmith



Split blog post into 63 sub-documents.
['8fea4940-af74-4153-9c49-ef1d6f3347d4', 'd6de6e75-8f6f-45de-bbf4-d45e3917de37', '46124bd6-d390-45b6-8f7c-df11a5b7f3dc']
* Component One: Planning#
A complicated task usually involves many steps. An agent needs to know what they are and plan ahead.
Task Decomposition#
Chain of thought (CoT; Wei et al. 2022) has become a standard prompting technique for enhancing model performance on complex tasks. The model is instructed to “think step by step” to utilize more test-time computation to decompose hard tasks into smaller and simpler steps. CoT transforms big tasks into multiple manageable tasks and shed lights into an interpretation of the model’s thinking process.
Tree of Thoughts (Yao et al. 2023) extends CoT by exploring multiple reasoning possibilities at each step. It first decomposes the problem into multiple thought steps and generates multiple thoughts per step, creating a tree structure. The search process can be BFS (breadth-first search) o