## 数据库查询优化 (NL2SQL 优化)

我发现只用 [Postgres MCP Server](https://github.com/modelcontextprotocol/servers-archived/tree/main/src/postgres) 无法达到很好的查询效果。于是决定做一些 Agent 的链路工程开发，以提升 MCP 使用数据库数据的能力。我们注意到直接使用 MCP 无法达到很好效果的原因是：Agent 不会固定地“先获取表结构，再写 SQL”；而是“在缺乏背景信息的情况下，直接写 SQL”，由此产生了幻觉。

### 1. 两种思路

我们尝试以下两种思路，看一下哪种方法更优：

**1）提示词工程**

在 Prompt 中，让 Agent 先获取表结构，再根据表结构写 SQL。由于此任务较为复杂，可以开启 `ReActChat` 模式。

**2）链路工程**

开发一个定制的链路工程，为 MCP 添加更多上下文，让 Agent 获得充分的上下文之后再写 `SQL`。

```mermaid
graph LR
    A[query] --> H[应该使用哪张表] --> B[表的详细信息]
    B --> C[表结构]
    B --> D[示例数据]
    B --> E[字段注释]
    B --> F[字段枚举值]

    C --> G[SQL]
    D --> G
    E --> G
    F --> G
```

### 2. 开发 WebUI

我还开发了对应的 WebUI：

1. **ReActChat WebUI**：[gradio_postgres_agent.py](./gradio_postgres_agent.py)
2. **Workflow WebUI**：[gradio_postgres_workflow.py](./gradio_postgres_workflow.py)

在本地启动 WebUI 尝试哪种方法更优：

**1）ReActChat WebUI**：用于验证提示词工程思路

运行以下代码以启动 WebUI：

```python
# 启动 ReActChat WebUI
python gradio_postgres_agent.py
```

提示词：

```
查询用户（用户ID为103）的所有订单信息。
请先调用工具，查询订单表的表结构；然后写 SQL；最后调用工具执行 SQL。
请以 Markdown 表格的形式，展示该用户的订单信息。
```

执行结果：

<img src="./img/prompt_engineering.jpg" style="height:750px" alt="prompt_engineering">

对比数据库中的真实数据：

```
(1003, 103, 1, 5003, 'ordered', '2025-05-03 09:15:00')
```

我们发现 Agent 出现了幻觉。但是不要对 `ReActChat` 梁木好吗，毕竟我用的是 `Qwen3-0.6B-FP8` 这样的小尺寸模型。

**2）Workflow WebUI**：用于验证链路工程思路

运行以下代码以启动 WebUI：

```python
# 启动 Workflow WebUI
python gradio_postgres_workflow.py
```

提示词：

```
查询用户（用户ID为103）的所有订单信息。
请以 Markdown 表格的形式，展示该用户的订单信息。
```

执行结果：

<img src="./img/workflow_engineering.jpg" style="height:750px" alt="workflow_engineering">

我们对比数据库中的真实数据，发现 Agent 的结果完全正确。

> 注：数据库中的 `timestamp` 是以 UTC 格式存储的。


### 3. 小结

好啦，两种思路的结果对比完成！

在同样使用 `0.6B` 模型的情况下，链路工程显然更胜一筹。虽然开发链路工程很辛苦，但是我们的努力带来了回报！它最终提升了查询结果的准确性。

下面，我们来看一下链路工程具体是怎么开发的。

### 4. 初始化 Qwen Agent

来到 `test_qwen3` 目录，启动 vLLM 服务：

```bash
cd test_qwen3
bash vllm_server.sh
```

然后初始化 Qwen Agent

In [1]:
import warnings

from qwen_agent.agents import Assistant, ReActChat
from qwen_agent.tools.base import BaseTool, register_tool

通用配置

In [2]:
# Postgres Agent 的系统指令
SYSTEM_PROMPT = """
你是一个数据库查询助手，专门帮助用户查询和分析 PostgreSQL 数据库中的数据。

规则：
1. 始终确保 SQL 查询的安全性，避免修改数据
2. 以清晰易懂的方式呈现查询结果
"""

llm_cfg = {
    'model': 'Qwen3-0.6B-FP8',
    'model_server': 'http://localhost:8000/v1',
    'api_key': 'token-kcgyrk',
    'generate_cfg': {
        'top_p': 0.95,
        'temperature': 0.6,
    }
}

pg_tools = [{
  "mcpServers": {
    "postgres": {
      "command": "npx",
      "args": [
        "-y",
        "@modelcontextprotocol/server-postgres",
        "postgresql://admin:admin-password@localhost:5432/ecommerce_orders",
        "--introspect"  # 自动读取数据库模式
      ]
    }
  }
}]

以 `ReActChat` 模式初始化 Agent，参考：[react_data_analysis.py](https://github.com/QwenLM/Qwen-Agent/blob/main/examples/react_data_analysis.py)

In [3]:
pg_bot = ReActChat(
    llm=llm_cfg,
    name='Postgres 数据库助手',
    description='查询 Postgres 数据库',
    system_message=SYSTEM_PROMPT,
    function_list=pg_tools,
)

2025-06-16 01:38:03,150 - mcp_manager.py - 110 - INFO - Initializing MCP tools from mcp servers: ['postgres']
2025-06-16 01:38:03,155 - mcp_manager.py - 245 - INFO - Initializing a MCP stdio_client, if this takes forever, please check the config of this mcp server: postgres


### 5. 从一个简单的例子出发

下面我们让 Agent 查询某用户的订单。

但是不让它查询 `uid` 为 102 的用户，而是让它查询“用户ID”为 103 的用户。看它能否写出正确的 `SQL`。

In [4]:
# query = '查询用户（用户ID为103）的所有订单信息。'
# messages = [{'role': 'user', 'content': query}]

# # Agent 输出
# response = pg_bot.run_nonstream(messages)

上面的代码报 `McpError` 了：

```
McpError: column "user_id" does not exist
```

我们发现，它不知道用户编号应该用 `uid` 筛选，而用 `user_id` 筛选，当然会报错了。

接下来尝试为 Agent 添加更多关于数据表的信息，让它获取到正确的表结构。这样理论上它就能写出正确的 SQL 了。

### 6. 开发 Postgres 数据库查询模块

下面是一个 PostgreSQL 数据库查询模块。代码见本仓库的 [postgres_client.py](./postgres_client.py) 文件。该模块用于为 Postgres 查询提供上下文信息，包括：

- 表名
- 表注释
- 字段名
- 字段注释
- 样例数据
- 指定字段的枚举值

下面来尝试它的功能吧。

In [5]:
import postgres_client as pg_client

conn = pg_client.create_conn()

**1）查询数据库中所有表及其注释信息**

In [6]:
print(pg_client.get_table_info(conn))

当前数据库中包含 3 张数据表：

数据表 #0:
  - 名称: fake_goods
  - 注释: 假货商品记录表
数据表 #1:
  - 名称: logistics
  - 注释: 订单的物流状态信息
数据表 #2:
  - 名称: orders
  - 注释: 用户订单信息


**2）查询指定表的所有字段定义和注释**

In [7]:
print(pg_client.get_table_columns_info(conn, table_name='logistics'))

数据表 logistics 的字段信息如下：

字段 #1:
  - 名称: order_id
  - 类型: integer
  - 注释: 关联的订单ID（主键
字段 #2:
  - 名称: status
  - 类型: character varying(20)
  - 注释: 物流状态: pending(待处理)/in_transit(运输中)/delivered(已送达)/cancelled(已取消)
字段 #3:
  - 名称: timestamp
  - 类型: timestamp without time zone
  - 注释: 物流状态更新时间


**3）查询指定表的所有字段的样例数据**

In [8]:
print(pg_client.get_random_sample(conn, table_name='logistics'))

数据表 logistics 中包含所有字段的示例数据如下：

| order_id | status | timestamp |
| --- | --- | --- |
| 1005 | in_transit | 2025-05-05 11:30:00 |
| 1003 | delivered | 2025-05-03 17:30:00 |
| 1001 | pending | 2025-05-01 10:05:00 |
| 1004 | cancelled | 2025-05-04 16:50:00 |
| 1002 | in_transit | 2025-05-02 15:00:00 |



**4）查询指定表的指定字段的样例数据**

In [9]:
print(pg_client.get_random_sample(conn, "orders", columns=["order_id", "status"]))

数据表 orders 中包含 order_id, status 字段的示例数据如下：

| order_id | status |
| --- | --- |
| 1002 | ordered |
| 1001 | ordered |
| 1003 | ordered |
| 1005 | cancelled |
| 1004 | cancelled |



**5）查询指定表的指定字段的枚举值**

In [10]:
print(pg_client.get_top_enum_values(conn, "orders", "status"))

数据表 orders 中 status 字段的枚举值如下：

| 枚举值 | 出现次数 |
| --- | --- |
| ordered | 3 |
| cancelled | 2 |


### 7. 开发 Postgres 数据库查询工具

接着，我开发了数据库查询工具模块。该模块使用 `Function Calling` 方法，将 [postgres_client.py](./postgres_client.py) 中的函数注册成 Qwen Agent 可用的工具函数。下面我们只需要导入 `postgres_tool` 模块，就可以用 Qwen Agent 读取数据表的 `context` 信息了。

可以用 `inspect` 打印一下 `postgres_tool` 模块的代码。

In [11]:
import inspect
import postgres_tool

source = inspect.getsource(postgres_tool)
# print(source)

下面尝试用 `postgres_tool` 模块查询数据表结构。

In [12]:
# 这些工具已经在 postgres_tool 模块中定义好了
func_tools = [
    'get_table_info',
    'get_table_columns_info',
    'get_random_sample',
    'get_top_enum_values'
]

func_bot = Assistant(
    llm=llm_cfg,
    name='数据库查询助手',
    description='帮助用户查询 PostgreSQL 数据库',
    system_message=SYSTEM_PROMPT,
    function_list=func_tools,
)

query = 'orders 表的表结构'
messages = [{'role': 'user', 'content': query}]
response = func_bot.run_nonstream(messages)
# print(response)

In [13]:
print(response[-1].get('content').strip())

orders 表的字段结构如下：

| 字段 | 类型 | 注释 |
|------|------|------|
| order_id | integer | 唯一订单ID（主键） |
| uid | integer | 用户ID |
| mall_id | integer | 商城ID |
| goods_id | integer | 商品ID |
| status | character varying(20) | 订单状态: ordered(已下单)/cancelled(已取消) |
| timestamp | timestamp without time zone | 订单状态更新时间 |

该表包含5个字段，其中`order_id`为主键（`NOT NULL`），`timestamp`用于记录订单状态更新时间。


### 8. 回到最初的例子

现在，在编写 SQL 之前，我们已经能够获取我们关心的上下文信息了。

参考：[group_chat_demo.py](https://github.com/QwenLM/Qwen-Agent/blob/main/examples/group_chat_demo.py)

In [14]:
from postgres_client import load_env
from postgres_workflow import PGWorkflow

**1）获取写入 context 后的 query**

In [15]:
query = '查询用户（用户ID为103）的所有订单信息。'

# 实例化 PGWorkflow
db_config = load_env()
pgwf = PGWorkflow(llm_cfg, db_config)

# 执行 workflow
messages = [{'role': 'user', 'content': query}]
messages = pgwf.workflow(messages)

2025-06-16 01:38:09,662 - mcp_manager.py - 110 - INFO - Initializing MCP tools from mcp servers: ['postgres']
2025-06-16 01:38:09,669 - mcp_manager.py - 245 - INFO - Initializing a MCP stdio_client, if this takes forever, please check the config of this mcp server: postgres
2025-06-16 01:38:11,594 - mcp_manager.py - 110 - INFO - Initializing MCP tools from mcp servers: ['postgres']
2025-06-16 01:38:11,596 - mcp_manager.py - 245 - INFO - Initializing a MCP stdio_client, if this takes forever, please check the config of this mcp server: postgres


In [16]:
print(messages[-1].get('content'))

当前时间：2025-06-16 01:38:17

可能用到的表，以及对应的表结构如下：
数据表 `orders` 的结构如下：

- **表名**：orders  
- **字段信息**：  
  - **字段 #1**：`order_id`（类型：integer，注释：唯一订单ID（主键））  
  - **字段 #2**：`uid`（类型：integer，注释：用户ID）  
  - **字段 #3**：`mall_id`（类型：integer，注释：商城ID）  
  - **字段 #4**：`goods_id`（类型：integer，注释：商品ID）  
  - **字段 #5**：`status`（类型：character varying(20)，注释：订单状态：ordered(已下单)/cancelled(已取消））  
  - **字段 #6**：`timestamp`（类型：timestamp without time zone，注释：订单状态更新时间）

注：表注释信息已包含在返回结果中。

用户问题如下：
查询用户（用户ID为103）的所有订单信息。

请你调用 Postgres 数据库查询工具，参考表结构信息，回答用户的问题。


**2）使用改造后的 query**

In [17]:
SYSTEM_PROMPT = """
你是一个数据库查询助手，专门帮助用户查询和分析 PostgreSQL 数据库中的数据。

规则：
1. 始终确保 SQL 查询的安全性，避免修改数据
2. 以清晰易懂的方式呈现查询结果
"""

react_bot = ReActChat(
    llm=llm_cfg,
    name='数据库查询助手',
    description='帮助用户查询 PostgreSQL 数据库',
    system_message=SYSTEM_PROMPT,
    function_list=pg_tools,
)

response = react_bot.run_nonstream(messages)
# print(response)

2025-06-16 01:38:24,499 - mcp_manager.py - 110 - INFO - Initializing MCP tools from mcp servers: ['postgres']
2025-06-16 01:38:24,501 - mcp_manager.py - 245 - INFO - Initializing a MCP stdio_client, if this takes forever, please check the config of this mcp server: postgres


In [18]:
final_context = response[-1].get('content').strip()
final_answer = final_context.split('Final Answer:')[-1].strip()
print(final_answer)

用户ID为103的订单信息如下：订单ID为1003，用户ID为103，商城ID为1，商品ID为5003，订单状态为ordered，更新时间是2025-05-03 01:15:00。
