## 数据库查询优化 (NL2SQL)

我发现只用官方的 Postgres MCP Server [postgres](https://github.com/modelcontextprotocol/servers-archived/tree/main/src/postgres) 无法达到很好的查询效果。于是决定开发一些 Agent 的链路工程，提升 MCP 使用数据库数据的能力。

这部分开发其实是通过收集足够多的 context，让语言模型写出正确的 SQL 代码，称之为 `NL2SQL` 模块也合适。


```mermaid
graph LR
    A[query] --> H[应该使用哪张表] --> B[表的详细信息]
    B --> C[表结构]
    B --> D[示例数据]
    B --> E[字段注释]
    B --> F[字段枚举值]

    C --> G[SQL]
    D --> G
    E --> G
    F --> G
```

我们期望，当直接使用 Postgres MCP Server 失败时，用一个定制的 Agent 链路工程，为 MCP 添加更多上下文，获得一个优化后的 `SQL` 再执行。这样可以提高 `SQL` 执行的成功率。 

### 1. 初始化 Qwen Agent

来到 `test_qwen3` 目录，启动 vLLM 服务：

```bash
cd test_qwen3
bash vllm_server.sh
```

然后初始化 Qwen Agent

In [1]:
import warnings

from qwen_agent.agents import Assistant, ReActChat
from qwen_agent.tools.base import BaseTool, register_tool

通用配置

In [2]:
# Postgres Agent 的系统指令
SYSTEM_PROMPT = """
你是一个数据库查询助手，专门帮助用户查询和分析 PostgreSQL 数据库中的数据。

规则：
1. 始终确保 SQL 查询的安全性，避免修改数据
2. 以清晰易懂的方式呈现查询结果
"""

llm_cfg = {
    'model': 'Qwen3-0.6B-FP8',
    'model_server': 'http://localhost:8000/v1',
    'api_key': 'token-kcgyrk',
    'generate_cfg': {
        'top_p': 0.95,
        'temperature': 0.6,
    }
}

pg_tools = [{
  "mcpServers": {
    "postgres": {
      "command": "npx",
      "args": [
        "-y",
        "@modelcontextprotocol/server-postgres",
        "postgresql://admin:admin-password@localhost:5432/ecommerce_orders",
        "--introspect"  # 自动读取数据库模式
      ]
    }
  }
}]

初始化 Agent

In [3]:
pg_bot = ReActChat(
    llm=llm_cfg,
    name='Postgres 数据库助手',
    description='查询 Postgres 数据库',
    system_message=SYSTEM_PROMPT,
    function_list=pg_tools,
)

2025-06-08 17:48:09,284 - mcp_manager.py - 110 - INFO - Initializing MCP tools from mcp servers: ['postgres']
2025-06-08 17:48:09,291 - mcp_manager.py - 245 - INFO - Initializing a MCP stdio_client, if this takes forever, please check the config of this mcp server: postgres


### 2. 从一个简单的例子出发

下面我们让 Agent 查询某用户的订单。

但是不让它查询 `uid = 102` 的用户，而是让它查询“用户编号”为 102 的用户。看它能否写出正确的 `SQL`。

In [4]:
query = '请在订单表中查询用户编号为102的用户的所有订单信息'
messages = [{'role': 'user', 'content': query}]

# Agent 输出

response = pg_bot.run_nonstream(messages)

sql = ""
for elem in response:
    if elem['role'] == 'assistant' and 'function_call' in elem:
        sql = elem['function_call'].get('arguments')

print(sql)

2025-06-08 17:48:24,077 - mcp_manager.py - 187 - INFO - Failed in executing MCP tool: relation "订单表" does not exist
McpError: relation "订单表" does not exist
Traceback:
  File "/home/canva/miniconda3/lib/python3.12/site-packages/qwen_agent/agent.py", line 178, in _call_tool
    tool_result = tool.call(tool_args, **kwargs)
                  ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/home/canva/miniconda3/lib/python3.12/site-packages/qwen_agent/tools/mcp_manager.py", line 188, in call
    raise e
  File "/home/canva/miniconda3/lib/python3.12/site-packages/qwen_agent/tools/mcp_manager.py", line 184, in call
    result = future.result()
             ^^^^^^^^^^^^^^^
  File "/home/canva/miniconda3/lib/python3.12/concurrent/futures/_base.py", line 456, in result
    return self.__get_result()
           ^^^^^^^^^^^^^^^^^^^
  File "/home/canva/miniconda3/lib/python3.12/concurrent/futures/_base.py", line 401, in __get_result
    raise self._exception
  File "/home/canva/miniconda3/lib/python3.12/sit




上面的代码报 `McpError` 了。我顺便打印了 MCP 执行的 SQL：

```sql
{"sql": "SELECT * FROM orders WHERE user_id = 102"}
```

可以发现，它不知道编号 102 的用户应该用 `uid` 筛选，而是用了 `user_id` 筛选，当然会报错了。

接下来，我们尝试为 Agent 添加更多关于数据库和数据表的信息，让它获知正确的筛选变量。这样理论上，它就可以写出正确的 SQL 了。

### 3. 函数调用 Function Calling

为了让 Agent 读取数据库和数据表的信息，我写了两个模块 module：

- [postgres_client.py](./postgres_client.py) 模块：Postgres 数据库操作模块，用于查询数据库和数据表信息
- [postgres_tool.py](./postgres_tool.py) 模块：Postgres 工具模块，将 `postgres_client.py` 中的函数注册成 Qwen Agent 可用的工具函数

下面我们只需要导入 `postgres_tool` 模块，就可以通过 Agent 读取数据库信息了。可以用 `inspect` 打印一下 `postgres_tool` 模块的代码。

In [5]:
import inspect
import postgres_tool

source = inspect.getsource(postgres_tool)
print(source)

# -*- coding: utf-8 -*-

"""
PostgreSQL 数据库的 Qwen-Agent Function Calling 模块 

主要工具：
- TableInfoTool: 获取数据库所有表及其注释信息
- ColumnsInfoTool: 获取指定表的字段定义和注释
- SampleDataTool: 获取表的随机样例数据
- EnumValuesTool: 获取字段的枚举值统计
"""

import json
import json5

from qwen_agent.agents import Assistant
from qwen_agent.tools.base import BaseTool, register_tool
from postgres_client import (get_table_info as pg_get_table_info,
                             get_table_columns_info as pg_get_columns_info,
                             get_random_sample as pg_get_sample,
                             get_top_enum_values as pg_get_enum_values,
                             load_env, create_conn_from_dotenv, close_conn)


# 加载数据库配置
db_config = load_env()


def set_db_config(config: dict):
    """更新数据库配置"""
    global db_config
    db_config.update(config)


@register_tool('get_table_info')
class TableInfoTool(BaseTool):
    """获取数据库所有表及其注释信息"""
    description = '查询数据库中的所有表及其表注释信息'
    parameters = []

    def call(self, pa

现在，我们有了用于查询数据库元数据的 Function Call。可以准确查询到数据库和数据表的信息。

下面使用这个模块查询数据表的表结构。

In [6]:
# 这些工具已经在 postgres_tool 模块中定义好了
func_tools = ['get_table_info', 'get_table_columns_info', 'get_random_sample', 'get_top_enum_values']

func_bot = Assistant(
    llm=llm_cfg,
    name='数据库查询助手',
    description='帮助用户查询 PostgreSQL 数据库',
    system_message=SYSTEM_PROMPT,
    function_list=func_tools,
)

query = 'orders 表的表结构'
messages = [{'role': 'user', 'content': query}]
response = func_bot.run_nonstream(messages)

In [7]:
print(response)

[{'role': 'assistant', 'content': '', 'reasoning_content': '\n好的，用户问的是“orders 表的表结构”。我需要确定应该使用哪个工具来回答这个问题。用户可能需要了解表的列结构，所以应该使用get_table_columns_info这个函数。这个函数需要表名和模式参数，表名是orders，模式默认是public。所以，我应该调用这个函数，参数是table_name: "orders"，schema默认public。这样就能获取到orders表的所有字段定义和注释信息了。不需要其他工具，因为用户只需要表结构，不需要随机样例或枚举值统计。\n', 'name': '数据库查询助手'}, {'role': 'assistant', 'content': '', 'name': '数据库查询助手', 'function_call': {'name': 'get_table_columns_info', 'arguments': '{"table_name": "orders"}'}}, {'role': 'function', 'content': '{"result": "数据表 orders 的字段信息如下：\\n\\n字段 #1:\\n  - 名称: order_id\\n  - 类型: integer\\n  - 注释: 唯一订单ID（主键）\\n字段 #2:\\n  - 名称: uid\\n  - 类型: integer\\n  - 注释: 用户ID\\n字段 #3:\\n  - 名称: mall_id\\n  - 类型: integer\\n  - 注释: 商城ID\\n字段 #4:\\n  - 名称: goods_id\\n  - 类型: integer\\n  - 注释: 商品ID\\n字段 #5:\\n  - 名称: status\\n  - 类型: character varying(20)\\n  - 注释: 订单状态: ordered(已下单)/cancelled(已取消)\\n字段 #6:\\n  - 名称: timestamp\\n  - 类型: timestamp without time zone\\n  - 注释: 订单状态更新时间"}', 'name': 'get_table

In [8]:
print(response[-1].get('content').strip())

orders 表的字段信息如下：

1. **名称**：order_id  
   - **类型**：integer  
   - **注释**：唯一订单ID（主键）

2. **名称**：uid  
   - **类型**：integer  
   - **注释**：用户ID

3. **名称**：mall_id  
   - **类型**：integer  
   - **注释**：商城ID

4. **名称**：goods_id  
   - **类型**：integer  
   - **注释**：商品ID

5. **名称**：status  
   - **类型**：character varying(20)  
   - **注释**：订单状态：ordered（已下单）/cancelled（已取消）

如需查看具体字段数据，可调用 `get_table_columns_info` 或 `get_random_sample`。


### 4. 回到最初的例子

现在，在运行真正的查询之前，我们已经能够拿到我们关心的数据库和数据表信息了。

有两种方法运行 Agent：

- 一种是通过 ReAct 范式，让 Agent 自主选择调用工具。这种方法不是不行，我有成功 roll 出来过，但是对于 qwen3 0.6B 成功率有点低
- 另一种是通过 Agent 的链路工程，将所需的表结构，显式注入历史对话中，作为对话的上下文

In [9]:
query = '请在订单表中查询用户编号为102的用户的所有订单信息'
messages = [{'role': 'user', 'content': query}]

**1）使用 `ReActChat` 范式**

参考：[react_data_analysis.py](https://github.com/QwenLM/Qwen-Agent/blob/main/examples/react_data_analysis.py)

In [10]:
# 同时加入 Postgres MCP Server 和用于查询数据库信息的工具函数
all_bot = pg_tools + func_tools

all_bot = ReActChat(
    llm=llm_cfg,
    name='Postgres 数据库助手',
    description='查询 Postgres 数据库',
    system_message=SYSTEM_PROMPT,
    function_list=all_bot,
)

2025-06-08 17:48:30,349 - mcp_manager.py - 110 - INFO - Initializing MCP tools from mcp servers: ['postgres']
2025-06-08 17:48:30,352 - mcp_manager.py - 245 - INFO - Initializing a MCP stdio_client, if this takes forever, please check the config of this mcp server: postgres


In [11]:
# Agent 输出
# response = all_bot.run_nonstream(messages)
# print(response)
# print(response[-1].get('content').strip())

这种方法大概率会失败，偶尔成功。你可以解开注释尝试一下。

**2）开发 Agent 链路工程**

可以参考：[group_chat_demo.py](https://github.com/QwenLM/Qwen-Agent/blob/main/examples/group_chat_demo.py)

In [12]:
# 1. 定位数据表
group_chat_messages = [
    {
        'role': 'user',
        'content': "\n".join([
            "用户提问如下：",
            f"{query}",
            "你不需要回答用户提问。你需要：",
            "1. 查询 Postgres 数据库中有哪些表",
            "2. 回答用户提问中可能用到其中哪些表",
            "注意，最终返回结果中，只需要包含你认为可能用到的表。如你认为没有可能用到的表，回答无可用表",
        ])
    }
]

first_response = func_bot.run_nonstream(group_chat_messages)
first_message = first_response[-1].get('content').strip()

In [13]:
first_message

'订单表中包含以下可能相关的表：orders。'

In [14]:
# 2. 查询表结构
group_chat_messages = [
    {
        'role': 'user',
        'content': "\n".join([
            "上一个Agent认为可能用到的表如下：",
            f"{first_message}",
            "请你调用 Postgres 数据库助手，查询可能用到的表的表结构",
            "回答可能用到的表的表名，以及该表的表结构",
        ])
    }
]

second_response = func_bot.run_nonstream(group_chat_messages)
second_message = second_response[-1].get('content').strip()

In [15]:
print(second_message)

订单表（`orders`）的表结构如下：

- **字段**：
  - `order_id`：整数，主键
  - `uid`：整数
  - `mall_id`：整数
  - `goods_id`：整数
  - `status`：字符型（20字符，订单状态）
  - `timestamp`：时间戳（无时间偏移）

**注**：该表结构已完整展示，包含所有可能相关的字段信息。如需进一步分析或操作，请告知！


In [16]:
# 3. 将以上内容作为上下文，注入原始查询中
group_chat_messages = [
    {
        'role': 'user',
        'content': "\n".join([
            "用户提问如下：",
            f"{query}",
            "可能用到的表，以及该表的表结构如下：",
            f"{second_message}",
            "请你调用 Postgres 数据库助手，参考表结构信息，回答用户的提问",
        ])
    }
]

third_response = pg_bot.run_nonstream(group_chat_messages)
third_message = third_response[-1].get('content').strip()

In [17]:
print(third_message)

Thought: 问题。
</think>

Action: postgres-query
Action Input: {"sql": "SELECT * FROM orders WHERE uid = 102"}

Observation: [
  {
    "order_id": 1002,
    "uid": 102,
    "mall_id": 2,
    "goods_id": 6002,
    "status": "ordered",
    "timestamp": "2025-05-02T06:30:00.000Z"
  }
]
Thought: 用户。
</think>
Final Answer: 用户编号为102的订单信息如下：

- 订单ID：1002
- 用户ID：102
- 会员ID：2
- 商品ID：6002
- 状态：ordered
- 交易时间：2025-05-02T06:30:00.000Z
