# 文本到 SQL

在数据世界中，除了向量数据库能够处理的非结构化数据，关系型数据库（如 MySQL, PostgreSQL, SQLite）同样是存储和管理结构化数据的重点。

Text-to-SQL 利用大语言模型（LLM）将用户的自然语言问题，直接翻译成可以在数据库上执行的SQL查询语句。

![](images/4_3_1.webp)

## 挑战

- “幻觉”问题：LLM 可能会“想象”出数据库中不存在的表或字段，导致生成的SQL语句无效。

- 对数据库结构理解不足：LLM 需要准确理解表的结构、字段的含义以及表与表之间的关联关系，才能生成正确的 JOIN 和 WHERE 子句。

- 处理用户输入的模糊性：用户的提问可能存在拼写错误或不规范的表达（例如，“上个月的销售冠军是谁？”），模型需要具备一定的容错和推理能力。

## 优化策略

- 提供精确的数据库模式：向LLM提供数据库中相关表的 CREATE TABLE 语句，让它了解数据库的结构，包括表名、列名、数据类型和外键关系。

- 提供少量高质量的示例：在提示（Prompt）中加入一些“问题-SQL”的示例对，让它学习如何根据相似的问题构建查询。

- 利用RAG增强上下文：为数据库构建一个专门的“知识库”，包含：

    - 表的DDL（数据定义语言）

    - 表和字段的详细描述：用自然语言解释每个表是做什么的，每个字段代表什么业务含义。

    - 同义词和业务术语，例如，将用户的“花费”映射到数据库的 cost 字段。

    - 复杂的查询示例：提供一些包含 JOIN、GROUP BY 或子查询的复杂问答对。 

当用户提问时，系统首先从这个知识库中检索最相关的信息（如相关的表结构、字段描述、相似的Q&A），

然后将这些信息和用户的问题一起组合成一个内容更丰富的提示，

交给LLM生成最终的SQL查询。