# 在表格数据库中引入语义相似性

在这个笔记本中，我们将介绍如何在单个SQL查询中运行对特定表列的语义搜索，结合了表查询和RAG。

### 总体工作流程

1. 为特定列生成嵌入向量
2. 将嵌入向量存储在一个新列中（如果列的基数较低，最好使用包含唯一值及其嵌入向量的另一个表）
3. 使用标准SQL查询和[PGVector](https://github.com/pgvector/pgvector)扩展进行查询，该扩展允许使用L2距离（`<->`），余弦距离（`<=>`或使用`1 - <=>`计算余弦相似度）和内积（`<#>`）
4. 运行标准SQL查询

### 要求

我们需要一个启用了[pgvector](https://github.com/pgvector/pgvector)扩展的PostgreSQL数据库。在这个示例中，我们将使用一个使用本地PostgreSQL服务器的`Chinook`数据库。

In [1]:
import getpass
import os

# 设置环境变量 OPENAI_API_KEY
# 如果环境变量 OPENAI_API_KEY 不存在，则通过 getpass.getpass() 方法获取用户输入的 API Key
os.environ["OPENAI_API_KEY"] = os.environ.get("OPENAI_API_KEY") or getpass.getpass(
    "OpenAI API Key:"
)

In [None]:
from langchain.sql_database import SQLDatabase  # 导入SQLDatabase类
from langchain_openai import ChatOpenAI  # 导入ChatOpenAI类

CONNECTION_STRING = "postgresql+psycopg2://postgres:test@localhost:5432/vectordb"  # 替换为你自己的数据库连接字符串
db = SQLDatabase.from_uri(CONNECTION_STRING)  # 使用连接字符串创建SQLDatabase对象

### 嵌入歌曲标题

对于这个示例，我们将根据歌曲标题的语义含义运行查询。为了做到这一点，让我们首先在表中添加一个用于存储嵌入的新列：

In [3]:
# 在数据库中运行以下命令：ALTER TABLE "Track" ADD COLUMN "embeddings" vector;
# 这个命令的作用是在 "Track" 表中添加一个名为 "embeddings" 的列，该列的数据类型为 vector。

让我们为每个*曲目标题*生成嵌入，并将其存储为我们“曲目”表中的新列。

In [4]:
from langchain_openai import OpenAIEmbeddings  # 导入OpenAIEmbeddings类

embeddings_model = OpenAIEmbeddings()  # 创建OpenAIEmbeddings对象实例

In [5]:
# 从数据库中获取歌曲名称
tracks = db.run('SELECT "Name" FROM "Track"')

# 将获取的歌曲名称转换为列表
song_titles = [s[0] for s in eval(tracks)]

# 使用embeddings_model对歌曲名称进行嵌入
title_embeddings = embeddings_model.embed_documents(song_titles)

# 输出嵌入后的歌曲名称数量
len(title_embeddings)

3503

现在让我们将嵌入插入到我们表格的新列中。

In [6]:
from tqdm import tqdm

for i in tqdm(range(len(title_embeddings))):
    title = song_titles[i].replace("'", "''")
    embedding = title_embeddings[i]
    sql_command = (
        f'UPDATE "Track" SET "embeddings" = ARRAY{embedding} WHERE "Name" ='
        + f"'{title}'"
    )
    db.run(sql_command)

我们可以通过运行以下查询来测试语义搜索：

In [7]:
# 使用embeddings_model对查询进行嵌入式处理
embeded_title = embeddings_model.embed_query("hope about the future")

# 构建查询语句
query = (
    'SELECT "Track"."Name" FROM "Track" WHERE "Track"."embeddings" IS NOT NULL ORDER BY "embeddings" <-> '
    + f"'{embeded_title}' LIMIT 5"
)

# 运行查询
db.run(query)

'[("Tomorrow\'s Dream",), (\'Remember Tomorrow\',), (\'Remember Tomorrow\',), (\'The Best Is Yet To Come\',), ("Thinking \'Bout Tomorrow",)]'

### 创建SQL链



让我们首先定义一些有用的函数来从数据库中获取信息并运行查询：

In [8]:
# 定义一个函数get_schema，参数为_
# 该函数调用db.get_table_info()函数并返回结果
def get_schema(_):
    return db.get_table_info()

# 定义一个函数run_query，参数为query
# 该函数调用db.run()函数并传入query参数，返回结果
def run_query(query):
    return db.run(query)

现在让我们来构建我们将使用的**提示**。这个提示是从[text-to-postgres-sql](https://smith.langchain.com/hub/jacob/text-to-postgres-sql?organizationId=f9b614b8-5c3a-4e7c-afbc-6d7ad4fd8892)提示扩展而来的。

In [9]:
# 导入ChatPromptTemplate类
from langchain_core.prompts import ChatPromptTemplate

# 定义模板字符串，描述Postgres专家的任务要求
template = """You are a Postgres expert. Given an input question, first create a syntactically correct Postgres query to run, then look at the results of the query and return the answer to the input question.
Unless the user specifies in the question a specific number of examples to obtain, query for at most 5 results using the LIMIT clause as per Postgres. You can order the results to return the most informative data in the database.
Never query for all columns from a table. You must query only the columns that are needed to answer the question. Wrap each column name in double quotes (") to denote them as delimited identifiers.
Pay attention to use only the column names you can see in the tables below. Be careful to not query for columns that do not exist. Also, pay attention to which column is in which table.
Pay attention to use date('now') function to get the current date, if the question involves "today".

You can use an extra extension which allows you to run semantic similarity using <-> operator on tables containing columns named "embeddings".
<-> operator can ONLY be used on embeddings columns.
The embeddings value for a given row typically represents the semantic meaning of that row.
The vector represents an embedding representation of the question, given below. 
Do NOT fill in the vector values directly, but rather specify a `[search_word]` placeholder, which should contain the word that would be embedded for filtering.
For example, if the user asks for songs about 'the feeling of loneliness' the query could be:
'SELECT "[whatever_table_name]"."SongName" FROM "[whatever_table_name]" ORDER BY "embeddings" <-> '[loneliness]' LIMIT 5'

Use the following format:

Question: <Question here>
SQLQuery: <SQL Query to run>
SQLResult: <Result of the SQLQuery>
Answer: <Final answer here>

Only use the following tables:

{schema}
"""

# 使用模板创建ChatPromptTemplate实例
prompt = ChatPromptTemplate.from_messages(
    [("system", template), ("human", "{question}")]
)

我们可以使用**[LangChain 表达式语言](https://python.langchain.com/docs/expression_language/)**来创建这个链条：

In [10]:
# 导入所需的模块
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough
from langchain_openai import ChatOpenAI

# 从连接字符串创建SQL数据库实例
db = SQLDatabase.from_uri(CONNECTION_STRING)  # 重新连接到数据库，以便加载新的列

# 创建一个ChatOpenAI实例，使用"gpt-4"模型和温度为0
llm = ChatOpenAI(model="gpt-4", temperature=0)

# 创建一个SQL查询链
sql_query_chain = (
    RunnablePassthrough.assign(schema=get_schema)  # 将get_schema赋值给schema
    | prompt  # 执行prompt操作
    | llm.bind(stop=["\nSQLResult:"])  # 使用llm绑定，停止条件为"\nSQLResult:"
    | StrOutputParser()  # 使用StrOutputParser解析输出
)

In [11]:


# 调用sql_query_chain的invoke方法，并传入一个字典作为参数
# 字典中包含一个键值对，键为"question"，值为"Which are the 5 rock songs with titles about deep feeling of dispair?"
sql_query_chain.invoke(
    {
        "question": "Which are the 5 rock songs with titles about deep feeling of dispair?"
    }
)

'SQLQuery: SELECT "Track"."Name" FROM "Track" JOIN "Genre" ON "Track"."GenreId" = "Genre"."GenreId" WHERE "Genre"."Name" = \'Rock\' ORDER BY "Track"."embeddings" <-> \'[dispair]\' LIMIT 5'

这个链条只是生成查询。现在我们将创建完整的链条，还要处理执行和最终结果给用户：

In [12]:
import re  # 导入正则表达式模块
from langchain_core.runnables import RunnableLambda  # 从langchain_core.runnables模块中导入RunnableLambda类

# 定义一个函数，用于替换括号内的内容
def replace_brackets(match):
    words_inside_brackets = match.group(1).split(", ")  # 以逗号和空格分割括号内的单词
    embedded_words = [
        str(embeddings_model.embed_query(word)) for word in words_inside_brackets  # 将括号内的单词进行嵌入处理
    ]
    return "', '".join(embedded_words)  # 返回嵌入后的单词列表，以逗号和空格连接

# 定义一个函数，用于获取查询结果
def get_query(query):
    sql_query = re.sub(r"\[([\w\s,]+)\]", replace_brackets, query)  # 使用正则表达式替换查询中的括号内内容
    return sql_query  # 返回替换后的查询结果

# 定义一个模板字符串，包含表格模式、问题、SQL查询和SQL响应
template = """Based on the table schema below, question, sql query, and sql response, write a natural language response:
{schema}

Question: {question}
SQL Query: {query}
SQL Response: {response}"""

# 从消息中创建一个对话模板
prompt = ChatPromptTemplate.from_messages(
    [("system", template), ("human", "{question}")]
)

# 创建一个完整的处理链
full_chain = (
    RunnablePassthrough.assign(query=sql_query_chain)
    | RunnablePassthrough.assign(
        schema=get_schema,
        response=RunnableLambda(lambda x: db.run(get_query(x["query"]))),  # 使用lambda函数执行查询并获取响应
    )
    | prompt  # 显示对话模板
    | llm  # 执行语言模型
)

## 使用链条

### 示例1：根据语义含义过滤列

假设我们想要检索表达“深深的绝望感”的歌曲，但是要根据流派进行筛选：

In [11]:
# 调用full_chain的invoke方法，传入一个包含问题信息的字典作为参数
full_chain.invoke(
    {
        "question": "Which are the 5 rock songs with titles about deep feeling of dispair?"
    }
)

AIMessage(content="The 5 rock songs with titles that convey a deep feeling of despair are 'Sea Of Sorrow', 'Surrender', 'Indifference', 'Hard Luck Woman', and 'Desire'.")

在实现这种方法时，主要的不同之处在于我们结合了：
- 语义搜索（具有一定语义意义的歌曲标题）
- 传统的表查询（运行JOIN语句以基于流派筛选音轨）

这是我们**可能**可以使用元数据过滤来实现的，但这样做更加复杂（我们需要使用包含嵌入向量的向量数据库，并基于流派使用元数据过滤）。

然而，对于其他用例，仅使用元数据过滤**是不够的**。

### 示例2：组合过滤器

In [29]:
# 调用full_chain的invoke方法，传入一个字典作为参数
full_chain.invoke(
    {
        "question": "I want to know the 3 albums which have the most amount of songs in the top 150 saddest songs"
    }
)

AIMessage(content="The three albums which have the most amount of songs in the top 150 saddest songs are 'International Superhits' with 5 songs, 'Ten' with 4 songs, and 'Album Of The Year' with 3 songs.")

所以我们得到了三个专辑的结果，这些专辑中包含最多的歌曲在最伤感的150首歌曲中。如果只使用标准元数据过滤，这是不可能的。没有这个混合查询，我们需要进行一些后处理才能得到结果。

另一个类似的例子：

In [30]:
# 调用full_chain对象的invoke方法，传入包含问题信息的字典作为参数
full_chain.invoke(
    {
        "question": "I need the 6 albums with shortest title, as long as they contain songs which are in the 20 saddest song list."
    }
)

AIMessage(content="The 6 albums with the shortest titles that contain songs which are in the 20 saddest song list are 'Ten', 'Core', 'Big Ones', 'One By One', 'Black Album', and 'Miles Ahead'.")

让我们看看查询的样子以进行双重检查：

In [32]:

# 定义查询参数
query_params = {
    "question": "I need the 6 albums with shortest title, as long as they contain songs which are in the 20 saddest song list."
}

# 调用sql_query_chain模块的invoke函数，并打印结果
print(sql_query_chain.invoke(query_params))

WITH "SadSongs" AS (
    SELECT "TrackId" FROM "Track" 
    ORDER BY "embeddings" <-> '[sad]' LIMIT 20
),
"SadAlbums" AS (
    SELECT DISTINCT "AlbumId" FROM "Track" 
    WHERE "TrackId" IN (SELECT "TrackId" FROM "SadSongs")
)
SELECT "Album"."Title" FROM "Album" 
WHERE "AlbumId" IN (SELECT "AlbumId" FROM "SadAlbums") 
ORDER BY "title_len" ASC 
LIMIT 6


### 示例3：合并两个独立的语义搜索

这种方法与使用标准RAG的方法**有很大的不同之处**，有趣的一点是我们甚至可以**合并**两个语义搜索过滤器：
- _获取5首最伤感的歌曲..._
- _**...来自于标题为"可爱"的专辑**_

这可以推广到**任何类型的组合RAG**（讨论_X_主题的段落来自于关于_Y_的书籍，回复关于_ABC_主题的推文表达_XYZ_的感受）

我们将在歌曲和专辑标题上进行语义搜索的合并，因此我们需要对`Album`表执行相同的操作：
1. 生成嵌入向量
2. 将它们作为新列添加到表中（我们需要在表中添加这一列）

In [60]:
# 在数据库中运行以下命令：ALTER TABLE "Album" ADD COLUMN "embeddings" vector;
# db.run('ALTER TABLE "Album" ADD COLUMN "embeddings" vector;')

In [43]:
# 导入必要的库

# 查询数据库中的专辑标题
albums = db.run('SELECT "Title" FROM "Album"')

# 将查询结果转换为列表
album_titles = [title[0] for title in eval(albums)]

# 使用嵌入模型将专辑标题转换为嵌入向量
album_title_embeddings = embeddings_model.embed_documents(album_titles)

# 遍历嵌入向量列表
for i in tqdm(range(len(album_title_embeddings))):
    # 获取当前专辑标题和对应的嵌入向量
    album_title = album_titles[i].replace("'", "''")
    album_embedding = album_title_embeddings[i]

    # 构建 SQL 命令，将嵌入向量更新到数据库中
    sql_command = (
        f'UPDATE "Album" SET "embeddings" = ARRAY{album_embedding} WHERE "Title" ='
        + f"'{album_title}'"
    )
    db.run(sql_command)

100%|██████████| 347/347 [00:01<00:00, 179.64it/s]


In [45]:


# 使用embeddings_model.embed_query()函数将查询语句"hope about the future"嵌入到向量空间中
embeded_title = embeddings_model.embed_query("hope about the future")

# 构建查询语句，从"Album"表中选择"Title"列，其中"Album"."embeddings"不为空，按照与embeded_title的距离排序，取前5个结果
query = (
    'SELECT "Album"."Title" FROM "Album" WHERE "Album"."embeddings" IS NOT NULL ORDER BY "embeddings" <-> '
    + f"'{embeded_title}' LIMIT 5"
)

# 运行查询语句
db.run(query)

"[('Realize',), ('Morning Dance',), ('Into The Light',), ('New Adventures In Hi-Fi',), ('Miles Ahead',)]"

现在我们可以将两个过滤器结合起来：

In [54]:


# 创建SQLDatabase对象，并传入连接字符串
db = SQLDatabase.from_uri(
    CONNECTION_STRING
)  # 重新连接到数据库，以便加载新的列信息。

In [49]:
# 调用full_chain的invoke方法，并传入一个字典作为参数
full_chain.invoke(
    {
        "question": "I want to know songs about breakouts obtained from top 5 albums about love"
    }
)

AIMessage(content='The songs about breakouts obtained from the top 5 albums about love are \'Royal Orleans\', "Nobody\'s Fault But Mine", \'Achilles Last Stand\', \'For Your Life\', and \'Hots On For Nowhere\'.')

这是一些**不同**的东西，使用标准元数据过滤器无法实现。