# PGVector

> 使用 `postgres` 作为后端并利用 `pgvector` 扩展的 LangChain vectorstore 抽象的实现。

代码位于一个集成包中，名为：[langchain_postgres](https://github.com/langchain-ai/langchain-postgres/)。

## 状态

此代码已从 `langchain_community` 移植到一个专门的包中，名为 `langchain-postgres`。已做以下更改：

* langchain_postgres 仅支持 psycopg3。请将您的连接字符串从 `postgresql+psycopg2://...` 更新为 `postgresql+psycopg://langchain:langchain@...`（是的，驱动程序名称是 `psycopg` 而不是 `psycopg3`，但它将使用 `psycopg3`）。
* 更改了 embedding 存储和 collection 的 schema，以使 add_documents 能够正确处理用户指定的 id。
* 现在必须传递一个显式的连接对象。

目前，**没有机制**支持在 schema 更改时轻松迁移数据。因此，vectorstore 中的任何 schema 更改都将要求用户重新创建表并重新添加文档。
如果这对您来说是个问题，请使用不同的 vectorstore。如果不是，此实现应适合您的用例。

## 设置

首先下载合作伙伴包：

In [None]:
pip install -qU langchain_postgres

您可以通过运行以下命令来启动一个带有 `pgvector` 扩展的 postgres 容器：

In [None]:
%docker run --name pgvector-container -e POSTGRES_USER=langchain -e POSTGRES_PASSWORD=langchain -e POSTGRES_DB=langchain -p 6024:5432 -d pgvector/pgvector:pg16

### 凭证

运行此 notebook 无需任何凭证，只需确保您已下载 `langchain_postgres` 包并正确启动了 postgres 容器。

如果你想获得一流的自动化模型调用追踪，你也可以通过取消注释以下行来设置你的 [LangSmith](https://docs.smith.langchain.com/) API 密钥：

In [None]:
# os.environ["LANGSMITH_API_KEY"] = getpass.getpass("Enter your LangSmith API key: ")
# os.environ["LANGSMITH_TRACING"] = "true"

## 实例化

import EmbeddingTabs from "@theme/EmbeddingTabs";

<EmbeddingTabs/>

In [1]:
# | output: false
# | echo: false
from langchain_openai import OpenAIEmbeddings

embeddings = OpenAIEmbeddings(model="text-embedding-3-large")

In [None]:
from langchain_postgres import PGVector

# See docker command above to launch a postgres instance with pgvector enabled.
connection = "postgresql+psycopg://langchain:langchain@localhost:6024/langchain"  # Uses psycopg3!
collection_name = "my_docs"

vector_store = PGVector(
    embeddings=embeddings,
    collection_name=collection_name,
    connection=connection,
    use_jsonb=True,
)

## 管理向量商店

### 向向量商店添加项目

请注意，通过 ID 添加文档将覆盖所有匹配该 ID 的现有文档。

In [6]:
from langchain_core.documents import Document

docs = [
    Document(
        page_content="there are cats in the pond",
        metadata={"id": 1, "location": "pond", "topic": "animals"},
    ),
    Document(
        page_content="ducks are also found in the pond",
        metadata={"id": 2, "location": "pond", "topic": "animals"},
    ),
    Document(
        page_content="fresh apples are available at the market",
        metadata={"id": 3, "location": "market", "topic": "food"},
    ),
    Document(
        page_content="the market also sells fresh oranges",
        metadata={"id": 4, "location": "market", "topic": "food"},
    ),
    Document(
        page_content="the new art exhibit is fascinating",
        metadata={"id": 5, "location": "museum", "topic": "art"},
    ),
    Document(
        page_content="a sculpture exhibit is also at the museum",
        metadata={"id": 6, "location": "museum", "topic": "art"},
    ),
    Document(
        page_content="a new coffee shop opened on Main Street",
        metadata={"id": 7, "location": "Main Street", "topic": "food"},
    ),
    Document(
        page_content="the book club meets at the library",
        metadata={"id": 8, "location": "library", "topic": "reading"},
    ),
    Document(
        page_content="the library hosts a weekly story time for kids",
        metadata={"id": 9, "location": "library", "topic": "reading"},
    ),
    Document(
        page_content="a cooking class for beginners is offered at the community center",
        metadata={"id": 10, "location": "community center", "topic": "classes"},
    ),
]

vector_store.add_documents(docs, ids=[doc.metadata["id"] for doc in docs])

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

### 从向量存储中删除条目

In [14]:
vector_store.delete(ids=["3"])

## 查询向量存储

创建向量存储并添加文档后，您最有可能希望在链或代理运行时查询它。

### 筛选支持

向量存储支持一组过滤器，可应用于文档的元数据字段。

| 操作符 | 含义/类别                    |
|--------|------------------------------|
| \$eq   | 等于 (==)                    |
| \$ne   | 不等于 (!=)                  |
| \$lt   | 小于 (&lt;)                  |
| \$lte  | 小于等于 (&lt;=)            |
| \$gt   | 大于 (>)                     |
| \$gte  | 大于等于 (>=)                |
| \$in   | 特殊大小写 (in)              |
| \$nin  | 特殊大小写 (not in)          |
| \$between | 特殊大小写 (between)         |
| \$like | 文本 (like)                  |
| \$ilike | 文本 (不区分大小写的 like)   |
| \$and  | 逻辑 (and)                   |
| \$or   | 逻辑 (or)                    |

### 直接查询

执行简单的相似性搜索可以如下完成：

In [15]:
results = vector_store.similarity_search(
    "kitty", k=10, filter={"id": {"$in": [1, 5, 2, 9]}}
)
for doc in results:
    print(f"* {doc.page_content} [{doc.metadata}]")

* there are cats in the pond [{'id': 1, 'topic': 'animals', 'location': 'pond'}]
* the library hosts a weekly story time for kids [{'id': 9, 'topic': 'reading', 'location': 'library'}]
* ducks are also found in the pond [{'id': 2, 'topic': 'animals', 'location': 'pond'}]
* the new art exhibit is fascinating [{'id': 5, 'topic': 'art', 'location': 'museum'}]


如果您提供一个包含多个字段但没有操作符的字典，顶层将被解释为逻辑 **AND** 过滤器

In [16]:
vector_store.similarity_search(
    "ducks",
    k=10,
    filter={"id": {"$in": [1, 5, 2, 9]}, "location": {"$in": ["pond", "market"]}},
)

[Document(metadata={'id': 1, 'topic': 'animals', 'location': 'pond'}, page_content='there are cats in the pond'),
 Document(metadata={'id': 2, 'topic': 'animals', 'location': 'pond'}, page_content='ducks are also found in the pond')]

In [17]:
vector_store.similarity_search(
    "ducks",
    k=10,
    filter={
        "$and": [
            {"id": {"$in": [1, 5, 2, 9]}},
            {"location": {"$in": ["pond", "market"]}},
        ]
    },
)

[Document(metadata={'id': 1, 'topic': 'animals', 'location': 'pond'}, page_content='there are cats in the pond'),
 Document(metadata={'id': 2, 'topic': 'animals', 'location': 'pond'}, page_content='ducks are also found in the pond')]

如果你想执行相似性搜索并获取对应的分数，你可以运行：

In [18]:
results = vector_store.similarity_search_with_score(query="cats", k=1)
for doc, score in results:
    print(f"* [SIM={score:3f}] {doc.page_content} [{doc.metadata}]")

* [SIM=0.763449] there are cats in the pond [{'id': 1, 'topic': 'animals', 'location': 'pond'}]


要执行 `PGVector` 向量存储的各种搜索的完整列表，请参阅 [API 参考](https://python.langchain.com/api_reference/postgres/vectorstores/langchain_postgres.vectorstores.PGVector.html)。

### 通过转为检索器来查询

您还可以将向量存储转换为检索器，以便在链中使用。

In [7]:
retriever = vector_store.as_retriever(search_type="mmr", search_kwargs={"k": 1})
retriever.invoke("kitty")

[Document(metadata={'id': 1, 'topic': 'animals', 'location': 'pond'}, page_content='there are cats in the pond')]

## 用于检索增强生成的使用方法

有关如何使用此向量存储进行检索增强生成 (RAG) 的指南，请参阅以下部分：

- [教程](/docs/tutorials/)
- [操作指南：使用 RAG 进行问答](https://python.langchain.com/docs/how_to/#qa-with-rag)
- [检索概念文档](https://python.langchain.com/docs/concepts/retrieval)

## API 参考

如需 __ModuleName__VectorStore 的所有功能和配置的详细文档，请访问 API 参考：https://python.langchain.com/api_reference/postgres/vectorstores/langchain_postgres.vectorstores.PGVector.html