# Computing Embeddings

官方文档：https://sbert.net/docs/sentence_transformer/usage/usage.html

Sentence Transformer 是一个 Bi-Encoder，将文本编码为固定维度的向量（embedding），然后通过向量相似度来衡量文本语义相似性。

In [None]:
from sentence_transformers import SentenceTransformer

# 加载模型
model = SentenceTransformer("all-MiniLM-L6-v2")

sentences = [
    "The weather is lovely today.",
    "It's so sunny outside!",
    "He drove to the stadium.",
]

# encode() 将文本转为向量
embeddings = model.encode(sentences)
print("向量形状:", embeddings.shape)  # [3, 384]

In [None]:
# similarity() 计算向量间的相似度矩阵
similarities = model.similarity(embeddings, embeddings)
print(similarities)
# 对角线为1（自身相似度），天气相关的两句话相似度高，与开车那句相似度低

## encode_query / encode_document

某些模型（如 Qwen3-Embedding）对 query 和 document 使用不同的 prompt 前缀。
- `encode_query()` — 编码查询文本
- `encode_document()` — 编码文档文本

对于不区分 query/document 的模型（如 all-MiniLM-L6-v2），这两个方法等价于 `encode()`。

In [None]:
query_embedding = model.encode_query("What is the weather like?")
doc_embeddings = model.encode_document(sentences)

scores = model.similarity(query_embedding, doc_embeddings)
print("查询与各文档的相似度:", scores)