# 向量和余弦相似度

## 向量

- 文本的“数学身份证”：把一段文字的**语义信息**，转换成一串固定长度的**数字列表**
- 文本嵌入模型通过深度学习等技术，从文本提取语义特征并映射为固定长度的数字序列

## 向量维度

- 向量维度是向量数字序列的长度，表示在不同数目主题（抽象）方向上的得分
- 比如：text-embedding-v1 模型能生成 1536 维向量
- 一般来说维度越多匹配越精准，性能开销也越大

## 余弦相似度

- 向量包括了方向和长度，余弦相似度撇除长度影响，得到方向夹角，夹角越小越相似
- 余弦相似度公式：
$\cos(\theta) = \frac{A \cdot B}{||A|| \cdot ||B||}$

In [3]:
import numpy as np

In [5]:
def get_dot(vec_a, vec_b):
    """计算2个向量的点积，2个向量同维度数字乘积之和"""
    if len(vec_a) != len(vec_b):
        raise ValueError("2个向量必须维度数量相同")

    dot_sum = 0
    for a, b in zip(vec_a, vec_b):
        dot_sum += a * b

    return dot_sum

In [6]:
def get_norm(vec):
    """计算单个向量的模长：对向量的每个数字求平方在求和在开根号"""
    sum_square = 0
    for v in vec:
        sum_square += v * v

    # numpy sqrt函数完成开根号
    return np.sqrt(sum_square)

In [7]:
def cosine_similarity(vec_a, vec_b):
    """余弦相似度：2个向量的点积 除以 2个向量模长的乘积"""

    result = get_dot(vec_a, vec_b) / (get_norm(vec_a) * get_norm(vec_b))
    return result

In [8]:
vec_a = [0.5, 0.5]
vec_b = [0.7, 0.7]
vec_c = [0.7, 0.5]
vec_d = [-0.6, -0.5]

print("ab:", cosine_similarity(vec_a, vec_b))
print("ac:", cosine_similarity(vec_a, vec_c))
print("ad:", cosine_similarity(vec_a, vec_d))

ab: 1.0
ac: 0.9863939238321436
ad: -0.995893206467704
