Chapter 02

# 余弦距离
Book_4《矩阵力量》 | 鸢尾花书：从加减乘除到机器学习 (第二版)

此代码加载了鸢尾花数据集，并提取了数据集中的几个特定数据点以计算它们之间的余弦距离和夹角余弦值。选取的特征包含所有特征，而数据点分别为第1、2、51、101个观测。

### 计算公式
代码使用余弦距离和余弦相似度来度量两个向量之间的相似性。

1. 余弦距离公式：

$$
\text{cosine\_distance} = 1 - \frac{x_1 \cdot x_2}{\|x_1\| \|x_2\|}
$$

2. 向量间夹角的余弦值：

$$
\cos \theta = \frac{x_1 \cdot x_2}{\|x_1\| \|x_2\|}
$$

余弦距离反映了两个向量间的角度差异，而夹角余弦值则用于计算向量的相似性。

## 导入所需库

In [1]:
from scipy.spatial import distance  # 导入SciPy库，用于计算向量间的距离
from sklearn import datasets  # 导入sklearn数据集模块
import numpy as np  # 导入NumPy库，用于数值计算

## 导入鸢尾花数据集

In [2]:
iris = datasets.load_iris()  # 加载鸢尾花数据集

## 使用前两个特征：萼片长度和萼片宽度

In [3]:
X = iris.data[:, :]  # 提取所有特征数据

## 提取4个数据点

In [4]:
x1_data = X[0, :]  # 第一个数据点
x1_data

array([5.1, 3.5, 1.4, 0.2])

In [5]:
x2_data = X[1, :]  # 第二个数据点
x2_data

array([4.9, 3. , 1.4, 0.2])

In [6]:
x51_data = X[50, :]  # 第51个数据点
x51_data

array([7. , 3.2, 4.7, 1.4])

In [7]:
x101_data = X[100, :]  # 第101个数据点
x101_data

array([6.3, 3.3, 6. , 2.5])

## 计算余弦距离和夹角余弦值

In [8]:
x1_x2_cos_dist = distance.cosine(x1_data, x2_data) 
# 计算x1和x2的余弦距离
x1_x2_cos_dist

0.0014208364959781283

In [9]:
x1_norm = np.linalg.norm(x1_data)  # 计算x1的L2范数

In [10]:
x2_norm = np.linalg.norm(x2_data)  # 计算x2的L2范数

In [11]:
x1_dot_x2 = x1_data.T @ x2_data  # 计算x1和x2的点积
x1_dot_x2

37.489999999999995

In [12]:
x1_x2_cos = x1_dot_x2 / x1_norm / x2_norm  # 计算x1和x2的夹角余弦值
x1_x2_cos

0.9985791635040218

In [16]:
1 - x1_x2_cos

0.0014208364959782394

In [15]:
x1_x2_cos_dist = distance.cosine(x1_data, x2_data)  # 计算x1和x2的余弦距离
x1_x2_cos_dist

0.0014208364959781283

In [13]:
x1_x51_cos_dist = distance.cosine(x1_data, x51_data)  # 计算x1和x51的余弦距离
x1_x51_cos_dist

0.07161964128508791

In [14]:
x1_x101_cos_dist = distance.cosine(x1_data, x101_data)  # 计算x1和x101的余弦距离
x1_x101_cos_dist

0.1399186683412712