In [1]:
import matplotlib.pyplot as plt
import numpy as np

## 协方差
## 数值代表喜欢的电影类型程度
## 恐怖片、动作片、喜剧片、爱情片、武打片、剧情片、战争片
user1 = np.array([1, 1, 3, 2, 8, 2, 4])
user2 = np.array([2, 2, 3, 6, 8, 1, 1])
user3 = np.array([6, 8, 2, 1, 1, 3, 4])

## 计算user1、user2、user3的相关性
avg_1 = np.mean(user1)
avg_2 = np.mean(user2)
avg_3 = np.mean(user3)

dev_1 = user1 - avg_1
dev_2 = user2 - avg_2
dev_3 = user3 - avg_3

cov_12 = np.mean(dev_1 * dev_2)
cov_23 = np.mean(dev_2 * dev_3)
cov_31 = np.mean(dev_3 * dev_1)

cov_12, cov_23, cov_31
## cov_12 为正数,表明是正相关,也就是有相同爱好
## cov_23 为负数,表明是负相关,也就是爱好差别大

(np.float64(3.7142857142857144),
 np.float64(-3.877551020408163),
 np.float64(-3.2857142857142856))

In [2]:
print(np.mean(dev_1 * dev_1), np.mean(dev_1 * dev_2))
print(np.mean(dev_2 * dev_1), np.mean(dev_2 * dev_2))
## 记住这个矩阵--这个就是总体协方差

5.142857142857143 3.7142857142857144
3.7142857142857144 6.204081632653062


In [3]:
## 相关系数矩阵
np.corrcoef(user1, user2)

array([[1.        , 0.65755839],
       [0.65755839, 1.        ]])

In [4]:
## cov默认计算样本协方差,当ddof=0,就是总体协方差
## [[a方差, ab协方差], [ba协方差, b方差]]

cov_user1_user2 = np.cov(user1, user2) ### 这里计算的协方差为什么比我们自己算的协方差大呢???
print(cov_user1_user2) ## 因为这里用的是样本协方差,除以(n-1),而我们计算的是总体协方差,除以n,所以比较大

cov_user1_user2 = np.cov(user1, user2, ddof=0) ## 改成总体方差后,可以看到,值时一样的,都是3.714
print(cov_user1_user2)

[[6.         4.33333333]
 [4.33333333 7.23809524]]
[[5.14285714 3.71428571]
 [3.71428571 6.20408163]]


In [5]:
## 协方差矩阵
np.cov(user1, user2)

array([[6.        , 4.33333333],
       [4.33333333, 7.23809524]])

## 协方差公式
$\left[ \begin{array}{ccc}
1 & \frac{cov\_ab}{std\_a \times std\_b} \\
\frac{cov\_ba}{std\_b \times std\_a} & 1 \\
\end{array}
\right ]$

A = $[a_1, a_2, ..., a_n]$

B = $[b_1, b_2, ..., b_n]$

avg_a = $\frac{a_1 + a_2 + ... + a_n}{n}$

avg_b = $\frac{b_1 + b_2 + ... + b_n}{n}$

dev_a = A - avg_a

dev_b = B - avg_b

协方差

cov_ab = mean(dev_a x dev_b)

cov_ba = mean(dev_b x dev_a)

值为正,表示正相关; 有相似性

值为负,表示负相关; 有相反性

绝对值越大,表示相关性越强

这是数据分析和统计中的三个基础概念，常一起出现，下面从定义、公式、区别和联系几个方面来讲清楚：

---

## 📘 一、**方差（Variance）**

### ✅ 定义：
衡量数据波动程度的一种度量，表示数据点与均值之间的平均平方距离。

### ✅ 公式（总体方差）：

$$
\sigma^2 = \frac{1}{n} \sum_{i=1}^{n}(x_i - \mu)^2
$$

- $ x_i $：第 i 个样本
- $ \mu $：均值
- $ n $：样本数量

### ✅ 特点：
- 值越大，说明数据波动越大。
- 单位是原始单位的平方。

---

## 📘 二、**标准差（Standard Deviation）**

### ✅ 定义：
标准差是方差的平方根，用来表示数据与均值的平均偏离程度，单位与原始数据一致。

### ✅ 公式：

$$
\sigma = \sqrt{\frac{1}{n} \sum_{i=1}^{n}(x_i - \mu)^2} = \sqrt{\sigma^2}
$$

### ✅ 特点：
- 和数据单位一致，更直观。
- 在机器学习和金融分析中更常用。

---

## 📘 三、**协方差（Covariance）**

### ✅ 定义：
衡量两个变量是否同时变化（联动性）的指标。

### ✅ 公式：

$$
\text{Cov}(X, Y) = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})
$$

- $ x_i $, $ y_i $：X 和 Y 的样本点
- $ \bar{x}, \bar{y} $：各自的均值

### ✅ 特点：
- 协方差 > 0：正相关
- 协方差 < 0：负相关
- 协方差 = 0：无相关性（可能独立）

### 🧠 补充：
- 协方差不能直接比较，因为它的大小依赖于变量的单位。
- 因此通常会转换为相关系数（标准化的协方差）。

---

## 🧠 四、三者的关系总结：

| 项目      | 表达对象           | 是否标准化 | 结果可比性 |
|-----------|--------------------|-------------|-------------|
| 方差      | 单变量             | 否          | 否          |
| 标准差    | 单变量（√方差）    | 是          | 是（单位一致）|
| 协方差    | 双变量             | 否          | 否（单位依赖）|

---

## 🔢 示例（Python 演示）：

```python
import numpy as np

x = np.array([1, 2, 3, 4, 5])
y = np.array([2, 4, 6, 8, 10])

print("方差:", np.var(x))
print("标准差:", np.std(x))
print("协方差:", np.cov(x, y)[0, 1])
```

---

如果你想看可视化解释，比如协方差如何表示方向性，或者对实际数据应用这些概念，我可以帮你画图或者解释得更直观。需要吗？🙂