In [None]:
import matplotlib.pyplot as plt
import numpy as np

## 协方差
## 数值代表喜欢的电影类型程度
## 恐怖片、动作片、喜剧片、爱情片、武打片、剧情片、战争片
user1 = np.array([1, 1, 3, 2, 8, 2, 4])
user2 = np.array([2, 2, 3, 6, 8, 1, 1])
user3 = np.array([6, 8, 2, 1, 1, 3, 4])

## 计算user1、user2、user3的相关性
avg_1 = np.mean(user1)
avg_2 = np.mean(user2)
avg_3 = np.mean(user3)

dev_1 = user1 - avg_1
dev_2 = user2 - avg_2
dev_3 = user3 - avg_3

cov_12 = np.mean(dev_1 * dev_2)
cov_23 = np.mean(dev_2 * dev_3)
cov_31 = np.mean(dev_3 * dev_1)

cov_12, cov_23, cov_31
## cov_12 为正数,表明是正相关,也就是有相同爱好
## cov_23 为负数,表明是负相关,也就是爱好差别大

In [17]:
print(np.mean(dev_1 * dev_1), np.mean(dev_1 * dev_2))
print(np.mean(dev_2 * dev_1), np.mean(dev_2 * dev_2))
## 记住这个矩阵--这个就是总体协方差

5.142857142857143 3.7142857142857144
3.7142857142857144 6.204081632653062


In [None]:
## 相关系数矩阵
np.corrcoef(user1, user2)

In [14]:
## cov默认计算样本协方差,当ddof=0,就是总体协方差
## [[a方差, ab协方差], [ba协方差, b方差]]

cov_user1_user2 = np.cov(user1, user2) ### 这里计算的协方差为什么比我们自己算的协方差大呢???
print(cov_user1_user2) ## 因为这里用的是样本协方差,除以(n-1),而我们计算的是总体协方差,除以n,所以比较大

cov_user1_user2 = np.cov(user1, user2, ddof=0) ## 改成总体方差后,可以看到,值时一样的,都是3.714
print(cov_user1_user2)

[[6.         4.33333333]
 [4.33333333 7.23809524]]
[[5.14285714 3.71428571]
 [3.71428571 6.20408163]]


$\left[ \begin{array}{ccc}
1 & \frac{cov\_ab}{std\_a \times std\_b} \\
\frac{cov\_ba}{std\_b \times std\_a} & 1 \\
\end{array}
\right ]$



In [9]:
## 协方差矩阵
np.cov(user1, user2)

array([[6.        , 4.33333333],
       [4.33333333, 7.23809524]])



A = $[a_1, a_2, ..., a_n]$

B = $[b_1, b_2, ..., b_n]$

avg_a = $\frac{a_1 + a_2 + ... + a_n}{n}$

avg_b = $\frac{b_1 + b_2 + ... + b_n}{n}$

dev_a = A - avg_a
dev_b = B - avg_b

协方差
cov_ab = mean(dev_a x dev_b)
cov_ba = mean(dev_b x dev_a)

值为正,表示正相关; 有相似性
值为负,表示负相关; 有相反性
绝对值越大,表示相关性越强



---

## 什么是协方差

协方差（Covariance）是统计学中用于衡量两个随机变量之间线性关系强度的指标。它描述了两个变量是否倾向于一起变化，以及变化的方向。

---

## 计算公式

协方差有两种形式：**样本协方差**和**总体协方差**，具体如下：

| **类型**       | **公式**                                                                                   | **符号说明**                              |
|----------------|--------------------------------------------------------------------------------------------|-------------------------------------------|
| 总体协方差     | $\text{Cov}(X, Y) = \frac{1}{n} \sum_{i=1}^{n} (x_i - \mu_x)(y_i - \mu_y)$                | $n$：数据总数<br>$\mu_x, \mu_y$：总体均值 |
| 样本协方差     | $\text{Cov}(X, Y) = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})$          | $n$：样本数<br>$\bar{x}, \bar{y}$：样本均值 |

- **区别**：
  - 总体协方差用 $n$ 作为分母，适用于已知总体数据。
  - 样本协方差用 $n-1$（Bessel 校正），适用于从总体中抽取的样本，减少偏差。

---

## 计算步骤

以样本协方差为例，计算两个变量 $X$ 和 $Y$ 的协方差：

| **步骤**         | **描述**                                              | **公式/操作**                          |
|------------------|-------------------------------------------------------|----------------------------------------|
| 1. 计算均值      | 计算 $X$ 和 $Y$ 的平均值                              | $\bar{x} = \frac{\sum x_i}{n}$<br>$\bar{y} = \frac{\sum y_i}{n}$ |
| 2. 计算偏差      | 每个数据点与均值的差                                  | $x_i - \bar{x}$<br>$y_i - \bar{y}$     |
| 3. 偏差乘积      | 将 $X$ 和 $Y$ 的偏差相乘                              | $(x_i - \bar{x})(y_i - \bar{y})$       |
| 4. 求和          | 对所有偏差乘积求和                                    | $\sum (x_i - \bar{x})(y_i - \bar{y})$  |
| 5. 除以分母      | 除以 $n-1$（样本）或 $n$（总体）                      | $\frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{n-1}$ |

---

## 示例计算

### 数据

| **X** | **Y** |
|-------|-------|
| 2     | 3     |
| 4     | 5     |
| 6     | 4     |
| 8     | 7     |

### 样本协方差计算

| **步骤**         | **计算过程**                                      | **结果**     |
|------------------|--------------------------------------------------|--------------|
| 均值 $\bar{x}$   | $\frac{2 + 4 + 6 + 8}{4} = 5$                   | 5            |
| 均值 $\bar{y}$   | $\frac{3 + 5 + 4 + 7}{4} = 4.75$                | 4.75         |
| 偏差乘积和       | $(2-5)(3-4.75) + (4-5)(5-4.75) + (6-5)(4-4.75) + (8-5)(7-4.75)$ | 11           |
|                  | $= (-3)(-1.75) + (-1)(0.25) + (1)(-0.75) + (3)(2.25)$ |              |
|                  | $= 5.25 - 0.25 - 0.75 + 6.75 = 11$              |              |
| 样本协方差       | $\frac{11}{4-1} = \frac{11}{3}$                 | ≈3.67        |

---

## 代码实现

### 使用 NumPy

| **方法**       | **代码**                                          | **输出**     |
|----------------|--------------------------------------------------|--------------|
| NumPy 计算     | ```python<br>import numpy as np<br>x = np.array([2, 4, 6, 8])<br>y = np.array([3, 5, 4, 7])<br>cov = np.cov(x, y)[0, 1]<br>print(cov)<br>``` | 3.6666666667 |

- **说明**：`np.cov` 返回协方差矩阵，`[0, 1]` 提取 $X$ 和 $Y$ 的协方差。

### 使用 Pandas

| **方法**       | **代码**                                          | **输出**     |
|----------------|--------------------------------------------------|--------------|
| Pandas 计算    | ```python<br>import pandas as pd<br>df = pd.DataFrame({'X': [2, 4, 6, 8], 'Y': [3, 5, 4, 7]})<br>cov = df['X'].cov(df['Y'])<br>print(cov)<br>``` | 3.6666666667 |

---

## 作用

| **作用**               | **描述**                                                                 | **示例场景**                       |
|-----------------------|--------------------------------------------------------------------------|------------------------------------|
| 衡量相关性方向         | 协方差为正：$X$ 增大时 $Y$ 倾向于增大；为负：$X$ 增大时 $Y$ 减小          | 股价与交易量正相关                 |
| 评估变量间关系强度     | 数值越大，变量间线性关系越强（但受量纲影响，需标准化为相关系数）          | 分析利率与债券价格的关系           |
| 金融风险分析           | 用于计算投资组合的风险（如资产间的协方差影响总波动）                    | 构建投资组合方差                  |
| 数据预处理             | 作为相关性分析的基础，帮助特征选择或降维（如 PCA）                       | 机器学习特征工程                   |

---

## 注意事项

| **项**           | **说明**                                                                 |
|------------------|--------------------------------------------------------------------------|
| 量纲影响         | 协方差值受变量单位影响，不直接反映相关性强度（可用相关系数 $\rho = \frac{\text{Cov}(X, Y)}{\sigma_x \sigma_y}$ 标准化） |
| 正负意义         | 仅表示方向，不代表因果关系                                               |
| 样本 vs 总体     | 样本协方差更常见，用于估计总体参数                                       |

---

## 总结

| **方面**         | **要点**                                                                 |
|------------------|--------------------------------------------------------------------------|
| 计算公式         | 样本协方差用 $n-1$，总体协方差用 $n$，基于偏差乘积和                     |
| 作用             | 衡量两个变量的线性关系方向和强度，广泛用于金融风险分析和数据处理         |
| 实现工具         | NumPy (`np.cov`) 和 Pandas (`Series.cov`) 提供便捷计算                   |

如果需要对特定数据计算协方差或进一步解释，请告诉我，我会调整内容并保持表格格式！

以下是关于“协方差（Covariance）”、“相关系数（Correlation Coefficient）”和“协方差矩阵（Covariance Matrix）”的回答，不使用 Markdown 格式，而是以纯文本形式呈现，并用表格组织内容。公式采用简单的文本表示，确保清晰易读。

---

定义

| 概念           | 定义                                                                 |
|----------------|----------------------------------------------------------------------|
| 协方差         | 衡量两个随机变量之间线性关系的方向和强度。                           |
| 相关系数       | 标准化后的协方差，衡量两个变量线性关系的强度和方向，取值范围为 [-1, 1]。 |
| 协方差矩阵     | 一个矩阵，表示多个变量两两之间的协方差，用于描述变量间的关系。       |

---

计算公式

| 概念           | 公式                                                                                     | 符号说明                            |
|----------------|------------------------------------------------------------------------------------------|-------------------------------------|
| 协方差 (样本)  | Cov(X, Y) = (1 / (n-1)) * Σ (x_i - x_mean)(y_i - y_mean)                                | n：样本数, x_mean, y_mean：均值     |
| 相关系数       | rho_X,Y = Cov(X, Y) / (sigma_x * sigma_y)                                                | sigma_x, sigma_y：标准差            |
| 协方差矩阵     | Σ = [Cov(X_1, X_1)  Cov(X_1, X_2)  ... ; Cov(X_2, X_1)  Cov(X_2, X_2)  ... ; ...]      | 对角线为方差，其余为协方差          |

说明：
- 总体协方差用 n 替代 n-1。
- 协方差矩阵是对称的。

---

示例数据

| X   | Y   | Z   |
|-----|-----|-----|
| 2   | 3   | 1   |
| 4   | 5   | 2   |
| 6   | 4   | 3   |
| 8   | 7   | 4   |

---

计算步骤

1. 协方差 (以 X 和 Y 为例)

| 步骤           | 计算过程                                          | 结果     |
|----------------|--------------------------------------------------|----------|
| 均值 x_mean    | (2 + 4 + 6 + 8) / 4 = 5                         | 5        |
| 均值 y_mean    | (3 + 5 + 4 + 7) / 4 = 4.75                      | 4.75     |
| 偏差乘积和     | (2-5)(3-4.75) + (4-5)(5-4.75) + (6-5)(4-4.75) + (8-5)(7-4.75) | 11       |
| 样本协方差     | 11 / (4-1) = 11 / 3                             | ≈3.67    |

2. 相关系数 (以 X 和 Y 为例)

| 步骤           | 计算过程                                          | 结果     |
|----------------|--------------------------------------------------|----------|
| 标准差 sigma_x | sqrt(((2-5)^2 + (4-5)^2 + (6-5)^2 + (8-5)^2) / 3) = sqrt(20/3) | ≈2.58    |
| 标准差 sigma_y | sqrt(((3-4.75)^2 + (5-4.75)^2 + (4-4.75)^2 + (7-4.75)^2) / 3) = sqrt(6.75/3) | ≈1.50    |
| 协方差         | 3.67 (从上表)                                    | 3.67     |
| 相关系数       | 3.67 / (2.58 * 1.50) = 3.67 / 3.87              | ≈0.95    |

3. 协方差矩阵

| 变量对         | 计算过程                                          | 结果     |
|----------------|--------------------------------------------------|----------|
| Cov(X, X)      | ((2-5)^2 + (4-5)^2 + (6-5)^2 + (8-5)^2) / 3     | 6.67     |
| Cov(X, Y)      | 3.67 (从上表)                                    | 3.67     |
| Cov(X, Z)      | ((2-5)(1-2.5) + (4-5)(2-2.5) + (6-5)(3-2.5) + (8-5)(4-2.5)) / 3 | 2.67     |
| Cov(Y, Y)      | ((3-4.75)^2 + (5-4.75)^2 + (4-4.75)^2 + (7-4.75)^2) / 3 | 2.25     |
| Cov(Y, Z)      | ((3-4.75)(1-2.5) + (5-4.75)(2-2.5) + (4-4.75)(3-2.5) + (7-4.75)(4-2.5)) / 3 | 1.25     |
| Cov(Z, Z)      | ((1-2.5)^2 + (2-2.5)^2 + (3-2.5)^2 + (4-2.5)^2) / 3 | 1.67     |

协方差矩阵：
$\begin{bmatrix}
6.67, 3.67,  2.67 \\
3.67, 2.25,  1.25 \\
2.67, 1.25,  1.67 \\
\end{bmatrix}$
---

代码实现

使用 NumPy

| 概念           | 代码                                              | 输出                                      |
|----------------|--------------------------------------------------|-------------------------------------------|
| 协方差         | import numpy as np<br>x = np.array([2, 4, 6, 8])<br>y = np.array([3, 5, 4, 7])<br>cov = np.cov(x, y)[0, 1]<br>print(cov) | 3.67                                      |
| 相关系数       | rho = np.corrcoef(x, y)[0, 1]<br>print(rho)      | 0.95                                      |
| 协方差矩阵     | z = np.array([1, 2, 3, 4])<br>data = np.vstack([x, y, z])<br>cov_matrix = np.cov(data)<br>print(cov_matrix) | [[6.67, 3.67, 2.67], [3.67, 2.25, 1.25], [2.67, 1.25, 1.67]] |

使用 Pandas

| 概念           | 代码                                              | 输出                                      |
|----------------|--------------------------------------------------|-------------------------------------------|
| 协方差         | import pandas as pd<br>df = pd.DataFrame({'X': [2, 4, 6, 8], 'Y': [3, 5, 4, 7]})<br>cov = df['X'].cov(df['Y'])<br>print(cov) | 3.67                                      |
| 相关系数       | rho = df['X'].corr(df['Y'])<br>print(rho)        | 0.95                                      |
| 协方差矩阵     | df['Z'] = [1, 2, 3, 4]<br>cov_matrix = df.cov()<br>print(cov_matrix) | See NumPy output                          |

---

作用

| 概念           | 作用                                                                     | 示例场景                          |
|----------------|--------------------------------------------------------------------------|-----------------------------------|
| 协方差         | 衡量两个变量线性关系的方向和强度，受量纲影响                             | 股价与交易量的关系                |
| 相关系数       | 标准化协方差，衡量线性关系的强度和方向，不受量纲影响                     | 利率与债券价格的相关性分析        |
| 协方差矩阵     | 描述多个变量间的关系，用于风险评估、降维（如 PCA）和投资组合优化         | 计算投资组合的波动风险            |

---

注意事项

| 项             | 说明                                                                     |
|----------------|--------------------------------------------------------------------------|
| 量纲           | 协方差受单位影响，相关系数无此问题                                       |
| 范围           | 协方差无界，相关系数范围为 [-1, 1]                                       |
| 对称性         | 协方差矩阵是对称矩阵，主对角线为方差                                     |

---

总结

| 方面           | 要点                                                                     |
|----------------|--------------------------------------------------------------------------|
| 协方差         | Cov(X, Y) 表示线性关系，受量纲影响                                       |
| 相关系数       | rho = Cov(X, Y) / (sigma_x * sigma_y)，标准化后范围 [-1, 1]               |
| 协方差矩阵     | 多变量协方差的矩阵形式，用于复杂关系分析                                 |

如果需要调整或对特定数据计算，请告诉我！