In [1]:
##########################
# 配置运行环境
##########################

%matplotlib inline

import numpy as np
import pandas as pd
from matplotlib import pyplot

# matplotlib 对中文的支持及保存为 pdf 格式
from matplotlib import font_manager
cn_font = font_manager.FontProperties(fname='msyh.ttf', size=16)  # 网上支持中文

from matplotlib import rcParams
# rcParams['font.family'] = 'Microsoft YaHei'  # 本地支持中文
rcParams['pdf.fonttype'] = 42
rcParams['figure.figsize'] = (8, 5)

# Look pretty...
from matplotlib import style
style.use('ggplot')

# 设置 numpy 的输出精度, 并且阻止使用科学记数法
np.set_printoptions(precision=6, suppress=True)

# 二元离散随机变量的独立性

本节我们研究用 Python 检查二元离散随机变量的独立性。

考虑下列随机变量 $W, I, X, Y$，其中 $W$ 和 $X$ 的取值为 {晴天, 雨天, 阴天}，$I$ 和 $Y$ 的取值为 $0,1$。它们的联合分布列如下

In [2]:
joint_prob_WI = pd.DataFrame([[0, 1/2], [1/6, 0], [1/3, 0]], columns=[0, 1], index=['晴天', '雨天', '阴天'])

joint_prob_XY = pd.DataFrame([[1/4, 1/4], [1/6, 1/6], [1/12, 1/12]], columns=[0, 1], index=['晴天', '雨天', '阴天'])

In [12]:
print('随机变量 W, I 的联合分布列为 \n', joint_prob_WI.head())

随机变量 W, I 的联合分布列为 
            0    1
晴天  0.000000  0.5
雨天  0.166667  0.0
阴天  0.333333  0.0


In [13]:
print('随机变量 X, Y 的联合分布列为 \n', joint_prob_XY.head())

随机变量 X, Y 的联合分布列为 
            0         1
晴天  0.250000  0.250000
雨天  0.166667  0.166667
阴天  0.083333  0.083333


下面我们计算边缘分布 $p_W$ 和 $p_I$

In [5]:
prob_W = joint_prob_WI.sum(axis=1)
prob_I = joint_prob_WI.sum(axis=0)

In [20]:
print('随机变量 I 的边缘分布列为 {}'.format(prob_I.values))
print('随机变量 W 的边缘分布列为 {}'.format(prob_W.values))

随机变量 I 的边缘分布列为 [0.5 0.5]
随机变量 W 的边缘分布列为 [0.5      0.166667 0.333333]


In [7]:
prob_W

晴天    0.500000
雨天    0.166667
阴天    0.333333
dtype: float64

若 $W$ 和 $I$ 相互独立，则我们根据边缘分布就可以算出联合分布，也就是
$$
p_{W,I}(w, i) = p_W(w)p_I(i)
$$
根据线性代数的知识，我们只需将 $W$ 的分布列作为一个列向量，$I$ 的分布列作为行向量，它们的矩阵乘积就是它们独立情形下的联合分布列。

In [8]:
print(np.outer(prob_W, prob_I))

[[0.25     0.25    ]
 [0.083333 0.083333]
 [0.166667 0.166667]]


可见 $W$ 和 $I$ 不独立。下面我们检查 $X$ 和 $Y$ 是否独立。

In [36]:
prob_X = joint_prob_WI.sum(axis=1)
prob_Y = joint_prob_WI.sum(axis=0)

print(np.outer(prob_W, prob_I))

[[0.25     0.25    ]
 [0.083333 0.083333]
 [0.166667 0.166667]]


可见 $X$ 和 $Y$ 不独立。

## 独立与两两独立的区别

假设随机变量 $X$, $Y$ 相互独立，且都服从如下的分布

| 取值 | $-1$ | $1$ |
|-------|------|-----|
| 概率 | $0.5$ | $0.5$ |

我们称 $X$, $Y$ 独立同分布 (i.i.d.)。令随机变量 $Z = XY$，则下列说法正确的是
- (A) $X$, $Y$, $Z$ 的分布相同
- (B) $(X,Y)$, $(Y,Z)$, $(X,Z)$ 的联合分布相同
- (C) $X$, $Y$, $Z$ 两两独立
- (D) $X$, $Y$, $Z$ 独立

In [34]:
prob_X = pd.Series({'-1': 1/2, '1': 1/2})
prob_Y = pd.Series({'-1': 1/2, '1': 1/2})

由于 $X$, $Y$ 相互独立，因此 $P(Z) = P(XY) = P(X)P(Y)$，因此 $Z$ 的分布列为

In [None]:
prob_Z = pd.Series({'-1': 1/2, '1': 1/2})

下面我们检查 $X$, $Z$ 是否独立。由于 $P(XZ) = P(XXY) = P(X^2Y) = P(Y)$