In [1]:
##########################
# 配置运行环境
##########################

%matplotlib inline

import numpy as np
import pandas as pd
from matplotlib import pyplot

# matplotlib 对中文的支持及保存为 pdf 格式
from matplotlib import font_manager
cn_font = font_manager.FontProperties(fname='msyh.ttf', size=16)  # 网上支持中文

from matplotlib import rcParams
# rcParams['font.family'] = 'Microsoft YaHei'  # 本地支持中文
rcParams['pdf.fonttype'] = 42
rcParams['figure.figsize'] = (8, 5)

# Look pretty...
from matplotlib import style
style.use('ggplot')

# 设置 numpy 的输出精度, 并且阻止使用科学记数法
np.set_printoptions(precision=6, suppress=True)

# 二元离散随机变量的期望



In [2]:
data = {
    ('患病', '治疗'): 20000,
    ('健康', '治疗'): 20000,
    ('患病', '不治疗'): 50000,
    ('健康', '不治疗'): 0
    }

方便起见，我们用 pandas.DataFrame 存储成本表。

In [3]:
cost_table = pd.DataFrame(np.zeros((2, 2)), columns=['治疗', '不治疗'], index=['健康', '患病'])

for key, value in data.items():
    cost_table.loc[key] = value
    
cost_table

Unnamed: 0,治疗,不治疗
健康,20000.0,0.0
患病,20000.0,50000.0


下面我们看看检测手段的精度。也就是是否真的患病和检查结果之间的关系。令随机变量 $X$ 表示患者是否健康。令随机变量 $Y$ 表示检测结果是阴性还是阳性。

In [4]:
conditional_probs = pd.DataFrame([[0.01, 0.99], [0.99, 0.01]], columns=['阳性', '阴性'], index=['健康', '患病'])

conditional_probs

Unnamed: 0,阳性,阴性
健康,0.01,0.99
患病,0.99,0.01


下面，我们看看当检测结果 $Y$ 呈 '阳性' 的时候，如何利用成本表帮助我们决定是否进行治疗。在 $Y$ 为阳性的情况下，有两种可能的情况

- 第一种是在 $Y = \text{阳性}$ 的情况下，$X = \text{患病}$，这一事件发生的概率为 $p_{X|Y}(\text{患病 }|\text{ 阳性}$。这种情形下成本为
    + 若我们决定治疗，成本为 20000
    - 若我们决定不治疗，成本为 50000
- 第二种是在 $Y = \text{阳性}$ 的情况下，$X = \text{健康}$，这一事件发生的概率为 $p_{X|Y}(\text{健康 }|\text{ 阳性}$。这种情形下成本为
    + 若我们决定治疗，成本为 20000
    - 若我们决定不治疗，成本为 0

综合考虑上述情形

- 若我们选择不治疗，则成本 $C$ 是一个随机变量，分布为 $p_{C|Y}(\cdot | \text{阳性})$. 
$$
E(C|Y=\text{阳性}) = 
$$

In [7]:
np.dot(cost_table.loc[:, '不治疗'], conditional_probs.loc[:, '阳性'])

49500.0

- 若我们选择治疗，则成本 $C$ 是一个随机变量，分布为 $p_{C|Y}(\cdot | \text{阳性})$. 
$$
E(C|Y=\text{阳性}) = 
$$

In [8]:
np.dot(cost_table.loc[:, '治疗'], conditional_probs.loc[:, '阳性'])

20000.0