In [2]:
##########################
# 配置运行环境
##########################

%matplotlib inline

import numpy as np
import pandas as pd
from matplotlib import pyplot

# matplotlib 对中文的支持及保存为 pdf 格式
from matplotlib import font_manager
cn_font = font_manager.FontProperties(fname='msyh.ttf', size=16)  # 网上支持中文

from matplotlib import rcParams
# rcParams['font.family'] = 'Microsoft YaHei'  # 本地支持中文
rcParams['pdf.fonttype'] = 42
rcParams['figure.figsize'] = (8, 5)

# Look pretty...
from matplotlib import style
style.use('ggplot')

# 设置 numpy 的输出精度, 并且阻止使用科学记数法
np.set_printoptions(precision=6, suppress=True)

我们可以用多种不同的方式表示联合分布列. 例如随机变量 $W$ 和 $T$ 的联合分布列如下所示

| $\ $ | hot | cold |
|---|---|---|
| sunny | 3/10 | 1/5 |
| rainy | 1/30 | 2/15 |
|snowy | 0 | 1/3 |


方法 1: 利用字典存储联合分布列

In [None]:
joint_probs = {('sunny', 'hot'): 3/10,
               ('sunny', 'cold'): 1/5,
               ('rainy', 'hot'): 1/30,
               ('rainy', 'cold'): 2/15,
               ('snowy', 'hot'): 0,
               ('snowy', 'cold'): 1/3}

若我们想查询 $W = sunny$, $T = hot$ 的概率，可以使用语句

In [None]:
joint_probs[('sunny', 'hot')]

方法 2：利用 numpy 二维数组存储联合分布列

In [3]:
weather = ['sunny', 'rainy', 'snowy']
temperature = ['hot', 'cold']

joint_probs = np.array([[3/10, 1/5], [1/30, 2/15], [0, 1/3]])

我们可以使用如下语句读取数组数据，其中 `weather.index` 返回列表元素的序号.

In [4]:
joint_probs[weather.index('rainy'), temperature.index('cold')]

0.13333333333333333

为了方便按随机变量的取值调取数组数据，我们建立取值列表和数组下标之间的映射，其中 `enumerate` 函数生成列表元素和其序号的元组对.

In [5]:
row_index = {w: i for i, w in enumerate(weather)}
col_index = {t: i for i, t in enumerate(temperature)}

我们可以使用如下语句读取数组数据，简洁很多.

In [6]:
joint_probs[row_index['rainy'], col_index['cold']]

0.13333333333333333