In [1]:
##########################
# 配置运行环境
##########################

%matplotlib inline

import numpy as np
import pandas as pd
from matplotlib import pyplot

# matplotlib 对中文的支持及保存为 pdf 格式
from matplotlib import font_manager
cn_font = font_manager.FontProperties(fname='msyh.ttf', size=16)  # 网上支持中文

from matplotlib import rcParams
# rcParams['font.family'] = 'Microsoft YaHei'  # 本地支持中文
rcParams['pdf.fonttype'] = 42
rcParams['figure.figsize'] = (8, 5)

# Look pretty...
from matplotlib import style
style.use('ggplot')

# 设置 numpy 的输出精度, 并且阻止使用科学记数法
np.set_printoptions(precision=6, suppress=True)

## 随机变量的定义

我们说过随机变量是定义在样本空间上的函数，下面我们看看如果样本空间已知，随机变量的定义也明确了，如果计算随机变量的分布

例如，样本空间为

| 取值 | Cat | Dog | Shark |
|-----|-----|-----|-----|
| 概率 | $0.2$ | $0.7$ | $0.1$ |

随机变量 $X$ 定义为

| 样本点 | Cat | Dog | Shark |
|-----|-----|-----|-----|
| 函数值 | 5 | 5 | 7 |

求随机变量 $X$ 的概率分布。

在 Python 中我们用字典存储一个离散分布. 例如
```
{'cat': 0.2, 'dog':0.7, 'shark':0.1}
```
其中 key 是变量的取值，value 是取值的概率.

In [2]:
def getPMF(X: dict, space: dict) -> dict:
    '''
    已知样本空间以及随机变量的定义，求随机变量的分布函数
    
    X: 随机变量的映射规则，是一个字典对象，key 是样本点，value 是数
    space: 样本空间，是一个字典对象，key 是样本点，value 是概率
    '''
    pmf = dict()
    domain = set(X.values())   # 随机变量所有可能的取值
    for x in domain:
        # 找出样本空间中所有对应于随机变量取值的样本点，将它们的概率相加
        pmf[x] = sum([space[e] for e in space.keys() if X[e] == x])
    return pmf

In [3]:
sample_space = {'cat': 0.2, 'dog':0.7, 'shark':0.1}

# 定义随机变量 X
X_mapping = {'cat': 5, 'dog': 5, 'shark': 7}

print(getPMF(X_mapping, sample_space))

{5: 0.8999999999999999, 7: 0.1}


## 服从给定分布的随机数

我们用如下的程序生成服从离散分布的随机数

In [4]:
def samplePMF(pmf: dict, size: int) -> list:
    """
    生成服从离散分布 pmf 的随机数
    pmf: 表示离散分布的字典，key 为取值，value 为概率.
    size: 要生存的随机数的个数
    """
    values, probs = zip(*pmf.items())
    return np.random.choice(values, p=probs, size=size).tolist()

In [5]:
print(samplePMF({'H':0.5,'T':0.5}, 20))

['T', 'H', 'H', 'T', 'T', 'H', 'H', 'T', 'T', 'H', 'H', 'H', 'H', 'T', 'T', 'H', 'T', 'T', 'H', 'T']


## n 个骰子点数和的分布

In [6]:
from itertools import product
from collections import Counter

dice_sum = [sum(dice) for dice in product(range(1, 7), range(1, 7), range(1, 7))]

dice_sum_dict = Counter(dice_sum)

dice_sum_probs = {key: dice_sum_dict[key]/(6**3) for key in range(3, 19)}

print(dice_sum_probs)

{3: 0.004629629629629629, 4: 0.013888888888888888, 5: 0.027777777777777776, 6: 0.046296296296296294, 7: 0.06944444444444445, 8: 0.09722222222222222, 9: 0.11574074074074074, 10: 0.125, 11: 0.125, 12: 0.11574074074074074, 13: 0.09722222222222222, 14: 0.06944444444444445, 15: 0.046296296296296294, 16: 0.027777777777777776, 17: 0.013888888888888888, 18: 0.004629629629629629}


## 几何分布模拟

In [7]:
import random

def rollDie() -> str:
    """
    返回 1 到 6 之间的一个字符
    """
    return random.choice(['1', '2', '3', '4', '5', '6'])


def getTarget(goal: str) -> int:
    """
    返回首次掷出指定点数所需的次数
    
    goal: 指定的点数
    """
    num_tries = 0

    while True:
        result = rollDie()
        num_tries += 1
        if result == goal:
            return num_tries


def runSim(goal: str, num_trials: int) -> float:
    """
    返回首次掷出指定点数所需的平均次数
    
    goal: 指定的点数
    num_trials: 试验重复的次数，相当于这么多个人各自独立的做相同的试验。
    """
    total = 0

    for i in range(num_trials):
        total += getTarget(goal)
    print( '平均投掷次数为 ', total/num_trials)

In [8]:
runSim( '5', 10000 )

平均投掷次数为  6.0116
