### 第二章 - 基本概率定律

#### 2.1 悖论
* 传统的定义：如果 P 是某种性质，那么全体具有性质 P 的对象就自然构成一个集合。
* 罗素悖论：$R = \{x : x \notin x\}$，如果 x = R ， 无论假设 $R \in R$ 还是 $R \notin R$ 都会得到 $R \in R$ 和 $R \notin R$ 同时成立的结论。

#### 2.2 集合论综述
* 学习概率论，我们需要集合论和拓扑中的一些基本事实。
* 无穷大的大小和概率：
  * 一对一映射（单射）：不同的输入对应到不同的输出。
  * 映上的（满射）：对于任意给定的 $b \in B$ 都存在一个 $a \in A$ 使得  f(a) = b ，那么就称 f : A -> B 是映上的。
  * 双射：既是一对一的又是映上的。
* 集合的大小：有限、可数、不可数
  * 有限：集合 A 中的元素与集合{1，2，...，n}之间存在一一对应关系，那么说 A 是大小（基数）为 n 的有限集。
  * 可数：如果集和 A 与正整数集有一个双射关系存在，就说集合 A 是可数的（可数集不仅有无穷多个元素，它的大小是最小的无穷大）。
  * 不可数：既不是有限，又不可数。（可以用对角化论证证明是否不可数）
* 开集和闭集
  * 矩形能更好的组合在一起，而圆和球更便于理论计算。
  * 包含边界的是闭集，不包含边界的是开集。

In [30]:
import math

def sumfoursquares(m_, print_=0):
    '''
    描述:
        计算 m = a^2 + b^2 + c^2 + d^2 的概率（其中 a >= b >= c >= d）
    
    参数:
        m_: 我们要考察的数
        print_: 等于 1 时输出所有有效的四元组
    '''
    count = 0 # 计算 m 可以写成 4 个平方数之和的概率
    lst = [] # 存储有效的四元组

    for a in range(0, int(math.sqrt(m_))+1):
        for b in range(0, min(a, int(math.sqrt(m_ - a**2)))):
            for c in range(0, min(b, int(math.sqrt(m_ - a**2 - b**2)))):
                d = math.sqrt(m_ - a**2 - b**2 - c**2)
                if a == 26 and b == 26 and c == 18:
                    print(d)
                if d >= 0 and d <= c and d.is_integer():
                    count += 1
                    lst.append((a, b, c, int(d)))

    print(f"The number of representations of {m_} as a sum of four squares with a >= b >= c >= d is {count}.")
    if print_ == 1:
        print(lst)


def slowsumfoursquares(m_, print_=0):
    '''
    描述:
        计算 m = a^2 + b^2 + c^2 + d^2 的概率（其中 a >= b >= c >= d）
    
    参数:
        m_: 我们要考察的数
        print_: 等于 1 时输出所有有效的四元组
    '''
    count = 0 # 计算 m 可以写成 4 个平方数之和的概率
    lst = [] # 存储有效的四元组

    for a in range(0, int(math.sqrt(m_))+1):
        for b in range(0, a+1):
            for c in range(0, b+1):
                for d in range(0, c+1):
                    if (a**2 + b**2 + c**2 + d**2) == m_:
                        count += 1
                        lst.append((a, b, c, d))

    print(f"The number of representations of {m_} as a sum of four squares with a >= b >= c >= d is {count}.")
    if print_ == 1:
        print(lst)

In [29]:
%time sumfoursquares(2000)

The number of representations of 2000 as a sum of four squares with a >= b >= c >= d is 5.
CPU times: user 7.45 ms, sys: 0 ns, total: 7.45 ms
Wall time: 7.42 ms


In [20]:
%time slowsumfoursquares(2000)

The number of representations of 2000 as a sum of four squares with a >= b >= c >= d is 17.
CPU times: user 128 ms, sys: 0 ns, total: 128 ms
Wall time: 128 ms


In [13]:
%time sumfoursquares(20000)

The number of representations of 20000 as a sum of four squares with a >= b >= c >= d is 0.
CPU times: user 113 ms, sys: 0 ns, total: 113 ms
Wall time: 112 ms


In [14]:
%time slowsumfoursquares(20000)

The number of representations of 20000 as a sum of four squares with a >= b >= c >= d is 60.
CPU times: user 8.84 s, sys: 0 ns, total: 8.84 s
Wall time: 8.84 s


In [15]:
%time sumfoursquares(40000)

The number of representations of 40000 as a sum of four squares with a >= b >= c >= d is 0.
CPU times: user 314 ms, sys: 0 ns, total: 314 ms
Wall time: 313 ms


In [16]:
%time slowsumfoursquares(40000)

The number of representations of 40000 as a sum of four squares with a >= b >= c >= d is 67.
CPU times: user 35 s, sys: 0 ns, total: 35 s
Wall time: 35 s


In [17]:
slowsumfoursquares(2000, 1)

The number of representations of 2000 as a sum of four squares with a >= b >= c >= d is 17.
[(26, 26, 18, 18), (28, 24, 24, 8), (30, 26, 18, 10), (30, 30, 10, 10), (30, 30, 14, 2), (32, 24, 16, 12), (32, 24, 20, 0), (34, 18, 18, 14), (34, 22, 18, 6), (36, 24, 8, 8), (38, 18, 14, 6), (38, 22, 6, 6), (40, 16, 12, 0), (40, 20, 0, 0), (42, 10, 10, 6), (42, 14, 6, 2), (44, 8, 0, 0)]


In [31]:
sumfoursquares(2000, 1)

The number of representations of 2000 as a sum of four squares with a >= b >= c >= d is 5.
[(30, 26, 18, 10), (32, 24, 16, 12), (36, 24, 8, 8), (38, 18, 14, 6), (38, 22, 6, 6)]


#### 2.3 结果空间、事件和概率公理
* 概率论入门时可以靠直觉来理解，但是遇到无穷大时需要小心被误导。
* 结果空间（样本空间）：我们假设所有可能的结果都是某个给定集合 $\Omega$ 的子集，我们把 $\Omega$ 称为样本空间。
* 事件：样本空间 $\Omega$ 中元素称为事件。
* 概率函数：有了结果空间 $\Omega$ ，我们就想为 $\Omega$ 中的不同元素指定概率，为此引入了概率函数 Prob（通常用 Pr(A) 表示事件 A 发生的概率）
  * 对概率函数的期望：
    * 对于任意的事件 A ，均有 $0 \leq \Pr(A) \leq 1$ . 如果 $\Omega$ 是结果空间，那么 $\Pr($\Omega$) = 1$
    * 如果 ${A_i}$ 是一组两辆互不相交的集合（也就是说，当 j != k 时 $A_j \cap A_k$ 是空集），那么 $Pr(\cup A_i) = \sum_iPr(A_i)$
* 解决不均匀概率的重复实验问题的概率可以用$\color{yellow}{概率树}$的方法。（选取考察次数时保证树中元素都是整数可以简化计算避免错误）。

#### 2.4 概率公理
* 不可数是比可数更大的无穷大，当无穷大出现时直觉和经验可能会误导我们。
* 概率空间：三元组 $(\Omega,\Sigma,Prob)$ (函数 $Prob$ 分配概率到 $\Sigma$ 的子集，$\Sigma$ 是一个定义了函数 $Prob$ 的特殊 $\sigma$ 代数，且是 $\Omega$ 的所有子集的集合)
* （柯尔莫戈洛夫）概率公理：$\Omega$ 是个结果空间，$\Sigma$ 是个 $\sigma$ 代数。如果概率函数满足如下的条件，则 $(\Omega,\Sigma,Prob)$ 就是个概率空间。
  * 如果 $A \in \Sigma$ 那么 $\Pr(A)$ 是有定义的，且 $0 \leq \Pr(A) \leq 1$
  * $\Pr(\varnothing) = 0 且 \Pr(\Omega) = 1$
  * 设 $\{A_i\}$ 是由有限个或可数个两两互不相交的集合构成的集族，且每个集合都是 $\Sigma$ 中的元素。那么 $\Pr(\cup_iA_i) = \Sigma_i\Pr(A_i)$ 

#### 2.5 基本概率规则
* 概率不是分配给所有事件，而是只对特殊集合分配概率。
* 概率空间的有用规则：（设 $\Omega,\Sigma,Prob$ 是个概率空间）
  * 全概率公式：如果 $A \in \Sigma$ ，那么 $Pr(A) + Pr(A^c) = 1$ , 也就是说 $Pr(A) = 1 - Pr(A^c)$
  * 容斥原理：$Pr(A \cup B) = Pr(A) + Pr(B) - Pr(A \cap B)$ $\color{yellow}{=>}$ $Pr(A_1 \cup A_2 \cup A_3) = Pr(A_1) + Pr(A_2) + Pr(A_3) - Pr(A_1 \cap A_2) - Pr(A_1 \cap A_3) - Pr(A_2 \cap A_3) + Pr(A_1 \cap A_2 \cap A_3)$
  * 如果 $A \subset B$ , 那么 $Pr(A) \leq Pr(B)$ 。 然而，如果 $A$ 是 $B$ 的真子集，那么不一定有 $Pr(A) < Pr(B)$ , 但是确定有 $Pr(B) = Pr(A) + Pr(B \cap A^c)$ , 其中 $B \cap A^c$ 指的是 $B$ 中不属于 $A$ 的所有元素。
  * 如果对于任意的 $i$ , 均有 $A_i \subset B$ , 那么 $Pr(\cup_iA_i) \leq Pr(B)$
* 条件概率：顺序在前的选择影响后续的选择。
* 一些技巧
  * 文氏图：图形化方式描述结果空间 $\Omega$ 的一种方式。
  * 数学中什么都不做的技巧：加 0 、乘 1 。
  * 对集合运算来说，求交集比求并集更简单。
  * 对于给定的并集，通常希望能把它写成几个不互相交的集合的并。

#### 2.6 概率空间和 $\sigma$ 代数
* 巴纳赫塔尔斯基悖论：三维的球，平移或旋转不会导致其体积变化。但是球体等分 5 分，再将其中 3 分合成一个球、另 2 分合成另一个球，则可以让其体积涨一倍。
* 谨慎的考虑什么才能被看作事件。
* $\sigma$ 代数：设 $\Omega$ 是一个集合，$\Sigma$ 是由 $\Omega$ 的子集构成的一个非空集合。那么在如下前提下，$\Sigma$ 是一个 $\sigma$ 代数。
  * 如果 $A \in \Sigma$ , 那么有 $A^c \in \Sigma$ 。
  * $\Sigma$ 的子集的可数并仍属于 $\Sigma$ ：如果每一个 $A_i$ 均满足 $A_i \in \Sigma$ ，那么 $\cup_{i=1}^{\infty}A_i \in \Sigma$
* $\sigma$ 代数 $\Sigma$ 中的元素称为事件。
* （柯尔莫戈洛夫）概率公理：设 $\Sigma$ 是结果空间 $\Omega$ 的一个 $\sigma$ 代数。我们可以定义一个概率函数 $Prob : \Sigma -> [0, 1]$ 。换言之，可以为 $\Sigma$ 中满足以下性质的每个元素分配一个 0 和 1 之间的概率。
  * 对于任意的事件 $A \in \Sigma$ ，均有 $0 \leq Pr(A) \leq 1$ 。有些教材称之为 $\color{yellow}{概率第一公理}$ 。
  * 如果 $\Omega$ 是结果空间，那么 $Pr(\Omega) = 1$ 。这有时被称之为 $\color{yellow}{概率第二公理}$ 。
  * 如果 $\{A_i\}$ 是 $\Sigma$ 中可数个两两互不相交的集合，那么 $Pr(\cup_iA_i) = \Sigma_iPr(A_i)$ 。这通常被称之为 $\color{yellow}{概率第三公理}$ 。由此可以直接推出的一个重要结果是 $\color{yellow}{全概率公式}$：$Pr(A) + Pr(A^c) = 1$ ，另外，如果 $A \subset B$ ，那么 $Pr(A) \leq Pr(B)$ 。
* 当试图给不可数集的每个事件分配概率时，就会出现麻烦。（无法对不可数集、可数无限集定义一个均匀的概率函数）
* 对于不可数集，必须把正的概率分配给不可数个事件。
* 对于包含无限多个元素的集合，给每个事件分配概率为 0 ，那么概率之和就是 0 、给每个事件分配概率为 > 0 ，那么概率之和就是 无穷大。不符合概率公理，也就是无法分配概率。