# 概率论（Probability Theory）

这里区分概率论与数理统计：概率论与数理统计其实应该是两个学科。概率论重点研究**如何定量的描述随机现象与其规律（它是数学的一个分支）**。数理统计则是重点研究数据，包括数据的收集、整理、分析和建模，从而**给出数据现象的某些规律进行预测或决策**。

## 1. 随机变量（Random variable）

随机变量是**针对随机实验的**，它是一个随机实验产生的可能的结果的集合。假设有一个实验，其内容为随机地在校园内观察一个人的性别。则针对这个随机实验，它对应的随机变量$X$是离散型的，其全部可能的取值为`{a1='boy', a2='girl'}`，$X$的概率函数为：

> $p_i=P(X=a_i), i=1,2$



## 2. 最大似然估计（Maximum likelihood estimate）

针对$N$次随机试验，随机变量$X$的某一个取值$a_k$出现了$k$次，则$\dfrac{k}{N}$称为$a_k$在这$N$次实验中的相对频率。当$N$越来越大时，这个值将越来越接近其真实的概率分布$p_k$，这时候可用相对频率作为概率的估计值，这种估计方法称为**最大似然估计**。

## 3. 条件概率（Conditional probability）

假设$A$跟$B$是样本空间上两个事件，比如可能：$A$事件表示观察到一个同学是男生；$B$事件表示观察到一个同学穿长裤。那么观察到一个同学是男生它穿长裤的条件概率$P(B|A)$为：

> $P(B|A)=\dfrac{P(B,A)}{P(A)}$

其中$P(B,A)$表示事件$A$与事件$B$同时发生的概率，上述公式可推广到任意有穷多个事件时的情况：

> $P(A_1 A_2...A_n)=P(A_1)P(A_2|A_1)P(A_3|A_2A_1)...P(A_n|A_{n-1}...A_1)$

需要说明一点，要计算条件概率，两个随机变量必须有交集。如下图所示：

![](./resources/cond_prob.png)

条件概率$P(B|A)$就是紫色部分面积占左边整个圆圈的比例。条件概率其实跟一般的概率定义一样，都是求样本空间S中发生的概率，不过条件概率的样本空间由S变成了条件的样本空间。

> 参考：如何形象地理解条件概率及运算公式？ - 王赟 Maigo的回答 - 知乎
https://www.zhihu.com/question/29155526/answer/88287808

## 4. 贝叶斯法则（Bayesian theorem）

结合条件概率的表达，可以得到贝叶斯法则为：

> $P(B|A)=\dfrac{P(B,A)}{P(A)}=\dfrac{P(A|B)P(B)}{P(A)}$

注意可以认为其中的$P(A)$是一个常量，因为求的是在事件$A$发生的情况下事件$B$发生的概率。

令$B_1,B_2,...,B_n$为样本空间的一个划分，则求事件$A$发生的概率可以使用**全概率公式**：

> $P(A)=\sum_iP(A|B_i)P(B_i)$

加入全概率公式后，贝叶斯法则的精确描述为：

> $P(B_j|A)=\dfrac{P(A|B_j)P(B_j)}{\sum_iP(A|B_i)P(B_i)}$

怎么使用贝叶斯法则来做预测：通常我们希望从观测到的信息来做预测，假设这个观测到的信息是X,要预测的是Y，则要求的是$P(Y|X)$，但是我们并没有这个信息，我们能知道的是在知道Y的情况下，X的分布表现，这样就刚好可以用贝叶斯法则的右边部分来计算了。

### 样本空间划分

设$B_1,B_2,...,B_n$是一组事件,若满足以下：

- 对于任意的$i \neq j \in \{1,2,...,n\}, B_i \cap B_j=\emptyset$
- $B_1\cup B_2 \cup...\cup B_n=\text{Sample space}$

则称$B_1,B_2,...,B_n$是样本空间（Sample space）的一个划分。

## 5. 期望, 方差, 标准差

### 期望

数学期望描述了**一个随机变量的平均预期取值**. 假设$X$是一个随机变量, $P(X=x_i)$是它的概率分布函数, 其期望为:

> $E(X)=\sum_{k=1}^nx_kP(X=x_k)$

期望计算过程类似信息论中的信息熵，后者只是将$x_k$换成了信息量。

### 方差

方差用于**衡量随机变量或者统计数据的离散程度**。从随机变量的角度来讲不存在偏差，而从统计的角度将是存在偏差的。

统计数据的方差通过计算每个变量与总体均值之间的差异来获得, 其计算公式为:

> $\sigma^2=\dfrac{\sum_{i=1}^n(x_i-\mu)^2}{n}$

其中$\sigma^2$是方差, $x_i$为每个数据值, $\mu$是整体均值, $n$为整体数据总数. 使用平方是为了避免出现离均差总和为0的情况. 与上面不太一样, 概率分布里面随机变量的方差定义为:

> $D(X) = E[(X-E(X))^2] = E(X^2)-E(X)^2$ 

其$E(X)$为随机变量的期望.

### 标准差 (Standard Deviation)

又叫均方差, 是方差的算数平方根. 统计中的计算方式如下:

> $\sigma=\sqrt{\dfrac{\sum_{i=1}^n(x_i-\mu)^2}{n}}$

方差与标准差都是用于衡量样本分布的离散程度,只是量纲不同.

## 6.无偏估计

注意均方差与方差是不一样的，均方差是连续值预测的损失函数：

$MSE=\dfrac{1}{n}\sum(y_i-y_i')^2$

方差是衡量样本相对于期望值的离散程度:

$Var = \dfrac{1}{n-1}\sum(y_i-\hat{y})^2$

为什么使用n-1，因为假设$\hat{y}$是真实的数学期望就用n（使这个时候就是无偏估计），但是实际上一般这个值我们是根据已有样本算出来的均值，这样估计出来的方差会偏小，所以使用n-1让这个值变大点，这样就也变成无偏估计了。

## 7. 概率分布

对于生活中发生的任意一件事情，我们可以：

- **可以从概率论的角度分析每种结果出现的概率**；
- **可以从信息论的角度分析每种结果携带的信息量**；

实际上分析信息量就需要在概率分布的基础上做。针对概率论部分，很多时候，我们可能更关心的是**概率分布**，而不是最可能出现的单个结果。需要注意：概率分布各种结果的概率之和恒等于1。

我们通过日常观察与统计发现，有些随机变量的发生**始终满足一些分布规律**，我们就将这些规律给总结了出来。根据随机变量是离散的还是连续的，可以将常见的分布分为：

- 离散概率分布：伯努利分布，二项分布，泊松分布；
- 连续概率分布：均匀分布，指数分布，正态分布；

本节参考：

- [伯努利分布、二项分布、多项分布、Beta分布、Dirichlet分布](https://blog.csdn.net/kingzone_2008/article/details/80584743)
- [概率论中的六种常用分布](https://blog.csdn.net/cyydjt/article/details/82900989)

### 离散概率分布

#### 1. 伯努利分布（Bernoulli distribution）

又称"零一分布"，其只有一个参数$p(1<p<1)$，它分别以概率$p$和$1-p$取1和0为值。该分布期望为$p$，方差为$p(1-p)$。这个分布分析的是在一次实验中**随机变量取1或0的概率分布**。

#### 2. 二项分布（Binomial distribution）

二项分布就是重复n次独立的伯努利试验。且每次试验中只有两种可能的结果，两种结果发生的概率在所有实验中也都一样。设$X$代表n次实验中结果为1的次数，则$X$符合二项分布，记为$X-B(n,p)$。其概率密度函数为：

> $p(x)=C_n^xp^x(1-p)^{n-x}$。

- 期望(表示某事情发生n次，预期成功多少次)：$E(x)=np$；
- 标准差：$\sigma(x)=\sqrt{np(1-p)}$；

这个分布实际上分析的是，随机变量中某一个取值（只有两个取值）在n次实验中**出现次数的概率分布**，如掷硬币100次，正面出现10次的概率。这里解释为什么使用组合数：其实排列组合就是一种数理统计过程中对于抽样部分的规律总结。常见的符合二项分布的事件：

- 抛掷一枚均质硬币，扔20次，有多少次扔出正面？
- 想像一个瓮，其中放着数量相等的白球和黑球。闭上你的眼睛，从瓮里抽一个球，并记录它是不是黑球，接着把这个球放回。重复这一过程。你有多少次抽到黑球？

二项分布的衍生版本：

- **多项式分布(Multinomial Distribution)**：与二项分布类似的还有多项式分布(Multinomial Distribution)，二项式做n次伯努利实验，规定了每次试验的结果只有两个，如果现在还是做n次试验，只不过每次试验的**结果可以有m个**，且m个结果发生的概率互斥且和为1，则发生其中一个结果X次的概率就是多项式分布。

- **超几何分布**：在上面的取球的场景中，如果我们不放回抽取的球，那么结果计数就遵循超几何分布。即：超几何分布相比于二项分布移除球后取到某球的概率改变了。但是，如果球的总数相对抽取数很大，那么这两个分布是类似的，因为随着每次抽取，成功的几率改变很小。实际上超几何分布更符合人们的操作方式。因为在现实生活中很难有人用球装满一个瓮，接着从中抽球，然后放回。

#### 3. 泊松分布（Poisson distribution）

假设在任意相同的时间范围内，事件发生的概率相同，泊松分布就是描述一段时间内，发生**某件事件x次的概率分布**。比如搞了个促销抽奖活动，只知道1天内中奖的平均个数为5个，你想知道1天内恰巧中奖次数为7的概率是多少。泊松分布概率分布函数：

> $p(x)=\dfrac{\lambda^xe^{-\lambda}}{x!}$，

其中$\lambda$就是一段时间内事件的平均发生次数，x是我想知道发生多少次的那个值。泊松分布的期望与方差都为$\lambda$。

泊松分布与二项分布都是描述某个事件发生次数的概率分布。

### 连续概率分布

#### 1. 均匀分布

就是一次实验有多个结果，其每个结果发生的概率相等。均匀分布由两个参数a和b定义，它们是数轴上的最小值和最大值。其概率密度函数为：

> $f(x)=\dfrac{1}{b-a},a<x<b; \ f(x)=0,otherwise;$

#### 2.指数分布

#### 3. 正态分布 (Normal Distribution)

若随机变量$X$服从一个数学期望为$μ$、方差为$σ^2$的正态分布，记为$N(μ，σ^2)$。其概率密度函数为正态分布的期望值$μ$决定了其位置，其标准差$σ$决定了分布的幅度。当$μ = 0,σ = 1$时的正态分布是标准正态分布。其表达式如下：

> $f(x)=\dfrac{1}{\sqrt{2\pi}\sigma}exp(-\dfrac{(x-\mu)^2}{2\sigma^2})$

其被记为$X-N(\mu,\sigma^2)$，正态分布满足:

- 横轴区间（μ-σ，μ+σ）内的面积为68.2%;
- 横轴区间（μ-2σ，μ+2σ）内的面积为95.4%; 
- 横轴区间（μ-3σ，μ+3σ）内的面积为99.7%;

**现实生活中很多统计信息都是符合正态分布**，如人的身高，考试成绩。当影响结果的因素特别多，没有哪个因素可以完全左右结果时，这个结果通常就呈现正态分布。