# 概率、高斯和贝叶斯定理

In [7]:
%matplotlib inline

from lean import book_format
book_format.set_style()

## 一、介绍
上一章最后讨论了离散贝叶斯滤波器的一些缺点。**对于许多跟踪和滤波问题，我们渴望拥有一个单峰和连续的滤波器**。也就是说，我们希望使用浮点数学（连续）对系统进行建模，并且只有一个可信的表示（单峰）。例如，我们想说一架飞机位于 （12.34， -95.54， 2389.5），即纬度、经度和高度。我们不希望过滤器告诉我们“它可能在 （1.65， -78.01， 2100.45） 或可能在 （34.36， -98.23， 2543.79）”。这与我们对世界如何运作的物理直觉不符，正如我们所讨论的，计算多模态情况可能非常昂贵。当然，多个位置估计也就不可能用于导航

## 二、均值、方差和标准差
你们中的大多数人都接触过统计学，但是无论如何，请允许我再次介绍这些材料。我要求您阅读这些材料，即使您确定自己非常了解它。我有两个原因：首先，我想确保我们以同样的方式使用术语。其次，我努力形成对统计学的直观理解，这将在后面的章节中很好地为您服务。很容易完成统计课程，只记住公式和计算，也许对你所学内容的含义感到模糊。

### 1. 随机变量
每次掷骰子时，结果将在 1 到 6 之间。如果我们掷出一百万次质地均匀的骰子，我们在 1/6的时间会得到点数 1。因此，我们说结果 1 的概率或几率是 1/6。同样，如果我问你下一次掷骰的结果为 1 的可能性，你会回答 1/6。

这种值和相关概率的组合称为随机变量。这里的随机并不意味着这个过程是不确定的，只是我们缺乏关于结果的信息。掷骰子的结果是确定性的，但我们缺乏足够的信息来计算结果。我们不知道会发生什么，除了概率。

当我们定义时间时时，它的值的范围称为样本空间。对于骰子，样本空间为 {1， 2， 3， 4， 5， 6}。对于硬币，样本空间为{H，T}。空间是一个数学术语，意思是有结构的集合。骰子的样本空间是 1 到 6 范围内的自然数的子集。

随机变量的另一个例子是大学学生的身高。这里的样本空间是生物学定义的两个极限之间的实数值范围。

随机变量（如抛硬币和掷骰子）是离散随机变量。这意味着它们的样本空间由有限数量的值或可数无限数量的值（如自然数）表示。人类的身高被称为连续随机变量，因为它们可以在两个极限之间取任何实际值。

不要将随机变量的测量值与实际值混淆。如果我们只能测量一个人的身高到0.1米，我们只会记录0.1，0.2，0.3...2.7的值，产生27个离散选择。尽管如此，一个人的身高可以在这些范围之间的任意实值之间变化，因此身高是一个连续的随机变量。

在统计学中，大写字母用于随机变量，通常来自字母表的后半部分。所以，我们可以说 𝑋 是表示抛骰子的随机变量，或 𝑌 是新生诗歌班学生的高度。后面的章节使用线性代数来解决这些问题，因此我们将遵循向量使用小写和矩阵使用大写的惯例。不幸的是，这些约定是冲突的，您必须根据上下文确定作者正在使用哪个。我总是对向量和矩阵使用粗体符号，这有助于区分两者。

### 2.概率分布
概率分布给出了随机变量在样本空间中获取任何值的概率。例如，对于一个质地均匀的六面骰子，我们可能会说：

|值|概率|
|-----|-----------|
|1|1/6|
|2|1/6|
|3|1/6|
|4|1/6|
|5|1/6|
|6|1/6|

我们用小写的 p 表示此分布： p（x）使用普通的函数表示法，我们将会写做：

$$P(X{=}4) = p(4) = \frac{1}{6}$$

这说明骰子落在 4 上的概率为 1/6。 𝑃(𝑋=𝑥𝑘)是“概率 𝑋 存在 𝑥𝑘".请注意细微的符号差异。大写 𝑃 表示单个事件的概率，小写 𝑝 是概率分布函数。如果你不善于观察，这可能会让你误入歧途。有些文本使用 𝑃𝑟 而不是 𝑃 来改善这一点。

另一个例子是公平的硬币。它具有样本空间 {H， T}。硬币是公平的，所以正面（H）的概率是50%，反面（T）的概率是50%。我们把它写成：
$$\begin{gathered}P(X{=}H) = 0.5\\P(X{=}T)=0.5\end{gathered}$$

样本空间不是唯一的。骰子的一个样本空间是 {1， 2， 3， 4， 5， 6}。另一个有效的样本空间是 {偶数，奇数}。另一个可能是{所有角落的点，而不是所有角落的点}。样本空间只要涵盖所有可能性，并且任何单个事件仅由一个元素描述(事件相互独立)，它就是有效的。{even， 1， 3， 4， 5} 不是骰子的有效样本空间，因为值 4 与“偶数”和“4”匹配。

离散随机值的所有值的概率称为离散概率分布，连续随机值的所有值的概率称为连续概率分布。

作为概率分布，每个值的概率 𝑥i 必须是 𝑥i≥0，因为没有概率可以小于零。其次，所有值的概率之和必须等于 1。对于抛硬币来说，这应该直观地清楚：如果获得正面的几率是 70%，那么获得反面的几率必须是 30%。我们将此要求表述为:
- 对于离散分布
  $$\sum\limits_u P(X{=}u)= 1$$
- 对于连续分布
  $$\int\limits_u P(X{=}u) \,du= 1$$

在上一章中，我们使用概率分布来估计狗在走廊中的位置。例如：