# 随机变量及其分布 Random Variable and its Distribution

包括以下内容：
    1. 随机变量 Random Variable
    2. 伯努利分布 Bernoulli Distribution
    3. 二项分布 Binomial Distribution
    4. 泊松分布 Poisson Distribution
    5. 均匀分布 Uniform Distribution
    6. 指数分布 Exponential Distribution
    7. 正态分布 Normal Distribution

引入科学计算及绘图相关包

In [1]:
import numpy as np
import pandas as pd
from pandas import Series, DataFrame
# 引入绘图包
import matplotlib.pyplot as plt
%matplotlib inline

### 1. 随机变量 Random Variable

定义：设随机试验的样本空间为 S = {e}。X = X(e)是定义在样本空间S上的实值单值函数。称 X = X(e)为随机变量。

例：将一枚硬币抛掷三次，观察出现正面和反面的情况，样本空间是
S = {HHH, HHT, HTH, THH, HTT, THT, TTH, TTT}。
以X记三次投掷得到正面H的总数，那么，对于样本空间 S = {e}（用 e 代表样本空间的元素，而将样本空间记成{e}）中的每一个样本点 e，X 都有一个数与之对应。X 是定义在样本空间 S 上的一个实值单值函数。它的定义域是样本空间 S，值域是实数集合{0, 1, 2, 3}。使用函数记号可将X写成
$$ X = X(e) =\left\{
\begin{aligned}
3 & , e = HHH, \\
2 & , e = HHT, HTH, THH, \\
1 & , e = HTT, THT, TTH, \\
0 & , e = TTT.
\end{aligned}
\right.
$$

有许多随机试验，它们的结果本身是一个数，即样本点 e 本身是一个数。我们令 X = X(e) = e，那么 X 就是一个随机变量。例如，用 Y 记某车间一天的缺勤人数，以 W 记某地区第一季度的降雨量，以 Z 记某工厂一天的耗电量，以 N 记某医院一天的挂号人数。那么 Y, W, Z, N 都是随机变量。

一般用大写的字母如 X, Y, Z, W, ... 表示随机变量，而以小写字母 x, y, z, w, ... 表示实数。

随机变量的取值随试验的结果而定，而试验的各个结果出现有一定的概率，因为随机变量的取值有一定的概率。例如，在上述例子中 X 取值为2，记成{X = 2}，对应样本点的集合 A = {HHT, HTH, THH}，这是一个时间，当且仅当事件 A 发生时有{X = 2}。我们称概率P(A) = P{HHT, HTH, THH}为{X = 2}的概率，即P{X = 2} = P(A) = 3 / 8。以后，还将事件 A = {HHT, HTH, THH}说成是事件{X = 2}。类似地有
$$ P\{X \leq 1\} = P\{HTT, THT, TTH, TTT\} = \frac{1}{2} $$

一般，若 L 是一个实数集合，将 X 在 L 上的取值写成{X ∈ L}。它表示事件 B = {e | X(e) ∈ L}，即 B 是由 S 中使得 X(e) ∈ L 的所有样本点 e 所组成的事件，此时有
$$ P\{X \in L \} = P(B) = P\{ e | X(e) \in L\} $$

#### 1.1 离散型随机变量

有些随机变量，它全部可能取到的值是有限个或可列无限多个，这种随机变量称为**离散型随机变量**。

容易知道，要掌握一个离散型随机变量 X 的统计规律，必须且只需知道 X 的所有可能取值以及取每一个可能值的概率。

设离散型随机变量 X 的所有可能取的值为 $x_k$(k = 1, 2, ...)，X 取各个可能值的概率，即事件{X = $x_k$}的概率，为
$$ P\{X = X_k \} = p_k，k = 1,2, ... $$
由概率的定义，p<sub>k</sub>满足如下两个条件：
$$ p_k \geq 0, k = 1,2，...; $$
$$ \begin{equation*}
\sum_{k=1}^\infty p_k = 1
\end{equation*}
$$
其中，条件二是由于 $\{X = x_1\} \cup \{X = x_2\} \cup ... $ 是必然事件，且 $\{X = x_1\} \cap \{X = x_2\} \cap ... = \emptyset $，$ k \neq j  $，故$ 1 = P[\bigcup_{k=1}^\infty {X = x_k}] = \sum_{k=1}^\infty P\{X = x_k\} $，即$ \sum_{k=1}^\infty p_k = 1 $。

我们称$ P\{X = X_k \} = p_k，k = 1,2, ... $为离散型随机变量 X 的分布律。分布律也可以用表格的形式来表示

$$\begin{array}{rr} \hline
X &x_1 &x_2 &... &x_n &... \\ \hline
P_k &p_1 &p_2 &... &p_n &... \\ \hline
\end{array}$$

### 2. 伯努利分布 Bernoulli Distribution

伯努利分布又称(0 - 1)分布

设随机变量X只可能取 0 与 1 两个值，它的分布律是
$$ P\{X=k\} = p^k(1-p)^{1-k}, k=0,1 (0 < p < 1) $$
则称X服从以p为参数的(0 - 1)分布或两点分布。

(0 - 1)分布的分布律也可写成
$$\begin{array}{rr} \hline
X &0 &1 \\ \hline
P_k &1-p &p \\ \hline
\end{array}$$

### 3. 二项分布 Binomial Distribution

设试验 E 只有两个可能结果：$A$及$\overline{A}$，则称 E 为伯努利试验，设$P(A)=p(0<p<1)$，此时$P(\overline{A})=1-p$。将 E 独立重复n次，则称这一串重复的独立试验为n重伯努利试验。

这里“重复”是指在每次试验中$P(A)=p$保持不变；“独立”是指各次试验的结果互不影响，若以$C_i$记第 i 次试验的结果，$C_i$为$A$或$\overline{A}$, i=1,2,...,n。“独立”是指
$$ P(C_{1}C_{2}...C{n}) = P(C_1)P(C_2)...P(C_n) $$

以 X 表示n重伯努利试验中事件 A 发生的次数，X 是一个随机变量，X 所有可能取的值为0, 1, 2, ..., n。由于各次试验是相互独立的，因为事件 A 在指定的$k(0\leq k \leq n)$次试验中发生，在其他n - k次试验中 A 不发生的概率为
$$  \underbrace{\left({p \cdot p \cdot ... \cdot p}\right)}_k \cdot \underbrace{\left({(1-p) \cdot (1-p) \cdot ... \cdot (1-p)}\right)}_{n-k}  = p^{k}(1-p)^{n-k}$$
这种指定的方式共有$\binom{n}{k}$种，它们是两两互不相容的，故在 n 次试验中 A 发生 k 次的概率为$\binom{n}{k}p^{k}(1-p)^{n-k}$，记$q=1-p$，即有
$$ P\{X=k\} = \binom{n}{k}p^{k}q^{n-k}, k=0,1,2,..,n $$
我们称随机变量 X 服从参数为n, p的二项分布，并记为$X \sim b(n, p)$。

特别，当n=1时，二项分布化为$P\{X=k\}=p^{k}q^{1-k}, k=0,1$，这就是(0 - 1)分布。

### 4. 泊松分布 Poisson Distribution

### 5. 均匀分布 Uniform Distribution

### 6. 指数分布 Exponential Distribution

### 7. 正态分布 Normal Distribution