# 实验12-统计推断

这一章是讲如何从样本推断总体,以及如何评价从样本推断整体的可信程度.

- 怎样由样本数据估计总体的一些参数
- 估计的可靠程度如何
- 怎样根据样本数据去肯定或否定一个事先提出的假设

## 参数估计

假定总体的概率分布的类型(如正态分布\指数分布)已知,由样本估计分布的参数(如$\mu,\sigma$)的值.
> 本节只讨论正态分布的参数估计
> 本节只讨论期望和方差的估计

### 点估计

通常取$$\hat{\mu}=\bar{x},\hat{\sigma}=\bar{s}$$

#### 将总体分布的参数用样本统计量估计

- 样本($x_1,x_2,\cdots,x_n$)的样本均值$\bar{x}=\frac{1}{n}\sum_{i=1}^n x_i$称为`一阶矩`
- `二阶矩`是样本的方差$A_2=\frac{1}{n-1}\sum_{i=1}^n(x_i-\bar{x})^2$
- 可以用样本`一阶矩`和`二阶矩`对总体$\mu,\sigma^2$进行估计,记作
  - $\hat{\mu}=\bar{x}$
  - $\hat{\sigma}^2=A_2$

#### 极大似然估计

极大似然估计是一种常用的参数估计方法,其基本思想是:在所有可能的参数值中,选择使得观察到的样本数据出现的概率最大的参数值作为估计值.
设总体的概率密度函数为$f(x;\theta)$,其中$\theta$是待估参数,样本为$x_1,x_2,\cdots,x_n$,则样本的联合概率密度函数为
$$
L(\theta)=f(x_1;\theta)f(x_2;\theta)\cdots f(x_n;\theta)
$$
称为似然函数,取对数得到
$$
\ln L(\theta)=\ln f(x_1;\theta)+\ln f(x_2;\theta)+\cdots+\ln f(x_n;\theta)
$$
对$\theta$求导,令导数为0,解出$\theta$的值,即为极大似然估计值.

#### 点估计的评价标准

- 无偏性: 估计量的数学期望等于被估计参数的真值
  - `一阶矩`是无偏的
  - `二阶矩`是有偏的,其无偏估计量是$\frac{n-1}{n}A_2=s^2=\frac{n-1}{n}\sum_{i=1}^n(x_i-\bar{x})^2$
- 有效性: 估计量的方差小
  - 对固定的n,某个$\hat{\theta}$的方差更小,则称$\hat{\theta}$是更有效的
- 一致性: 当样本容量增大时,估计值收敛于被估计参数的真值

### 区间估计

#### 置信区间

置信区间是指用样本统计量估计总体参数时,给出的一个区间,该区间包含真值的概率为$1-\alpha$,其中$\alpha$称为`显著性水平`,常取0.05,0.01等.$1-\alpha$称为置信概率
形式上来说:
$$
P(\theta_1<\theta<\theta_2)=1-\alpha
$$
其中$\theta_1,\theta_2$是样本统计量($x_i$)的函数,称为置信区间的下限和上限.

#### 总体均值的区间估计

- 总体方差已知
  - 对$\bar{x}$标准化得到$Z=\frac{\bar{x}-\mu}{\sigma/\sqrt{n}}\sim N(0,1)$
  - 给定置信水平$1-\alpha$,寻找两个常数$L,U$,使得$P(L<z<U)=1-\alpha$
  - 总体均值的置信区间为$\bar{x}\pm u_{1-\alpha/2}\frac{\sigma}{\sqrt{n}}$
  - 其中$z_{\alpha/2}$是标准正态分布的上侧$\alpha/2$分位数
  - 由于总体方差已知,所以可以直接计算
- 总体方差位置
  - 总体均值的置信区间为$\bar{x}\pm t_{1-\alpha/2}\frac{s}{\sqrt{n}}$
  - 其中$t_{\alpha/2}$是自由度为$n-1$的t分布的上侧$\alpha/2$分位数
  - 由于总体方差未知,所以用样本方差代替总体方差

#### 总体方差的区间估计

在置信水平$1-\alpha$下,总体方差$\sigma^2$的置信区间为
$$
\left[\frac{(n-1)s^2}{\chi^2_{1-\alpha/2}},\frac{(n-1)s^2}{\chi^2_{\alpha/2}}\right]
$$



## 假设检验

假设检验是指在给定显著性水平$\alpha$下,根据样本数据对总体参数提出的某种假设进行检验.

### 基本概念

- 原假设$H_0$: 对总体参数提出的某种假设
- 备择假设$H_1$: 对原假设的否定