# 置信区间的理论

## 1. 参数估计

根据样本推断总体的分布和特征称为统计推断。

它主要分为两种：
- 一种是点估计，就是以某个统计量的样本观察值作为未知参数的估计值；
- 另一类是区间估计，就是用两个统计量构成的区间来估计未知参数。

在估计总体均值的时候，使用样本均值作为总体均值的估计就是点估计。

在做区间估计的时候，必须要先规定一个置信度，例如95%。置信度以$1-\alpha$表示，这里$\alpha$就是假设检验里的显著性水平。

区间估计的一般公式为：

$[点估计-关键值*样本均值的标准误， 点估计+关键值*样本均值的标准误]$

如果是关键值是$z$，为

$[\bar{x}-z_{\alpha/2}*\frac{s}{\sqrt{n}}, \bar{x}+z_{\alpha/2}*\frac{s}{\sqrt{n}}]$

下表告诉我们什么时候使用$t$关键值，什么时候使用$Z$关键值，这个取决于样本数$n$。

||正态总体，n<30|n>=30|
|---|---|---|
|已知总体方差|$Z$|$Z$|
|未知总体方差|$t$|$t$$Z$|

<img src="image/pdf.png" alt="pdf" style="zoom:50%;" />

置信度1-$\alpha$=0.95，$alpha$=0.05。$alpha/2=0.025$，查表可得$Z_{0.025}$=1.96

使用`scipy.stats.norm.ppf`也能算出来对应置信区间95%的概率值1.96。

如果不手动查表也可以，使用scipy库的以下方法，可以计算出给定置信度q的正态分布的概率值。
```python
scipy.stats.norm.ppf(q)
```
参数说明：置信度

返回值：返回置信度对应的正态分布值


cdf是概率的累积分布，即小于等于某个值出现的概率总和。

ppf是cdf的逆运算，也就是已知概率总和，求对应的统计量的值。

如何理解和绘制cdf和ppf，请查看附录：**绘制pdf_cdf_ppf图.ipynb文件**。


In [1]:
import scipy.stats as ss
ss.norm.ppf(q=0.975)

1.959963984540054


## 2. 区间估计的应用：回归系数的置信区间
对于一元回归分析方程，如何检验其系数$\beta_1$的置信区间是怎样的？

$$
Y_i = \beta_0+\beta_1X_i+u_i 
$$
$$
i是第i次观测，i=1,2,...,n;Y_i是被解释变量，\beta_0是截距；\beta_1是总体回归线的斜率，u_i是误差项
$$



如果$\beta_1$符合正态分布$Z$，那么其$95\%$双边置信区间是指$95\%$的概率包含$\beta_1$真值的区间，即在所有可能的随机抽取的样本中$95\%$的样本置信区间包含$\beta_1$的真值。

$$
\beta_1的95\%置信区间=[\hat{\beta}-1.96 * SE(\hat{\beta_1})，\hat{\beta}+1.96 * SE(\hat{\beta_1})]
$$


如果$\beta_1$符合$t$分布，那么其$95\%$双边置信区间是指$95\%$的概率包含$\beta_1$真值的区间，即在所有可能的随机抽取的样本中$95\%$的样本置信区间包含$\beta_1$的真值。

$$
\beta_1的95\%置信区间=[\hat{\beta}-t_{\alpha/2} * SE(\hat{\beta_1})，
\hat{\beta}+t_{\alpha/2} * SE(\hat{\beta_1})]
$$

95%的双边置信区间，也就是对应双边显著性水平$\alpha=0.5$，这里$t_{\alpha/2}$可以通过查表，结合样本自由度来获得。

参照教材定理4.2我们知道自由度为$n-k-1$，$k$为斜率参数的个数，$n$为样本个数。