# Chapter 3 区间估计

## 完成率服从二项分布(n重伯努利)，$X \sim B(n, p)$

n次伯努利试验中得到x次成功/失败的离散概率分布称为[二项分布](https://zh.wikipedia.org/wiki/%E4%BA%8C%E9%A0%85%E5%88%86%E4%BD%88)，$E = np, Var = np(1-p)$，概率质量函数：${\displaystyle f(k;n,p)=\Pr(X=k)={n \choose k}p^{k}(1-p)^{n-k}}$<br/>二项式比例置信区间是当仅知道实验次数n和成功次数$n_S$时对成功概率p的区间估计。参见[二项分布置信区间](https://en.wikipedia.org/wiki/Binomial_proportion_confidence_interval)

In [1]:
library(DescTools)

使用[DescTools](https://www.rdocumentation.org/packages/DescTools/versions/0.99.19/topics/BinomCI)包<br/>接收三个参数：x~成功次数，n~总次数，conf.level~置信水平(默认0.95)，method~区间类型

### Wald区间(Wald Interval)：
$\hat{p} \pm \mathbf{z}_{\left(1-\frac{\alpha}{2}\right)} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$，<br/>或
$\frac{n_S}{n} \pm \frac{z}{n} \sqrt{\frac{n_S n_F}{n}}$，n为总数，ns为成功数，$\hat{p}=n_S/n$，对应成功占比

[Wiki](https://en.wikipedia.org/wiki/Binomial_proportion_confidence_interval)

In [6]:
BinomCI(x=10, n=12, method="wald")

est,lwr.ci,upr.ci
0.8333333,0.6224748,1


### 精确置信(Clopper-Pearson, C-P)区间(Exact Confidence Interval)：
$\left[1+\frac{n-x+1}{x F_{2 x, 2(n-x+1), 1-\alpha / 2}}\right]^{-1}<p<\left[1+\frac{n-x}{(x+1) F_{2(x+1), 2(n-x), \alpha / 2}}\right]^{-1}$，<br/>也写作$\left(1+\frac{n-x+1}{x F\left[\frac{\alpha}{2} ; 2 x, 2(n-x+1)\right]}\right)^{-1}<\theta<\left(1+\frac{n-x}{(x+1) F\left[1-\frac{\alpha}{2} ; 2(x+1), 2(n-x)\right]}\right)^{-1}$

Clopper-Pearson区间是一个精确的区间，因为它直接基于二项分布，而不是二项分布的任何近似。对于任何人口比例，
这个区间永远不会低于名义覆盖率，但这意味着它通常是保守的。例如，95％Clopper-Pearson区间的真实覆盖率可能远高于95％，
具体取决于n和θ。因此，间隔可能比实现95％置信度所需的宽。相反，值得注意的是，其他置信界限可能比其标称置信宽度窄，
即正态近似（或“标准”）区间，威尔逊区间， Agresti-Coull区间，[10]名义覆盖率为95％的实际上可能覆盖率低于95％

In [5]:
BinomCI(x=10, n=12, method="clopper-pearson")

est,lwr.ci,upr.ci
0.8333333,0.5158623,0.9791375


对伯努利实验中成功概率的简单零假设进行精确检验

In [23]:
binom.test(x=10, n=12, p = 0.2)   #等效


	Exact binomial test

data:  10 and 12
number of successes = 10, number of trials = 12, p-value = 4.526e-06
alternative hypothesis: true probability of success is not equal to 0.2
95 percent confidence interval:
 0.5158623 0.9791375
sample estimates:
probability of success 
             0.8333333 


### Wald校正区间(Adjusted-Wald Interval)：</br>
计算简单。适用于几乎一切n值和一切p值。中心值$\hat{p}$与Wilson区间中心值相等。区间宽度比Wilson区间略宽（保守）。涵盖概率略高于Wilson区间的涵盖概率，且接近于名义置信水平。特别在p~0和p~1 附近，涵盖概率低于名义置信水平。
$p(\gamma)=\hat{p} \pm Z_{\alpha / 2} \sqrt{\frac{\hat{p}(1-\hat{p})}{\tilde{n}}}$，其中$\hat{p}=\frac{\tilde{s}}{\tilde{n}} \equiv \frac{\hat{s}+z_{\alpha / 2}^{2} / 2}{n+z_{\alpha / 2}^{2}}=\frac{\tilde{p}+\frac{z_{\alpha / 2}^{2}}{2 n}}{1+\frac{z_{\alpha / 2}^{2}}{n}}, \quad \tilde{p}=\frac{\hat{s}}{n}$</br>也可直接写为$p(\gamma)=\frac{\tilde{p}+\frac{z_{\alpha / 2}^{2}}{2 n}}{1+\frac{z_{\alpha / 2}^{2}}{n}} \pm \frac{z_{\alpha / 2}}{1+\frac{z_{\alpha / 2}^{2}}{n}} \sqrt{\frac{\left(\tilde{p}+\frac{z_{\alpha / 2}^{2}}{2 n}\right)\left(1-\tilde{p}+\frac{z_{\alpha / 2}^{2}}{2 n}\right)}{n+\frac{z_{\alpha / 2}^{2}}{2}}}$

In [24]:
BinomCI(x=10, n=12, method="modified wilson")

est,lwr.ci,upr.ci
0.8333333,0.5519691,0.9703865


In [25]:
BinomCI(x=10, n=12, method="wilson")

est,lwr.ci,upr.ci
0.8333333,0.5519691,0.9530349


### Agresti-Coull(A-C)区间(书上将此区间介绍为Wald校正区间)</br>
$\tilde{p}=\frac{\hat{p}+\frac{z^{2}}{2 n}}{1+\frac{z^{2}}{n}}$</br>
计算简单。适用于几乎一切n值和一切p值。中心值$\hat{p}$与Wilson区间中心值相等。区间宽度比Wilson区间略宽（保守）。涵盖概率略高于Wilson区间的涵盖概率，且接近于名义置信水平。特别在p~0和p~1 附近，涵盖概率高于Wilson区间。等效增加两次成功与失败，即分子+2分母+4

In [26]:
BinomCI(x=10, n=12, method="agresti-coull")

est,lwr.ci,upr.ci
0.752502,0.5399867,0.9650173
