# 参数估计

**参数估计**就是用样本统计量去估计总体参数。

**点估计**就是用样本统计量$\hat{\theta}$的某个取值直接作为总体参数$\theta$的估计值。

**区间估计**是在点估计的基础上，给出总体参数估计的一个区间范围，该区间通常由样本统计量加减估计误差得到。

## 估计量评价标准

- 无偏性


- 有效性

指同一总体参数的两个无偏估计量，有更小标准差估计量更有效。

- 一致性

随着样本量增大，估计量的值越来越接近被估计总体参数。

In [2]:
import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt 
from scipy import stats


## 总体均值区间估计


条件：正态总体，大样本，方差已知

总体均值$\mu$的方差估计为
$$
\bar{x} \pm z_{\alpha/2}\frac{\sigma}{\sqrt{n}}
$$

其中z为样本均值经过标准化后随机变量服从的**标准正态**分布
$$
z=\frac{\bar{x}-\mu}{\sigma/\sqrt{n}}
$$


In [3]:
# 大样本
# alpha:置信水平 0.9
# loc: 均值
# scale: 方差
data=pd.read_excel(
    'data/5.1.xlsx'
)
data=data.values.flatten()

alpha=0.1
mu=np.mean(data)
sigma=np.std(data)

stats.norm.interval(1-alpha,loc=mu,scale=sigma)



(26.892435686140416, 52.10756431385958)

条件：小样本，正态总体，方差未知

总体$\mu$的估计为
$$
\bar{x} \pm t_{\alpha/2}\frac{s}{\sqrt{n}}
$$
其中t为样本均值经过标准化后随机变量服从自由度为(n-1)的
t分布:
$$
t=\frac{\bar{x}-\mu}{s/\sqrt{n}}\sim t(n-1)
$$

In [0]:
# 小样本
data52=pd.read_excel(
    'data/5.2.xlsx'
)
data52=data52.values.flatten()

alpha=0.05
mu=np.mean(data52)
sigma=np.std(data52)
# alpha:置信水平
# df: 自由度
# loc: 均值
# scale: 方差

stats.t.interval(alpha,len(data)-1,loc=mu,scale=sigma)


In [0]:
# pandas读取sav文件
# 需要安装pip install pyreadstat
data=pd.read_spss(
    'data/5.3.sav'
)
data=data.values.flatten()

alpha=0.95
mu=np.mean(data)
sigma=np.std(data)

stats.t.interval(1-alpha,df=len(data)-1,loc=mu,scale=sigma)



### 样本比例服从分布

总体比例置信区间为
$$
p \pm z_{\alpha/2}\sqrt{\frac{p(1-p)}{n}}
$$

样本比例经标准化后的随机变量服从标准正态，即
$$
z=\frac{p-\pi}{\sqrt{\pi(1-\pi)}/\sqrt{n}} \sim N(0,1)
$$

In [0]:
# 总体比例区间估计

p=.65
alpha=0.05
lower=p+stats.norm.ppf(alpha/2)*np.sqrt(.65*(1-.65)/100)
upper=p+stats.norm.ppf(1-alpha/2)*np.sqrt(.65*(1-.65)/100)
lower,upper


### 总体方差区间估计

$$
\frac{(n-1)s^2}{\chi^2_{\alpha/2}}\le \sigma^2 \le 
\frac{(n-1)s^2}{\chi^2_{1-\alpha}}
$$

 总体方差估计
 mu=np.mean(data52)

In [0]:
alpha=0.05
sigma=np.std(data52,ddof=1)
n=len(data52)

lower=(n-1)*sigma**2/stats.chi2.ppf(1-alpha/2,df=n-1,loc=0,scale=1)
upper=(n-1)*sigma**2/stats.chi2.ppf(alpha/2,df=n-1,loc=0,scale=1)
lower,upper


 # 两个参数区间估计
## 两总体均值之差

大样本


估计区间

$$
(x_1-x_2)\pm z_{\alpha/2}\sqrt{\frac{\sigma^2_1}{n_1}+\frac{\sigma^2_2}{n_2}}
$$


In [0]:
# 两个总体均值之差
# 大样本
n1=46
mu1=126
sigma1=5.8

n2=33
mu2=118
sigma2=7.2

# 取95%的置信区间
alpha=.05

lower=(mu1-mu2)+stats.norm.ppf(alpha/2)*np.sqrt(sigma1**2/46+sigma2**2/33)
upper=(mu1-mu2)+stats.norm.ppf(1-alpha/2)*np.sqrt(sigma1**2/46+sigma2**2/33)
lower,upper



小样本

1. $\sigma_1=\sigma_2$
$$
(\bar{x_1}-\bar{x_2})\pm t_{\alpha/2}(n_1+n_2-2)
\sqrt{s^2_p(\frac{1}{n_1}+\frac{1}{n_2})}
$$

2. $\sigma_1 \ne \sigma_2$

$$
(\bar{x_1}-\bar{x_2})\pm t_{\alpha/2}(v)
\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}} \\

$$
v: 两样本均值之差经标准化的服从自由度为v的t分布

In [0]:
# 两个总体均值之差
# 小样本

data57=pd.read_spss(
    'data/5.7.sav'
)
d1=data57.iloc[:12,-1].values
d2=data57.iloc[12:-1,-1].values



In [0]:
# 两总体方差相等
mu1=np.mean(d1)
sigma1=np.std(d1,ddof=1)
n1=len(d1)

mu2=np.mean(d2)
sigma2=np.std(d2,ddof=1)
n2=len(d2)

alpha=0.05
# 两总体方差合并估计量
sp2=((n1-1)*sigma1**2+(n2-1)*sigma2**2)/(n1+n2-2)

# mu1-mu2的置信区间
lower=(mu1-mu2)+stats.t.ppf(alpha/2,df=(n1+n2-2))*np.sqrt(sp2*(1/n1+1/n2))
upper=(mu1-mu2)+stats.t.ppf(1-alpha/2,df=(n1+n2-2))*np.sqrt(sp2*(1/n1+1/n2))

lower,upper



配对样本
$$
\bar{d} \pm t_{\alpha/2}(n-1)\frac{s_d}{\sqrt{n}}
$$

In [0]:
# 配对样本估计
data58=pd.read_spss(
    'data/5.8.sav'
)



In [0]:
d1=data58.iloc[:,1].values
d2=data58.iloc[:,2].values

alpha=0.05

d=d1-d2
d_bar=np.sum(d)/len(data58)

s_d=np.sqrt(np.sum((d-d_bar)**2)/(len(d)-1))
lower=d_bar+stats.t.ppf(alpha/2,df=len(d)-1)*s_d/np.sqrt(len(d))
upper=d_bar+stats.t.ppf(1-alpha/2,df=len(d)-1)*s_d/np.sqrt(len(d))
lower,upper


### 两总体方差之差
$$
(p_1-p_2)\pm z_{\alpha/2}\sqrt{\frac{p_1(1-p_1)}{n_1}
+\frac{p_2(1-p_2)}{n_2}}
$$

In [0]:
# 两总体比例之差
p1=0.32
n1=400

p2=0.45
n2=500

alpha=0.05 # 95%置信水平

lower=np.abs(p1-p2)+stats.norm.ppf(alpha/2)*np.sqrt(p1*(1-p1)/500+p2*(1-p2)/400)
upper=np.abs(p1-p2)+stats.norm.ppf(1-alpha/2)*np.sqrt(p1*(1-p1)/500+p2*(1-p2)/400)

lower,upper


### 总体方差比
$$
\frac{s^2_1/s^2_2}{F_{\alpha/2}} \le \frac{\sigma^2_1}
{\sigma^2_2} \le \frac{s^2_1/s^2_2}{F_{1-\alpha/2}}
$$

In [0]:
# 两总体方差比

n1=25
x1_bar=520
s1=260

n2=25
x2_bar=480
s2=280

alpha=0.05


lower=(s1/s2)/stats.f.ppf(1-alpha/2,dfn=n1-1,dfd=n2-1)
upper=(s1/s2)/stats.f.ppf(alpha/2,dfn=n1-1,dfd=n2-1)
lower,upper


 # 样本量的确定
## 均值
$$
n=\frac{(z_{\alpha/2})^2 \sigma^2}{E^2}
$$
E为所代表希望达到的估计误差

In [0]:
# 总体均值的样本量确定
# 一个总体均值
sigma=2000 
error=400 # 误差
alpha=0.05

n=stats.norm.ppf(alpha/2)**2*2000**2/400**2 # 样本量的确定
n # 97


In [0]:
# 两个总体均值

# 方差
var1=90 
var2=120

error=5
alpha=0.05

n=stats.norm.ppf(alpha/2)**2*(var1+var2)/error**2
n # 33


## 样本比例的样本量
$$
n=\frac{(z_{\alpha/2})^2 \pi(1-\pi)}{E^2}
$$

In [0]:
# 总体比例的样本量确定
# 一个总体比例
p=0.9
error=0.05
alpha=0.05

n=stats.norm.ppf(alpha/2)**2*p*(1-p)/error**2
n


In [0]:
# 两个总体比例
p=0.5
error=0.1

n=stats.norm.ppf(alpha/2)**2*(p*(1-p)+p*(1-p))/error**2
n # n1=n2