# 假设检验和置信区间的应用

某公司计划研究销售人员数量对于新产品销售额的影响。

从其下属多家公司中随机抽取10个子公司，这10个子公司当你新产品销售额和销售人员数量统计数据在路径"数据/销售人员和销售量.csv"。

请试用一元线性回归方法研究人员数量对新产品销售额的计量关系。

In [9]:
import pandas as pd
data = pd.read_csv("datasets/销售人员和销售量.csv")
data

Unnamed: 0,地区,新产品销售额/万元,销售人员数量/人
0,1,385,17
1,2,251,10
2,3,701,44
3,4,479,30
4,5,433,22
5,6,411,15
6,7,355,11
7,8,217,5
8,9,581,31
9,10,653,36


## 1. 系数的估计：应用OLS

In [15]:
import statsmodels.api as sm
data['intercept'] = 1.
y = data["新产品销售额/万元"]
x = data[['intercept', "销售人员数量/人"]]
model = sm.OLS(y, x)
result = model.fit()
result.summary2(alpha=0.05) #指定alpha双侧显著性水平



0,1,2,3
Model:,OLS,Adj. R-squared:,0.933
Dependent Variable:,新产品销售额/万元,AIC:,104.6022
Date:,2022-11-01 20:35,BIC:,105.2073
No. Observations:,10,Log-Likelihood:,-50.301
Df Model:,1,F-statistic:,126.9
Df Residuals:,8,Prob (F-statistic):,3.46e-06
R-squared:,0.941,Scale:,1712.1

0,1,2,3,4,5,6
,Coef.,Std.Err.,t,P>|t|,[0.025,0.975]
intercept,176.2952,27.3269,6.4514,0.0002,113.2793,239.3111
销售人员数量/人,12.2310,1.0855,11.2671,0.0000,9.7277,14.7343

0,1,2,3
Omnibus:,0.718,Durbin-Watson:,1.407
Prob(Omnibus):,0.698,Jarque-Bera (JB):,0.588
Skew:,-0.198,Prob(JB):,0.745
Kurtosis:,1.879,Condition No.:,53.0


模型的回归方程是
$$
新产品销售额/万元 = 12.23 \times 销售人员数量/人 + 176.3 
$$

## 2. 系数的假设检验

系数$\beta_0$和$\beta_1$的假设检验过程，分为4个步骤，这里以$\beta_1$的假设检验流程为例：

**第一步，建立原假设和备择假设**

原假设：总体斜率$\beta_1$的真值等于某个特定值$0$，
双边备择假设假设为$\beta_1$不等于$0$。
即原假设和备择假设分别为：

$$
H_0: \beta_1=0
$$
$$
H_1:\beta_1\neq 0
$$



**第二步，计算$\hat{\beta_1}$的标准误差$SE(\hat{\beta_1})$**

它是$\hat{\beta_1}$抽样分布的标准差$\sigma_\hat{\beta_1}$的估计量。

$$
SE(\hat{\beta_1}) = \sqrt{\sigma_\hat{\beta_1}^2}
$$





**第三步，计算$t$统计量**

$$
t=\frac{\hat{\beta_1}-0}{SE(\hat{\beta}_1)}
$$



**第四步，计算p值**

$$
p值=Pr_{H0}(|t|>|t^{act}|)
$$

如果$p$值小于$0.05$，则在$5\%$的显著性水平下拒绝原假设。标准误差、检验$\beta_1=0$的$t$统计量和$p$值都可以通过回归软件自动计算得到。




根据一元线性回归OLS估计的结果，我们知道$\hat{\beta_1}$的值为12.2310，$SE(\beta_1)$为1.0855，根据$t$统计量的计算公式：

In [11]:
t = (12.2310 - 0)/1.0855
t

11.267618608935974

$t$的结果和上面OLS表的结果是一致的。

观察上面$销售人员数量/人$这个变量的系数估计量的$p$值，其接近于0，说明拒绝原假设$H_0: \beta_1=0$，说明我们回归出来的估计量是有效的，统计上是显著的。

## 3. 系数的置信区间


因为样本量为10个，样本较少，所以我们假设$\beta_1$符合$t$分布，那么其$95\%$双边置信区间是指$95\%$的概率包含$\beta_1$真值的区间，即在所有可能的随机抽取的样本中$95\%$的样本置信区间包含$\beta_1$的真值。

$$
\beta_1的95\%置信区间=[\hat{\beta}-t_\alpha * SE(\hat{\beta_1})，\hat{\beta}+t_\alpha * SE(\hat{\beta_1})]
$$

95%的双边置信区间，也就是对应双边显著性水平0.5，参照教材定理4.2我们知道自由度为$n-k-1$，
$k$为斜率参数的个数，$n$为样本个数，这里$n=10$，$k=1$，所以自由度为8，查表$t_{\alpha/2=2.5\%, 自由度=8}=2.306$。

根据一元线性回归OLS估计的结果，我们知道$\beta_1$的估计值$\hat{\beta_1}$为12.2310，$SE({\hat{\beta_1})}$为1.0855，根据置信区间的计算公式：

In [14]:
[12.2310-2.306*1.0855, 12.2310+2.306*1.0855]

[9.727837000000001, 14.734162999999999]

结果上面程序得到的结果是一致的。