研究货运总量y（万吨）与工业总产值x1（亿元），农业总产值x2（亿元），居民非商品支出x3（亿元）的关系，数据见表3-9.

<img src='image/24.png' style='zoom:40%'>

# 1. 计算出y,x1,x2,x3的相关系数矩阵

In [3]:
x1<-c(70,75,65,74,72,68,78,66,70,65)
x2<-c(35,40,40,42,38,45,42,36,44,42)
x3<-c(1.0,2.4,2.0,3.0,1.2,1.5,4.0,2.0,3.2,3.0)
y<-c(160,260,210,265,240,220,275,160,275,250)

In [7]:
data3.11 <- data.frame(y, x1, x2, x3)  # 创建数据框
r <- cor(data3.11)  # 计算相关系数矩阵
print(r)

           y        x1        x2        x3
y  1.0000000 0.5556527 0.7306199 0.7235354
x1 0.5556527 1.0000000 0.1129513 0.3983870
x2 0.7306199 0.1129513 1.0000000 0.5474739
x3 0.7235354 0.3983870 0.5474739 1.0000000


# 求y关于x1,x2,x3的三元线性回归方程

In [8]:
lm3.11<-lm(y~x1+x2+x3)

In [9]:
lm3.11


Call:
lm(formula = y ~ x1 + x2 + x3)

Coefficients:
(Intercept)           x1           x2           x3  
   -348.280        3.754        7.101       12.447  


# 对所得方程做拟合优度检验

In [10]:
summary(lm3.11)


Call:
lm(formula = y ~ x1 + x2 + x3)

Residuals:
    Min      1Q  Median      3Q     Max 
-25.198 -17.035   2.627  11.677  33.225 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)  
(Intercept) -348.280    176.459  -1.974   0.0959 .
x1             3.754      1.933   1.942   0.1002  
x2             7.101      2.880   2.465   0.0488 *
x3            12.447     10.569   1.178   0.2835  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 23.44 on 6 degrees of freedom
Multiple R-squared:  0.8055,	Adjusted R-squared:  0.7083 
F-statistic: 8.283 on 3 and 6 DF,  p-value: 0.01487


拟合优度检验可以通过查看$R^2$值来评估。在上一个输出结果中，$R^2$为0.8055，这表示模型可以解释目标变量y的80.55%的变异性

# 对方程做显著性检验

通过查看模型的统计摘要信息中的F统计和p值来进行显著性检验。输出结果中，F统计为8.283，p值为0.01487<0.05，可以拒绝原假设，认为至少一个解释变量与目标变量之间存在显著线性关系

# 对每一个回归系数做显著性检验

`Coefficients`列出了每个回归系数的估计值、标准误差、t值和对应的p值。根据p值进行显著性检验。在此例中，x2的p值小于0.05，因此可以认为x2与y之间存在显著线性关系。然而，其他系数的p值均大于0.05，因此不能认为它们与y之间存在显著线性关系

# 如果有的回归系数没通过显著性检验，将其剔除，重新建立回归方程，再做回归方程的显著性检验和回归系数显著性检验

In [11]:
lm3.11_drop3<-update(lm3.11,.~.-x3)

In [12]:
summary(lm3.11_drop3)


Call:
lm(formula = y ~ x1 + x2)

Residuals:
    Min      1Q  Median      3Q     Max 
-42.012 -10.656   4.358  11.984  28.927 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)   
(Intercept) -459.624    153.058  -3.003  0.01986 * 
x1             4.676      1.816   2.575  0.03676 * 
x2             8.971      2.468   3.634  0.00835 **
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 24.08 on 7 degrees of freedom
Multiple R-squared:  0.7605,	Adjusted R-squared:  0.6921 
F-statistic: 11.12 on 2 and 7 DF,  p-value: 0.006718


在新的回归方程中，所有的回归系数在0.05显著性水平下都通过了显著性检验

# 求出每一个回归系数的置信水平为95%的置信区间

In [13]:
confint(lm3.11_drop3)

Unnamed: 0,2.5 %,97.5 %
(Intercept),-821.5473012,-97.700006
x1,0.3813047,8.969956
x2,3.1339785,14.807944


# 求标准化回归方程

标准化回归方程可以通过查看标准化的回归系数来得到

In [15]:
lm3.11_std <- lm(scale(y) ~ scale(x1) + scale(x2))

In [16]:
lm3.11_std


Call:
lm(formula = scale(y) ~ scale(x1) + scale(x2))

Coefficients:
(Intercept)    scale(x1)    scale(x2)  
 -7.552e-16    4.792e-01    6.765e-01  


求当$x_{01}=75，x_{02}=42，x_{03}=3.1$时的$\hat{y_0}$，给定置信水平为95%，用R软件计算精确置信区间，手工计算近似预测区间

>`置信区间（confidence interval）`:对于x的一个给定值，y的平均值的区间估计
>
>`预测区间（prediction interval）`:对于x的一个给定值，y的一个个别值的区间估计

In [22]:
new_data <- data.frame(x1 = 75, x2 = 42)
'置信区间'
predict(lm3.11_drop3, newdata = new_data, interval = "confidence", level = 0.95)
'预测区间'
predict(lm3.11_drop3, newdata = new_data, interval = "prediction", level = 0.95)

Unnamed: 0,fit,lwr,upr
1,267.829,239.9677,295.6903


Unnamed: 0,fit,lwr,upr
1,267.829,204.4355,331.2225


# 结合回归方程对问题做一些基本分析

1. 回归方程：根据三元线性回归方程，货运总量y与工业总产值x1、农业总产值x2和居民非商品支出x3之间存在线性关系。回归方程为：y = -348.280 + 3.754x1 + 7.101x2 + 12.447x3。

2. 拟合优度检验：根据拟合优度检验，回归模型可以解释目标变量y的80.55%的变异性，即模型对数据的拟合程度较好。

3. 显著性检验：通过显著性检验，我们可以拒绝原假设，说明至少一个解释变量与目标变量之间存在显著线性关系。

4. 回归系数显著性检验：根据回归系数的显著性检验结果，发现工业总产值x1和农业总产值x2与货运总量y之间存在显著线性关系。然而，居民非商品支出x3与货运总量y之间的线性关系在统计上不显著。

5. 剔除不显著的回归系数后的回归方程：如果我们忽略不显著的回归系数x3，重新建立回归方程，得到新的回归方程为：y = -459.624 + 4.676x1 + 8.971x2。在新的回归方程中，所有的回归系数在统计上都通过了显著性检验。

6. 置信水平为95%的置信区间：根据回归方程，我们可以对给定x1和x2值（例如，x1=75，x2=42）得出y的置信区间。在95%的置信水平下，货运总量y的置信区间为[239.9677, 295.6903]。

7. 置信水平为95%的预测区间：在95%的置信水平下，根据回归方程，我们可以对给定x1和x2值（例如，x1=75，x2=42）得出单个y值的预测区间。货运总量y的预测区间为[204.4355, 331.2225]。