# 多元回归分析


多元线性回归模型表示为：
$$ f(x_i) = \mathbf{w}^T \mathbf{x}_i + b $$
其中，$\mathbf{w}$ 是权重向量，$b$ 是偏置项，$\mathbf{x}_i$ 是输入向量，$f(x_i)$ 是预测值。

### 参数估计
为了估计 $\mathbf{w}$ 和 $b$，可以使用最小二乘法。将 $\mathbf{w}$ 和 $b$ 合并为向量形式 $\hat{\mathbf{w}} = (\mathbf{w}; b)$，数据集 $D$ 表示为矩阵 $\mathbf{X}$，其中每行对应一个样本，前 $d$ 个元素对应样本的 $d$ 个属性值，最后一个元素恒定为 1。

$$ 
\mathbf{X} = \begin{pmatrix}
x_{11} & x_{12} & \ldots & x_{1d} & 1 \\
x_{21} & x_{22} & \ldots & x_{2d} & 1 \\
\vdots & \vdots & \ddots & \vdots & \vdots \\
x_{m1} & x_{m2} & \ldots & x_{md} & 1 \\
\end{pmatrix} = \begin{pmatrix}
\mathbf{x}_1^T & 1 \\
\mathbf{x}_2^T & 1 \\
\vdots & \vdots \\
\mathbf{x}_m^T & 1 \\
\end{pmatrix} 
$$

标记向量 $\mathbf{y} = (y_1; y_2; \ldots; y_m)$，则目标函数为：

$$
\hat{\mathbf{w}}^* = \arg \min_{\hat{\mathbf{w}}} (\mathbf{y} - \mathbf{X}\hat{\mathbf{w}})^T (\mathbf{y} - \mathbf{X}\hat{\mathbf{w}})
$$

令 $E_{\hat{\mathbf{w}}} = (\mathbf{y} - \mathbf{X}\hat{\mathbf{w}})^T (\mathbf{y} - \mathbf{X}\hat{\mathbf{w}})$，对 $\hat{\mathbf{w}}$ 求导并令其为零，得到最优解的形式：

$$
\frac{\partial E_{\hat{\mathbf{w}}}}{\partial \hat{\mathbf{w}}} = 2 \mathbf{X}^T (\mathbf{X}\hat{\mathbf{w}} - \mathbf{y}) = 0
$$

当 $\mathbf{X}^T \mathbf{X}$ 为满秩矩阵（full-rank matrix）或正定矩阵（positive definite matrix）时，可得：

$$
\hat{\mathbf{w}}^* = (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{y}
$$


$L=(X^TX)$,$\sigma^2 L^{-1}$是$\hat{\mathbf{w}}$的协方差矩阵

有
- $\text{Var}(\beta_0) = \sigma^2/n$
- $\text{Var}(\beta_i) = \sigma^2 L^{-1}_{ii}$
- $\text{Var}(\beta_0,\beta_j)=0$
- $\text{Var}(\beta_i,\beta_j) = \sigma^2 L^{-1}_{ij}$


$\sigma^2$的估计仍然可以用残差估计

$$
\begin{aligned}
\delta^2 = (Y - X\beta)^\intercal (Y-X\beta)\\
\hat \sigma^2 =\delta^2/(n-p-1)\\
\delta^2/\sigma^2 \sim \chi^2_{n-p-1}
\end{aligned}
$$


In [3]:
import scipy.stats as st
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from scipy.stats import linregress
n=2
fa=n/2/(n-1)
a=st.f(2,n-2).ppf(0.95)/fa
achi=st.chi2(2).ppf(0.95)

print(a,achi)

nan 5.991464547107979


两个变量的时候，通常检验$\beta_1$和$\beta_2$的计算表达式是否小于 5.99


$f(x)$的区间比$f(x_i)$更宽泛

