# 多元线性回归

In [2]:
import pandas as pd
import statsmodels.api as sm

# 示例数据：多元自变量（身高、年龄）和因变量（体重）
data = {
    'Height': [150, 160, 170, 180, 190],
    'Age': [25, 30, 35, 40, 45],
    'Weight': [50, 60, 65, 70, 80]
}

df = pd.DataFrame(data)

# 自变量和因变量
X = df[['Height', 'Age']]
y = df['Weight']

# 添加常数列以计算截距项
X = sm.add_constant(X)

# 创建并训练多元回归模型
model = sm.OLS(y, X).fit()

# 打印回归结果
print(model.summary())


                            OLS Regression Results                            
Dep. Variable:                 Weight   R-squared:                       0.980
Model:                            OLS   Adj. R-squared:                  0.973
Method:                 Least Squares   F-statistic:                     147.0
Date:                Fri, 02 Aug 2024   Prob (F-statistic):            0.00121
Time:                        20:14:28   Log-Likelihood:                -8.8276
No. Observations:                   5   AIC:                             21.66
Df Residuals:                       3   BIC:                             20.87
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const         -0.0200      0.004     -4.598      0.0

  warn("omni_normtest is not valid with less than 8 observations; %i "


1. 回归系数（coef）：
    model.params 显示每个自变量和截距项的回归系数。
2. 标准误差（std err）：
    每个系数的标准误差，用于判断系数估计的精确度。
3. t值（t）和p值（P>|t|）：
    用于检验每个自变量的系数是否显著不为零。通常，如果p值小于0.05，说明该系数在统计上显著。
4. R²（R-squared）：
    解释变量对因变量的变异量的比例。R² 越高，模型对数据的解释能力越强。
5. F统计量（F-statistic）和p值（Prob (F-statistic)）：
    用于检验回归模型中所有自变量的回归系数是否同时为零。如果p值小于显著性水平（如0.05），则说明模型中至少有一个自变量对因变量有显著影响。