多元线性回归分析

# 步骤
1. 由观测值确定参数(回归系数)[β]的估计值
2. 对线性关系、自变量的显著性进行统计检验
3. 利用回归方程进行预测
在 statsmodels 中使用 predict() 方法进行预测时，需要注意输入数据的格式必须与训练数据一致（包括常数项/截距项）。

在Python中进行多元线性回归分析，可以使用多个库（如statsmodels、scikit-learn）

# 使用 statsmodels（推荐：输出统计推断结果）
优势：提供详细的统计结果（如p值、R²、系数置信区间），适合统计分析。
# 输出结果解析：
1. coef：回归系数（const为截距）
2. std err：系数标准误差
3. P>|t|：p值（<0.05表示显著）
4. R-squared：拟合优度
5. Adj. R-squared：调整后的R²

# 使用 scikit-learn（推荐：预测和机器学习流程）
优势：适合预测任务，支持管道（Pipeline）和交叉验证。

statsmodels基于数组求解

In [14]:
#例一
import statsmodels.api as sm
import pandas as pd
import numpy as np

# 准备数据
# data = pd.DataFrame({
#     'X1': [1, 2, 3, 4, 5],
#     'X2': [3, 5, 7, 9, 11],
#     'Y': [2, 4, 5, 8, 10]
# })
# X = data[['X1', 'X2']]
# # print(X)
# y = data['Y']
x1 = np.array([1, 2, 3, 4, 5]).reshape((5,1))
x2 = np.array([3, 5, 7, 9, 11]).reshape((5,1))
Y = np.array([2, 4, 5, 8, 10])
X = np.hstack([x1,x2])
# 添加截距项（必须显式添加）
X = sm.add_constant(X)  # 新增一列常数1，代表截距
# 拟合模型
model = sm.OLS(Y, X).fit()  # OLS：普通最小二乘法
# 查看完整统计结果
print(model.summary())

                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.980
Model:                            OLS   Adj. R-squared:                  0.974
Method:                 Least Squares   F-statistic:                     150.0
Date:                Fri, 25 Jul 2025   Prob (F-statistic):            0.00117
Time:                        20:46:37   Log-Likelihood:                -2.5132
No. Observations:                   5   AIC:                             9.026
Df Residuals:                       3   BIC:                             8.245
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const         -0.8333      0.501     -1.663      0.1

  warn("omni_normtest is not valid with less than 8 observations; %i "


In [35]:
#例二
import numpy as np
import statsmodels.api as sm

a = np.loadtxt('Pdata12_1.txt')
#加载表中的x1,x2,y的数据
X = sm.add_constant(a[:,:2])  #增加第一列全部元素为1得到增广矩阵
# print(X)
md = sm.OLS(a[:,2],X).fit()  #构建并拟合模型
print(md.summary(),'\n-------------------------------------------\n')
print('y={}*x1+{}*x2+{}'.format(
    md.params[1],  # 第一个系数
    md.params[2],  # 第二个系数
    md.params[0]   # 截距项
))
y = md.predict([1,5,68])  # 第一个1是截距项！
print(y)

                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.979
Model:                            OLS   Adj. R-squared:                  0.974
Method:                 Least Squares   F-statistic:                     229.5
Date:                Fri, 25 Jul 2025   Prob (F-statistic):           4.41e-09
Time:                        22:03:42   Log-Likelihood:                -28.156
No. Observations:                  13   AIC:                             62.31
Df Residuals:                      10   BIC:                             64.01
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const         52.5773      2.286     22.998      0.0

statsmodels基于公式求解

In [32]:
import numpy as np
import statsmodels.api as sm

a = np.loadtxt('Pdata12_1.txt')
# print(a)
#加载表中的x1,x2,y的数据
d = {'x1': a[:,0], 'x2': a[:,1], 'y': a[:,2]}
md = sm.formula.ols('y~x1+x2',d).fit()  #构建并拟合模型
print(md.summary(),'\n------------\n')
print('y={}*x1+{}*x2+{}'.format(
    md.params.iloc[1],  # 第一个系数
    md.params.iloc[2],  # 第二个系数
    md.params.iloc[0]   # 截距项
))
"""
如果知道参数名称(如 x1, x2, const),更推荐按名称访问：
print('y={}*x1+{}*x2+{}'.format(
    md.params['x1'],    # 变量x1的系数
    md.params['x2'],    # 变量x2的系数
    md.params.iloc[0]  # 截距项
))
"""
ypred = md.predict({'x1':5,'x2': 68})
print(ypred)

                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.979
Model:                            OLS   Adj. R-squared:                  0.974
Method:                 Least Squares   F-statistic:                     229.5
Date:                Fri, 25 Jul 2025   Prob (F-statistic):           4.41e-09
Time:                        22:00:40   Log-Likelihood:                -28.156
No. Observations:                  13   AIC:                             62.31
Df Residuals:                      10   BIC:                             64.01
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept     52.5773      2.286     22.998      0.0

利用模块sklearn.linear_model 中的函数LinearRegression 求解
该模型检验的指标只有R²
# 构建并拟合模型的函数调用格式为
LinearRegression().fit(x,y)
其中x为自变量观测值矩阵(不包含全部元素为1的第一列)

In [1]:
import numpy as np
from sklearn.linear_model import LinearRegression

a = np.loadtxt('Pdata12_1.txt')
#加载表中的x1,x2,y的数据
md = LinearRegression().fit(a[:,:2], a[:,2])  #构建并拟合模型
R2 = md.score(a[:,:2], a[:,2])
print('拟合优度R²=%.4f' %R2)
if R2 >= 0.7:
    print('模型拟合的很好！')
    b0 = md.intercept_; b12 = md.coef_  #输出回归系数
    print('b0=%.4f\nb1=%.4f    b2=%.2f' %(b0, b12[0], b12[1]))
else:
    print('模型拟合的不好，需重新拟合')

拟合优度R²=0.9787
模型拟合的很好！
b0=52.5773
b1=1.4683    b2=0.66
