In [1]:
import pandas as pd
import statsmodels.api as sm
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt


# 生成样本数据
df = pd.read_excel('..\evaluation\棉花产量论文作业的数据.xlsx')
df.head(20)

Unnamed: 0,年份,单产,种子费,化肥费,农药费,机械费,灌溉费
0,1990,1017.0,106.05,495.15,305.1,45.9,56.1
1,1991,1036.5,113.55,561.45,343.8,68.55,93.3
2,1992,792.0,104.55,584.85,414.0,73.2,104.55
3,1993,861.0,132.75,658.35,453.75,82.95,107.55
4,1994,901.5,174.3,904.05,625.05,114.0,152.1
5,1995,922.5,230.4,1248.75,834.45,143.85,176.4
6,1996,916.5,238.2,1361.55,720.75,165.15,194.25
7,1997,976.5,260.1,1337.4,727.65,201.9,291.75
8,1998,1024.5,270.6,1195.8,775.5,220.5,271.35
9,1999,1003.5,286.2,1171.8,610.95,195.0,284.55


In [2]:
# 将数据转换为DataFrame
X = df[['种子费', '化肥费', '农药费','机械费','灌溉费']]  # 自变量
# X = df[['机械费','灌溉费']]  # 自变量
Y = df['单产']  # 因变量

# 添加常数项（截距）
X = sm.add_constant(X)

model = sm.OLS(Y, X).fit()
print(model.summary())

                            OLS Regression Results                            
Dep. Variable:                     单产   R-squared:                       0.741
Model:                            OLS   Adj. R-squared:                  0.633
Method:                 Least Squares   F-statistic:                     6.858
Date:                Wed, 28 Aug 2024   Prob (F-statistic):            0.00305
Time:                        11:42:13   Log-Likelihood:                -101.23
No. Observations:                  18   AIC:                             214.5
Df Residuals:                      12   BIC:                             219.8
Df Model:                           5                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const        947.0456     95.530      9.914      0.0

  k, _ = kurtosistest(a, axis)


# 内容解释

### 模型整体评估

- **Dep. Variable (因变量)**: `单产` 表示回归模型的因变量是单产（可能是作物的产量）。

- **Model**: `OLS` 表示使用的是普通最小二乘法来拟合模型。

- **Method**: `Least Squares` 表示使用的是最小二乘法。

- **No. Observations (观测值数量)**: `18` 表示用于回归分析的数据点数量为18。

- **Df Residuals (残差自由度)**: `14` 表示残差的自由度为14，即 `No. Observations - Df Model - 1`。

- **Df Model**: `3` 表示模型中有3个自变量。

- **Covariance Type**: `nonrobust` 表示使用的是非稳健协方差估计量。

### R-squared 和 Adj. R-squared

- **R-squared (决定系数)**: `0.717` 表示模型解释了因变量方差的71.7%。这个值越接近1，说明模型对因变量的解释能力越强。

- **Adj. R-squared (调整后的决定系数)**: `0.657` 是对 `R-squared` 的调整，考虑了模型中的自变量数量。它通常比 `R-squared` 更适合比较不同的模型，特别是当模型中有不同数量的自变量时。这里，调整后的R平方略低于R平方，表明添加的自变量并没有显著提高模型的解释力。


数值解释：
- 0.02 - 0.15：模型解释了2%到15%的变异性，这通常被认为是一个较弱的模型。
- 0.15 - 0.33：模型解释了15%到33%的变异性，这被认为是一个中等偏弱的模型。
- 0.33 - 0.67：模型解释了33%到67%的变异性，这被认为是一个中等强度的模型。
- 0.67 - 0.81：模型解释了67%到81%的变异性，这被认为是一个较强的模型。
- 0.81 - 0.90：模型解释了81%到90%的变异性，这被认为是一个非常强的模型。
- 0.90 - 0.95：模型解释了90%到95%的变异性，这被认为是一个几乎完美的模型。
- 0.95 以上：模型解释了95%以上的变异性，这在实际应用中非常罕见，可能意味着过拟合。

然而，高R平方值并不一定意味着模型就是好的，因为：
过拟合：模型可能过于复杂，捕捉到了数据中的随机噪声，而不是潜在的数据生成过程。
多重共线性：自变量之间高度相关，可能导致R平方值虚高。
样本大小：较大的样本量可能会人为地提高R平方值。
### F-statistic 和 Prob (F-statistic)
显著性水平（α）：常用0.05。P(F) < α：拒绝原假设，认为至少有一个自变量对因变量有显著影响，模型整体显著。
- **F-statistic**: `11.85` 是检验整个模型的显著性的F统计量。它衡量的是自变量整体对因变量的解释力是否显著。

- **Prob (F-statistic)**: `0.000392` 是对应的p值。小于0.05的p值表明模型总体上是显著的，即至少有一个自变量对因变量有显著影响。

### 模型选择信息准则

- **Log-Likelihood**: `-102.01` 是对数似然值，值越大表示模型拟合越好。

- **AIC (Akaike Information Criterion)**: `212.0` 是Akaike信息准则，用于模型选择，值越小表示模型拟合更好，且较少过拟合。

- **BIC (Bayesian Information Criterion)**: `215.6` 是贝叶斯信息准则，类似AIC，但更倾向于选择简单的模型。值越小，模型越好。

### 每个自变量的系数估计

- **coef (回归系数)**:
    - `const`: `938.3721` 表示常数项（截距）。
    - `种子费`: `1.2931` 表示种子费每增加一个单位，单产预计增加 `1.2931` 单位，其他变量保持不变。
    - `化肥费`: `-0.1706` 表示化肥费每增加一个单位，单产预计减少 `0.1706` 单位，其他变量保持不变。
    - `农药费`: `-0.1225` 表示农药费每增加一个单位，单产预计减少 `0.1225` 单位，其他变量保持不变。

- **std err (标准误差)**: 表示估计系数的标准误差。标准误差越小，说明估计越精确。

- **t (t统计量)**: 用于检验每个系数是否显著为0，t统计量越大，表明该自变量对因变量有显著影响。

- **P>|t| (p值)**: 
常用的显著性水平为0.05（5%），P < α：拒绝原假设，认为该变量在显著性水平下对因变量有显著影响。
    - `const`: `0.000` 表示截距显著。
    - `种子费`: `0.060`，虽然略高于0.05，但接近显著性水平，表明种子费对单产可能有一定的影响。
    - `化肥费`: `0.495` 表示化肥费对单产没有显著影响（p值远大于0.05）。
    - `农药费`: `0.647` 表示农药费对单产没有显著影响（p值远大于0.05）。
  
- **[0.025 0.975] (置信区间)**: 95%置信区间。如果0在区间内，通常意味着该变量在给定置信水平下不显著。如果置信区间不包含零，说明该变量在给定的置信水平下对因变量有显著影响
    - `种子费`: 区间是 `[-0.065, 2.651]`，包含0，因此在0.05水平下不显著，但非常接近显著性。
    - `化肥费`: 区间是 `[-0.693, 0.352]`，包含0，不显著。
    - `农药费`: 区间是 `[-0.683, 0.438]`，包含0，不显著。

### 模型诊断

- **Omnibus**: `0.008` 是Omnibus检验的统计量，用于检验残差是否符合正态分布。这里的p值 `0.996` 表明不能拒绝残差正态分布的假设。

- **Prob(Omnibus)**: `0.996` 是Omnibus检验的p值。

- **Skew (偏度)**: `0.037`，接近0，表明残差分布几乎对称。

- **Kurtosis (峰度)**: `2.501`，接近3，表明残差分布接近正态分布。

- **Durbin-Watson**: `1.663`，用来检测残差的自相关性。接近2的值表示残差没有显著的自相关性。

- **Jarque-Bera (JB)**: `0.191` 是Jarque-Bera检验的统计量，测试残差的正态性。

- **Prob(JB)**: `0.909` 是JB检验的p值，表明残差符合正态分布。

- **Cond. No. (条件数)**: `6.19e+03` 表示矩阵的条件数，用来检测多重共线性。如果条件数非常大（通常超过30），则可能存在多重共线性问题。

### 总结与判断
1. **模型的解释力**：`R-squared` 值为 `0.717`，说明模型能解释大约71.7%的因变量方差，模型解释力较好。但 `Adj. R-squared` 稍低，表示模型复杂度对解释力的贡献有限。

2. **显著性**：整体模型显著性较高（`F-statistic` 对应的p值远小于0.05），但单个自变量的显著性较差，只有 `种子费` 接近显著。

3. **系数解读**：`种子费` 对单产的影响接近显著，而 `化肥费` 和 `农药费` 的影响不显著，可能需要重新考虑这些变量，或者在特征工程中引入新的特征。

4. **模型诊断**：残差符合正态性，无明显自相关，模型的基础假设基本满足。

### 改进建议
- **移除不显著的特征**：考虑移除或重新构造 `化肥费` 和 `农药费` 特征。
- **特征选择和工程**：添加新的可能有用的特征，或者尝试非线性特征（如多项式项）。
- **检查多重共线性**：条件数较高（6.19e+03），应检查是否存在多重共线性，必要时做适当处理（如去除或组合特征）。

# 逐步多元线性回归

In [None]:
# 定义逐步回归函数
def backward_elimination(X, Y, significance_level=0.05):
    while True:
        model = sm.OLS(Y, X).fit()
        p_values = model.pvalues
        max_p_value = p_values.max()
        if max_p_value > significance_level:
            excluded_feature = p_values.idxmax()
            print(f"Removing {excluded_feature} with p-value {max_p_value}")
            X = X.drop(columns=[excluded_feature])
        else:
            break
    return model

# 进行逐步回归
model = backward_elimination(X, Y)
print(model.summary())

# 绘图

In [None]:
# 计算残差
residuals = model.resid

# 绘制残差图
plt.figure(figsize=(12, 6))

# 残差 vs 拟合值图
plt.subplot(1, 2, 1)
sns.scatterplot(x=model.fittedvalues, y=residuals)
plt.axhline(y=0, color='r', linestyle='--')
plt.title('Residuals vs Fitted')
plt.xlabel('Fitted values')
plt.ylabel('Residuals')

# 残差的直方图和QQ图
plt.subplot(1, 2, 2)
sns.histplot(residuals, kde=True)
plt.title('Histogram of Residuals')

plt.tight_layout()
plt.show()

# Q-Q图
sm.qqplot(residuals, line='45')
plt.title('Q-Q Plot of Residuals')
plt.show()

In [None]:
# 获取回归系数
intercept = model.params[0]
coef_seed = model.params[1]
coef_fertilizer = model.params[2]

# 创建网格以绘制三维平面
seed_range = np.linspace(X['种子费'].min(), X['种子费'].max(), 100)
fertilizer_range = np.linspace(X['化肥费'].min(), X['化肥费'].max(), 100)
seed_grid, fertilizer_grid = np.meshgrid(seed_range, fertilizer_range)
yield_grid = intercept + coef_seed * seed_grid + coef_fertilizer * fertilizer_grid

# 绘制三维图
fig = plt.figure(figsize=(12, 8))
ax = fig.add_subplot(111, projection='3d')

# 绘制回归平面
surface = ax.plot_surface(seed_grid, fertilizer_grid, yield_grid, cmap='viridis', alpha=0.8)

# 绘制数据点
ax.scatter(X['种子费'], X['化肥费'], Y, color='red', s=50)

# 设置轴标签
ax.set_xlabel('种子费 (X1)')
ax.set_ylabel('化肥费 (X2)')
ax.set_zlabel('单产 (Y)')
ax.set_title('3D Regression Model')

# 添加回归方程
equation = f'Z = {intercept:.2f} + {coef_seed:.4f}*X1 + {coef_fertilizer:.4f}*X2'
ax.text2D(0.05, 0.95, equation, transform=ax.transAxes, fontsize=12)

# 设置视角
ax.view_init(elev=20, azim=120)

# 添加颜色条
fig.colorbar(surface, shrink=0.5, aspect=5)

plt.show()