# **回帰分析の検定**
重回帰分析や判別分析を実行する際に変数選択手法の特徴を理解し、適用できる

### **単回帰分析の偏回帰係数の検定**

標本回帰方程式 $ Y = \hat\beta_1 + \hat\beta_2 X $ において $ X $ が $ Y $ をどのように説明しているかはその傾き $ \hat\beta_2 $ で表される。この傾きの有意性について検定をしよう。

帰無仮説と対立仮設を以下のように置く。
- 帰無仮説 $ H_0 : \beta_2 = a $ ($ a $ は指定された定数)
- 対立仮設 $ H_1 : \beta_2 ≠ a $ (両側検定) または $ H_1 : \beta_2 > a $ (片側検定)

まず、偏回帰係数 $ \beta_2 $ の $t$値を以下の式で求める。

$ t_2 = \frac{\hat\beta_2 - a} {s.e.(\hat\beta_2)} $ ($ s.e. $ は標準誤差)

この $t$値を求め、$t$分布表からから自由度 $ n - 2 $ のパーセント点を求めて検定を行うことで偏回帰係数の検定を行うことができる。

$ X $ で $ Y $ を説明できるかどうかが重要であるから、以下の帰無仮説が特に重要である。

$ H_0 : \beta_2 = 0 $

In [28]:
# モジュールとデータの読み込み
import numpy as np
import statsmodels.api as sm
import scipy

spector_data = sm.datasets.spector.load()

# 変数 GPA のみを選択する
spector_data.exog = spector_data.exog["GPA"]

In [29]:
# OLS モデルの当てはめとサマリ
mod = sm.OLS(spector_data.endog, spector_data.exog)
res = mod.fit()
print(res.summary())

# t がその偏回帰係数の t値、P>|t| が有意水準が p値 である。

                                 OLS Regression Results                                
Dep. Variable:                  GRADE   R-squared (uncentered):                   0.408
Model:                            OLS   Adj. R-squared (uncentered):              0.389
Method:                 Least Squares   F-statistic:                              21.37
Date:                Mon, 14 Aug 2023   Prob (F-statistic):                    6.32e-05
Time:                        09:51:21   Log-Likelihood:                         -19.932
No. Observations:                  32   AIC:                                      41.86
Df Residuals:                      31   BIC:                                      43.33
Df Model:                           1                                                  
Covariance Type:            nonrobust                                                  
                 coef    std err          t      P>|t|      [0.025      0.975]
-----------------------------------------

### **重回帰分析の偏回帰係数の検定**

重回帰分析においても、一つの偏回帰係数についての $ H_0 : \beta_t = a $ の検定は、単回帰分析と同様に行うことができる。

In [12]:
# データの読み込み
spector_data = sm.datasets.spector.load()

# 切片項を加えるとともに、変数 GPA のみを選択する
spector_data.exog = sm.add_constant(spector_data.exog, prepend=False)

In [13]:
# OLS モデルの当てはめとサマリ
mod = sm.OLS(spector_data.endog, spector_data.exog)
res = mod.fit()
print(res.summary())

# t がその偏回帰係数の t値、P>|t| が有意水準が p値 である。

                            OLS Regression Results                            
Dep. Variable:                  GRADE   R-squared:                       0.416
Model:                            OLS   Adj. R-squared:                  0.353
Method:                 Least Squares   F-statistic:                     6.646
Date:                Mon, 14 Aug 2023   Prob (F-statistic):            0.00157
Time:                        05:49:00   Log-Likelihood:                -12.978
No. Observations:                  32   AIC:                             33.96
Df Residuals:                      28   BIC:                             39.82
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
GPA            0.4639      0.162      2.864      0.0

一方、重回帰分析では複数の説明変数がある。いくつかの回帰係数についての仮説を同時に検定したい場合、回帰係数ごとの$t$検定では不十分であり、次に述べる$F$検定を用いる。

たとえば、上記サンプルデータにおいて、帰無仮説と対立仮説を以下のように定義する。

- 帰無仮説：$ H_0 : \beta_{GPA} = 0 $ かつ $ \beta_{TUCE} = 0 $ かつ $ \beta_{PSI} = 0 $
- 対立仮説：$ H_1 : \beta_{GPA} ≠ 0 $ または $ \beta_{TUCE} ≠ 0 $ または $ \beta_{PSI} ≠ 0 $

1. 説明変数を含まない重回帰方程式を推定し、回帰残差の平方和 $ \sum \hat{e}_i^2 $ を $ S_0 $ とする。
2. すべての説明変数を含む重回帰方程式を推定し、その回帰残差の平方和 $ \sum \hat{e}_i^2 $ を $ S_1 $ とする。
3. 帰無仮説に含まれる制約式の数を $ p $ とすると、統計量 $ F = \frac{(S_0 - S_1) / p} {S_1 / (n-k)} $ は、帰無仮説が正しい場合に自由度 $ (p, n-k) $ の $F$分布 $F(p, n-k)$に従うことが知られている。

$ F ≧ F_a(p, n-k) $ の時に帰無仮説を棄却し、それ以外は棄却しない。

In [25]:
# 統計量Fはサマリの F-stasistic の項に値が表示される
# 統計量Fにもとづく p値は Prob (F-statistic) の項に値が表示される
print(res.summary())

                            OLS Regression Results                            
Dep. Variable:                  GRADE   R-squared:                       0.416
Model:                            OLS   Adj. R-squared:                  0.353
Method:                 Least Squares   F-statistic:                     6.646
Date:                Mon, 14 Aug 2023   Prob (F-statistic):            0.00157
Time:                        09:50:13   Log-Likelihood:                -12.978
No. Observations:                  32   AIC:                             33.96
Df Residuals:                      28   BIC:                             39.82
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
GPA            0.4639      0.162      2.864      0.0

### **参考文献**

- 東京大学教養学部統計学教室編『統計学入門』(東京大学出版会、1991年)