# **重回帰分析の基礎**
重回帰分析において偏回帰係数と標準偏回帰係数、重相関係数について説明できる

### **単回帰分析と重回帰分析**

回帰分析において、説明変数がただ一つの場合を**単回帰分析**または**単純回帰分析**と呼ぶ。  
一方、二つ以上の説明変数を考えた場合を**重回帰分析**と呼ぶ。

重回帰分析は複数の説明変数を含むもので、母集団において以下となるモデルを指す。

$ Y_i = \beta_1 + \beta_2 X_{2i} + \beta_3  X_{3i} + ... + \beta_k X_{ki} + \epsilon_i (i = 1, 2, 3, ..., n) $

$ X_2, X_3, ..., X_k $ は説明変数、$ \epsilon $ は誤差項。

$ \beta_1, \beta_2, \beta_3, ..., \beta_k $ を**母(偏)回帰係数**と呼ぶ。これは、ある説明変数の (**ほかの説明変数の影響を除いた**、純粋の) 影響を表している。

In [1]:
# モジュールとデータの読み込み
import numpy as np
import statsmodels.api as sm
import scipy

spector_data = sm.datasets.spector.load()
spector_data.exog = sm.add_constant(spector_data.exog, prepend=False)

In [2]:
# OLS モデルの当てはめとサマリ
mod = sm.OLS(spector_data.endog, spector_data.exog)
res = mod.fit()
print(res.summary())

# coef が各説明変数の偏回帰係数

                            OLS Regression Results                            
Dep. Variable:                  GRADE   R-squared:                       0.416
Model:                            OLS   Adj. R-squared:                  0.353
Method:                 Least Squares   F-statistic:                     6.646
Date:                Mon, 14 Aug 2023   Prob (F-statistic):            0.00157
Time:                        09:26:04   Log-Likelihood:                -12.978
No. Observations:                  32   AIC:                             33.96
Df Residuals:                      28   BIC:                             39.82
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
GPA            0.4639      0.162      2.864      0.0

### **回帰係数の推定と最小二乗法、決定係数**

重回帰分析にはk個の未知の母(偏)回帰係数が存在するが、その推定には単回帰分析同様、**最小二乗法**が用いられる。

誤差項 $ \epsilon_i = Y_i - (\beta_1 + \beta_2 X_{2i} + \beta_3 X_{3i} + ... + \beta_k X_{ki}) $ の平方和 $ S = \sum {{\epsilon_i}^2} $ を考えそれを最小にする。

単回帰分析と同様、重回帰分析でもモデルの当てはまりの良さを表すのに**決定係数** $ \eta^2 $ を用いる。

$ \eta^2 = \frac{\sum(\hat{Y}_i - \bar{Y})^2} {\sum(Y_i - \bar{Y})^2} = 1 - \frac{\sum{\hat{e}_i}^2} {\sum(Y_i - \bar{Y})^2} $ ここで $ \hat{e}_i $ は回帰残差を表す。

決定係数の正の平方根を**重相関係数**といい、$ R $ で表す。これは単回帰分析の通常の相関係数 $ r $ の一般化であり、 $ \eta^2 = r^2 $ であったのに対応して、$ \eta^2 = R^2 $ となる。


In [4]:
# R-squared が重相関係数
print(res.summary())

                            OLS Regression Results                            
Dep. Variable:                  GRADE   R-squared:                       0.416
Model:                            OLS   Adj. R-squared:                  0.353
Method:                 Least Squares   F-statistic:                     6.646
Date:                Mon, 14 Aug 2023   Prob (F-statistic):            0.00157
Time:                        09:27:45   Log-Likelihood:                -12.978
No. Observations:                  32   AIC:                             33.96
Df Residuals:                      28   BIC:                             39.82
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
GPA            0.4639      0.162      2.864      0.0

### **標準化偏回帰係数**

単位の異なる複数の説明変数が重回帰分析のモデルに含まれた場合、回帰分析の結果 (とくに、変数の影響力の大きさ) を理解するのに混乱が生じる場合がある。

そのため、各変数からその標本平均、標本標準偏差を使って標準化し、 $ (X_{ki} - \bar{X_k}) / s_{x_k},  (Y_i - \bar{Y}) / s_y $ について回帰分析を行うことも多い。

この場合の偏回帰係数を**標準化(偏)回帰係数**ないしは**標準偏回帰係数**という。

In [5]:
# データロード
spector_data = sm.datasets.spector.load()

# 標準化と切片項の付与
## scipy.stats.zscore() を用いて変数の標準化を行う
spector_data.exog = sm.add_constant(scipy.stats.zscore(spector_data.exog), prepend=False)

In [7]:
# OLS モデルの当てはめとサマリ
mod = sm.OLS(spector_data.endog, spector_data.exog)
res = mod.fit()

# 先ほどの結果とは各説明変数の偏回帰係数の値が異なるのが分かる
print(res.summary())

                            OLS Regression Results                            
Dep. Variable:                  GRADE   R-squared:                       0.416
Model:                            OLS   Adj. R-squared:                  0.353
Method:                 Least Squares   F-statistic:                     6.646
Date:                Mon, 14 Aug 2023   Prob (F-statistic):            0.00157
Time:                        09:29:39   Log-Likelihood:                -12.978
No. Observations:                  32   AIC:                             33.96
Df Residuals:                      28   BIC:                             39.82
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
GPA            0.2131      0.074      2.864      0.0

### **参考文献**

- 東京大学教養学部統計学教室編『統計学入門』(東京大学出版会、1991年)