# **回帰分析**
データサイエンス力 No. 56: 予測 1 (回帰・分類)  
単回帰分析において最小二乗法、回帰係数、標準誤差、決定係数を理解し、モデルを構築できる

### **回帰分析**

**回帰分析**は、2変数 $ X, Y $ のデータがあるとき**回帰方程式**と呼ばれる説明の関係を定量定期に表す式を求めることを目的としている。
- 説明される変数を $ Y $ で表し、**従属変数、被説明変数、内生変数**などと呼ぶ。
- 説明する変数を $ X $ で表し、**独立変数、説明変数、外生変数**などと呼ぶ。

ここで、i番目の従属変数を $ Y_i $、i番目の独立変数を $ X_i $、バラつきの部分を $ \epsilon_i $とすると、母集団において回帰方程式は以下のようになる。

$ Y_i = \beta_1+ \beta_2 X_i + \epsilon_i $


このモデルを**母回帰方程式**と呼び、$ \beta_1, \beta_2 $を**母(偏)回帰係数**と呼ぶ。これは、母集団の値であるから一般にはわからない。これについて推定、検定するのが回帰分析である。

また、$ \epsilon_i $は**誤差項** error term, **錯乱項** disturbance term と呼ばれ、次の三つの条件を満たす確率変数である。
- 期待値は 0：$ (\epsilon_i) = 0, i = 1, 2, ..., n $
- 分散は一定で $ \sigma^2：V(\epsilon_i) = \sigma^2, i = 1, 2, ..., n $
- 異なった誤差項は無相関：$ i ≠ j $ ならば $ Cov(\epsilon_i, \epsilon_j) = E(\epsilon_i, \epsilon_j) = 0 $

### **回帰係数の推定と最小二乗法**

$ X $ によって説明できない誤差項は以下のとおりである。

$ \epsilon_i = Y_i - (\beta_1 + \beta_2 X_i), i = 1, 2, ..., n $

$ \epsilon_i $ の符合の影響を取り除くために以下のようにすると、 $ S $ は $ Y_i $ が $ X_i $ で説明できない部分の総和を表していることになる。

$ S = \sum(\epsilon_i^2) = \sum\{Y_i - (\beta_1 + \beta_2 X_i)\}^2 $

この $ S $ を最小にする $ \hat\beta_1, \hat\beta_2 $ を $ \beta_1, \beta_2 $ の推定量とする。この考え方に基づく推定方法を**最小二乗法**と呼び、$ \hat\beta_1, \hat\beta_2 $ を**最小二乗推定量**と呼ぶ。この $ \hat\beta_1, \hat\beta_2 $ は以下の式で求められる。

- $ \hat\beta_2 = \frac{\sum(X_i - \bar{X})(Y_i - \bar{Y})}{\sum(X_i - \bar{X})^2} $
- $ \hat\beta_1 = \bar{Y} - \hat\beta_2 \bar{X}$

ここで、実測値 $ Y_i $ の、回帰方程式に定められた回帰値 $ Y_i $ かれのずれである $ \hat{e}_i $ は $ X $ で説明されずに残った分であり、これを**回帰残差**と呼ぶ。回帰残差は正負両方を含むが、全体の和は 0 となる。

回帰残差 = $ \hat{e}_i = Y_i - \bar{Y_i} = Y_i - \hat\beta_1 - \hat\beta_2 X_i (i = 1, 2, ..., n) $

誤差項 $ \epsilon_i $ の分散 $ \sigma^2 $ は回帰方程式の当てはまりの良さを表す。それは以下の式で表される。

$ s^2 = \sum \hat{e}_i^2 / (n - 2) $

回帰残差の平方和を $ (n - 2) $ で割るのは、 $ e_i $ は $ \sum \hat{e}_i = 0, \sum \hat{e}_i X_i = 0 $ の二つの条件を満たすため制限が加わり、自由度が 2 失われているためである。

回帰値の当てはまりの良し悪しはこの $ s $ の値を基礎として判断される。その目安となるこの $ s $ を**推定量の標準誤差**とし、$ s.e. $ で表す。この値が小さければ小さいほど回帰式はよく適合している。

### **回帰方程式の当てはまりと決定係数 $ \eta^2 $**

モデルの当てはまりの良さをはかる基準として一般に使われるのが**決定係数** $ \eta^2 $ である。

決定係数 $ \eta^2 $ は $ Y_i $ の変動のうち $ X_i $ の回帰方程式で説明(決定)できる変動の割合を指し、以下の式で定義される。

$ \eta^2 ≡ 1 - \frac{\sum \hat{e}_i^2} {\sum(Y_i - \bar{Y})^2} = \frac{\sum(\hat{Y}_i - \bar{Y})^2} {\sum(Y_i - \bar{Y})^2} $

$ X_i $ が $ Y_i $ を完全に説明しているとき $ \eta^2 $ は 1 をとり、全く説明できていない場合は 0 をとる。

なお、線型の回帰式の場合、決定係数は $ \eta^2 = r^2 $ ( $ r $は標本相関係数) となることが分かっている。

### **Python による実装**
statsmodels API のサンプルより (ただし、サンプルは重回帰分析のもの)

In [4]:
# モジュールとデータの読み込み
import numpy as np
import statsmodels.api as sm

spector_data = sm.datasets.spector.load()
spector_data.exog = sm.add_constant(spector_data.exog, prepend=False)

In [6]:
# OLS モデルの当てはめとサマリ
mod = sm.OLS(spector_data.endog, spector_data.exog)
res = mod.fit()
print(res.summary())

                            OLS Regression Results                            
Dep. Variable:                  GRADE   R-squared:                       0.416
Model:                            OLS   Adj. R-squared:                  0.353
Method:                 Least Squares   F-statistic:                     6.646
Date:                Sat, 12 Aug 2023   Prob (F-statistic):            0.00157
Time:                        04:12:51   Log-Likelihood:                -12.978
No. Observations:                  32   AIC:                             33.96
Df Residuals:                      28   BIC:                             39.82
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
GPA            0.4639      0.162      2.864      0.0

### **参考文献**

- 東京大学教養学部統計学教室編『統計学入門』(東京大学出版会、1991年)