<a href="https://colab.research.google.com/github/takatakamanbou/MVA/blob/2022/ex04notebookA.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# MVA2022 ex04notebookA

<img width=64 src="https://www-tlab.math.ryukoku.ac.jp/~takataka/course/MVA/MVA-logo.png"> https://www-tlab.math.ryukoku.ac.jp/wiki/?MVA/2022

---
# 注意
---

今回の授業で使う notebook では，出力のフォントの設定を適切にしないと表示が崩れて見づらい場合があります．今回の授業のページの「Colabの出力を固定幅にしよう」を参照して適切に設定してください．

----
## 重回帰分析 (2)
----

前回の重回帰分析の説明では，統計学的な話は出てきませんでした．
今回は，確率統計の考え方を導入して，回帰分析の問題を説明し直します．
統計学の力を得ることで，より深い分析ができるようになります．


In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn
seaborn.set()

---
### 重回帰分析 ver.2

確率統計の考え方にもとづいて重回帰分析の問題を設定し直します．


 #### 問題設定

変数 $x_1, x_2, \ldots, x_D$ を用いて変数 $y$ を説明するために，両者の間に次の関係が成り立つと仮定します（このような関係のことを **線形回帰モデル** （線形重回帰モデル） といいます）．
 
$$ y = w_0+w_1x_1 + w_2x_2 + \cdots + w_Dx_D + \epsilon \qquad \epsilon \sim \textrm{N}(0, \sigma^2) \qquad (1)$$
 
ただし，$x_1, x_2, \ldots, x_D$ （**説明変数**）は確率変数ではないものとします．
一方， $\epsilon$ （**誤差項**, 注）は確率変数で，平均 $0$ 分散 $\sigma^2$ の正規分布に従うと仮定しています．
$w_0, w_1, \ldots, w_D$ および $\sigma^2$ は定数です．
$\epsilon$ が確率変数であることから， $y$（**被説明変数**）も確率変数となります．

<span style="font-size: 75%">
※注: この文字はギリシャ文字で，「イプシロン」や「エプシロン」と読みます．
</span>


この式を変形すると

$$
\epsilon = y - (w_0+w_1x_1+w_2x_2+\cdots + w_Dx_D)
$$

となることからわかるように，
誤差項は，$y$ を $w_0+w_1x_1+\cdots + w_Dx_D$ で説明しようとして説明しきれなかったずれ（誤差）を表しています．




重回帰分析の目的は，変数 $x_1, x_2, \ldots, x_D$ と $y$ のペアから成る標本

$$
\begin{array}{c}
((x_{1,1}, x_{1,2}, \ldots, x_{1,D}), y_1),\\
((x_{2,1}, x_{2,2}, \ldots, x_{2,D}), y_2),\\
\vdots \\
((x_{N,1}, x_{N,2}, \ldots, x_{N,D}), y_N)\\
\end{array}
$$

が与えられたときに，式(1)で表されたモデルのパラメータ $w_0, w_1, \ldots, w_D$ の値を推定することです．
ただし，

$$
y_n = w_0+w_1x_{n,1} + w_2x_{n,2} + \cdots + w_Dx_{n,D} + \epsilon_n \qquad (n = 1, 2, \ldots, N)
$$

と表したときの誤差項 $\epsilon_n$ は，互いに独立に $\textrm{N}(0, \sigma^2)$ に従うと仮定します．
この仮定から，$y_n$ は互いに独立に

$$
\textrm{N}(w_0+w_1x_{n,1} + w_2x_{n,2} + \cdots + w_Dx_{n,D}, \sigma^2)
$$

に従うことが導かれます（下図参照）．

<img src="https://www-tlab.math.ryukoku.ac.jp/~takataka/course/MVA/regression.png">

#### 回帰係数の推定

上記の問題設定で説明した仮定のもとでは，与えられた標本を用いてパラメータ $w_0, w_1, \ldots, w_D$ の推定値 $\hat{w}_0, \hat{w}_1, \ldots, \hat{w}_D$ （**回帰係数**） を求めるには，これらの標本に対する最小二乗法の問題を解けばよいことが知られています．
つまり，$\hat{w}_0, \hat{w}_1, \ldots, \hat{w}_D$ の値は，

$$
\begin{aligned}
E(\hat{w}_0, \hat{w}_1, \ldots, \hat{w}_D) &=  \sum_{n=1}^{N}(y_n - (\hat{w}_0 + \hat{w}_1x_{n,1} + \cdots + \hat{w}_Dx_{n,D}))^2
\end{aligned}
$$

を最小化する問題の解であり，次の連立方程式（**正規方程式**）の解となります．

$$
X^{\top}X
\begin{pmatrix}
\hat{w}_0 \\ \hat{w}_1 \\ \vdots \\ \hat{w}_D
\end{pmatrix} =
X^{\top}Y
$$

ここで，行列 $X, Y$ は次のようにおきました．

$$
X = 
\begin{pmatrix}
1 & x_{1,1} & x_{1,2} & \cdots & x_{1,D}\\
1 & x_{2,1} & x_{2,2} & \cdots & x_{2,D}\\
& & \vdots\\
1 & x_{N,1} & x_{N,2} & \cdots & x_{N,D}\\
\end{pmatrix}
\qquad
Y = \begin{pmatrix}
y_1\\ y_2 \\ \vdots \\ y_N
\end{pmatrix}
$$



### 回帰分析の結果の推定や検定

「問題設定」で述べたように確率統計の問題として定式化したことで，回帰係数の推定値がどのくらい信頼できるかを判断したり，仮定したモデルが妥当だったかどうかを判断するために，統計的推定・統計的仮説検定の道具が使えるようになります．

以下，その概略について，導出過程などの説明は省略して簡単に記します．

モデルの仮定から，最小二乗法によって得られる推定値 $\hat{w}_0, \hat{w}_1, \ldots, \hat{w}_D$ も正規分布に従うこと，さらには，それぞれの平均が $w_0, w_1, \ldots, w_D$ に等しいことが導かれます．
つまり，回帰係数の推定値は真の回帰係数の不偏推定量となっています．
分散も求まりますが，式の説明は省略します．
一方，母分散 $\sigma^2$ の不偏推定量 $\hat{\sigma}^2$ は，次式の通りとなります．


$$
\hat{\sigma}^2 = \frac{1}{N-D-1}\sum_{n=1}^{N}(y_n - \hat{y}_n)^2 = \frac{1}{N-D-1}\sum_{n=1}^{N}(y_n - (\hat{a}x_n + \hat{b}))^2
$$

上記のことから，$\hat{w}_d$ の「標準誤差」（分散の推定値の平方根）を $\textrm{se}(\hat{w}_d)$ とおくと，

$$
\frac{\hat{w}_d - w_d}{\textrm{se}(\hat{w}_d)}
$$

は自由度 $N - D - 1$ の $t$ 分布に従うことが分かります（標準誤差の具体的な式や $t$ 分布に従うことのちゃんとした説明は省略します）．



このことを用いて，回帰係数 $w_d$ ($d=0,1,\ldots, D$) の「区間推定」や「統計的仮説検定」を行うことができます．
例えば...

- 個々の回帰係数の信頼区間を求めることができる．
つまり，次のようなことを言えます．
> $w_d$ は95%の割合で区間 $[0.34, 0.56]$ に入っている
- 個々の回帰係数について，帰無仮説を $w_d = 0$ として（対立仮説を $w_d\ne 0$ として）統計的仮説検定を行うことができます．
$w_d = 0$ ということは説明変数 $x_d$ が被説明変数 $y$ に影響を与えていないということを表すので，この帰無仮説が棄却されて $w_d \ne 0$ という結論が得られるなら，$x_d$ は $y$ に影響を与えていると主張することができます．

ここではこれ以上詳しいことは説明しません．
もっと詳しいことが知りたいひとは，この授業のウェブページのリンク先「MVAの参考情報」のページに記載されている書籍などを参照してください．


### 統計分析ツールを使ってみる

前の節で説明したような統計的推定・検定のための計算は，自分でコードを書いて行うこともできますが，統計分析ツールを利用すると楽ちんです．

ここでは，Python で利用できる統計分析ツールの一つである statsmodels （ https://www.statsmodels.org/ ）を使ってみることにします．
統計分析ツールはこれ以外にもいろいろ（Python 以外のプログラミング言語向けのもの，Excel等の表計算ソフト向けのもの，etc.）あり，いずれも同じようなことができます．



In [None]:
# statsmodels の機能を利用できるようにモジュールをインポート
import statsmodels.api as sm

前回使ったのと同じデータで， statsmodels を使った回帰分析をやってみましょう．

In [None]:
# データの読み込み
df = pd.read_csv('https://github.com/ghmagazine/python_stat_sample/raw/master/data/ch12_scores_reg.csv')
df.drop(columns='通学方法', inplace=True)
df

statsmodels で重回帰分析を行う方法については，次のセルに記したコメントを参考にしてください．

In [None]:
## (小テスト, 睡眠時間) vs 期末テストの重回帰分析

# データ行列の用意
X = df.loc[:, ['小テスト', '睡眠時間']].to_numpy()
Y = df['期末テスト'].to_numpy()

#X1 = np.vstack([np.ones(len(X)), X.T]).T
X1 = sm.add_constant(X)  # statsmodels の機能で 1 を付け足せる

# statsmodels で重回帰分析
model = sm.OLS(Y, X1) # 普通の最小二乗法 (Ordinary Least Squares) による線形回帰モデルを用意
rv = model.fit()         # 線形回帰モデルの当てはめを実行
print(rv.summary())     # 結果を表示

「結果を表示」の出力の一部について，以下に説明を書いておきます．
<img src="https://www-tlab.math.ryukoku.ac.jp/~takataka/course/MVA/ols_summary.png">

- 「自由度調整済み決定係数」については，後述します
- （小テスト,睡眠時間）と期末テストの間に次の関係があると推測される結果となりました（これまで計算してきたのと同じです）．

$$
(期末テスト) = -1.8709 + 6.4289\times (小テスト) + 4.1917\times (睡眠時間) + (誤差項)
$$

- （小テスト）の回帰係数の95%信頼区間は $[4.412, 8.446]$ と分かります
- 「回帰係数の $t$ 検定の $p$ 値」と記した項目の値は，「回帰係数の値が $0$ に等しい」という帰無仮説に対する検定の p 値です．例えば有意水準を5%(0.05)とすると，次のように言えます
    - `const`: 定数項が 0 であるとの帰無仮説は棄却されない
    - `x1`: （小テスト） の回帰係数が 0 であるとの帰無仮説は棄却される → （小テスト） は (期末テスト) に影響している
    - `x2`: （睡眠時間） も同様
 

### モデルの選択

上記の例では，データの中に「小テスト」と「睡眠時間」という二つの説明変数がありました．
この場合，

$$
(期末テスト) = w_0 +  w_1\cdot (小テスト) + w_2\cdot (睡眠時間) + (誤差項)
$$

というモデルではなく，

$$
(期末テスト) = w_0 +  w_1\cdot (小テスト) + (誤差項)
$$

や

$$
(期末テスト) = w_0 +  w_1\cdot (睡眠時間) + (誤差項)
$$

といったモデルの方が真の変数間の関係を表しているという可能性があります（注）．
他の変数も手に入った場合さらに，それらも説明変数に加えたモデルも考えることになるでしょう．

<span style="font-size: 75%">
※注: それぞれのモデルの式に同じ記号の回帰係数が出てきますが，実際にはそれぞれ別のものです．また，2つの説明変数がどちらも被説明変数に影響を与えていない，
$$
(期末テスト) = w_0 +  (誤差項)
$$
というモデルもありえます．
</span>



このような場合，すべての説明変数を加えたモデルで回帰分析を行って，それぞれの回帰係数が $0$ かどうか検定して，説明変数を取捨選択する，というのが一つの方法です．
他にもう一つ，より直接的に，「説明変数の選び方の異なる様々なモデルを作ってみて，それらの中から適切なモデルを選択する」という方法も考えられます．




後者の方法を採用する場合，各モデルの「良さ」を定量的に判断するための基準が必要となります．これまでに知っているものの中では，**決定係数**（**寄与率**と呼ばれることもあります, R-squared）が最もその目的に合いそうです．決定係数は次式で定義される量であり，モデルの当てはまりの良さの基準となるのでした．

$$
r^2 = 1 - \frac{\mbox{(残差平方和)}}{\mbox{(総平方和)}} = 1 - \frac{\displaystyle\sum_{n=1}^{N}(y_n - \hat{y}_n)^2}{\displaystyle\sum_{n=1}^{N}(y_n - \bar{y})^2}
$$

ただし，$\bar{y}$ は $y_n$ の平均値です．



決定係数を使ってモデルを選択できるかどうか，実際に計算してみましょう．
以下のセルたちを実行すると，いくつかのモデルの設定で回帰分析を行って，決定係数の値を表示させることができます．

In [None]:
#  小テスト vs 期末テスト
X = df.loc[:, ['小テスト']].to_numpy()
Y = df['期末テスト'].to_numpy()
X1 = sm.add_constant(X)  # statsmodels の機能で 1 を付け足せる
model = sm.OLS(Y, X1)
rv = model.fit()
print(f'決定係数:            {rv.rsquared:.3f}')
#print(f'自由度調整済み決定係数: {rv.rsquared_adj:.3f}')

In [None]:
#  睡眠時間 vs 期末テスト
X = df.loc[:, ['睡眠時間']].to_numpy()
Y = df['期末テスト'].to_numpy()
X1 = sm.add_constant(X)  # statsmodels の機能で 1 を付け足せる
model = sm.OLS(Y, X1)
rv = model.fit()
print(f'決定係数:            {rv.rsquared:.3f}')
#print(f'自由度調整済み決定係数: {rv.rsquared_adj:.3f}')

In [None]:
#  (小テスト, 睡眠時間) vs 期末テスト
X = df.loc[:, ['小テスト', '睡眠時間']].to_numpy()
Y = df['期末テスト'].to_numpy()
X1 = sm.add_constant(X)  # statsmodels の機能で 1 を付け足せる
model = sm.OLS(Y, X1)
rv = model.fit()
print(f'決定係数:            {rv.rsquared:.3f}')
#print(f'自由度調整済み決定係数: {rv.rsquared_adj:.3f}')

これらを見ると，「小テスト」と「睡眠時間」の両方を説明変数とする重回帰モデルの決定係数の値が最も大きく，このモデルがこれらの中では最適と言えそうです．

ですが，ここで，このデータに余分なデータを付け足してみるとどうなるでしょうか．試しに，説明変数として，「1から始まるただの番号」と「$[0, 1)$の一様分布にしたがう乱数」を追加してみましょう．
どちらも，「期末テスト」に影響を与えるとは考えられないものです．


In [None]:
# 「1から始まる番号」と「[0,.1)の一様分布乱数」のデータを作る
np.random.seed(0)
X2 = np.vstack([np.arange(1, len(X)+1), np.random.random(len(X))]).T
print(X2)

こうして説明変数を4つにしたモデルで回帰分析を行って決定係数を求めてみると...

In [None]:
#  (小テスト, 睡眠時間, 番号, 乱数) vs 期末テスト
X = df.loc[:, ['小テスト', '睡眠時間']].to_numpy()
Y = df['期末テスト'].to_numpy()
X = np.hstack([X, X2])
X1 = sm.add_constant(X)
print(X1)
model = sm.OLS(Y, X1)
rv = model.fit()
print(f'決定係数:            {rv.rsquared:.3f}')
#print(f'自由度調整済み決定係数: {rv.rsquared_adj:.3f}')

こちらの方が決定係数の値が大きくなってしまいました．
実は，決定係数には，「あるモデルに（何でもいいから）もう一つ説明変数を付け足したモデルの決定係数の値は，元のモデルの決定係数の値と等しいかそれより大きくなる」という性質があります．
上記の説明変数4つのモデルの決定係数の値が2つのモデルのそれより大きくなったのはこのためです．

このような性質があるため，決定係数はモデルの選択に使う基準としては適切ではありません．
かわりの基準として，「モデルの変数の数の違い（自由度の違い）を考慮に入れて調整した」決定係数である，**自由度調整済み決定係数**(Adjusted R-squared) というものが考案されています．
この授業では回帰分析モデルの自由度についてのちゃんとした説明はしていませんので，結論のみを示すと，次のようになります．

$$
\begin{aligned}
\widetilde{r}^2 &= 1 - \frac{\frac{\mbox{(残差平方和)}}{N-D-1}}{\frac{\mbox{(総平方和)}}{N-1}} = 1 - \frac{N-1}{N-D-1} \frac{\displaystyle\sum_{n=1}^{N}(y_n - \hat{y}_n)^2}{\displaystyle\sum_{n=1}^{N}(y_n - \bar{y})^2} \\
&= 1 - \frac{N-1}{N-D-1} (1-r^2)
\end{aligned}
$$

役に立たない変数を追加して $r^2$ が少し大きくなったとしても，$D$が大きくなる効果の方が上回れば $\widetilde{r}^2$ は逆に小さくなる，ということになります．

上記のコードセルそれぞれの最後の行の `#` を外すと，自由度調整済み決定係数の値も表示してくれるようになります．
確認してみてください．

### 多重共線性

重回帰分析を行う際に注意が必要な問題である，データの **多重共線性** について説明します．

見通しをよくするため，$D = 2$ の重回帰モデルで説明します．

$$ y_n = w_0+w_1x_{n,1} + w_2x_{n,2} + \epsilon_n $$

この場合，データの行列を
$$
X = 
\begin{pmatrix}
1 & x_{1,1} & x_{1,2} \\
1 & x_{2,1} & x_{2,2} \\
& & \vdots\\
1 & x_{N,1} & x_{N,2} \\
\end{pmatrix}
\qquad
Y = \begin{pmatrix}
y_1\\ y_2 \\ \vdots \\ y_N
\end{pmatrix}
$$
とすると，正規方程式は

$$
X^{\top}X
\begin{pmatrix}
\hat{w}_0 \\ \hat{w}_1 \\ \hat{w}_2
\end{pmatrix} =
X^{\top}Y
$$

と書けます．
ここで，左辺の $(D+1)\times (D+1)$ （いまは $3\times 3$）行列 $X^{\top}X$ に注目すると，

$$
X^{\top}X = 
\begin{pmatrix}
1 & 1 & & 1\\
x_{1,1} & x_{2,1} & \cdots & x_{N,1} \\
x_{1,2} & x_{2,2} & \cdots & x_{N,2} \\
\end{pmatrix}
\begin{pmatrix}
1 & x_{1,1} & x_{1,2} \\
1 & x_{2,1} & x_{2,2} \\
& & \vdots\\
1 & x_{N,1} & x_{N,2} \\
\end{pmatrix}
=
\begin{pmatrix}
\sum 1 & \sum x_{n,1} & \sum x_{n,2}\\
\sum x_{n,1} & \sum x_{n,1}x_{n,1} & \sum x_{n,1}x_{n,2}\\
\sum x_{n,2} & \sum x_{n,2}x_{n,1} & \sum x_{n,2}x_{n,2}\\
\end{pmatrix}
$$

です．



この問題設定において，2つの説明変数 $x_{n,1}$ と $x_{n,2}$ の間に，$k$を定数として

$$
x_{n,2} = kx_{n,1}
$$

という関係が成り立っていたとしましょう．2つの変数の一方がもう一方の定数倍で表せてしまいますので，本来はどちらか一方の変数だけ使って回帰分析すればよいはずの状況です．

このとき，

$$
X^{\top}X = \begin{pmatrix}
\sum 1 & \sum x_{n,1} & k\sum x_{n,1}\\
\sum x_{n,1} & \sum x_{n,1}x_{n,1} & k\sum x_{n,1}x_{n,1}\\
k\sum x_{n,1} & k\sum x_{n,1}x_{n,1} & k^2\sum x_{n,1}x_{n,1}\\
\end{pmatrix}
$$

となるため，この行列の第3行が第2行のちょうど $k$ 倍となります（第3列も第2列の$k$倍）．
これでは，この行列のランク（階数）が1つ下がってしまい，この行列が逆行列を持ち得なくなってしまいます．
言い換えると，連立方程式に含まれる未知数の数に比べて方程式の数が1つ足りなくなっています（解が不定）．
統計分析ツールは，このような場合でも回帰係数の推定値を出力してくれたりしますが，分析結果に様々な悪影響が及びます．



ここではある変数が厳密な意味で他の変数の定数倍になっている（両者の相関係数が $1$ または $-1$ である）ケースを考えましたが，厳密に定数倍でなくとも，相関係数が $\pm 1$ に近くなっているような場合には，数値計算の精度の問題で同様のことが起こります．ある変数が他の変数たちの線形結合で表せてしまうような場合（注）も同じです．
データにこのような性質がある場合，「データに**多重共線性**がある」といいます．

<span style="font-size: 75%">
※注: 定数 $p,q,r$ に対して $(ある変数) \approx p\times (別の変数) + q\times (また別の変数) + r$ みたいな関係がある場合．
</span>

実際に重回帰分析を行う場合には，変数間の相関係数を調べる等して，多重共線性の有無を考慮することが必要となります．

In [None]:
#  (小テスト, 睡眠時間, ほげ) vs 期末テスト
X = df.loc[:, ['小テスト', '睡眠時間']].to_numpy()
Y = df['期末テスト'].to_numpy()
X = np.vstack([X.T, -2*X[:, 0]]).T # 1列目の (-2) 倍の値の列を付加
X1 = sm.add_constant(X)
print(X1)
model = sm.OLS(Y, X1)
rv = model.fit()
print(rv.summary())

試しにやってみると上記のような結果が得られます．出力をよくみると，

- 正規方程式の条件数（`Cond. No.`）が極端に大きい（悪い）．「条件数」は，連立方程式などの問題が数値計算に適しているかどうかを表す指標です．
- それに関連して，`Notes` の二つ目に `This might indicate that there are strong multicollinearity problems or that the design matrix is singular.` という注意が出ている（*multicollinerity* = 多重共線性）．

のが分かります．しかし，それに気づかないで回帰係数の検定の結果を見ると，変数`x1`も`x3` もどちらも有用なものだ（実際には一方は不必要）という主張をしてしまいかねません．
