<a href="https://colab.research.google.com/github/bayashi-cl/statistical-learning/blob/main/note/06_LinerModelSelectionAndRegularization.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 6 線形モデル選択と正則化

この章では最小二乗法以外の線形モデルについて考える。

* **部分集合選択**\
モデルに含まれる予測変数の集合のうち、最も「良い」部分集合を特定し、その部分集合に対して最小二乗法を適用する。
* **縮小推定**\
予測変数をすべて使って推定をするが、何らかの操作により係数の推定値を0やそれに近い値にする。
* **次元削減**\
$p$個の予測変数を$M(<p)$次元部分空間に射影して最小二乗法を適用する。

これらのモデルは、最小二乗法に対して次のような利点がある。

* **予測精度**\
最小二乗法はデータ数が予測変数の数よりも十分に大きければ十分な性能を発揮するが、そうでない場合は過学習などの問題が発生して分散が大きくなる。縮小推定では回帰係数に制約を課すことで予測精度を向上させる。
* **モデルの解釈可能性**\
モデルの中に実際には応答変数と関係のない予測変数が含まれていると、モデルが必要以上に複雑になってしまう。このような無意味な変数を取り除くことでモデルの解釈が容易になる。

## 6.1 部分集合選択

### 補足 計算量の評価について

アルゴリズムのコスト（計算回数）のことを（時間）計算量と呼ぶ。計算量を評価する際に、例えば入力サイズが$n$のアルゴリズムの計算コストが$3n^2 + 2n + 5$である場合、注目するべきは$n^2$の部分であり、それ以外の係数や1次より小さい項は$n$が増加した場合の計算量の増加度合いにはあまり関与しない。

数列の**オーダー**の記法を計算量でも用いる。

#### $\Theta(O,o,\Omega , \omega)$記法

2つの計算量の増加度合いが同じ（くらい）であることを言いたい。

$f(n)$が$g(n)$に対して次の条件を満たすとき、$f(n)$のオーダーが$g(n)$であるといい、$f(n) \in \Theta (g(n))$ と表記する。

> ある定数 $n_0$​ に対し、ある定数 $c_L, c_U > 0$ が存在し、$n_0$ 以上のすべての $n$ について次の式が成り立つ：
> $$0 \le c_L \cdot g(n) \le f(n) \le c_U \cdot g(n)$$

また、上の不等式の$c_L$側が成り立つとき、$f(n) \in \Omega (g(n))$、$c_U$側が成り立つとき、$f(n) \in O (g(n))$と表記する。

更に、大小関係が心に成り立つ（$\le$ではなく$\lt$）場合は,
それぞれ$f(n) \in \omega (g(n))$、$f(n) \in o (g(n))$と表記する。

#### 参考文献

* アルゴリズムイントロダクション 第3版 総合版(p36-)\
該当部分は[Amazon](https://www.amazon.co.jp/dp/B078WPYHGN)で試し読みができます。



### 6.1.1 最良部分集合選択

すべての予測変数の組み合わせを評価する手法。以下のアルゴリズムで行われる。

1. $M_0$を予測変数を持たない**ヌルモデル**とする。ヌルモデルは予測値として標本平均を返す。
1. $k = 1, 2, \ldots , p$について以下の手順を行う。
    1. $k$個の予測変数を持つ$\binom{p}{k}$個のモデルに対してRSSや$R^2$を計算する。
    1. 最良のモデルを$M_k$とする。
1. $M_0, \ldots , M_k$から最良のモデルをBICや修正$R^2$などで選ぶ。

step3でのモデル選択の際にはRSSや$R^2$が特徴の数に対して単調減少/増加することに注意する。RSSが小さい・$R^2$が大きいことは単に訓練データに対して誤差が小さいことを示しているということであり、重要なのはテストデータに対する誤差である。

最良部分集合選択は単純であり、得られるモデルも厳密に最良であるといえるが、計算量のオーダーが$\Omega(2^n)$であり、$p \ge 40$の場合には現実的な時間で解くことが難しくなる。