<a href="https://colab.research.google.com/github/peta-m175/rabbit_challenge/blob/master/machine_learning/nonlinear_regression.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 非線形回帰モデル

- 複雑な非線形構造を内在する現象に対して、非線形回帰モデリングを実施
  - データの構造を線形で捉えられる場合は限られる
  - 非線形な構造を捉えられる仕組みが必要

## 基底展開法

- 回帰関数として、基底関数と呼ばれる既知の非線形関数とパラメータベクトルの線型結合を使用
- 未知パラメータは線形回帰モデルと同様に最小2乗法や最尤法により推定

$$
y_i=f(x_i)+\varepsilon_i \\
y_i = w_0 + \sum_{j=1}^{m} w_j \phi_{j}(x_i)+\varepsilon_i
$$

### よく使われる基底関数

- 多項式関数
- ガウス型基底関数
- スプライン関数/ Bスプライン関数

### 1次元の基底関数に基づく非線形回帰

- 多項式(1~9次)
$$
\phi_j=x^j
$$
- ガウス型基底
$$
\phi_j(x)=\exp\{\frac{(x-\mu_j)^2}{2h_j}\}
$$
  - 正規分布の形になっている。

### 2次元の基底関数に基づく非線形回帰

- 2地毛っbガウス型基底関数
$$
\phi_j(x)=\exp\{\frac{(x-\mu_j)^T(x-\mu_j)}{2h_j}\}
$$
  - $2h_j$がバンド幅

説明変数
$$
x_i=(x_{i1},x_{i2},\dots,x_{im}) \in \mathbb{R}^{m}
$$
非変性関数ベクトル
$$
\phi(x_i)=(\phi_1(x_i),\phi_2(x_i),\dots,\phi_k(x_i))^{T} \in \mathbb{R}^{k}
$$
非線形関数の計画行列
$$
\phi^{(train)}=(\phi(x_1),\phi(x_2),\dots,\phi(x_n))^{T} \in \mathbb{R}^{n*k}
$$
最尤法による予測値
$$
\hat{y}=\phi(\phi^{(train)T}\phi^{(train)})^{-1}\phi^{(train)T}y^{(train)}
$$


## 未学習(underfitting)と過学習(overfitting)

- 学習データに対して、十分小さな誤差が得られないモデル→未学習
  - (対策)モデルの表現力が低いため、表現力の高いモデルを利用する
- 小さな誤差は得られたけど、テスト集合誤差との差が大きいモデル→過学習
  - (対策1) 学習データの数を増やす
  - (対策2) 不要な基底関数(変数)を削除して表現力を抑止
  - (対策3) 正則化法を利用して表現力を抑止

## 正則化法(罰則化法)

モデルの複雑さを調整する2つの方法

- 不要な基底関数を削除
  - 基底関数の数、位置やバンド幅によりモデルの複雑さが変化
  - 解きたい問題に対して多くの基底関数を用意してしまうと過学習の問題がおこるため、適切な基底関数を用意(CVなどで選択)
- 正則化法(罰則化法)
  - 「モデルの複雑さに伴って、その値が大きくなる<font color="blue">正則化項(罰則項)</font>を課した関数」を最小化
  - 正則化項(罰則項)
    - 形状によっていくつもの種類があり、それぞれ推定量の性質が異なる(次スライド)
  - 正則化(平滑化)パラメータ
    - モデルの曲線のなめらかさを調節▶適切に決める必要あり

$$
S_{\gamma} = (y - \phi^{n * k}w)^{T}(y-\phi w) + \gamma R(w) \\
\gamma(>0)
$$
$\phi$: 基底関数の数(k)が増加するとパラメータが増加し、残差は減少(モデルが複雑化)

$\gamma$: 制約面の大きさ

- 正則化項(罰則項)の役割
  - 無い▶最小2乗推定量
  - L2ノルムを利用▶<font color="blue">Ridge推定量</font>
  - L1ノルムを利用▶<font color="red">Lasso推定量</font>

- 正則化パラータの役割
  - 小さく▶制約面が大きく
  - 大きく▶制約面が小さく

## 汎化性能

- 学習に使用した入力だけでなく、これまで見たことのない新たな入力に対する予測性能
  - (学習誤差ではなく)汎化誤差(テスト誤差)が小さいものが良い性能を持ったモデル。
  - 汎化誤差は通常、学習データとは別に収集された検証データでの性能を測ることで推定
- バイアス・バリアンス分解
  - ref: https://www.hellocybernetics.tech/entry/2017/01/24/100415



## ホールドアウト法

- 有限のデータを学習用とテスト用の2つに分割し、「予測精度」や「誤り率」を推定する為に使用
　　- 学習用を多くすればテスト用が減り学習精度は良くなるが、性能評価の精度は悪くなる
  - 逆にテスト用を多くすれば学習用が減少するので、学習そのものの精度が悪くなることになる。
  - <font color="red">手元にデータが大量にある場合を除いて、良い性能評価を与えないという欠点</font>がある。
- 基底展開法に基づく非線形回帰モデルでは、基底関数の数、位置、バンド幅の値とチューニングパラメータをホールドアウト値を小さくするモデルで決定する非線形回帰モデル


## クロスバリデーション(交差検証)


ホールドアウト法をnパターンに分割して、それぞれ精度を測定

## グリッドサーチ

- 全てのチューニングパラメータの組み合わせで評価値を算出
- 最も良い評価値を持つチューニングパラメータを持つ組み合わせを、「いいモデルのパラメータ」として採用

$(\lambda,m)$座標として
$$
m = (m_1,m_2,\dots,m_c)^T \\
\lambda =(\lambda_1,\lambda_2,\dots,\lambda_c)^T
$$

## 演習

https://colab.research.google.com/github/peta-m175/rabbit_challenge/blob/master/machine_learning/exercises/skl_nonlinear_regression.ipynb