# 重回帰分析

## ①「モデル」を決める

やりたいことは、出力値 $y$ が決まる要素として、複数の入力値がある。 \
予測値 $\hat{y}$ を求めるには、

$$\hat{y}=w_1x_1 + w_2x_2 + \ldots + w_Mx_M + b$$ 

$w_m$ は重み、$b$ はバイアスである。 \
この式は、公式があるわけではなく、**人がこの表現で予測値を求める事ができる**と決める。

$b$ は$w_0$ として、$x_0=1$となる値を掛けることとする。

$$ \begin{aligned}
  \hat{y}&=w_0x_0 + w_1x_1 + w_2x_2 + \ldots + w_Mx_M \\
  &=\left(
    \begin{array}{ccccc}
      x_0 & x_1 & x_2 \ldots x_M
    \end{array}
 \right)
 \left(
    \begin{array}{c}
      w_0 \\
      w_1 \\
      w_2 \\
      \vdots \\
      w_M
    \end{array}
 \right) \\
 &=\vec{x}^T\vec{w}
\end{aligned}$$ 

※$\vec{x}$、$\vec{w}$は、それぞれ下記の通りとする。
$$ \begin{aligned}
  \vec{x}=
  \left(
    \begin{array}{c}
      x_0 \\
      x_1 \\
      x_2 \\
      \vdots \\
      x_M
    \end{array}
  \right) \\
  \vec{w}=
  \left(
    \begin{array}{c}
      w_0 \\
      w_1 \\
      w_2 \\
      \vdots \\
      w_M
    \end{array}
  \right) \\
\end{aligned}$$ 

## ②「評価関数」を決める。

評価関数を下記の通りとする。（単回帰分析で行ったように、実際の結果と予測値の差が小さくなるようにする。）

$$ \begin{aligned}
  L &= (y_1 -\hat{y_1})^2+(y_2 -\hat{y_2})^2+ \ldots + (y_N -\hat{y_N})^2 \\
    &=
  \left(
    \begin{array}{ccc}
      y_1-\hat{y_1} & y_2-\hat{y_2} & \ldots & y_N-\hat{y_N}
    \end{array}
  \right)
  \left(
    \begin{array}{c}
      y_1-\hat{y_1} \\
      y_2-\hat{y_2} \\
      \vdots \\
      y_N-\hat{y_N}
    \end{array}
  \right) \\
  &= (\vec{y} -\vec{\hat{y}})^T (\vec{y} -\vec{\hat{y}})
\end{aligned}$$

## ③「評価関数」を最小化する

### 式変換を行う

①と②の結果から、評価関数を変換する。 \
（最終的に微分した結果が０となる重みを求めるため、微分を行いやすい形にする）

①の結果から、$\hat{y}=\vec{x}^T\vec{w}$ の中から、$\hat{\vec{y}}$を変換する。

$$ \begin{aligned}
  \hat{\vec{y}}&=
  \left(
    \begin{array}{c}
      \hat{y_1} \\
      \hat{y_2} \\
      \vdots \\
      \hat{y_N}
    \end{array}
  \right) 
  =
  \left(
    \begin{array}{c}
      \vec{x_1}^T\vec{w} \\
      \vec{x_2}^T\vec{w} \\
      \vdots \\
      \vec{x_N}^T\vec{w}
    \end{array}
  \right) 
  =
  \left(
    \begin{array}{c}
      \vec{x_1}^T \\
      \vec{x_2}^T \\
      \vdots \\
      \vec{x_N}^T
    \end{array}
  \right) \vec{w}\\
  &=
  \left(
    \begin{array}{c}
      x_{10} & x_{11} & x_{12} & \ldots & x_{1M} \\
      x_{20} & x_{21} & x_{22} & \ldots & x_{2M} \\
      \vdots & \vdots & \vdots & \ddots & \vdots \\
      x_{N0} & x_{N1} & x_{N2} & \ldots & x_{NM} 
    \end{array}
  \right) \vec{w}\\ 
   &=X \vec{w}\\ 
\end{aligned}$$

②の結果から、$L=(\vec{y} -\vec{\hat{y}})^T (\vec{y} -\vec{\hat{y}})$ なので、評価関数を展開すると、

$$ \begin{aligned}
  L &=(\vec{y} - \vec{\hat{y}})^T (\vec{y} - \vec{\hat{y}}) \\
  &=(\vec{y} - X \vec{w})^T (\vec{y} - X \vec{w}) \\
  &=(\vec{y}^T - (X \vec{w})^T) (\vec{y} - X \vec{w}) \\
  &=(\vec{y}^T - \vec{w}^TX^T) (\vec{y} - X \vec{w}) \\
  &=\vec{y}^T\vec{y} - \vec{y}^TX \vec{w} - \vec{w}^TX^T \vec{y} + \vec{w}^TX^TX \vec{w}
\end{aligned}$$

$ (\vec{y}^TX \vec{w})^T = \vec{y}^TX \vec{w} $  はスカラー（公式（３）から）なので、成り立つ 

$ (\vec{y}^TX \vec{w})^T = \vec{w}^T X^T \vec{y} $ 転置の法則（公式（５）から）より、左記が成り立つ 

つまり、$ \vec{y}^TX \vec{w} =\vec{w}^T X^T \vec{y} $ が成り立つため、上の式の 

$- \vec{y}^TX \vec{w} - \vec{w}^TX^T \vec{y} = - 2\vec{y}^TX \vec{w}$ とすることができる。

$$ L =\vec{y}^T\vec{y} - 2\vec{y}^TX \vec{w} + \vec{w}^TX^TX \vec{w} $$


$\vec{y}^T\vec{y}$ はスカラーなので、$C=\vec{y}^T\vec{y}$ とする。 

$-2\vec{y}^TX$ はベクトル（公式（２）から）により、$\vec{b}=-2(X^T\vec{y})^T$ とする。 

かつ転置の法則（公式（５）から）から、$\vec{b}^T=-2\vec{y}^TX$ とする。 

$X^TX$ は行列なので、$A=X^TX$ とする。


$$ L = C + \vec{b}^T \vec{w} + \vec{w}^TA \vec{w} $$

### 最適なパラメータを求める

式変換後の評価関数の、下記の式を$\vec{w}$で微分する事で誤差が一番小さいパラメータが判断できる\
$$ L = C + \vec{b}^T \vec{w} + \vec{w}^TA \vec{w} $$

一旦、定数に下記の値と仮定して計算してみる。
$$ \begin{aligned}
  A&=\left(
    \begin{array}{cc}
      1 & 2 \\
      3 & 4 \\
    \end{array}
  \right) &
  \vec{b}&=\left(
    \begin{array}{cc}
      1  \\
      2  \\
    \end{array}
  \right) &
  C&=1 \\
\end{aligned}$$
$$ \begin{aligned}
  L &= 1 +
  \left(
    \begin{array}{cc}
      1 & 2 \\
    \end{array}
  \right)
  \left(
    \begin{array}{cc}
      w_1 \\
      w_2 \\
    \end{array}
  \right)
  + \left(
    \begin{array}{cc}
      w_1 & w_2 \\
    \end{array}
  \right)
  \left(
    \begin{array}{cc}
      1 & 2 \\
      3 & 4 \\
    \end{array}
  \right)
  \left(
    \begin{array}{cc}
      w_1 \\
      w_2 \\
    \end{array}
  \right) \\
  &= 1 + w_1 + 2w_2 
  + \left(
    \begin{array}{cc}
      w_1 & w_2 \\
    \end{array}
  \right)
  \left(
    \begin{array}{cc}
      w_1 + 2w_2 \\
      3w_1 + 4w_2 \\
    \end{array}
  \right) \\
  &= 1 + w_1 + 2w_2 
  + w_1(w_1 + 2w_2 ) + w_2(3w_1 + 4w_2) \\
  &= 1 + w_1 + 2w_2 + 5w_1w_2 + w_1^2+4w_2^2
\end{aligned}$$

$\vec{w}$の要素として、$w_1$と$w_2$の２種類の変数と仮定すると上記の式となる。この式を微分するには、\
$$ \begin{aligned}
  \frac{\partial}{\partial w_1}(L)&=0 \\
  \frac{\partial}{\partial w_2}(L)&=0
\end{aligned}$$
と$w_1$と$w_2$の偏微分を求め、それぞれが0になる値を求める。

つまり、下記のようにベクトルでの微分として考えることができる \
$$ \begin{aligned}
   \left(
    \begin{array}{cc}
      \frac{\partial}{\partial w_1}(L) \\
      \frac{\partial}{\partial w_2}(L) \\
      \vdots \\
      \frac{\partial}{\partial w_M}(L)
    \end{array}
  \right)
  &=\left(
    \begin{array}{cc}
      0 \\
      0 \\
      \vdots \\
      0
    \end{array}
  \right) \\
  \frac{\partial}{\partial \vec{w}}(L)&=\vec{0}　\\
  \frac{\partial}{\partial \vec{w}}(C + \vec{b}^T \vec{w} + \vec{w}^TA \vec{w})&=\vec{0} \\
  \frac{\partial}{\partial \vec{w}}(C)
    + \frac{\partial}{\partial \vec{w}}(\vec{b}^T \vec{w})
    + \frac{\partial}{\partial \vec{w}}(\vec{w}^TA \vec{w})
    &= \vec{0} \\
  0 + \vec{b} + (A+A^T)\vec{w}&= 0 \\
  -2 X^T\vec{y} + \{X^TX + (X^TX)^T\}\vec{w}&=0 \\
  -2 X^T\vec{y} + 2X^TX\vec{w}&=0 \\
  X^TX\vec{w} &= X^T\vec{y} \\
  (X^TX)^{-1}X^TX\vec{w} &= (X^TX)^{-1}X^T\vec{y} \\
  I\vec{w} &= (X^TX)^{-1}X^T\vec{y} \\
  \vec{w} &= (X^TX)^{-1}X^T\vec{y}
\end{aligned} $$