# 線形回帰の基礎

機械学習や統計学の基礎となる線形回帰のフルスクラッチをしていきましょう。  
仮定関数を $ \hat{y} = XW $ として、$i$番目の実測値である$y_i$との二乗距離(L2ノルム)$||y-\hat{y}_i||_2$を最小になるようにするアルゴリズムが線形回帰です。
仮定関数：$ \hat{y} = XW $ の中身は以下のようになっています。サンプルを行方向に格納している形です。(格納の仕方によって行列の転置などを行う必要があるので注意してください)

\begin{align}
    \hat{y} = 
        \begin{bmatrix}
            \hat{y_1} \\
            \hat{y_2} \\
            \vdots \\
            \hat{y_n}
        \end{bmatrix},
    W &= 
        \begin{bmatrix}
            w_0 \\
            w_1 \\
            w_2 \\
            \vdots \\
            w_d
        \end{bmatrix},
    X = 
        \begin{bmatrix}
            x_{01} && x_{11} && \cdots && x_{d1} \\
            x_{02} && x_{12} && \cdots && x_{d2} \\
            \vdots && \vdots && \ddots && \vdots \\
            x_{0n} && x_{1n} && \cdots && x_{dn}
        \end{bmatrix} \\
\end{align}

つまり、i番目のサンプルに対する予測値は
\begin{align}
\hat{y}_i = w_0 x_{0i} + w_1 x_{1i} + w_2 x_{2i} + \cdots + w_d x_{di}
\end{align}

となっています。多くの場合は$w_0$は切片として設定し、$x_0i$はすべて1とすることが多いです。


実測値(教師データ)と予測値の距離などを表すものを、「評価関数」、または「損失関数」といいます。  
今回は二乗距離が最小になるようにしたいので、評価関数Jは、

\begin{align}
  J &= \frac{1}{2}||y-\hat{y}||^2  \\
    &= (y-\hat{y})^T(y-\hat{y})  \\
    &= (y-XW)^T(y-XW)  \\
    &= y^Ty - 2XWy^T + W^T X^T X W
\end{align}

となります。実はこれを解析的に解いて係数行列$W$を導出することもできますが、最急降下法を用いて少しずつ係数を更新し、最適化します。
最適化の更新式は以下のよおりです。
\begin{align}
    \frac{\partial J}{\partial w} &= -X^T(y-\hat{y})
    \\
    w_{new} &= w_{old} - \alpha \frac{\partial J}{\partial w}  \\
            &= w_{old} + \alpha X^T(y-\hat{y})
\end{align}
この導出の行間は線形代数や最急降下法の勉強になるので、一度触れておくといいと思います。

In [1]:
import numpy as np
import matplotlib.pyplot as plt