# 線形回帰の基礎

機械学習や統計学の基礎となる線形回帰のフルスクラッチをしていきましょう。  
複数の特徴量を持ったデータの回帰をいきなり考えるのはとても難しいので、まずは特徴量を一つとして考えてみます。こういうものを特に「単回帰」といいます。
仮定関数(目的関数)を $ \hat{y} = ax + b $ として、予測した値$\hat{y}$と実測値(教師データ)の二乗距離の和を最小にするアルゴリズムが最小二乗法です。  
まず簡単にサンプル$i$における二乗距離(L2ノルム)の二乗を求めてみると、

\begin{align}
  J_i &= (y_i - \hat{y}_i)^2  \\
      &= (y_i - (ax_i + b))^2  \\
      &= y_i^2 - 2y_i(ax_i + b) + (ax_i + b)^2  \\
    J &= \sum_{i=1}^{n} J_i  \\
      &= \sum_{i=1}^{n} \bigr({y_i^2 - 2y_i(ax_i + b) + (ax_i + b)^2}\bigl)
\end{align}

これが評価関数(損失関数)です。最適化したいパラメータは$a$と$b$なので、これについて微分し、最急降下法を用います。  
最急降下法は以下のように最適化したいパラメータについて微分し勾配を求め、学習率をかけて古いパラメータを更新していくものです。  

\begin{align}
  \theta_{i}^{k+1} &= \theta_{i}^{k} - \alpha \nabla J \\
                   &= \theta_{i}^{k} - \alpha \frac{\partial J}{\partial \theta_i}
\end{align}

これを単回帰の式に適用します。

\begin{align}
  \frac{\partial J}{\partial a} &= -2 \sum_{i=1}^{n} y_i x_i + 2 \sum_{i=1}^{n} (a x_i + b)x_i  \\
  \frac{\partial J}{\partial b} &= -2 \sum_{i=1}^{n} y_i     + 2 \sum_{i=1}^{n} (a x_i + b)
\end{align}

もちろんこのまま計算してもいいですが、行列計算に落とし込んだほうがnumpyの行列計算を使えるので、



計算が速くなります。

実測値(教師データ)と予測値の距離などを表すものを、「評価関数」、または「損失関数」といいます。  
今回は二乗距離が最小になるようにしたいので、評価関数Jは、

\begin{align}
  J &= \frac{1}{2}||y-\hat{y}||^2  \\
    &= (y-\hat{y})^T(y-\hat{y})  \\
    &= (y-XW)^T(y-XW)  \\
    &= y^Ty - 2XWy^T + W^T X^T X W
\end{align}

となります。実はこれを解析的に解いて係数行列$W$を導出することもできますが、最急降下法を用いて少しずつ係数を更新し、最適化します。
最適化の更新式は以下のとおりです。サンプル数に更新幅を依存させないため、サンプル数で割ることが多いです。
\begin{align}
    \frac{\partial J}{\partial w} &= -X^T(y-\hat{y})  \\
                                  &\propto \frac{-X^T(y-\hat{y})}{n}
    \\
    w_{new} &= w_{old} - \alpha \frac{\partial J}{\partial w}  \\
            &= w_{old} + \alpha X^T(y-\hat{y})
\end{align}
この導出の行間は線形代数や最急降下法の勉強になるので、一度触れておくといいと思います。

In [1]:
import numpy as np
import matplotlib.pyplot as plt

In [1]:
#線形回帰のフルスクラッチ
class ScratchLinearRegression():
    def __init__(self, num_iter, lr, no_bias, verbose):
        # ハイパーパラメータを属性として記録
        self.iter = num_iter
        self.lr = lr
        self.no_bias = no_bias
        self.verbose = verbose
        # 損失を記録する配列を用意
        self.loss = np.zeros(self.iter)
        self.val_loss = np.zeros(self.iter)
    
    def fit(self, X, y, X_val=None, y_val=None):
        """
        線形回帰を学習する。検証データが入力された場合はそれに対する損失と精度もイテレーションごとに計算する。
        Parameters
        ----------
        X : 次の形のndarray, shape (n_samples, n_features)
            訓練データの特徴量
        y : 次の形のndarray, shape (n_samples, )
            訓練データの正解値
        X_val : 次の形のndarray, shape (n_samples, n_features)
            検証データの特徴量
        y_val : 次の形のndarray, shape (n_samples, )
            検証データの正解値
        """
        if self.verbose:
            #verboseをTrueにした際は学習過程を出力
            print()
        pass
    
    def fit(self, X, y, X_val=None, y_val=None):
        """
        線形回帰を学習する。検証データが入力された場合はそれに対する損失と精度もイテレーションごとに計算する。
        Parameters
        ----------
        X : 次の形のndarray, shape (n_samples, n_features)
            訓練データの特徴量
        y : 次の形のndarray, shape (n_samples, )
            訓練データの正解値
        X_val : 次の形のndarray, shape (n_samples, n_features)
            検証データの特徴量
        y_val : 次の形のndarray, shape (n_samples, )
            検証データの正解値
        """
        if self.verbose:
            #verboseをTrueにした際は学習過程を出力
            print()
        pass

In [2]:
import sys
print(sys.version)
print(sys.path)

3.8.3 (tags/v3.8.3:6f8c832, May 13 2020, 22:37:02) [MSC v.1924 64 bit (AMD64)]
['C:\\Users\\GotoRei\\poetry-afro\\Scripts\\Youtube_AI\\Youtube_AI\\Linear_Regression', 'c:\\users\\gotorei\\poetry-afro\\.venv\\scripts\\python38.zip', 'c:\\python38\\DLLs', 'c:\\python38\\lib', 'c:\\python38', 'c:\\users\\gotorei\\poetry-afro\\.venv', '', 'c:\\users\\gotorei\\poetry-afro\\.venv\\lib\\site-packages', 'c:\\users\\gotorei\\poetry-afro\\.venv\\lib\\site-packages\\win32', 'c:\\users\\gotorei\\poetry-afro\\.venv\\lib\\site-packages\\win32\\lib', 'c:\\users\\gotorei\\poetry-afro\\.venv\\lib\\site-packages\\Pythonwin', 'c:\\users\\gotorei\\poetry-afro\\.venv\\lib\\site-packages\\IPython\\extensions', 'C:\\Users\\GotoRei\\.ipython']


重回帰に挑戦する場合以下を参考にしてみてください。


仮定関数を $ \hat{y} = XW $ として、$i$番目の実測値である$y_i$との二乗距離(L2ノルム)$||y-\hat{y}_i||_2$を最小になるようにするアルゴリズムが線形回帰です。
仮定関数：$ \hat{y} = XW $ の中身は以下のようになっています。サンプルを行方向に格納している形です。(格納の仕方によって行列の転置などを行う必要があるので注意してください)

\begin{align}
    \hat{y} = 
        \begin{bmatrix}
            \hat{y_1} \\
            \hat{y_2} \\
            \vdots \\
            \hat{y_n}
        \end{bmatrix},
    W &= 
        \begin{bmatrix}
            w_0 \\
            w_1 \\
            w_2 \\
            \vdots \\
            w_d
        \end{bmatrix},
    X = 
        \begin{bmatrix}
            x_{01} && x_{11} && \cdots && x_{d1} \\
            x_{02} && x_{12} && \cdots && x_{d2} \\
            \vdots && \vdots && \ddots && \vdots \\
            x_{0n} && x_{1n} && \cdots && x_{dn}
        \end{bmatrix} \\
\end{align}

つまり、i番目のサンプルに対する予測値は
\begin{align}
\hat{y}_i = w_0 x_{0i} + w_1 x_{1i} + w_2 x_{2i} + \cdots + w_d x_{di}
\end{align}

となっています。多くの場合は$w_0$は切片として設定し、$x_{0i}$はすべて1とすることが多いです。


実測値(教師データ)と予測値の距離などを表すものを、「評価関数」、または「損失関数」といいます。  
二乗距離が最小になるようにしたいので、評価関数Jは、

\begin{align}
  J &= \frac{1}{2}||y-\hat{y}||^2  \\
    &= (y-\hat{y})^T(y-\hat{y})  \\
    &= (y-XW)^T(y-XW)  \\
    &= y^Ty - 2XWy^T + W^T X^T X W
\end{align}

となります。実はこれを解析的に解いて係数行列$W$を導出することもできますが、最急降下法を用いて少しずつ係数を更新し、最適化します。
最適化の更新式は以下のとおりです。サンプル数に更新幅を依存させないため、サンプル数で割ることが多いです。
\begin{align}
    \frac{\partial J}{\partial w} &= -X^T(y-\hat{y})  \\
                                  &\propto \frac{-X^T(y-\hat{y})}{n}
    \\
    w_{new} &= w_{old} - \alpha \frac{\partial J}{\partial w}  \\
            &= w_{old} + \alpha X^T(y-\hat{y})
\end{align}
この導出の行間は線形代数や最急降下法の勉強になるので、一度触れておくのも良いですね。
では実装していきましょう