# 線形回帰の基礎

機械学習や統計学の基礎となる線形回帰のフルスクラッチをしていきましょう。  
複数の特徴量を持ったデータの回帰をいきなり考えるのはとても難しいので、まずは特徴量を一つとして考えてみます。こういうものを特に「単回帰」といいます。
仮定関数を $ \hat{y} = ax + b $ として、予測した値$\hat{y}$と実測値(教師データ)の二乗距離の和を最小にするアルゴリズムが最小二乗法です。  
まず簡単にサンプル$i$における二乗距離(L2ノルム)の二乗を求めてみると、

\begin{align}
  J_i &= (y_i - \hat{y}_i)^2  \\
      &= (y_i - (ax_i + b))^2  \\
      &= y_i^2 - 2y_i(ax_i + b) + (ax_i + b)^2  \\
    J &= \sum_{i=1}^{n} J_i  \\
      &= \sum_{i=1}^{n} \bigr({y_i^2 - 2y_i(ax_i + b) + (ax_i + b)^2}\bigl)  \\
      & \propto \frac{1}{2n} \sum_{i=1}^{n} \bigr({y_i^2 - 2y_i(ax_i + b) + (ax_i + b)^2}\bigl)
\end{align}

これが目的関数(損失関数)です。  
サンプル数で割るのは、これを微分したものでパラメータを最適化するので、その更新幅がサンプル数に依存しないようにするためです。評価はサンプル数に依らないはず。という気持ちもあります。2で割っているのは微分したときに綺麗な形になるからです。  

最急降下法は以下のように最適化したいパラメータについて微分し勾配を求め、学習率をかけて古いパラメータを更新していくものです。  

\begin{align}
  \theta_{i}^{k+1} &= \theta_{i}^{k} - \alpha \nabla J \\
                   &= \theta_{i}^{k} - \alpha \frac{\partial J}{\partial \theta_i}
\end{align}

それぞれのパラメータでの微分は以下のようになります。

\begin{align}
  \frac{\partial J}{\partial a} &= -\sum_{i=1}^{n} y_i x_i + \sum_{i=1}^{n} (a x_i + b)x_i  \\
  \frac{\partial J}{\partial b} &= -\sum_{i=1}^{n} y_i     + \sum_{i=1}^{n} (a x_i + b)
\end{align}

これを最急降下法に適用すると更新式ができます。

もちろんこのまま計算してもいいですが、切片と係数では微妙に形が違いますね。これを解決するために、切片も係数と考え、この係数に対しては常に値1が与えられると考えることで統一的に処理できます。

最終的に得られる更新式は
\begin{align}
  a_{new} &= a_{old} - \alpha \Bigr( - \sum_{i=1}^{n} y_i x_i + \sum_{i=1}^{n} (a x_i + b)x_i \Bigl)  \\
  b_{new} &= b_{old} - \alpha \Bigr( - \sum_{i=1}^{n} y_i \times 1 + \sum_{i=1}^{n} (a x_i + b) \times 1 \Bigl)
\end{align}


まずはこの資料を参考に線形回帰の基礎を理解していきましょう。

# 線形回帰スクラッチ

基本は以下のようにして動くクラスになるように設計しましょう。
```python
model_OLS = ScratchLinearRegression(num_iter=10,lr=0.01,,no_bias=True,verbose=True)
model_OLS.fit(X,y,X_val,y_val)
y_predict = model_OLS.predict(X_test)
```

In [1]:
import numpy as np
import matplotlib.pyplot as plt

In [5]:
#線形回帰のフルスクラッチ
class ScratchLinearRegression():
    def __init__(self, num_iter, lr, no_bias, verbose):
        # ハイパーパラメータを属性として記録
        self.iter = num_iter
        self.lr = lr
        self.no_bias = no_bias
        self.verbose = verbose
        # 損失を記録する配列を用意
        self.loss = np.zeros(self.iter)
        self.val_loss = np.zeros(self.iter)
    
    def fit(self, X, y, X_val=None, y_val=None):
        """
        線形回帰を学習する。検証データが入力された場合はそれに対する損失と精度もイテレーションごとに計算する。
        Parameters
        ----------
        X : 次の形のndarray, shape (n_samples, n_features)
            訓練データの特徴量
        y : 次の形のndarray, shape (n_samples, )
            訓練データの正解値
        X_val : 次の形のndarray, shape (n_samples, n_features)
            検証データの特徴量
        y_val : 次の形のndarray, shape (n_samples, )
            検証データの正解値
        """
        if self.verbose:
            #verboseをTrueにした際は学習過程を出力
            print()
    
    def fit(self, X, y, X_val=None, y_val=None):
        """
        線形回帰を学習する。検証データが入力された場合はそれに対する損失と精度もイテレーションごとに計算する。
        Parameters
        ----------
        X : 次の形のndarray, shape (n_samples, n_features)
            訓練データの特徴量
        y : 次の形のndarray, shape (n_samples, )
            訓練データの正解値
        X_val : 次の形のndarray, shape (n_samples, n_features)
            検証データの特徴量
        y_val : 次の形のndarray, shape (n_samples, )
            検証データの正解値
        """
        if self.verbose:
            #verboseをTrueにした際は学習過程を出力
            print()

## 【問題1】仮定関数
上記までの内容は特徴量が一つだけの場合のものです。
複数の特徴量に対しても適応させるために仮定関数を以下のように設定します。
\begin{align}
  h_\theta(x) = \theta_0 x_0 + \theta_1 x_1 + ... + \theta_j x_j + ... + \theta_n x_n
\end{align}

係数$\theta$の数は、入力されたデータの特徴量によって決められるはずなので、この関数ではなく、fitメソッド内でインスタンス変数を初期化して、_linear_hypothesis()でも使えるようにしましょう。

In [None]:
def _linear_hypothesis(self, X):
    """
    線形の仮定関数を計算する

    Parameters
    ----------
    X : 次の形のndarray, shape (n_samples, n_features)
      訓練データ

    Returns
    -------
      次の形のndarray, shape (n_samples, 1)
      線形の仮定関数による推定結果

    """
    return

## 【問題2】最急降下法
最急降下法を実装してください。

In [None]:
def _gradient_descent(self, X, error):
    """
    説明を記述
    """
    pass

## 【問題3】推定
推定する仕組みを作りましょう。

## 【問題4】平均二乗誤差
線形回帰の指標値としてもちいられる平均二乗誤差(Mean Squared Error)を計算する関数を作成してください。  
コメントアウト部分の説明も記述してください。

In [3]:
def MSE(y_pred, y):
    """
    平均二乗誤差の計算

    Parameters
    ----------
    y_pred : 次の形のndarray, shape (n_samples,)
      推定した値
    y : 次の形のndarray, shape (n_samples,)
      正解値

    Returns
    ----------
    mse : numpy.float
      平均二乗誤差
    """
    return mse

## 【問題5】目的関数
学習データの loss を self.loss に、検証データの loss を self.val_loss に保存しましょう。徐々に小さくなっていくので、学習過程を見ることができます。

## 【問題6】学習と推定
ここまでの実装を組みあわせてHouse Pricesコンペティションのデータに対してスクラッチ実装の学習と推定を行なってください。  
scikit-learnによる実装と比べ、正しく動いているかを確認してください。

## 【問題7】学習曲線のプロット
問題5で self.loss と self.val_lossを記録しているはずなので、これを利用して学習曲線をプロットしましょう。


## 【問題8】（アドバンス課題）バイアス項の除去

## 【問題9】（アドバンス課題）特徴量の多次元化
多項式回帰といわれるものです。

## 【問題10】（アドバンス課題）更新式の導出

## 【問題11】（アドバンス課題）局所最適解の問題

### 【補題１】行列計算による高速化
もしかすると上記までの実装の中でしているかもしれませんが、更新式の部分を行列計算に直して高速化することができます。
更新式は以下のように定義されていました。
\begin{align}
  \theta_{i}^{k+1} &= \theta_{i}^{k} - \alpha \nabla J \\
                   &= \theta_{i}^{k} - \alpha \frac{\partial J}{\partial \theta_i}
\end{align}
特徴量一つ一つに対して計算していますが、numpyでは行列積やブロードキャストの機能があるので、これを行列の計算に直して、更新を一括で行えます。

### 【補題２】解析解
サンプル数が十分に存在しており、次元がサンプル数よりも少ないとき(d<<n)多くの場合で線形回帰には解析解が存在します。線形回帰のパラメータ最適化は線型方程式(AX=Y)の解を求めることにほかなりません。現実に機械学習の分野で逐次更新以外の手法をとることはほぼありませんが、線形代数など解析的な数学の知識に興味ある方は取り組んでみましょう。
逆行列という概念が必要になりますが、計算自体はnumpyに任せられます。


\begin{align}
    \hat{y} = 
        \begin{bmatrix}
            \hat{y_1} \\
            \hat{y_2} \\
            \vdots \\
            \hat{y_n}
        \end{bmatrix},
    W &= 
        \begin{bmatrix}
            w_0 \\
            w_1 \\
            w_2 \\
            \vdots \\
            w_d
        \end{bmatrix},
    X = 
        \begin{bmatrix}
            x_{01} && x_{11} && \cdots && x_{d1} \\
            x_{02} && x_{12} && \cdots && x_{d2} \\
            \vdots && \vdots && \ddots && \vdots \\
            x_{0n} && x_{1n} && \cdots && x_{dn}
        \end{bmatrix} \\
\end{align}

得られた行列が以上のような形の場合、


\begin{align}
  W = (X^TX)^{-1}X^Ty
\end{align}

という式が得られます。基本はこれまでと変わりませんが、導出には行列の微分など、少しだけ難しい内容も出てきます。余裕がある場合は導出も追ってみてください。参考にする資料によっては、縦ベクトル・横ベクトルの設定に違いがあるので注意してください。  
行列の逆数は逆行列と呼ばれ、numpy.linalg.inv()で求めることができます。