# Sprint_03 機械学習スクラッチ　線形回帰

In [16]:
class ScratchLinearRegression():
    """
    線形回帰のスクラッチ実装

    Parameters
    ----------
    num_iter : int
      イテレーション数
    lr : float
      学習率
    no_bias : bool
      バイアス項を入れない場合はTrue
    verbose : bool
      学習過程を出力する場合はTrue

    Attributes
    ----------
    self.coef_ : 次の形のndarray, shape (n_features,)
      パラメータ
    self.loss : 次の形のndarray, shape (self.iter,)
      訓練データに対する損失の記録
    self.val_loss : 次の形のndarray, shape (self.iter,)
      検証データに対する損失の記録

    """
    def __init__(self, num_iter, lr, no_bias, verbose):
        # ハイパーパラメータを属性として記録
        self.iter = num_iter
        self.lr = lr
        self.no_bias = no_bias
        self.verbose = verbose
        
        self.coef = None
        
        # 損失を記録する配列を用意
        self.loss = np.zeros(self.iter)
        self.val_loss = np.zeros(self.iter)
        
    def fit(self, X, y, X_val=None, y_val=None):
        """
        線形回帰を学習する。検証データが入力された場合はそれに対する損失と精度もイテレーションごとに計算する。

        Parameters
        ----------
        X : 次の形のndarray, shape (n_samples, n_features)
            訓練データの特徴量
        y : 次の形のndarray, shape (n_samples, )
            訓練データの正解値
        X_val : 次の形のndarray, shape (n_samples, n_features)
            検証データの特徴量
        y_val : 次の形のndarray, shape (n_samples, )
            検証データの正解値
        loss : numpy.float
            訓練用データから算出した損失関数
        val_loss : numpy.float
            検証用データから算出した損失関数
        """

        
        self.coef_ = self._gradient_descent(self, X)
        
        self.loss = self._cost_function(hypothesis , y)
        
        self.val_loss = self._cost_function(X_pred, y_val)
        
        if self.verbose:
            #verboseをTrueにした際は学習過程を出力
            print()

    def _gradient_descent(self, X, y):
        """
        fitメソッドで呼び出された際に最急降下法による学習を行う。

        Parameters
        ----------
        self: class関数を引用する。

        X : 次の形のndarray, shape (n_samples, n_features)

        error : 

        Returns
        -------
          次の形のndarray, shape (n_samples, 1)
          線形の仮定関数による推定結果    


        """

        # h_thetaとyはnumpy.ndarrayであること
        # inside_sigma = np.multiply((h_theta - y_train), X_train)

        # ceof = coef - lr * (1/m) * np.sum(inside_sigma, axis=0)
        # or
        # coef -= (sum(_linear_hypothesis(X, coef)-y)/len(X)) * X

        self.coef_ = self.coef_ - self.lr(1/len(X)) * np.matmul((_linear_hypothesis(X, coef_)-y), X)

        return self.coef_
    def _linear_hypothesis(self, X, _coef):
        """
        線形の仮定関数を計算する

        Parameters
        ----------
        X : 次の形のndarray, shape (n_samples, n_features)
          訓練データ

        theta : 次の形のndarray, shape (n_samples, )
         パラメータ

        Returns
        -------
          次の形のndarray, shape (n_samples, 1)
          線形の仮定関数による推定結果

        """
        solution = _coef[0] + np.sum(np.matmul(_coef[1: ], X))
    
        return solution
    
    def _cost_function(y_pred, y):
        """
        目的関数（損失関数）

        Parameters
        ----------
        y_pred : 次の形のndarray, shape (n_samples,)
          推定した値
        y : 次の形のndarray, shape (n_samples,)
          正解値

        Returns
        ----------
        loss : numpy.float
          訓練用データと検証用データから算出した損失関数に用いられる。
        """

        loss = np.square(np.subtract(y_pred, y)) / (2 * len(y))

        return loss
    
    def predict(self, X):
        """
        線形回帰を使い推定する。

        Parameters
        ----------
        X : 次の形のndarray, shape (n_samples, n_features)
            サンプル

        Returns
        -------
            次の形のndarray, shape (n_samples, 1)
            線形回帰による推定結果
        """
        return _linear_hypothesis(self, X, self.coef_)

## 【問題1】仮定関数

以下の数式で表される線形回帰の仮定関数を実装せよ。

$\begin{align}
h_\theta(x) = \theta_0x_0 + \theta_1x_1+...+\theta_jx_j+...+\theta_nx_n (x_0=1)
\end{align}$

$\begin{align}(x_0=1)\end{align}$のため、実際の式はこうなる。

$\begin{align}
h_\theta(x) = \theta_0 + \theta_1x_1+...+\theta_jx_j+...+\theta_nx_n (x_0=1)
\end{align}$
### 【目的】

* 上記の重回帰式を仮定する関数を作成する。

### 【考察】

* $\begin{align}\theta\end{align}$ は直線の傾き（coefficients）を制御している。
* $\begin{align}x_0 = 1\end{align}$ のため、切片は1である。
* 行列 $\begin{align}\theta\end{align}$ と行列 $\begin{align}x_n\end{align}$ の内積（np.dot or np.matmul）を算出する関数を作成する。
* 内積を算出するため、引数xの行数分の配列数thetaをnp.randomを用いて算出する。

### 【工程順序】
1. np.random（0-10の範囲）を用いて、xの行数分の配列数thetaのarrayを構築
2. x_train（ここでは引数x）を用いて$\begin{align}h_\theta\end{align}$(x)を求める。


In [10]:
# Importing library
import numpy as np

In [11]:
def _linear_hypothesis(self, X, coef_):
    """
    線形の仮定関数を計算する

    Parameters
    ----------
    X : 次の形のndarray, shape (n_samples, n_features)
      訓練データ
    
    theta : 次の形のndarray, shape (n_samples, )
    　パラメータ
    
    Returns
    -------
      次の形のndarray, shape (n_samples, 1)
      線形の仮定関数による推定結果

    Process
    -------    
      1. theta[0]はそのままにして、残りの行数分Xと配列数分y（ここではtheta）の積の和を求める。
      2. Xとthetaの行列の積はnp.matmulを使う。
      3. np.sumで積の総和を求める。
    
    """
    
    solution = coef_[0] + np.sum(np.matmul(coef_[1: ], X))
    # solution = theta[0] + np.prod(theta[1: ], X)
    
    return solution

## 【問題2】最急降下法

最急降下法により学習させる実装を行なう。

以下の式で表されるパラメータの更新式のメソッド_gradient_descentを追加し、fitメソッドから呼び出すようにする。

$\begin{align}
\theta_j := \theta_j-\alpha\frac{1}{m}\sum_{i=1}^{m}[(h_\theta(x^{(i)})-y^{(i)})x_j^{(i)}]
\end{align}$

ベクトル形式で表すとこうなる。

$\begin{align}
\theta := \theta-\alpha\frac{1}{m}[(h_\theta(x^{(i)})-y^{(i)})x^{(i)}]
\end{align}$

偏差を求める式がこの部分

仮定した傾きから得た値yを実際のyとの差を求める部分である。

$\begin{align}
(h_\theta(x^{(i)})-y^{(i)})
\end{align}$

-----

$\begin{align}:=\end{align}$：左辺を右辺によって定義する。

$\begin{align}\theta_j\end{align}$：傾き 
```python 
_coef
```
$\begin{align}\alpha\end{align}$：学習率
```python 
self.lr
```
$\begin{align}i\end{align}$：サンプル（要素）のインデックス位置

$\begin{align}j\end{align}$：特徴量のインデックス位置

$\begin{align}m\end{align}$：サンプル（要素）の最大インデックス値（繰り返し回数の最大値）
```python 
len(X)
```
$h_\theta(x^{(i)})$：_linear_hypothesis

$\begin{align}y^{(i)}\end{align}$：y_train

$\begin{align}x_j^{(i)}\end{align}$：X_train

### 【目的】

* ひな形_gradient_descent（勾配降下）を用いて、最急降下法による機械学習が行えるように関数を完成させる。

### 【考察】

* 最急降下法とは、接線の傾き（$\theta$）をゼロに近づくようにxの値を更新していき最適解に収束させる方法。
* := の意味は「左辺を右辺で定義（代入）する」
* 偏微分：特定の文字以外を定数とみなして微分したものを偏微分（偏導関数）と言います。
    * 微分：ある関数の任意の点における傾き（$\theta$）を導く式「導関数」を求めること。
    * 傾き（$\theta$）を求めるには2点間の変化の割合を求めること。
        * $変化の割合=\frac{yの増加量}{xの増加量}$

最急降下法のアルゴリズム
1. 対象とする関数を$(h_\theta(x^{(i)})$とし、関数$(h_\theta(x^{(i)})$の引数となるのがベクトルX
2. $h_\theta(x^{(i)})-y^{(i)}$が偏差となる。


In [15]:
def _gradient_descent(self, X, y):
    """
    fitメソッドで呼び出された際に最急降下法による学習を行う。

    Parameters
    ----------
    self: class関数を引用する。
    
    X : 次の形のndarray, shape (n_samples, n_features)
    
    error : 

    Returns
    -------
      次の形のndarray, shape (n_samples, 1)
      線形の仮定関数による推定結果    
        
    
    """

    # h_thetaとyはnumpy.ndarrayであること
    # inside_sigma = np.multiply((h_theta - y_train), X_train)
    
    # ceof = coef - lr * (1/m) * np.sum(inside_sigma, axis=0)
    # or
    # coef -= (sum(_linear_hypothesis(X, coef)-y)/len(X)) * X
    
    self.coef_ = self.coef_ - self.lr(1/len(X)) * np.matmul((_linear_hypothesis(X, coef_)-y), X)
    
    return self.coef_

## 【問題3】推定

* 推定する仕組みを実装せよ。
* ScratchLinearRegressionクラスの雛形に含まれるpredictメソッドに書き加えること。
* 仮定関数 $h_\theta(x)$ (_linear_hypothesis)の出力が推定結果とする。

In [3]:
def predict(self, X):
    """
    線形回帰を使い推定する。

    Parameters
    ----------
    X : 次の形のndarray, shape (n_samples, n_features)
        サンプル

    Returns
    -------
        次の形のndarray, shape (n_samples, 1)
        線形回帰による推定結果
    """
    return _linear_hypothesis(self, X, _coef)

## 【問題4】平均二乗誤差

* 線形回帰の指標値として用いられる平均二乗誤差（mean square error, MSE）の関数を作成せよ。
* 平均二乗誤差は以下の数式で表される。

$\begin{align}
L(\theta) = \frac{1}{m}\sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})^2
\end{align}$

$m$ : 入力されるデータの数 
```python
len(y)
```
$h_\theta(x)$ : 仮定関数
```pythonn
y_pred
```
$x^{(i)}$ : i番目のサンプルの特徴量ベクトル

$y^{(i)}$ : i番目のサンプルの正解値
```python
y
```

In [5]:
def MSE(y_pred, y):
    """
    平均二乗誤差の計算

    Parameters
    ----------
    y_pred : 次の形のndarray, shape (n_samples,)
      推定した値
    y : 次の形のndarray, shape (n_samples,)
      正解値

    Returns
    ----------
    mse : numpy.float
      平均二乗誤差
    """
    
    mse = np.square(np.subtract(y_pred, y)).mean()
    
    return mse

## 【問題5】目的関数

* 以下の数式で表される線形回帰の**目的関数（損失関数）**を実装せよ。
* そして、これをself.loss, self.val_lossに記録すること。

$\begin{align}
J(\theta) = \frac{1}{2m}\sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})^2
\end{align}$

$m$ : 入力されるデータの数
```python
len(y)
```
$h_\theta(X)$ : 仮定関数
```python
y_pred
```
$x^{(i)}$ : i番目のサンプルの特徴量ベクトル

$y^{(i)}$ : i番目のサンプルの正解値

In [8]:
def _cost_function(y_pred, y):
    """
    目的関数（損失関数）

    Parameters
    ----------
    y_pred : 次の形のndarray, shape (n_samples,)
      推定した値
    y : 次の形のndarray, shape (n_samples,)
      正解値

    Returns
    ----------
    loss : numpy.float
      訓練用データと検証用データから算出した損失関数に用いられる。
    """
    
    loss = np.square(np.subtract(y_pred, y)) / (2 * len(y))
    
    return loss

## 【問題6】学習と推定

* House Pricesコンペティションのデータに対してスクラッチ実装の学習と推定を行なうこと。
* scikit-learnによる実装と比べ、正しく動いているかを確認せよ。

In [17]:
# File system manangement
import os
import pandas as pd

house_df = pd.read_csv('../Data/house_prices_train.csv')

# 目的変数
y_house = np.array(house_df.loc[:, ['SalePrice']])

# 説明変数
X_house = np.array(house_df.loc[:, ['GrLivArea', 'YearBuilt']])

11.12 Todo
1. Scikit-learnの線形回帰を実装
2. 自作の線形回帰を実装・回す。
3. 上記の２モデルを比較検証
4. アドバンス問題を挑戦