# term1_sprint3 機械学習スクラッチ　線形回帰

## 2.線形回帰スクラッチ

線形回帰のクラスをスクラッチで作成していきます。NumPyなど最低限のライブラリのみを使いアルゴリズムを実装していきます。
以下に雛形を用意してあります。このScratchLinearRegressionクラスにコードを書き加えていってください。

In [108]:
class ScratchLinearRegression():
    """
    線形回帰のスクラッチ実装
    
    Parameters
    ----------
    num_iter : int
      イテレーション数
    lr : float
      学習率
    no_bias : bool
      バイアス項を入れない場合はTrue
    verbose : bool
      学習過程を出力する場合はTrue
    
    Attributes
    ----------
    self.coef_ : 次の形のndarray, shape (n_features,)
      パラメータ
    self.loss : 次の形のndarray, shape (self.iter,)
      訓練データに対する損失の記録
    self.val_loss : 次の形のndarray, shape (self.iter,)
      検証データに対する損失の記録
    """
    
    def __init__(self, num_iter, lr, no_bias, verbose):
        # ハイパーパラメータを属性として記録
        self.iter = num_iter
        self.lr = lr
        self.no_bias = no_bias
        self.verbose = verbose
        # 損失を記録する配列を用意
        self.loss = np.zeros(self.iter)
        self.val_loss = np.zeros(self.iter)

    def fit(self, X, y, X_val=None, y_val=None):
        """
        線形回帰を学習する。検証データが入力された場合はそれに対する損失と精度もイテレーションごとに計算する。
        Parameters
        ----------
        X : 次の形のndarray, shape (n_samples, n_features)
            訓練データの特徴量
        y : 次の形のndarray, shape (n_samples, )
            訓練データの正解値
        X_val : 次の形のndarray, shape (n_samples, n_features)
            検証データの特徴量
        y_val : 次の形のndarray, shape (n_samples, )
            検証データの正解値
        """
        self.X = X
        self.y = y
        # X0の値に1を固定値として入れる
        large_X = np.array([[1, v] for v in X])
        
        # θ = W ランダムな値を入れる
        self.W = np.random.random(len(large_x[0]))
        
        # 最急降下法を返す
        for i in range(self.iter):
            
            # yの予測値の計算
            y_hat = self._linear_hypothesis(large_X)
            
            # yの真の値と予測値の差を計算
            error = self._error(y_hat)
            
            # 訓練データの残差過程を取得
            self.loss[i] += np.mean(error**2)/2
            
            # 最急降下法
            gd = self._gradient_descent(large_X, error)
            
            # Xの検証データを元に予測した値の学習過程を習得
            if (type(X_val) != bool):
                large_X2 = np.array([[1, v] for v in X_val])
                y_hat2 = self._linear_hypothesis(large_X2)
                error_val = (y_hat2 - y_val)**2
                self.loss[i] = np.mean(error_val)/2
                
        # verboseをTrueにした際は学習過程を出力
        if self.verbose == True:
            print("loss\n", self._loss)
            print("val_loss\n", self.val_loss)
        
# 3.1.1（解答）---------------------------------------

    def predict(self, X):
        """
        線形回帰を使い推定する。
        Parameters
        ----------
        X : 次の形のndarray, shape (n_samples, n_features)
            サンプル
        Returns
        -------
            次の形のndarray, shape (n_samples, 1)
            線形回帰による推定結果
        """
        large_X_test = np.array([[1, v] for v in X])
        return self._linear_hypothesis(large_X_test)

# 1.2.1（解答）--------------------------------------

    def _linear_hypothesis(self, X):
        """
        線形の仮定関数を計算する

        Parameters
        ----------
        X : 次の形のndarray, shape (n_samples, n_features)
          訓練データ

        Returns
        -------
          次の形のndarray, shape (n_samples, 1)
          線形の仮定関数による推定結果

        """
        # 予測値を求める

        y_hat = np.dot(X, self.W)
                       
        return y_hat
    
# 2.1.1（解答）-------------------------------------

    def _error(self, X):
        """
        ｙの正解値からyの予想値の差を求める
        
        Parameters
        ----------
        X : 次の形のndarray, shape (n_samples, n_features)
          訓練データ
          
        error : 次の形のndarray, shape (n_samples)
          訓練データの正解値と予測値の差

        Returns
        -------
          次の形のndarray, shape (n_samples)
          次の検証パラメーター

        """

        error = self.y - X
        return error
          
# 2.2.1（解答）-----------------------------------

    def _gradient_descent(self, X, error):
        """
        最急降下法で計算する
        
        Parameters
        ----------
        X : 次の形のndarray, shape (n_samples, n_features)
          訓練データ
          
        error : 次の形のndarray, shape (n_samples)
          訓練データの正解値と予測値の差

        Returns
        -------
          次の形のndarray, shape (n_samples)
          次の検証パラメーター

        """
        self.W = self.W + self.lr * np.dot(error, X) / len(X)
        
        return self.W

## 【問題1】仮定関数
以下の数式で表される線形回帰の仮定関数を実装してください。メソッドの雛形を用意してあります。

$$h_\theta(x) =  \theta_0 x_0 + \theta_1 x_1 + ... + \theta_j x_j + ... +\theta_n x_n.   (x_0 = 1)$$



x
 : 特徴量ベクトル


θ
 : パラメータベクトル


n
 : 特徴量の数


x
j
 : j番目の特徴量


θ
j
 : j番目のパラメータ（重み）


特徴量の数
n
は任意の値に対応できる実装にしてください。


なお、ベクトル形式で表すと以下のようになります。


$$h_\theta(x) = \theta^T \cdot x.$$
雛形


クラスの外から呼び出すことがないメソッドのため、Pythonの慣例としてアンダースコアを先頭にひとつつけています。

In [84]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

### 1.1.1（データセット）

In [85]:
np.random.seed(1)
X_data = np.random.randint(1, 10, size=10)
Y_data = (X_data * np.random.randint(1, 3)) + np.random.randint(1, 5)
print(f"Xの値:{X_data}  Yの値:{Y_data}")

Xの値:[6 9 6 1 1 2 8 7 3 5]  Yの値:[ 8 11  8  3  3  4 10  9  5  7]


### 1.2.1（解答）

In [86]:
large_x = np.array([[1, v] for v in X_data])
large_x

array([[1, 6],
       [1, 9],
       [1, 6],
       [1, 1],
       [1, 1],
       [1, 2],
       [1, 8],
       [1, 7],
       [1, 3],
       [1, 5]])

In [87]:
w = np.random.random(len(large_x[0]))
w

array([0.6852195 , 0.20445225])

In [88]:
y_hat = np.dot(large_x, w)
y_hat

array([1.911933  , 2.52528975, 1.911933  , 0.88967175, 0.88967175,
       1.094124  , 2.3208375 , 2.11638525, 1.29857625, 1.70748075])

## 【問題2】最急降下法
最急降下法により学習させる実装を行なってください。以下の式で表されるパラメータの更新式のメソッド_gradient_descentを追加し、fit
メソッドから呼び出すようにしてください。
$$\theta_j := \theta_j - \alpha \frac{1}{m} \sum_{i=1}^{m}[(h_\theta(x^{(i)}) - y^{(i)} )x_{j}^{(i)}]$$
α
 : 学習率


i
 : サンプルのインデックス


j
 : 特徴量のインデックス


雛形


ScratchLinearRegressionクラスへ以下のメソッドを追加してください。コメントアウト部分の説明も記述してください。
雛形として用意されたメソッドや関数以外でも必要があれば各自作成して完成させてください。雛形を外れても問題ありません。

### 2.1.1（追加メソッド）

In [89]:
error = Y_data - y_hat
error

array([6.088067  , 8.47471025, 6.088067  , 2.11032825, 2.11032825,
       2.905876  , 7.6791625 , 6.88361475, 3.70142375, 5.29251925])

### 2.2.1（解答）

In [90]:
lr = 0.1

dw = np.dot(error, large_x) / len(large_x)
w = w - (lr * dw)
print(w)

[ 0.17187853 -2.86101851]


## 【問題3】推定
推定する仕組みを実装してください。ScratchLinearRegressionクラスの雛形に含まれるpredictメソッドに書き加えてください。

仮定関数$hθ(x)$の出力が推定結果です。

### 3.1.1（解答） 

In [91]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X_data, Y_data,test_size=0.20, random_state=1)
X_train.reshape(-1,1)

array([[8],
       [1],
       [6],
       [1],
       [9],
       [7],
       [3],
       [2]])

In [92]:
clf = ScratchLinearRegression(num_iter=10000, lr=0.01, no_bias=True, verbose=True)
clf.fit(X=X_train.reshape(-1,1), y=y_train)
clf.predict(X_test)

array([array([8.]), array([7.])], dtype=object)

In [93]:
# 確認用
from sklearn.linear_model import LinearRegression

label = LinearRegression()
label.fit(X=X_train.reshape(-1,1), y=y_train)

label.predict(X_test.reshape(-1,1))

array([8., 7.])

## 【問題4】平均二乗誤差
線形回帰の指標値として用いられる平均二乗誤差（mean square error, MSE）の関数を作成してください。


平均二乗誤差関数は回帰問題全般で使える関数のため、ScratchLinearRegressionクラスのメソッドではなく、別の関数として作成してください。雛形を用意してあります。


平均二乗誤差は以下の数式で表されます。
$$L(\theta)=  \frac{1 }{ m}  \sum_{i=1}^{m} (h_\theta(x^{(i)})-y^{(i)})^2.$$

m
 : 入力されるデータの数


h
θ
(
)
 : 仮定関数


x
(
i
)
 : i番目のサンプルの特徴量ベクトル


y
(
i
)
 : i番目のサンプルの正解値


なお、最急降下法のための目的関数（損失関数）としては、これを2で割ったものを使用します。（問題5, 9）

### 4.1.1（解答）

In [94]:
def MSE(y_pred, y):
    """
    平均二乗誤差の計算

    Parameters
    ----------
    y_pred : 次の形のndarray, shape (n_samples,)
      推定した値
    y : 次の形のndarray, shape (n_samples,)
      正解値

    Returns
    ----------
    mse : numpy.float
      平均二乗誤差
    """
    for i in range(len(y_pred)):
        L = np.mean((y - y_pred)**2)
    
    return L

In [95]:
y_pred = clf.predict(X_test)
print(y_pred)

print(MSE(y_pred, y_test))

[array([8.]) array([7.])]
[6.3621632e-28]


In [96]:
# 平均二乗誤差の確認

from sklearn.metrics import mean_squared_error

mean_squared_error(y_pred, y_test)

6.36216320060746e-28

## 【問題5】目的関数
以下の数式で表される線形回帰の 目的関数（損失関数） を実装してください。そして、これをself.loss, self.val_lossに記録するようにしてください。

目的関数（損失関数）$J(θ)$は次の式です。
$$J(\theta)=  \frac{1 }{ 2m}  \sum_{i=1}^{m} (h_\theta(x^{(i)})-y^{(i)})^2.$$

m
  : 入力されるデータの数


h
θ
(
)
 : 仮定関数


x
(
i
)
 : i番目のサンプルの特徴量ベクトル


y
(
i
)
 : i番目のサンプルの正解値



### 5.1.1（解答）

In [109]:
clf = ScratchLinearRegression(num_iter=10000, lr=0.01, no_bias=True, verbose=True)
clf.fit(X=X_train, y=y_train, X_val=X_test, y_val=y_test)

AttributeError: 'ScratchLinearRegression' object has no attribute '_loss'