# 線形回帰

線形回帰のクラスをスクラッチで作成していきます。NumPyなど最低限のライブラリのみを使いアルゴリズムを実装していきます。


以下に雛形を用意してあります。このScratchLinearRegressionクラスにコードを書き加えていってください。

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from numpy.random import *
import random
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import confusion_matrix
sns.set()
%matplotlib inline

In [2]:
class ScratchLinearRegression():
    """
    線形回帰のスクラッチ実装
    
    Parameters
    ----------
    num_iter : int
      イテレーション数
    lr : float
      学習率
    no_bias : bool
      バイアス項を入れない場合はTrue
    verbose : bool
      学習過程を出力する場合はTrue
    
    Attributes
    ----------
    self.coef_ : 次の形のndarray, shape (n_features,)
      パラメータ
    self.loss : 次の形のndarray, shape (self.iter,)
      訓練データに対する損失の記録
    self.val_loss : 次の形のndarray, shape (self.iter,)
      検証データに対する損失の記録
    """
    
    def __init__(self, num_iter, lr, no_bias, verbose):
        # ハイパーパラメータを属性として記録
        self.theta = np.ones((theta_n, 1))
        self.iter = num_iter
        self.lr = lr
        self.no_bias = no_bias
        self.verbose = verbose
        # 損失を記録する配列を用意
        self.loss = np.zeros(self.iter)
        self.val_loss = np.zeros(self.iter)
        
    def fit(self, X, y, X_val=None, y_val=None):
        """
        線形回帰を学習する。検証データが入力された場合はそれに対する損失と精度もイテレーションごとに計算する。
        Parameters
        ----------
        X : 次の形のndarray, shape (n_samples, n_features)
            訓練データの特徴量
        y : 次の形のndarray, shape (n_samples, )
            訓練データの正解値
        X_val : 次の形のndarray, shape (n_samples, n_features)
            検証データの特徴量
        y_val : 次の形のndarray, shape (n_samples, )
            検証データの正解値
        """
        #問題１　仮定関数の計算
        y_hat = self._linear_hypothesis(self,X)
        
        #問題２　最急降下法によるパラメータの更新値計算
        # = self._gradient_descent(self, X, error)
        
        if self.verbose:
            #verboseをTrueにした際は学習過程を出力
            print()
        pass
    #仮定関数の計算
    def _linear_hypothesis(self,X):
        theta_n = X.shape[1]
        #print(self.theta)
        #print(X)
        y_hat = X @ self.theta
        y_hat
    
    
    def predict(self, X):
        """
        線形回帰を使い推定する。
        Parameters
        ----------
        X : 次の形のndarray, shape (n_samples, n_features)
            サンプル
        Returns
        -------
            次の形のndarray, shape (n_samples, 1)
            線形回帰による推定結果
        """
        pass
        return

## 【問題1】仮定関数
以下の数式で表される線形回帰の仮定関数を実装してください。メソッドの雛形を用意してあります。

$h_θ(x)=θ_0x_0+θ_1x_1+...+θ_jx_j+...+θ_nx_n.(x_0=1)$

x
 : 特徴量ベクトル


θ
 : パラメータベクトル


n
 : 特徴量の数


x
j
 : j番目の特徴量


θ
j
 : j番目のパラメータ（重み）


特徴量の数
n
は任意の値に対応できる実装にしてください。


なお、ベクトル形式で表すと以下のようになります。

$h_θ(x)=θ^T⋅x$

クラスの外から呼び出すことがないメソッドのため、Pythonの慣例としてアンダースコアを先頭にひとつつけています。

In [3]:
def _linear_hypothesis(self,X):
    """
    線形の仮定関数を計算する
    Parameters
    ---------
    X : 次の形のndarray, shape (n_samples, n_features)
    訓練データ
     Returns
    -------
    次の形のndarray, shape (n_samples, 1)
    線形の仮定関数による推定結果
    """
    theta_n = X.shape[1]

    print(self.theta)
    print(X)
    y_hat = X @ self.theta
    y_hat

## 【問題2】最急降下法
最急降下法により学習させる実装を行なってください。以下の式で表されるパラメータの更新式のメソッド_gradient_descentを追加し、fit
メソッドから呼び出すようにしてください。

$θ_j=θ_j−α\frac{1}{m} \sum_{i=1}^{m}[(h_θ(x^i)−y^i)x^i_j] \quad$

$\alpha$ : 学習率

$i$ : サンプルのインデックス


$j$ : 特徴量のインデックス


雛形


ScratchLinearRegressionクラスへ以下のメソッドを追加してください。コメントアウト部分の説明も記述してください。

#!
[image.png](attachment:image.png)

In [5]:
#最急降下法によるパラメータの更新
def _gradient_descent(X, y, y_hat):
    theta_j = ([[0,0]])
    alpha = 0.01
    x_j = X[0]
    
    error = y_hat - y
    y_pred = error @ x_j
    
     = self.theta - alpha * (error.T * X) / x.shape[0]
    return self.theta


In [9]:
theta = np.array([[0,0]])#
print(theta.shape)

x = np.linspace(1,6,5)
y = 2*x + 1
X = np.c_[np.ones(5),x]
alpha = 0.05
y_pred = X @ theta.T
y = y.reshape(-1,1)
print(y.reshape(-1,1))
print(y.shape)
error = y_pred - y

print("x")
print(x)
print(x.shape)
print("y")

print("X")
print(X)
print(X.shape)
print("y_pred")
y_pred
print(y_pred)
print(y_pred.shape)

print("error")
print(error)
print(error.shape)

theta = theta - alpha * (error.T @ X) / X.shape[0]
print("theta")
print(theta)

(1, 2)
[[ 3. ]
 [ 5.5]
 [ 8. ]
 [10.5]
 [13. ]]
(5, 1)
x
[1.   2.25 3.5  4.75 6.  ]
(5,)
y
X
[[1.   1.  ]
 [1.   2.25]
 [1.   3.5 ]
 [1.   4.75]
 [1.   6.  ]]
(5, 2)
y_pred
[[0.]
 [0.]
 [0.]
 [0.]
 [0.]]
(5, 1)
error
[[ -3. ]
 [ -5.5]
 [ -8. ]
 [-10.5]
 [-13. ]]
(5, 1)
theta
[[0.4    1.7125]]
