# Sprint 機械学習スクラッチ 線形回帰

In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns

In [3]:
# np.random.seed(0)

X_array = np.array([[1, 1], [1, 2], [1, 3]])
y_array = np.ones(3)
X_val = np.array([[1, 2], [1, 4], [1, 6]])
y_val = np.array([1, 1, 0])

In [6]:
scr_lr = ScratchLinearRegression(num_iter=10, 
                                 lr=1, 
                                 no_bias=1, 
                                 verbose=True, )

In [7]:
scr_lr.fit(X_array, y_array, X_val, y_val)

preX [[1 1]
 [1 2]
 [1 3]]
self.X [[1. 1. 1.]
 [1. 1. 2.]
 [1. 1. 3.]]
pred [2.13090181 2.64741308 3.16392436]
loss [4.56875725 4.02050638 3.53804561 3.11348014 2.73986252 2.41107902
 2.12174954 1.86713959 1.64308284 1.4459129 ]
val_loss [3.40913573 5.38996394 2.53757868 4.33860279 1.87945162 3.50918695
 1.38458795 2.85347458 1.01438064 2.33388769]


## 【問題1】仮定関数
以下の数式で表される線形回帰の仮定関数を実装してください。メソッドの雛形を用意してあります。


h
θ
(
x
)
=
θ
0
x
0
+
θ
1
x
1
+
.
.
.
+
θ
j
x
j
+
.
.
.
+
θ
n
x
n
.
(
x
0
=
1
)

$x$ : 特徴量ベクトル


$\theta$ : パラメータベクトル


$n$ : 特徴量の数


$x_j$ : j番目の特徴量


$\theta_j$ : j番目のパラメータ（重み）


特徴量の数$n$は任意の値に対応できる実装にしてください。


なお、ベクトル形式で表すと以下のようになります。


h
θ
(
x
)
=
θ
T
⋅
x
.

雛形


クラスの外から呼び出すことがないメソッドのため、Pythonの慣例としてアンダースコアを先頭にひとつつけています。



## 問題1  単独で作成した関数

def _linear_hypothesis(X):
    """
    線形の仮定関数を計算する

    Parameters
    ----------
    X : 次の形のndarray, shape (n_samples, n_features)
      訓練データ

    Returns
    -------
      次の形のndarray, shape (n_samples, 1)
      線形の仮定関数による推定結果

    """
    line_hypo = np.dot(X, theta.T)
    
    return line_hypo

## 【問題2】最急降下法
最急降下法により学習させる実装を行なってください。以下の式で表されるパラメータの更新式のメソッド_gradient_descentを追加し、fit
メソッドから呼び出すようにしてください。


θ
j
:=
θ
j
−
α
1
m
m
∑
i
=
1
 
[
(
h
θ
(
x
(
i
)
)
−
y
(
i
)
)
x
(
i
)
j
]

$\alpha$ : 学習率


$i$ : サンプルのインデックス


$j$ : 特徴量のインデックス


雛形


ScratchLinearRegressionクラスへ以下のメソッドを追加してください。コメントアウト部分の説明も記述してください。



## 問題２　単独で作成した関数

def _gradient_descent_1(X, y, alpha=0.1, error=0):
    """
    最急降下法

    Parameters
    ----------
    X : 次の形のndarray, shape (n_samples, n_features)
      訓練データ
    
    alpha：学習率

    Returns
    -------
    
    """
    # データフレーム型だった場合にnd_array型に変換
    if type(X) is pd.core.frame.DataFrame:
        X = X.values
        
    np.random.seed(0)
    theta = np.random.random(size=X.shape[1])

    y = np.ones(5)
    
    # gradientを求める
    gradient = 0
    for x in range(X.shape[1]):
        gradient += alpha * (_linear_hypothesis(X)[x] - y[x]) * X[x, :]
    
    gradient = gradient / X.shape[1]
    
    # thetaの更新
    error = theta - gradient
    
    return error

## 【問題3】推定
推定する仕組みを実装してください。ScratchLinearRegressionクラスの雛形に含まれるpredictメソッドに書き加えてください。


仮定関数 $h_\theta(x)$ の出力が推定結果です。



## 問題3 単独で作成した関数
def predict(X):
    """
    線形回帰を使い推定する。

    Parameters
    ----------
    X : 次の形のndarray, shape (n_samples, n_features)
        サンプル

    Returns
    -------
        次の形のndarray, shape (n_samples, 1)
        線形回帰による推定結果
    """

    theta = np.random.random(size=X.shape[1])
    theta = np.dot(X, _gradient_descent(X).T)    
    
    return theta

## 【問題4】平均二乗誤差
線形回帰の指標値として用いられる平均二乗誤差（mean square error, MSE）の関数を作成してください。


平均二乗誤差関数は回帰問題全般で使える関数のため、ScratchLinearRegressionクラスのメソッドではなく、別の関数として作成してください。雛形を用意してあります。


平均二乗誤差は以下の数式で表されます。


L
(
θ
)
=
1
m
m
∑
i
=
1
 
(
h
θ
(
x
(
i
)
)
−
y
(
i
)
)
2
.

$m$ : 入力されるデータの数


$h_\theta()$ : 仮定関数


$x^{(i)}$ : i番目のサンプルの特徴量ベクトル


$y^{(i)}$ : i番目のサンプルの正解値


なお、最急降下法のための目的関数（損失関数）としては、これを2で割ったものを使用します。（問題5, 9）

In [35]:
# 問題4

def MSE(y_pred, y):
    """
    平均二乗誤差の計算

    Parameters
    ----------
    y_pred : 次の形のndarray, shape (n_samples,)
      推定した値
    y : 次の形のndarray, shape (n_samples,)
      正解値

    Returns
    ----------
    mse : numpy.float
      平均二乗誤差
    """
    mse = np.average((y_pred - y) ** 2)
    
    return mse

## 【問題5】目的関数
以下の数式で表される線形回帰の 目的関数（損失関数） を実装してください。そして、これをself.loss, self.val_lossに記録するようにしてください。


目的関数（損失関数） 
J
(
θ
)
 は次の式です。


J
(
θ
)
=
1
2
m
m
∑
i
=
1
 
(
h
θ
(
x
(
i
)
)
−
y
(
i
)
)
2
.

m
 : 入力されるデータの数


h
θ
(
)
 : 仮定関数


x
(
i
)
 : i番目のサンプルの特徴量ベクトル


y
(
i
)
 : i番目のサンプルの正解値

## 【問題6】学習と推定
機械学習スクラッチ入門のSprintで用意したHouse Pricesコンペティションのデータに対してスクラッチ実装の学習と推定を行なってください。


scikit-learnによる実装と比べ、正しく動いているかを確認してください。

In [8]:
df = pd.read_csv("../Week4/train.csv")
df = df.set_index("Id")
df.head()

Unnamed: 0_level_0,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,LotConfig,...,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice
Id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,60,RL,65.0,8450,Pave,,Reg,Lvl,AllPub,Inside,...,0,,,,0,2,2008,WD,Normal,208500
2,20,RL,80.0,9600,Pave,,Reg,Lvl,AllPub,FR2,...,0,,,,0,5,2007,WD,Normal,181500
3,60,RL,68.0,11250,Pave,,IR1,Lvl,AllPub,Inside,...,0,,,,0,9,2008,WD,Normal,223500
4,70,RL,60.0,9550,Pave,,IR1,Lvl,AllPub,Corner,...,0,,,,0,2,2006,WD,Abnorml,140000
5,60,RL,84.0,14260,Pave,,IR1,Lvl,AllPub,FR2,...,0,,,,0,12,2008,WD,Normal,250000


In [9]:
from sklearn.model_selection import train_test_split

# X変数には2つ、y変数にはSalePriceを抽出
X = df.loc[:, ["GrLivArea", "YearBuilt"]]
y = df.loc[:, ["SalePrice"]]

# スクラッチ関数で分割
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

print(X_train.shape)
print(X_test.shape)
print(y_train.shape)
print(y_test.shape)

(1095, 2)
(365, 2)
(1095, 1)
(365, 1)


In [10]:
# sklearn
from sklearn.linear_model import LinearRegression

lr = LinearRegression()
lr.fit(X_train, y_train)
lr_pred = lr.predict(X_test)

In [11]:
# 係数
display(lr.coef_)
# 切片
display(lr.intercept_)

array([[  98.588892  , 1041.18622755]])

array([-2021422.10210011])

## 【問題7】学習曲線のプロット
学習曲線を表示する関数を作成し、実行してください。グラフを見て損失が適切に下がっているかどうか確認してください。


線形回帰クラスの雛形ではself.loss, self.val_lossに損失を記録しておくようになっているため、入力にはこれを利用してください。

In [92]:
X_1 = np.ones(X_zero.shape[0]).reshape(-1, 1)
X_1

#X_array2 = np.hstack((X_1,X_zero))
#X_array2

array([[1.]])

In [40]:
class ScratchLinearRegression():
    """
    線形回帰のスクラッチ実装

    Parameters
    ----------
    num_iter : int
      イテレーション数
    lr : float
      学習率
    no_bias : bool
      バイアス項を入れない場合はTrue
    verbose : bool
      学習過程を出力する場合はTrue

    Attributes
    ----------
    self.coef_ : 次の形のndarray, shape (n_features,)
      パラメータ
    self.loss : 次の形のndarray, shape (self.iter,)
      訓練データに対する損失の記録
    self.val_loss : 次の形のndarray, shape (self.iter,)
      検証データに対する損失の記録

    """

    def __init__(self, num_iter, lr, no_bias, verbose):
        # ハイパーパラメータを属性として記録
        self.iter = num_iter
        self.lr = lr
        self.no_bias = no_bias
        self.verbose = verbose
        # 損失を記録する配列を用意
        self.loss = np.zeros(self.iter)
        self.val_loss = np.zeros(self.iter)
        #np.random.seed(0)

    def fit(self, X, y, X_val=None, y_val=None):
        """
        線形回帰を学習する。検証データが入力された場合はそれに対する損失と精度もイテレーションごとに計算する。

        Parameters
        ----------
        X : 次の形のndarray, shape (n_samples, n_features)
            訓練データの特徴量
        y : 次の形のndarray, shape (n_samples, )
            訓練データの正解値
        X_val : 次の形のndarray, shape (n_samples, n_features)
            検証データの特徴量
        y_val : 次の形のndarray, shape (n_samples, )
            検証データの正解値
        """
        
        #if type(X) is pd.core.frame.DataFrame:
            #X = X.values
        
        #if type(y) is  pd.core.frame.DataFrame:
            #y = y.values
        
        np.random.seed(0)
        self.theta = np.random.randn(X.shape[1] + 1)
        
        # 訓練データ・学習データのインスタンス変数化
        self.X, self.y, self.X_val, self.y_val = self._setting(X, y, X_val, y_val)
            

        for i in range(self.iter):
            self.linear_hypo = self._linear_hypothesis(self.X)
            #print("linear_hypothetis", self.linear_hypo)
            #print("linear_hypothetis.shape", self.linear_hypo.shape)
            
            self.grad = self._gradient_descent(self.X, self.y)
            #print("[theta]", self.grad)
            #print("[theta].shape", self.grad.shape)
            
            self.pred = self.predict(self.X)
            #print("[pred]", self.pred)
            
            self.loss[i] = self.loss_func(self.y)
            
            if self.verbose:
                # verboseをTrueにした際は学習過程を出力
                print("iter{}:[loss]:{}".format(i, self.loss[i]))

            if X_val is not None and y_val is not None:
                self.val_loss[i] = self.loss_func(self.y_val)
                print("iter{}:[val_loss]:{}".format(i, self.val_loss[i]))
                

    def _setting(self, X, y, X_val, y_val):
        X_copy = np.copy(X)
        y_copy = np.copy(y)
        X_val_copy = np.copy(X_val)
        y_val_copy = np.copy(y_val)
        
        if X_val is None and y_val is None:
            return X_copy, y_copy, X_val, y_val

        else:
            if self.no_bias == False:
                X_ones = np.ones(X.shape[0]).reshape(-1, 1)
                X_val_ones = np.ones(X_val.shape[0]).reshape(-1, 1)                
                X_copy = np.hstack((X_ones, X_copy))
                X_val_copy = np.hstack((X_val_ones, X_val_copy))
                
                return X_copy, y_copy, X_val_copy, y_val_copy
            
            else:
                return X_copy, y_copy, X_val_copy, y_val_copy
    
    def _linear_hypothesis(self, X):
        """
        線形の仮定関数を計算する

        Parameters
        ----------
        X : 次の形のndarray, shape (n_samples, n_features)
          訓練データ

        Returns
        -------
          次の形のndarray, shape (n_samples, 1)
          線形の仮定関数による推定結果

        """
        self.hypo = np.dot(self.X, self.theta.T)

        return self.hypo

    def _gradient_descent(self, X, y, alpha=0.1, error=0):
        """
        最急降下法

        Parameters
        ----------
        X : 次の形のndarray, shape (n_samples, n_features)
          訓練データ

        alpha：学習率

        Returns
        -------

        """
        m = len(self.y)
        #print(m, "testestestestestestestes")
        #print(self.theta)
        #print(self.theta.shape)
        
        grad = np.dot(self.X.T,(self.linear_hypo-self.y))
        #print(grad, "testestestestestestestes")
        #print(grad.shape)

        grad_average = np.average(grad, axis=1)
        #print("grad_average!!!!!!", grad_average, "testestestestestestestes")
        #print(grad_average.shape)
        
        self.theta = self.theta - alpha*grad_average
        
        # theta = np.random.random(2)
        
        #for x in range(X.shape[0]):
        # self.temp0 = theta[0] - alpha*(1/(m))*np.sum(theta[0]+theta[1]*X-y)
        # self.temp1 = theta[1] - alpha*(1/(m))*np.sum((theta[0]+theta[1]*X-y)*X)
        
        # self.gradient += alpha * (self._linear_hypothesis(X)[x] - y[x]) * X[x, :]

        # self.gradient = self.gradient / X.shape[0]

        # thetaの更新
        # theta = np.array([self.temp0, self.temp1])
        
        return self.theta

    def predict(self, X):#self.linear_hypo
        """
        線形回帰を使い推定する。

        Parameters
        ----------
        X : 次の形のndarray, shape (n_samples, n_features)
            サンプル

        Returns
        -------
            次の形のndarray, shape (n_samples, 1)
            線形回帰による推定結果
        """
        # print(self.X)

        pred = np.dot(self.X, self._gradient_descent(self.X, self.y).T)

        return pred
    
    def loss_func(self, y):
        """
        損失関数の計算

        Parameters
        ----------
        y : 次の形のndarray, shape (n_samples,)
        訓練データまたはテストデータ

        Returns
        ----------
        """
        loss = np.average((self.pred - y) ** 2) / 2

        return loss

In [41]:
scr_lr = ScratchLinearRegression(num_iter=10, 
                                 lr=0.01, 
                                 no_bias = False,
                                 verbose=True)

scr_lr.fit(X_train, y_train, X_test, y_test)

iter0:[loss]:3.241206495189395e+28
iter0:[val_loss]:3.2412064951704223e+28
iter1:[loss]:5.960999651279994e+46
iter1:[val_loss]:5.960999651279995e+46
iter2:[loss]:1.0985667743739024e+65
iter2:[val_loss]:1.0985667743739027e+65
iter3:[loss]:2.024574783351277e+83
iter3:[val_loss]:2.024574783351277e+83
iter4:[loss]:3.731136922212059e+101
iter4:[val_loss]:3.7311369222120575e+101
iter5:[loss]:6.87620079375384e+119
iter5:[val_loss]:6.87620079375384e+119
iter6:[loss]:1.2672313651783405e+138
iter6:[val_loss]:1.2672313651783408e+138
iter7:[loss]:2.3354107610564466e+156
iter7:[val_loss]:2.3354107610564474e+156
iter8:[loss]:4.303983923323016e+174
iter8:[val_loss]:4.303983923323016e+174
iter9:[loss]:7.931914128820454e+192
iter9:[val_loss]:7.93191412882046e+192


In [101]:
error = np.random.random(X_train.shape[1])
error

array([0.4236548 , 0.64589411])

In [106]:
hypo = X_train * error.T

In [124]:
test

array([[-3.32095208e+11, -3.31169729e+11],
       [-3.90041825e+11, -3.88685887e+11]])

In [125]:
test1

array([[-1.66047604e+09, -1.65584864e+09],
       [-1.95020913e+09, -1.94342944e+09]])