## 線形回帰の雛形モデルに問題ごとの作成コードを追加、上書きをしてスクラッチを完成させる

# 【問題1】仮定関数

$$
h_\theta(x) =  \theta_0 x_0 + \theta_1 x_1 + ... + \theta_j x_j + ... +\theta_n x_n.   (x_0 = 1)\\
$$
は
$$
h_\theta(x) = \theta^T \cdot x.
$$

In [58]:
def _linear_hypothesis(self, X):
    """
    線形の仮定関数を計算する
    Parameters
    ----------
    X : 次の形のndarray, shape (n_samples, n_features)
      訓練データ
    Returns
    -------
     次の形のndarray, shape (n_samples, 1)
      線形の仮定関数による推定結果
    """
    self.X_ = np.insert(X,0,1,axis=1)           # Xの０列目に１を挿入
    self.n_sample = X_.shape[0]            # Xの行の数を保管
    self.n_featur = X_.shape[1]            # Xの列の数を保管
    theta = np.random.rand(self.n_featur)  # thetaを初期化
    self.theta = theta.reshape(-1,1) 
    self.theta_T = self.theta.T
    
    f_x = theta_T @ self.X_.T  #転置したthetaとX_をかける
    
    pass
    return  f_x

# 【問題2】最急降下法

## 最急降下法により学習させる実装を行なってください

$$
J(\theta)=  \frac{1 }{ 2m}  \sum_{i=1}^{m} (h_\theta(x^{(i)})-y^{(i)})^2.
$$

$$
\theta_j := \theta_j - \alpha \frac{1}{m} \sum_{i=1}^{m}[(h_\theta(x^{(i)}) - y^{(i)} )x_{j}^{(i)}]
$$


In [46]:
def _gradient_descent(X,error):
    """
    説明を記述
    引数
    ---
    X:  
    error: y^ - y
    """
    #theta = [0,0]#仮定関数の係数の初期値
    GR = np.array([])
    for j in range(self.n_feature):   #　 j列目のthetaの処理回数
        for i in range(self.n_sample):#i行目のシグマの処理
            GR = np.append(GR,(self.error[i])*self.X[i,j])
        self.theta[j] = self.theta[j] - ((self.lr/self.n_sample)*GR.sum())
        GR = np.array([])
        
    pass
    return theta

### 損失関数（目的関数）

$$
L(\theta)=  \frac{1 }{ m}  \sum_{i=1}^{m} (h_\theta(x^{(i)})-y^{(i)})^2.
$$

$$
J(\theta)=  \frac{1 }{ 2m}  \sum_{i=1}^{m} (h_\theta(x^{(i)})-y^{(i)})^2.
$$

# 【問題3】推定

## 推定する仕組みを実装してください

In [47]:
def predict(self, X_test):
        """
        線形回帰を使い推定する。
        Parameters
        ----------
        X : 次の形のndarray, shape (n_samples, n_features)
            サンプル
        Returns
        -------
            次の形のndarray, shape (n_samples, 1)
            線形回帰による推定結果
        """
        answer = self._gradient_descent(X) @ X_test
        
        pass
        return answer

# 【問題4】平均二乗誤差

## 線形回帰の指標値として用いられる平均二乗誤差（mean square error, MSE）の関数を作成してください

1. 推定結果を計算

$$
h_\theta(x_i) = \theta^T \cdot x_i
$$

2. 実測値との差を計算【対応する数式の個所を書いてください】

$$
error_i = h_\theta(x_i) - y_i
$$

3. 1,2の2乗を計算

$$
squared error_i = error_i^2
$$

4. 3の合計値を計算【対応する数式の個所を書いてください】

$$
sum squared error = \sum_{i=1}^{m} squared error_i
$$

5. データの長さで割って4の平均値を計算

$$
mean squared error = \sum_{i=1}^{m} squared error_i
$$

In [48]:
def MSE(y_pred, y):
    """
    平均二乗誤差の計算
    Parameters
    ----------
    y_pred : 次の形のndarray, shape (n_samples,)
      推定した値
    y : 次の形のndarray, shape (n_samples,)
      正解値
    Returns
    ----------
    mse : numpy.float
      平均二乗誤差
    """
    ER = ([])
    for i in range(self.n_sample):
        ER = np.append(ER,(y_pred[i] - y[i])**2)
    mse = 1/self.n_sample*ER.sum()
    
    
    
    #mse = (1/self.n_sample*np.sum((y_pred - y)**2))
    
    pass
    return mse


# 【問題5】目的関数

## 線形回帰の 目的関数（損失関数） を実装してください

$$
J(\theta)=  \frac{1 }{ 2m}  \sum_{i=1}^{m} (h_\theta(x^{(i)})-y^{(i)})^2.
$$

In [49]:
def _loss_func(self,y_pred,y):

    loss_ = 0
    for i in range(self.n_sample):
        loss_ += (y_pred[i] - y[i])**2
        self.loss[i] = loss_
        loss_v += loss_
        self.val_loss[i] =loss_v
    
    loss_f = (0.5*loss_v)/self.n_sample    
    
    return loss_f

# 【問題6】学習と推定

## House Pricesコンペティションのデータに対してスクラッチ実装の学習と推定を行なってください。

In [173]:
class ScratchLinearRegression():
    """
    線形回帰のスクラッチ実装
    
    パラメーター
    ----------
    num_iter : int
      イテレーション数
    lr : float
      学習率
    no_bias : bool
      バイアス項を入れない場合はTrue
    verbose : bool
      学習過程を出力する場合はTrue
    
    属性
    ----------
    self.coef_ : 次の形のndarray, shape (n_features,)
      パラメータ
    self.loss : 次の形のndarray, shape (self.iter,)
      訓練データに対する損失の記録
    self.val_loss : 次の形のndarray, shape (self.iter,)
      検証データに対する損失の記録
    """
    
    def __init__(self, num_iter, lr, no_bias, verbose):
        # ハイパーパラメータを属性として記録
        self.iter = num_iter
        self.lr = lr
        #self.no_bias = no_bias
        #self.verbose = verbose
        
        # 損失を記録する配列を用意
        self.loss = np.zeros(self.iter)
        self.val_loss = np.zeros(self.iter)
        
        
        self.theta = np.random.rand(2) 
        
    def fit(self, X_train, y_train):
        """
        線形回帰を学習する。検証データが入力された場合はそれに対する損失と精度もイテレーションごとに計算する。
        Parameters
        ----------
        X : 次の形のndarray, shape (n_samples, n_features)
            訓練データの特徴量
        y : 次の形のndarray, shape (n_samples, )
            訓練データの正解値
        """
        
        # X_trainの調整
        X_train = np.array(X_train)
        XR = X_train.reshape(1,X_train.shape[0])
        XT = XR.T
        X = np.zeros((XT.shape[0],XT.shape[1] +1))
        X_0 = 1
        
        # Xの追加
        for i in range(X.shape[0]):
            X[i] = np.append(X_0,XT[i])
        
        # Y_trainの調整
        y_train = np.array(y_train)
        
#         self.X = X
#         self.y = y
#         self.y_pred = X @ self.theta.T
#         print(self.y_pred)
#         print(y_train)
#         self.error = self.y_pred - y_train
        
        for i in range(self.iter):
            self._linear_hypothesis(X)
            self._gradient_descent(X)
            self._loss_func(y_pred,y)

        
        if self.verbose:
            #verboseをTrueにした際は学習過程を出力
            print()
        pass
        return 
    
    #---------問１--------
    
    def _linear_hypothesis(self, X):
        """
        線形の仮定関数を計算する
        Parameters
        ----------
        X : 次の形のndarray, shape (n_samples, n_features)
          訓練データ
        Returns
        -------
         次の形のndarray, shape (n_samples, 1)
          線形の仮定関数による推定結果
        """
        self.X_ = np.insert(X,0,1,axis=1)           # Xの０列目に１を挿入
        self.n_sample = X_.shape[0]            # Xの行の数を保管
        self.n_featur = X_.shape[1]            # Xの列の数を保管
        theta = np.random.rand(self.n_featur)  # thetaを初期化
        self.theta = theta.reshape(-1,1) 
        self.theta_T = self.theta.T

        f_x = self.theta_T @ self.X_.T  #転置したthetaとX_をかける

        pass
        return  f_x
    
    # --------問２--------
    
    def _gradient_descent(self,X):
        """
        説明を記述
        引数
        ---
        X:  
        error: y^ - y
        """
    
        
        #theta = [0,0]#仮定関数の係数の初期値
        GR = np.array([])
        for j in range(self.n_featur):   #　 j列目のthetaの処理回数
            for i in range(self.n_sample):#i行目のシグマの処理
                GR = np.append(GR,(error[i])*self.X[i,j])
            self.theta[j] = self.theta[j] - ((self.lr/self.n_sample)*GR.sum())
            GR = np.array([])

        pass
        return theta
        
                
    #--------問３--------
    
    def predict(self, X_test):
        """
        線形回帰を使い推定する。
        Parameters
        ----------
        X : 次の形のndarray, shape (n_samples, n_features)
            サンプル
        Returns
        -------
            次の形のndarray, shape (n_samples, 1)
            線形回帰による推定結果
        """
        answer = self._gradient_descent(X) @ X_test
        
        pass
        return answer
    
    #--------問４--------
    
    def MSE(y_pred, y):
        """
        平均二乗誤差の計算
        Parameters
        ----------
        y_pred : 次の形のndarray, shape (n_samples,)
          推定した値
        y : 次の形のndarray, shape (n_samples,)
          正解値
        Returns
        ----------
        mse : numpy.float
          平均二乗誤差
        """
        ER = ([])
        for i in range(self.n_sample):
            ER = np.append(ER,(y_pred[i] - y[i])**2)
        mse = 1/self.n_sample*ER.sum()



        #mse = (1/self.n_sample*np.sum((y_pred - y)**2))

        pass
        return mse
    
    #--------問５--------
    def _loss_func(self,y_pred,y):

        loss_ = 0
        for i in range(self.n_sample):
            loss_ += (y_pred[i] - y[i])**2
            self.loss[i] = loss_
            loss_v += loss_
            self.val_loss[i] =loss_v

        loss_f = (0.5*loss_v)/self.n_sample    

        return loss_f


In [75]:
import missingno as msno
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from sklearn.metrics import mean_absolute_error
import matplotlib.pyplot as plt
%matplotlib inline
from sklearn import linear_model #線形回帰のためのモジュール
from sklearn.metrics import r2_score #R2を計算するためのモジュール
from sklearn.metrics import confusion_matrix, accuracy_score, precision_score,recall_score,f1_score
import warnings #ワーニング関連のモジュール？
warnings.filterwarnings('ignore') #ワーニングが消える？

csv_path = "train.csv" # ファイル名（パス）を指定する

'''学習用データの読み込み'''
df = pd.read_csv("train_1.csv")
#print(df)

# 目的変数
y = df.loc[:,["SalePrice"]]

#説明変数
X = df.loc[:,["GrLivArea"]]#,"YearBuilt"]]
# X = np.array(X)
# X_ = np.insert(X,0,1,axis=1) 
# X = pd.DataFrame(X_)

In [176]:
# トレーニングデータ分割
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25)

'''回帰モデルの作成'''
#モジュール読み込み、モデル構築
reg = ScratchLinearRegression(num_iter=10, lr = 0.05,no_bias=False, verbose=True)
#モデルの学習
reg.fit(X_train,y_train) 
# #予測値の算出
# print(X_train)
# print(type(X_train))
# print(y_train)
# #y_train_pred = reg.predict(X_train) #トレーニングデータでの予測
# y_test_pred = reg.predict(X_test) #検証用データでの予測

# 【問題7】学習曲線のプロット

## 学習曲線を表示する関数を作成し、実行してください。

## 線形回帰の雛形