# Chapter 5 提出課題
### リッジ回帰をscikit-learn準拠でコーディング

In [1]:
from sklearn.datasets import load_boston
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

### データをダウンロード

In [2]:
boston=load_boston()
X=boston.data
T=boston.target
print(X.shape)
print(T.shape)

(506, 13)
(506,)


### データの前処理

In [3]:
X=X-X.mean()
T=T-T.mean()

In [4]:
np.random.seed(0) # random　の挙動を固定

p = np.random.permutation(len(X)) # random　な　index のリスト
X = X[p]
T = T[p]

### 訓練データとテストデータに分ける

In [5]:
X_train = X[:len(X)//2, :]
T_train = T[:len(T)//2]
X_test = X[len(X)//2:, :]
T_test = T[len(T)//2:]

In [6]:
print(X_train.shape)
print(T_train.shape)
print(X_test.shape)
print(T_test.shape)

(253, 13)
(253,)
(253, 13)
(253,)


### scikit-learn 準拠のコーディング

In [7]:
from sklearn.base import BaseEstimator,RegressorMixin
from sklearn.utils.validation import check_X_y,check_is_fitted,check_array

### リッジ回帰のクラス

In [8]:
class MyLinearRegression(BaseEstimator,RegressorMixin):
    def __init__(self,lam=0,a=None,b=None):
        self.a=a
        self.b=b
        self.lam=lam
        
    def fit(self,X,y):
        X, y = check_X_y(X, y, y_numeric=True)
        
        if self.lam != 0:
            pass
        else:
            pass

        one=np.ones(X.shape[0]).reshape(-1,1)
        X_=np.concatenate((one,X),axis=1)
        Lam=self.lam*np.eye(X_.shape[1])
        A=Lam+np.dot(X_.T,X_)
        X_daggar=np.dot(np.linalg.inv(A),X_.T)
        w=np.dot(X_daggar,y)
        
        self.a_=w[1:]
        self.b_=w[0]
        
        return self
    
    def predict(self,X):
        X=check_array(X)
        y=np.dot(X,self.a_)+self.b_
        
        check_is_fitted(self, "a_", "b_") # 学習済みかチェックする(推奨)
        X = check_array(X)
        return y

### 決定係数とハイパーパラメータを求める

In [9]:
from sklearn.model_selection import GridSearchCV

np.random.seed(0)

# Grid search
parameters = {'lam':np.exp([i for i in range(-30,1)])}
reg = GridSearchCV(MyLinearRegression(),parameters,cv=5)
reg.fit(X_train,T_train)
best = reg.best_estimator_

# 決定係数
print("決定係数: ", best.score(X_train, T_train)) # BaseEstimatorを継承しているため使える
# lambda
print("lam: ", best.lam)

決定係数:  0.6959671211744596
lam:  9.357622968840175e-14
