In [10]:
from sklearn import cross_validation
from sklearn.datasets import load_boston

import pandas as pd
import numpy as np

from sklearn.linear_model import Ridge
from sklearn.preprocessing import PolynomialFeatures

from sklearn.metrics import mean_squared_error

boston = load_boston()
X = pd.DataFrame(boston.data[:100,:],columns=boston.feature_names)
y = boston.target[:100]
x = X['LSTAT'].values

In [24]:
np.random.seed(0)#乱数のシード設定
indices = np.random.permutation(len(x))
X = x[indices]#データの順番をランダムに並び替え
y = y[indices]
n_fold = 10#交差検証の回数
k_fold = cross_validation.KFold(n=len(x),n_folds=n_fold)

dim = np.arange(1,20)#グリッドサーチの候補となるハイパーパラメータを考えます。
lambda_ = [1e-5,5e-5,5e-4,1e-3,5e-3,1e-2]#ハイパーパラメータを格納している。

i = 0
L=len(dim)*len(lambda_)
score = np.zeros((L,3))#最終結果を入れるためのアレイ
tmp=[]#クロスバリデーションの結果の一時的なデータを保管するためのリスト
for d in dim:
    degree_ = PolynomialFeatures(degree=d)
    for l in lambda_:
        lin_ = Ridge(normalize=True,alpha=1)
        for train, test in k_fold:
            x_ = degree_.fit_transform(x[train,None])
            x_test = degree_.fit_transform(x[test,None])
            #normalize=Trueは入力データを正規化してトレーニングすることを意味する。
            lin_.fit(x_,y[train])
            
            tmp.append(mean_squared_error(y[test],lin_.predict(x_test)))
            
        score[i,0] = d #どんなハイパーパラメータを使ったのか格納しておきます。
        score[i,1] = l
        score[i,2] = sum(tmp) / len(tmp)#あるハイパーパラメータにおけるクロスバリデーション結果を格納します。
        i += 1
        tmp = []
        
print(score[np.argmin(score[:,-1])])#もっとも誤差が小さかったモデルのパラメータとその誤差の値を表示

[  1.00000000e+00   1.00000000e-05   3.58316472e+01]


In [86]:
#ここから課題
from sklearn import cross_validation
import pandas as pd 
import numpy as np
from sklearn.linear_model import Ridge 
from sklearn.preprocessing import PolynomialFeatures
from sklearn.metrics import mean_squared_error

#データ
CCPP = pd.read_excel('Folds5x2_pp.xlsx')
at = CCPP['AT'].values
v = CCPP['V'].values
ap = CCPP['AP'].values
rh = CCPP['RH'].values
pe = CCPP['PE'].values

#クロスバリデーションのためのランダムなデータ分割&並び替え
np.random.seed(0)
indices = np.random.permutation(len(CCPP))
AT = at[indices]
V = v[indices]
AP = ap[indices]
RH = rh[indices]
PE = pe[indices]

#クロスバリデーション
n_fold = 10#交差検定の回数
k_fold = cross_validation.KFold(n=len(CCPP),n_folds=n_fold)

#グリッドサーチの候補となる次数
dim = np.arange(1,20)
#正則化パラメータの格納
lambda_ = [1e-2,1e-1,5e-1,1,10,20,30,40,50,60,70,80,90,100]

In [87]:
#特徴量がATの場合
i = 0
L  = len(dim) * len(lambda_)
score = np.zeros((L,3))#最終結果を入れるためのアレイ
tmp = []#クロスバリデーションの結果の一次的なデータを保管するためのリスト
for d in dim:
    degree_ = PolynomialFeatures(degree=d)
    for l in lambda_:
        lin_ = Ridge(normalize=True,alpha=1)#入力データを正規化しトレーニング
        for train,test in k_fold:
            AT_ = degree_.fit_transform(AT[train,None])
            AT_test = degree_.fit_transform(AT[test,None])
            lin_.fit(AT_,PE[train])
            
            tmp.append(mean_squared_error(PE[test],lin_.predict(AT_test)))
            
        score[i,0] = d #どんなハイパーパラメータを使ったか格納しておく
        score[i,1] = l 
        score[i,2] = sum(tmp)/len(tmp)#あるハイパーパラメータにおけるクロスバリデーション結果を格納しておく
        i+=1
        tmp=[]
    
print(score[np.argmin(score[:,-1])])#最も誤差の小さかったハイパーパラメータとその誤差を表示

[  1.60000000e+01   1.00000000e-02   5.90933524e+01]


In [94]:
#特徴量がVの場合
i = 0
L  = len(dim) * len(lambda_)
score = np.zeros((L,3))#最終結果を入れるためのアレイ
tmp = []#クロスバリデーションの結果の一次的なデータを保管するためのリスト
for d in dim:
    degree_ = PolynomialFeatures(degree=d)
    for l in lambda_:
        lin_ = Ridge(normalize=True,alpha=1)#入力データを正規化しトレーニング
        for train,test in k_fold:
            V_ = degree_.fit_transform(V[train,None])
            V_test = degree_.fit_transform(V[test,None])
            lin_.fit(V_,PE[train])
            
            tmp.append(mean_squared_error(PE[test],lin_.predict(V_test)))
            
        score[i,0] = d #どんなハイパーパラメータを使ったか格納しておく
        score[i,1] = l 
        score[i,2] = sum(tmp)/len(tmp)#あるハイパーパラメータにおけるクロスバリデーション結果を格納しておく
        i+=1
        tmp=[]
    
print(score[np.argmin(score[:,-1])])#最も誤差の小さかったハイパーパラメータとその誤差を表示

[  1.90000000e+01   1.00000000e-02   8.92145170e+01]


In [99]:
#特徴量がAPの場合
i = 0
L  = len(dim) * len(lambda_)
score = np.zeros((L,3))#最終結果を入れるためのアレイ
tmp = []#クロスバリデーションの結果の一次的なデータを保管するためのリスト
for d in dim:
    degree_ = PolynomialFeatures(degree=d)
    for l in lambda_:
        lin_ = Ridge(normalize=True,alpha=1)#入力データを正規化しトレーニング
        for train,test in k_fold:
            AP_ = degree_.fit_transform(AP[train,None])
            AP_test = degree_.fit_transform(AP[test,None])
            lin_.fit(AP_,PE[train])
            
            tmp.append(mean_squared_error(PE[test],lin_.predict(AP_test)))
            
        score[i,0] = d #どんなハイパーパラメータを使ったか格納しておく
        score[i,1] = l 
        score[i,2] = sum(tmp)/len(tmp)#あるハイパーパラメータにおけるクロスバリデーション結果を格納しておく
        i+=1
        tmp=[]
    
print(score[np.argmin(score[:,-1])])#最も誤差の小さかったハイパーパラメータとその誤差を表示

[  1.90000000e+01   1.00000000e-02   2.12474662e+02]


In [102]:
#特徴量がRHの場合
i = 0
L  = len(dim) * len(lambda_)
score = np.zeros((L,3))#最終結果を入れるためのアレイ
tmp = []#クロスバリデーションの結果の一次的なデータを保管するためのリスト
for d in dim:
    degree_ = PolynomialFeatures(degree=d)
    for l in lambda_:
        lin_ = Ridge(normalize=True,alpha=1)#入力データを正規化しトレーニング
        for train,test in k_fold:
            RH_ = degree_.fit_transform(RH[train,None])
            RH_test = degree_.fit_transform(RH[test,None])
            lin_.fit(RH_,PE[train])
            
            tmp.append(mean_squared_error(PE[test],lin_.predict(RH_test)))
            
        score[i,0] = d #どんなハイパーパラメータを使ったか格納しておく
        score[i,1] = l 
        score[i,2] = sum(tmp)/len(tmp)#あるハイパーパラメータにおけるクロスバリデーション結果を格納しておく
        i+=1
        tmp=[]
    
print(score[np.argmin(score[:,-1])])#最も誤差の小さかったハイパーパラメータとその誤差を表示

[  1.90000000e+01   1.00000000e-02   2.49608700e+02]
