## データの準備

In [7]:
import numpy
from pandas import DataFrame
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split

boston = load_boston()
X = boston.data
y = boston.target
feature_names = boston.feature_names

df = DataFrame(data=X, columns=feature_names)
df['MEDV'] = y

X = df[['RM', 'LSTAT']].values
y = df['MEDV'].values

# 訓練データとテストデータに分割する
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=42)

# データを更に分割し、回帰で使用できるように.reshape
X_train0 = X_train[:, 0].reshape(-1, 1)  # 訓練データのRM
X_train1 = X_train[:, 1].reshape(-1, 1)  # 訓練データのLSTAT
X_test0 = X_test[:, 0].reshape(-1, 1)  # テストデータのRM
X_test1 = X_test[:, 1].reshape(-1, 1)  # テストデータのLSTAT

## 前処理

In [23]:
from sklearn.preprocessing import MinMaxScaler, StandardScaler

# RMは標準化
standard_scaler = StandardScaler()
X_train_scaled0 = standard_scaler.fit_transform(X_train0)
X_test_scaled0 = standard_scaler.transform(X_test0)

# LSTATは正則化
min_max_scaler = MinMaxScaler()
X_train_scaled1 = min_max_scaler.fit_transform(X_train1)
X_test_scaled1 = min_max_scaler.transform(X_test1)

# 元のshapeに結合する
X_train_scaled = numpy.zeros(X_train.shape)
X_train_scaled[:, 0] = X_train_scaled0.reshape(-1)
X_train_scaled[:, 1] = X_train_scaled1.reshape(-1)
print('X_train_scaled[:10]:\n',X_train_scaled[:10])

X_test_scaled = numpy.zeros(X_test.shape)
X_test_scaled[:, 0] = X_test_scaled0.reshape(-1)
X_test_scaled[:, 1] = X_test_scaled1.reshape(-1)
print('X_test_scaled[:10]:\n', X_test_scaled[:10])

X_train_scaled[:10]:
 [[ 0.14526384  0.09602649]
 [-0.20840082  0.28449227]
 [-0.89623682  0.23399558]
 [-0.54396454  0.13383002]
 [-0.55649596  0.45253863]
 [ 0.10070766  0.16721854]
 [ 0.936136    0.03338852]
 [-0.89484444  0.58636865]
 [-0.24042558  0.31512141]
 [-0.81408637  0.31512141]]
X_test_scaled[:10]:
 [[ 0.12577051  0.20171082]
 [ 0.60196466  0.04966887]
 [-0.47713027  0.450883  ]
 [-0.36295507  0.10458057]
 [-0.03992278  0.42880795]
 [-0.06498563  0.28256071]
 [-0.57320453  0.4580574 ]
 [-0.21118559  0.61892936]
 [-0.13460465  0.30739514]
 [-0.41586553  0.34768212]]


### K-fold cross validation
- 正則化パラメータを求める際に使用する

In [25]:
from sklearn.model_selection import KFold

kf = KFold(n_splits=5, shuffle=True, random_state=42)

## Lasso
- 重回帰にLassoを組み合わせる

In [26]:
# scikit-learn ライブラリから LassoCV を import
from sklearn.linear_model import LassoCV

lasso = LassoCV(cv=kf)
'''
LassoCV のインスタンスを生成。
KFold のインスタンス kf を渡す。
'''

'\nLassoCV のインスタンスを生成。\nKFold のインスタンス kf を渡す。\n'

In [30]:
# fit() メソッドを利用して、モデルを学習
lasso.fit(X_train_scaled, y_train)

LassoCV(alphas=None, copy_X=True,
        cv=KFold(n_splits=5, random_state=42, shuffle=True), eps=0.001,
        fit_intercept=True, max_iter=1000, n_alphas=100, n_jobs=None,
        normalize=False, positive=False, precompute='auto', random_state=None,
        selection='cyclic', tol=0.0001, verbose=False)

In [31]:
# score() メソッドを利用して、決定係数を計算
print(lasso.score(X_train_scaled, y_train))
print(lasso.score(X_test_scaled, y_test))
# 学習された正則化パラメータを確認
print(lasso.alpha_)

0.6486214999775375
0.6004647942968494
0.006548570448456541


## Ridge regression
- 重回帰にRidgeを取り入れる

In [34]:
import numpy
# scikit-learn ライブラリから RidgeCV を import
from sklearn.linear_model import RidgeCV

# RidgeCV のインスタンスを生成
ridge = RidgeCV(cv=kf)

In [35]:
# fit() メソッドを利用して、モデルを学習
ridge.fit(X_train_scaled, y_train)



RidgeCV(alphas=array([ 0.1,  1. , 10. ]),
        cv=KFold(n_splits=5, random_state=42, shuffle=True), fit_intercept=True,
        gcv_mode=None, normalize=False, scoring=None, store_cv_values=False)

In [37]:
# score() メソッドを利用して、決定係数を計算
print(ridge.score(X_train_scaled, y_train))
print(ridge.score(X_test_scaled, y_test))

# 学習された正則化パラメータを確認
print(ridge.alpha_)

0.6486164412432371
0.6005255323711269
0.1


### Elastic Net
- LassoとRidgeを重回帰に取り入れる

In [38]:
# scikit-learn ライブラリから ElasticNetCV を import
from sklearn.linear_model import ElasticNetCV

# ElasticNetCV のインスタンスを生成
elasticnet = ElasticNetCV(cv=kf, l1_ratio=0.5)
'''
scikit-learn の実装では、 L1  正則化の正則化パラメータは、 L2  正則化パラメータとの比率で与える
このパラメータが l1_ratio で、l1_ratio=0 のとき、Elastic Net は実質的にRidge回帰となり、l1_ratio=1 のとき、Lasso と同等のものになる。
今回は、デフォルト値の l1_ratio=0.5 を採用
'''

'\nscikit-learn の実装では、 L1  正則化の正則化パラメータは、 L2  正則化パラメータとの比率で与える\nこのパラメータが l1_ratio で、l1_ratio=0 のとき、Elastic Net は実質的にRidge回帰となり、l1_ratio=1 のとき、Lasso と同等のものになる。\n今回は、デフォルト値の l1_ratio=0.5 を採用\n'

In [39]:
# fit() メソッドを利用して、モデルを学習
elasticnet.fit(X_train_scaled, y_train)

ElasticNetCV(alphas=None, copy_X=True,
             cv=KFold(n_splits=5, random_state=42, shuffle=True), eps=0.001,
             fit_intercept=True, l1_ratio=0.5, max_iter=1000, n_alphas=100,
             n_jobs=None, normalize=False, positive=False, precompute='auto',
             random_state=None, selection='cyclic', tol=0.0001, verbose=0)

In [41]:
# score() メソッドを利用して、決定係数を計算
print(elasticnet.score(X_train_scaled, y_train))
print(elasticnet.score(X_test_scaled, y_test))

# 学習された正則化パラメータを確認
elasticnet.alpha_

0.6408644755644152
0.6034664891361317


0.013097140896913077

In [43]:
import 前処理自動化.ipynb

ModuleNotFoundError: No module named '前処理自動化'