In [None]:
# plt.show()で可視化されない人はこのセルを実行してください。
%matplotlib inline

# 総合添削問題

Chapter1～3の技術を応用し、Boston house-pricesデータセットを使って「住宅の価格予想問題」に取り組んでみましょう。

回帰分析については、KerasRegressorというAPIを使うことで、分類問題とほぼ同じようにコードを記述することが可能です。
データの可視化コードを参考にしながら、より良い回帰モデルを作成してみましょう。

#### 問題

- KerasRegressorに渡す関数Reg_model()の内容を自由に書いてモデルを完成させてください。
- エポック数、活性化関数などは、データサイズをもとに適切なものを決めていきます。
- 平均平方二乗誤差(REG RMSE)については7以下になるようにします。

In [None]:
import numpy as np
import pandas as pds
from keras.models import Sequential
from keras.layers import Input, Dense, Dropout, BatchNormalization
from keras.wrappers.scikit_learn import KerasRegressor
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import KFold
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline
from sklearn.metrics import mean_squared_error
from sklearn.datasets import load_diabetes
from sklearn.datasets import load_boston
import matplotlib.pyplot as plt

%matplotlib inline
# sklearnからデータセットを読み込みます
boston=load_boston()

X = boston.data
Y = boston.target
#テストデータとトレーニングデータに分割します
x_train, x_test, y_train, y_test = train_test_split(X, Y, test_size=0.25, random_state=42)
#-------------------------------------------------------------------------------------------------------------
def reg_model():
    
    model = Sequential()
    #ここにコードを記入してください(model.add)
    model.add(Dense(256, input_dim=13))
    model.add(BatchNormalization())
    model.add(Activation("relu"))
    model.add(Dense(128, input_dim=13))
    model.add(BatchNormalization())
    model.add(Activation("relu"))
    model.add(Dense(1))
    
    model.compile(loss='mse', optimizer='adam')
    return model

#epochs,batch_sizeを埋めてください
estimator= KerasRegressor(build_fn=reg_model, epochs=15, batch_size=13, verbose=1,validation_data=(x_test, y_test))

#モデルを学習させます
history=estimator.fit(x_train, y_train)
#予測値を出力します
y_pred = estimator.predict(x_test)

# 二乗誤差を出力します
mse= mean_squared_error(y_test, y_pred)
print("REG RMSE : %.2f" % (mse** 0.5))

### ヒント

- Boston_house_pricesデータはとても小さいデータセットです。
- 小さいデータセットには過学習しないように気を付けましょう。
- 層が厚く、複雑なモデルほどモデルの表現力は増しますが、過学習しやすくなります。
- 回帰分析の場合、出力層に活性化関数は必要ありません。

### 参考

In [None]:
#バリデーションデータと、学習データの実際の値と、予測値の散布図です
#過学習していないか確認しましょう
%matplotlib inline

plt.figure()
plt.scatter(y_train,estimator.predict(x_train),label='Train',c='blue')
plt.scatter(y_test,y_pred,c='lightgreen',label='Test',alpha=0.8)
plt.title('Neural Network Predictor')
plt.xlabel('Measured')
plt.ylabel('Predicted') 
plt.show()

### 参考2

In [None]:
#epoch毎の予測値の正解データとの誤差を表しています
#バリデーションデータのみ誤差が大きい場合、過学習を起こしています

loss=history.history['loss']
val_loss=history.history['val_loss']
epochs=len(loss)

plt.plot(range(epochs), loss, marker = '.', label = 'loss')
plt.plot(range(epochs), val_loss, marker = '.', label = 'val_loss')
plt.legend(loc = 'best')
plt.grid()
plt.xlabel('epoch')
plt.ylabel('loss')
plt.show()


### 解答例

In [None]:
import numpy as np
import pandas as pds
from keras.models import Sequential
from keras.layers import Input, Dense, Dropout, BatchNormalization
from keras.wrappers.scikit_learn import KerasRegressor
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import KFold
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline
from sklearn.metrics import mean_squared_error
from sklearn.datasets import load_diabetes
from sklearn.datasets import load_boston
import matplotlib.pyplot as plt

%matplotlib inline
# sklearnからデータセットを読み込みます
boston=load_boston()

X = boston.data
Y = boston.target
#テストデータとトレーニングデータに分割します
x_train, x_test, y_train, y_test = train_test_split(X, Y, test_size=0.25, random_state=42)
def reg_model():

    model = Sequential()
    model.add(Dense(32, input_dim=13, activation='relu'))
    model.add(Dense(128, activation='relu'))
    model.add(Dense(1))
    model.compile(loss='mse', optimizer='adam')
    return model

#epochs,batch_sizeを埋めてください
estimator= KerasRegressor(build_fn=reg_model, epochs=75, batch_size=16, verbose=1,validation_data=(x_test, y_test))

#モデルを学習させます
history=estimator.fit(x_train, y_train)
#予測値を出力します
y_pred = estimator.predict(x_test)

# 二乗誤差を出力します
mse= mean_squared_error(y_test, y_pred)
print("REG RMSE : %.2f" % (mse** 0.5))
%matplotlib inline

plt.figure()
plt.scatter(y_train,estimator.predict(x_train),label='Train',c='blue')
plt.scatter(y_test,y_pred,c='lightgreen',label='Test',alpha=0.8)
plt.title('Neural Network Predictor')
plt.xlabel('Measured')
plt.ylabel('Predicted')
plt.show()
loss=history.history['loss']
val_loss=history.history['val_loss']
epochs=len(loss)

plt.plot(range(epochs), loss, marker = '.', label = 'loss')
plt.plot(range(epochs), val_loss, marker = '.', label = 'val_loss')
plt.legend(loc = 'best')
plt.grid()
plt.xlabel('epoch')
plt.ylabel('loss')
plt.show()

In [None]:
%matplotlib inline

plt.figure()
plt.scatter(y_train,estimator.predict(x_train),label='Train',c='blue')
plt.scatter(y_test,y_pred,c='lightgreen',label='Test',alpha=0.8)
plt.title('Neural Network Predictor')
plt.xlabel('Measured')
plt.ylabel('Predicted') 
plt.show()

In [None]:
loss=history.history['loss']
val_loss=history.history['val_loss']
epochs=len(loss)

plt.plot(range(epochs), loss, marker = '.', label = 'loss')
plt.plot(range(epochs), val_loss, marker = '.', label = 'val_loss')
plt.legend(loc = 'best')
plt.grid()
plt.xlabel('epoch')
plt.ylabel('loss')
plt.show()

添削課題の提出は以下のアドレスから提出いただきますようお願いします。<br>

https://goo.gl/forms/fW7CAspZMwHuWuqk2<br><br>
以下のアドレスからアンケートにご協力頂きたく存じます。<br>
ご回答のほど、よろしくお願いいたします。

https://goo.gl/forms/WHjJQYeodIndRvyz2