# 7章　線形回帰

In [None]:
# 必要ライブラリの宣言
%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt

In [None]:
# PDF出力用
from IPython.display import set_matplotlib_formats
set_matplotlib_formats('png', 'pdf')

In [None]:
# 必要ライブラリimport
from sklearn.datasets import load_boston

In [None]:
# 学習用データの読み込み
# Boston Dataセットというよく使われるデータなので、関数を呼び出すと自動的にダウンロードされます

boston = load_boston()
x_org, yt = boston.data, boston.target
feature_names = boston.feature_names

In [None]:
# 正解データ ytの表示(一部)

print(yt[:5])

In [None]:
# x_orgの内容を調べる

print('クラス名:', type(x_org))
print('サイズ:', x_org.shape)
print('内容表示(一部):')
print( x_org[:5,:])
print('項目名: ', feature_names)

In [None]:
# x_org は506 x 13 の行列
# この行列から'RM' の列だけを抽出する

x_data = x_org[:,feature_names == 'RM']

In [None]:
# 結果確認

print('絞り込み後のサイズ', x_data.shape)
print('絞り込み後の内容(一部)')
print( x_data[:5])

In [None]:
# ダミー変数を追加

x = np.insert(x_data, 0, 1.0, axis=1)

In [None]:
# 結果確認

print('ダミー変数追加後のサイズ', x.shape)
print('ダミー変数追加後の内容(一部):')
print( x[:5,:])

In [None]:
# 散布図の表示
plt.scatter(x[:,1], yt, s=10, c='b')
plt.xlabel('ROOM', fontsize=14)
plt.ylabel('PRICE', fontsize=14)
plt.show()

In [None]:
# 予測関数 (1, x)の値から予測値ypを計算する
def pred(x, w):
    return(x @ w)

In [None]:
# 初期化処理

# データ系列総数
M  = x.shape[0]

# 入力データ次元数(ダミー変数を含む)
D = x.shape[1]

# 繰り返し回数
iters = 50000

# 学習率
alpha = 0.01

# 重みベクトルの初期値 (すべての値を1にする)
w = np.ones(D)

# 評価結果記録用 (損失関数値のみ記録)
history = np.zeros((0,2))

In [None]:
# 繰り返しループ
for k in range(iters):
    
    # 予測値の計算 (7.8.1)
    yp = pred(x, w)
    
    # 誤差の計算 (7.8.2)
    yd = yp - yt
    
    # 勾配降下法の実装 (7.8.4)
    w = w - alpha * (x.T @ yd) / M
    
    # 学習曲線描画用データの計算、保存
    if ( k % 100 == 0):
        # 損失関数値の計算 (7.6.1)
        loss = np.mean(yd ** 2) / 2
        # 計算結果の記録
        history = np.vstack((history, np.array([k, loss])))
        # 画面表示
        print( "iter = %d  loss = %f" % (k, loss))    

In [None]:
# 最終的な損失関数初期値、最終値
print('損失関数初期値: %f' % history[0,1])
print('損失関数最終値: %f' % history[-1,1])

In [None]:
# 下記直線描画用の座標値計算
xall = x[:,1]
xl = np.array([[1, xall.min()],[1, xall.max()]])
yl = pred(xl, w)

In [None]:
# 散布図と回帰直線の描画
plt.figure(figsize=(6,6))
plt.scatter(x[:,1], yt, s=10, c='b')
plt.xlabel('ROOM', fontsize=14)
plt.ylabel('PRICE', fontsize=14)
plt.plot(xl[:,1], yl, c='k')
plt.show()

In [None]:
# 学習曲線の表示 (最初の1個分を除く)
plt.plot(history[1:,0], history[1:,1])
plt.show()

## 単回帰モデルをライブラリを使って実装する

In [None]:
# ダミー変数除去
x_lib = x[:,1:2]

# 結果確認
print(x_lib[:5])

In [None]:
# scikit-learn ライブラリから線形回帰モデルをロードします
from sklearn import linear_model

In [None]:
# 線形回帰モデルの定義を行います
model1 = linear_model.LinearRegression()

In [None]:
# 学習
model1.fit(x_lib, yt)

In [None]:
# 予測
y_lib = model1.predict(x_lib)
# 予測値の最大、最小
yp_lib = [y_lib.min(), y_lib.max()]

In [None]:
# 先ほどの結果との比較
print(yp_lib)
print(yl)

## 7.10  重回帰モデルへの拡張

In [None]:
# 列(LSTAT: 低所得者率)の取得
x_add = x_org[:,feature_names == 'LSTAT']

In [None]:
# 結果確認
print('絞り込み後のサイズ', x_add.shape)
print('絞り込み後の内容(一部)')
print( x_add[:5])

In [None]:
# xに列を追加
x2 = np.hstack((x, x_add))

In [None]:
# 結果確認
print('絞り込み後のサイズ', x2.shape)
print('絞り込み後の内容(一部)')
print( x2[:5])

In [None]:
# 初期化処理

# データ系列総数
M  = x2.shape[0]

# 入力データ次元数(ダミー変数を含む)
D = x2.shape[1]

# 繰り返し回数
iters = 50000

# 学習率
alpha = 0.01

# 重みベクトルの初期値 (すべての値を1にする)
w = np.ones(D)

# 評価結果記録用 (損失関数値のみ記録)
history = np.zeros((0,2))

In [None]:
# 繰り返しループ
for k in range(iters):
    
    # 予測値の計算 (7.8.1)
    yp = pred(x2, w)
    
    # 誤差の計算 (7.8.2)
    yd = yp - yt
    
    # 勾配降下法の実装 (7.8.4)
    w = w - alpha * (x2.T @ yd) / M
    
    # 学習曲線描画用データの計算、保存
    if ( k % 100 == 0):
        # 損失関数値の計算 (7.6.1)
        loss = np.mean(yd ** 2) / 2
        # 計算結果の記録
        history = np.vstack((history, np.array([k, loss])))
        # 画面表示
        print( "iter = %d  loss = %f" % (k, loss))    

In [None]:
# 初期化処理 (パラメータを適切な値に変更)

# データ系列総数
M  = x2.shape[0]

# 入力データ次元数(ダミー変数を含む)
D = x2.shape[1]

# 繰り返し回数
#iters = 50000
iters = 2000

# 学習率
#alpha = 0.01
alpha = 0.001

# 重みベクトルの初期値 (すべての値を1にする)
w = np.ones(D)

# 評価結果記録用 (損失関数値のみ記録)
history = np.zeros((0,2))

In [None]:
# 繰り返しループ
for k in range(iters):
    
    # 予測値の計算 (7.8.1)
    yp = pred(x2, w)
    
    # 誤差の計算 (7.8.2)
    yd = yp - yt
    
    # 勾配降下法の実装 (7.8.4)
    w = w - alpha * (x2.T @ yd) / M
    
    # 学習曲線描画用データの計算、保存
    if ( k % 100 == 0):
        # 損失関数値の計算 (7.6.1)
        loss = np.mean(yd ** 2) / 2
        # 計算結果の記録
        history = np.vstack((history, np.array([k, loss])))
        # 画面表示
        print( "iter = %d  loss = %f" % (k, loss))    

In [None]:
# 最終的な損失関数初期値、最終値
print('損失関数初期値: %f' % history[0,1])
print('損失関数最終値: %f' % history[-1,1])

In [None]:
# 学習曲線の表示 (最初の10個分を除く)
plt.plot(history[:,0], history[:,1])
plt.show()