# 目的：特徴量とターゲットの学習を行い、新しい未知のデータの特徴量を使ってそのエリアの不動産価値を予測する（Tensorflow）

## ライブラリをインポート

In [20]:
# tensorflow
import tensorflow.compat.v1 as tf
tf.disable_v2_behavior()

# 数値計算（numpy）,データ分析（pandas）
import numpy as np
import pandas as pd

# データ可視化ライブラリ(matplotlib)
import matplotlib.pyplot as plt

# データセットの取得&処理のライブラリ(Scikit-learn)
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split

# インポートの確認
print(tf.__version__)
print(np.__version__)
print(pd.__version__)

2.1.0
1.17.2
0.25.1


### データセットをscikit-learnから読み込む

In [21]:
# データの読み込み
boston = load_boston()

# pandasのデータフレーム形式へ変換
df = pd.DataFrame(boston.data, columns=boston.feature_names)
df['target'] = boston.target

# データの最初の５行を表示
df.head(5)

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,target
0,0.00632,18.0,2.31,0.0,0.538,6.575,65.2,4.09,1.0,296.0,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0.0,0.469,6.421,78.9,4.9671,2.0,242.0,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0.0,0.469,7.185,61.1,4.9671,2.0,242.0,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0.0,0.458,6.998,45.8,6.0622,3.0,222.0,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0.0,0.458,7.147,54.2,6.0622,3.0,222.0,18.7,396.9,5.33,36.2


### データの前処理

In [22]:
# 特徴量とターゲットに切り分け
X_data= np.array(boston.data)
Y_data = np.array(boston.target)

# 一行目のデータの特徴量（X)とターゲット（Y)を確認
print(X_data[0:1])
print(Y_data[0:1])

[[6.320e-03 1.800e+01 2.310e+00 0.000e+00 5.380e-01 6.575e+00 6.520e+01
  4.090e+00 1.000e+00 2.960e+02 1.530e+01 3.969e+02 4.980e+00]]
[24.]


In [24]:
# 特徴量の正規化を行う
# →特徴量のデータのレンジが大きく異なると、モデルを訓練する際に不具合を起こす可能性があるから

# 正規化
def norm(data):
    mean = np.mean(data, axis=0)
    std = np.std(data, axis=0)
    return (data - mean) / std

# データを変更
X_data = norm(X_data)
print(X_data[0:1])

[[-0.41978194  0.28482986 -1.2879095  -0.27259857 -0.14421743  0.41367189
  -0.12001342  0.1402136  -0.98284286 -0.66660821 -1.45900038  0.44105193
  -1.0755623 ]]


In [25]:
print(X_data.shape)

(506, 13)


In [26]:
# 特徴量のデータの最初の列に数字の１を追加
ones = np.ones((506,1))
X_data = np.c_[ones,X_data]
X_data.shape

(506, 14)

In [27]:
# 訓練データとテストデータに分ける
# 訓練用とテスト用に分割してくれる関数を使用　＝　train_test_split()
# 訓練：テスト　＝　8：２
X_train, X_test, Y_train, Y_test = train_test_split(X_data,Y_data, test_size=0.2, random_state=42)

In [28]:
print(X_train.shape)
print(Y_train.shape)
print(X_test.shape)
print(Y_test.shape)

(404, 14)
(404,)
(102, 14)
(102,)


In [34]:
Y_train = Y_train.reshape(404,1)
Y_test = Y_test.reshape(102,1)
print(Y_train.shape)
print(Y_test.shape)

(404, 1)
(102, 1)


### 線形回帰モデルの訓練

In [55]:
# 学習率とエポック回数（反復処理回数）
learning_rate = 0.01
training_epochs = 100

# 特徴量の数
n_dim = X_data.shape[1]
print(n_dim)

# 特徴量（X)とターゲット（Y)のプレースホルダー
X = tf.placeholder(tf.float32,[None,n_dim])
Y = tf.placeholder(tf.float32,[None,1])

# 係数（W)と定数項（b）の変数
W = tf.Variable(tf.ones([n_dim,1]))
b = tf.Variable(0,0, dtype=tf.float32)

14


In [56]:
b.dtype

tf.float32_ref

In [66]:
# 線形モデル
y = tf.add(b, tf.matmul(X, W))
 
# コスト関数
cost = tf.reduce_mean(tf.square(y - Y))
 
# 最適化
training_step = tf.train.GradientDescentOptimizer(learning_rate).minimize(cost)

In [75]:
# 変数の初期化を行い、セッションを開始
# 初期化
init = tf.global_variables_initializer()

# モデル訓練開始
sess = tf.Session()
sess.run(init)
a = sess.run(cost, feed_dict={X:X_train, Y:Y_train})
cost_history = np.append(cost_history,a)

for epoch in range(training_epochs):
    sess.run(training_step, feed_dict={X:X_train, Y:Y_train})
    a = sess.run(cost, feed_dict={X:X_train, Y:Y_train})
    cost_history = np.append(cost_history,a)
    if epoch % 100 == 0:
        W_val = sess.run(W)
        b_val = sess.run(b)

In [76]:
print(cost_history[1])
print(cost_history[50])
print(cost_history[100])

620.71564
93.65329
33.669296


### テストデータで予測

In [78]:
pred_test = sess.run(y, feed_dict={X:X_test})

In [79]:
# 精度の確認
# 実際の不動産価格（Y_test)と予測した価格（pred_test）の対比表を作る
pred = pd.DataFrame({"実際の不動産価格":Y_test[:,0], "予測した不動産価格":pred_test[:,0]})
pred.head(10)

Unnamed: 0,実際の不動産価格,予測した不動産価格
0,23.6,24.199524
1,32.4,31.367857
2,13.6,14.087292
3,22.8,19.858475
4,16.1,16.302046
5,20.0,19.473991
6,17.8,16.039255
7,14.0,13.173406
8,19.6,17.43936
9,16.8,17.675203
