# 9.1 インストール
```bash
$ pip install tensorflow
$ pip install tensorflow-gpu
```

# 9.2 最初のグラフの作成とセッション内での実行
TensorFlow では以下のような流れで計算を実行する．
- 1. 計算グラフの構築
- 2. セッションを開き計算を行う  
  
計算グラフを構築するだけでは変数の初期化さえ行われていない．セッションを開きオペレーションを CPU や GPU に載せて変数値を保持し計算を行う．

In [2]:
import tensorflow as tf

# 計算グラフを作る
x = tf.Variable(3, name="x")
y = tf.Variable(4, name="y")
f = x * x * y + y + 2

# TensorFlow セッションを開き実際に計算する
sess = tf.Session()
sess.run(x.initializer)
sess.run(y.initializer)
result = sess.run(f)
print(result)

# セッションを閉じる
sess.close()

42


with ブロックでセッションを開いて実行すれば，最後にセッションを閉じる必要はない．  
また，sess.run(f) と f.eval() は同じで計算の実行を担っている．

In [3]:
# 別の方法で実行する
# 最後に close しなくて良い
with tf.Session() as sess:
    x.initializer.run()
    y.initializer.run()
    result = f.eval()
    
print(result)

42


tf.global_variables_initializer() を使えば変数を一括して初期化できる．

In [4]:
# global_variables_initializer() のインスタンスを作成
init = tf.global_variables_initializer()
with tf.Session() as sess:
    init.run()  # すべての変数を初期化
    result = f.eval()
    
print(result)

42


tf.InteractiveSession() で自動的にデフォルトセッションを呼び出せるが，最後はマニュアルで close する必要がある．  

In [5]:
# IntaractiveSession() を使えば with ブロックは不要
sess = tf.InteractiveSession()
init.run()
result = f.eval()
print(result)

# ただし close しないといけない
sess.close()

42


# 9.3 グラフの管理
作成したノードは自動的にデフォルトグラフに追加される．  
複数の計算グラフを管理する場合には，tf.Graph() を呼び出して新しいグラフを作り，with ブロックで一時的にデフォルトグラフに設定する．   
tf.reset_default_graph() を呼び出せばデフォルトグラフをリセットできる．

In [6]:
x1 = tf.Variable(1)
print(x1.graph is tf.get_default_graph())

# 複数のグラフを作る場合には、以下のように新しい Graph を作れば良い
graph = tf.Graph()
with graph.as_default():
    x2 = tf.Variable(2)
print(x2.graph is graph)
print(x2.graph is tf.get_default_graph())

True
True
False


# 9.4 ノードの値のライフサイクル
すべてのノードの値はグラフを実行するたびに破棄される．したがって，下記のようなコードでは w と x はそれぞれ2回ずつ計算されることになる．

In [19]:
tf.reset_default_graph()

# TensorFlow は自動的にノードの依存関係を判断してくれる
w = tf.constant(3)
x = w + 2
y = x + 5
z = y * 3

with tf.Session() as sess:
    # w と x は自動的に評価され、最後に y が計算される
    print(y.eval())
    # w と x の評価結果は再利用されず、再度計算される
    print(z.eval())

10
30


上のような計算方法では w と x を2回評価するため非効率．  
下記のように変更することで1回の実行で y と z が同時に評価される．

In [20]:
# w と x を2回評価するのは非効率なので、1回の実行で y と z が同時に評価されるようにする
with tf.Session() as sess:
    y_val, z_val = sess.run([y, z])
    print(y_val)
    print(z_val)

10
30


# 9.5 TensorFlow による線形回帰
カリフォルニアの住宅価格データセットを使って線形回帰問題を解いてみる．  
線形回帰問題は以下の正規方程式を解くことでパラメータを計算できる．  
$$
    \hat{\theta} = ({\bf X}^T \cdot {\bf X})^{-1} \cdot {\bf X}^T \cdot {\bf y}
$$

In [9]:
# カリフォルニアデータセットを使って TensorFlow で線形回帰を試す
import numpy as np
import tensorflow as tf
from sklearn.datasets import fetch_california_housing

# データの読み込み
housing = fetch_california_housing()
m, n = housing.data.shape
housing_data_plus_bias = np.c_[np.ones((m,1)), housing.data] # バイアス入力特徴量（x_0 = 1）を追加

In [21]:
tf.reset_default_graph()

# 計算グラフの構築
X = tf.constant(housing_data_plus_bias, dtype=tf.float32, name="X")
y = tf.constant(housing.target.reshape(-1, 1), dtype=tf.float32, name="y")
XT = tf.transpose(X)
theta = tf.matmul(tf.matmul(tf.matrix_inverse(tf.matmul(XT, X)), XT), y)

# 線形回帰で求めるパラメータ θ を求める
with tf.Session() as sess:
    theta_value = theta.eval()
    
print(theta_value)

[[-3.7185181e+01]
 [ 4.3633747e-01]
 [ 9.3952334e-03]
 [-1.0711310e-01]
 [ 6.4479220e-01]
 [-4.0338000e-06]
 [-3.7813708e-03]
 [-4.2348403e-01]
 [-4.3721911e-01]]


In [11]:
# scikit-learn でも同じように線形回帰してみる
from sklearn.linear_model import LinearRegression

lin_reg = LinearRegression()
lin_reg.fit(housing.data, housing.target.reshape(-1, 1))

print(np.r_[lin_reg.intercept_.reshape(-1, 1), lin_reg.coef_.T])

[[-3.69419202e+01]
 [ 4.36693293e-01]
 [ 9.43577803e-03]
 [-1.07322041e-01]
 [ 6.45065694e-01]
 [-3.97638942e-06]
 [-3.78654265e-03]
 [-4.21314378e-01]
 [-4.34513755e-01]]


In [12]:
# NumPy でも計算してみる
X = housing_data_plus_bias
y = housing.target.reshape(-1, 1)
theta_numpy = np.linalg.inv(X.T.dot(X)).dot(X.T).dot(y)

print(theta_numpy)

[[-3.69419202e+01]
 [ 4.36693293e-01]
 [ 9.43577803e-03]
 [-1.07322041e-01]
 [ 6.45065694e-01]
 [-3.97638942e-06]
 [-3.78654265e-03]
 [-4.21314378e-01]
 [-4.34513755e-01]]


# 9.6 勾配降下法の実装
バッチ勾配降下法（第４章）を用いながら TensorFlow の勾配降下法について見ていく

In [13]:
import numpy as np
import tensorflow as tf
from sklearn.datasets import fetch_california_housing
from sklearn.preprocessing import StandardScaler

# データの読み込み
housing = fetch_california_housing()
m, n = housing.data.shape

# 前処理で scikit-learn を使って標準化を行う
scaler = StandardScaler()
scaled_housing_data = scaler.fit_transform(housing.data)
scaled_housing_data_plus_bias = np.c_[np.ones((m, 1)), scaled_housing_data]

# エポック数と学習率の設定
n_epochs = 1000
learning_rate = 0.01

## 9.6.1 マニュアルの勾配降下法
- tf.random_uniform() 関数は与えられた形状の乱数を格納したテンソルを生成する
- tf.assign() 関数によって $ \theta_i = \theta_{i-1} - \eta\nabla_{\theta}MSE(\theta) $ の式でパラメータを更新する
- 100エポックごとに平均二乗誤差の値をチェック

In [22]:
tf.reset_default_graph()

# 最小二乗法による線形回帰問題の計算グラフの構築
X = tf.constant(scaled_housing_data_plus_bias, dtype=tf.float32, name="X")
y = tf.constant(housing.target.reshape(-1, 1), dtype=tf.float32, name="y")
theta = tf.Variable(tf.random_uniform([n + 1, 1], -1.0, 1.0), name="theta")
y_pred = tf.matmul(X, theta, name="pred")
error = y_pred - y
mse = tf.reduce_mean(tf.square(error), name="mse")
gradients = 2 / m * tf.matmul(tf.transpose(X), error)
training_op = tf.assign(theta, theta - learning_rate * gradients)

# 計算の実行
init = tf.global_variables_initializer()
with tf.Session() as sess:
    sess.run(init)
    
    for epoch in range(n_epochs):
        if epoch % 100 == 0:
            print("Epoch", epoch, "MSE =", mse.eval())
        sess.run(training_op)
        
    best_theta = theta.eval()
    
print("Best theta:")
print(best_theta)

Epoch 0 MSE = 3.773333
Epoch 100 MSE = 0.8749401
Epoch 200 MSE = 0.7483765
Epoch 300 MSE = 0.68858063
Epoch 400 MSE = 0.6458133
Epoch 500 MSE = 0.61450136
Epoch 600 MSE = 0.5914934
Epoch 700 MSE = 0.5745434
Epoch 800 MSE = 0.5620219
Epoch 900 MSE = 0.55274415
Best theta:
[[ 2.0685523 ]
 [ 0.85882366]
 [ 0.17053957]
 [-0.23408358]
 [ 0.24160214]
 [ 0.01395802]
 [-0.04432994]
 [-0.49494824]
 [-0.46481228]]


## 9.6.2 自動微分を使った方法
数式微分（symbolic differentiation）なら偏微分方程式は見つけられるが，面倒で間違いやすい上，得られるコードは必ずしも効率的ではない   
　⇛ TensorFlow の自動微分機能を使えば自動的に効率的な方法で勾配計算を行える  
<br/>
**微分計算の方法**
- 数値微分    
　実装は簡単だが正確性に欠ける
- 数式微分   
　正確な計算が可能だが全く別の計算グラフを構築しなければならない
- フォワードモード自動微分    
　二重数（dual number）を使う
- リバースモード自動微分    
　出力次元+1回のトレースで正確な計算が可能  

<br/>
TensorFlow ではリバースモード自動微分が使われている．詳細は付録D（p.509）を参照のこと

In [23]:
tf.reset_default_graph()

# 計算グラフ上で gradients = ・・・ を tf.gradients() を使って書き換えるだけ
X = tf.constant(scaled_housing_data_plus_bias, dtype=tf.float32, name="X")
y = tf.constant(housing.target.reshape(-1, 1), dtype=tf.float32, name="y")
theta = tf.Variable(tf.random_uniform([n + 1, 1], -1.0, 1.0), name="theta")
y_pred = tf.matmul(X, theta, name="pred")
error = y_pred - y
mse = tf.reduce_mean(tf.square(error), name="mse")
gradients = tf.gradients(mse, [theta])[0]
training_op = tf.assign(theta, theta - learning_rate * gradients)

# 計算の実行
init = tf.global_variables_initializer()
with tf.Session() as sess:
    sess.run(init)
    
    for epoch in range(n_epochs):
        if epoch % 100 == 0:
            print("Epoch", epoch, "MSE =", mse.eval())
        sess.run(training_op)
        
    best_theta = theta.eval()

# マニュアル実装したときとほぼ同じ結果が得られる
print("Best theta:")
print(best_theta)

Epoch 0 MSE = 11.8071165
Epoch 100 MSE = 0.8375001
Epoch 200 MSE = 0.6374426
Epoch 300 MSE = 0.6075062
Epoch 400 MSE = 0.5876847
Epoch 500 MSE = 0.5728895
Epoch 600 MSE = 0.56174296
Epoch 700 MSE = 0.5533047
Epoch 800 MSE = 0.5468861
Epoch 900 MSE = 0.5419797
Best theta:
[[ 2.0685523 ]
 [ 0.8914852 ]
 [ 0.15888381]
 [-0.32904693]
 [ 0.33475313]
 [ 0.00929388]
 [-0.04404037]
 [-0.5492448 ]
 [-0.5245189 ]]


## 9.6.3 オプティマイザを使うと
TensorFlow には様々なオプティマイザが実装済み

In [24]:
tf.reset_default_graph()

# 計算グラフ上で gradients = ・・・ と training_op = ・・・ を書き換え
X = tf.constant(scaled_housing_data_plus_bias, dtype=tf.float32, name="X")
y = tf.constant(housing.target.reshape(-1, 1), dtype=tf.float32, name="y")
theta = tf.Variable(tf.random_uniform([n + 1, 1], -1.0, 1.0), name="theta")
y_pred = tf.matmul(X, theta, name="pred")
error = y_pred - y
mse = tf.reduce_mean(tf.square(error), name="mse")

# この先を書き換える
# 単純な勾配降下法
# optimizer = tf.train.GradientDescentOptimizer(learning_rate=0.01)
# Momentum（こっちのほうが収束が早い）
optimizer = tf.train.MomentumOptimizer(learning_rate=0.01, momentum=0.9)
training_op = optimizer.minimize(mse)

# 計算の実行
init = tf.global_variables_initializer()
with tf.Session() as sess:
    sess.run(init)
    
    for epoch in range(n_epochs):
        if epoch % 100 == 0:
            print("Epoch", epoch, "MSE =", mse.eval())
        sess.run(training_op)
        
    best_theta = theta.eval()

# マニュアル実装したときとほぼ同じ結果が得られる
print("Best theta:")
print(best_theta)

Epoch 0 MSE = 5.8720384
Epoch 100 MSE = 0.530826
Epoch 200 MSE = 0.52489996
Epoch 300 MSE = 0.52439326
Epoch 400 MSE = 0.5243305
Epoch 500 MSE = 0.5243223
Epoch 600 MSE = 0.52432114
Epoch 700 MSE = 0.524321
Epoch 800 MSE = 0.52432096
Epoch 900 MSE = 0.52432096
Best theta:
[[ 2.0685577 ]
 [ 0.82962775]
 [ 0.11875318]
 [-0.26554263]
 [ 0.3057092 ]
 [-0.00450257]
 [-0.03932657]
 [-0.89986664]
 [-0.87052286]]


# 9.7 訓練アルゴリズムへのデータの供給
イテレーションごとにミニバッチを入れ替える必要のあるミニバッチ勾配降下法では，プレースホルダーノードを使って実装すると良い．  
プレースホルダーノードでは計算は行われず，計算の実行時に指定したデータを出力する．  
一般に TensorFlow に訓練データを渡すときに用いられる．

In [26]:
# placeholder の定義
A = tf.placeholder(tf.float32, shape=(None, 3))  # None にしておけば可変長入力が取れる
B = A + 5

with tf.Session() as sess:
    B_val_1 = B.eval(feed_dict={A: [[1, 2, 3]]})
    B_val_2 = B.eval(feed_dict={A: [[4, 5, 6], [7, 8, 9]]})

print(B_val_1)
print(B_val_2)

[[6. 7. 8.]]
[[ 9. 10. 11.]
 [12. 13. 14.]]


In [33]:
tf.reset_default_graph()

# 9.6 で扱った勾配降下法をミニバッチ勾配降下法に書き換える
# 計算グラフは最初の2行を書き換え
X = tf.placeholder(tf.float32, shape=(None, n + 1), name="X")
y = tf.placeholder(tf.float32, shape=(None, 1), name="y")
# 以下は変更なし
theta = tf.Variable(tf.random_uniform([n + 1, 1], -1.0, 1.0), name="theta")
y_pred = tf.matmul(X, theta, name="pred")
error = y_pred - y
mse = tf.reduce_mean(tf.square(error), name="mse")
optimizer = tf.train.GradientDescentOptimizer(learning_rate=learning_rate)
training_op = optimizer.minimize(mse)

# ハイパーパラメータの設定
n_epochs = 1000
learning_rate = 0.01
batch_size = 100
n_batches = int(np.ceil(m / batch_size))

# ランダムにバッチサイズの大きさのデータを切り抜いてくる
def fetch_batch(epoch, batch_index, batch_size):
    np.random.seed(epoch * n_batches + batch_index)
    indices = np.random.randint(m, size=batch_size)  # 0~m-1 の乱数を batch_size 数分だけ発生
    X_batch = scaled_housing_data_plus_bias[indices] 
    y_batch = housing.target.reshape(-1, 1)[indices]
    return X_batch, y_batch
    

# 計算の実行
init = tf.global_variables_initializer()
with tf.Session() as sess:
    sess.run(init)
    
    for epoch in range(n_epochs):
        for batch_index in range(n_batches):
            X_batch, y_batch = fetch_batch(epoch, batch_index, batch_size)
            sess.run(training_op, feed_dict={X: X_batch, y:y_batch})
    
    best_theta = theta.eval()
    
print(best_theta)

[[ 2.0714476 ]
 [ 0.8462012 ]
 [ 0.11558536]
 [-0.26835835]
 [ 0.32982785]
 [ 0.00608358]
 [ 0.07052912]
 [-0.8798858 ]
 [-0.86342514]]
