### 序
TF的设计哲学非常简洁，利用Python定义计算图，然后TF会高效执行，底层代码是C++。

本章的主要内容有：

- 安装
- 创建第一个图并通过会话运行
- 管理图
- 节点的生命周期
- 使用TF实现线性回归
- 实现梯度下降
- 为算法填充数据
- 保存模型
- 可视化图和训练曲线
- 命名空间
- 模块化
- 共享变量
- 练习

这部分牵涉到了很多我还一知半解的概念。好好做练习。

### 设定好交互环境

In [4]:
# 同时支持py2,py3
from __future__ import division, print_function, unicode_literals

import numpy as np
import os

import tensorflow as tf

# 使得输出稳定
def reset_graph(seed=42):
    tf.reset_default_graph()
    tf.set_random_seed(seed)
    np.random.seed(seed)
    
# 画图配置
%matplotlib inline
import matplotlib
import matplotlib.pyplot as plt

plt.rcParams['axes.labelsize'] = 14
plt.rcParams['xtick.labelsize'] = 12
plt.rcParams['ytick.labelsize'] = 12

# Where to save the figures
PROJECT_ROOT_DIR = "."
CHAPTER_ID = "tensorflow"

# 保存绘图结果
def save_fig(fig_id, tight_layout=True):
    path = os.path.join(PROJECT_ROOT_DIR, "images", CHAPTER_ID, fig_id + ".png") # 将多个路径组合后返回
    print("Saving figure", fig_id)
    if tight_layout:
        plt.tight_layout()
    plt.savefig(path, format='png', dpi=300)

### 创建第一个图并通过会话运行

In [5]:
reset_graph() # 先重置图

x = tf.Variable(3,name='x') # 给变量起名字是好习惯
y = tf.Variable(4,name='y')
f = x * x * y + y + 2

这就是我们想要定义的第一个运算图了，值得注意的是，现在为止代码并不会运行得到什么结果，只是将其视作图的设计。创建图的步骤完成。变量还未初始化，需要专门的步骤，显式初始化。

In [6]:
f # 此时还只是个图的组成部分，没有结果出来

<tf.Tensor 'add_1:0' shape=() dtype=int32>

In [7]:
sess = tf.Session()
sess.run(x.initializer)
sess.run(y.initializer)
result = sess.run(f)
print(result)

42


上面这种一个一个初始化的方式实际不常用。我们直接用全局初始化就完事了。

In [8]:
sess.close() # 不用with块的话需要手动关闭，见下面的代码

In [9]:
with tf.Session() as sess:
    x.initializer.run()
    y.initializer.run()
    result = f.eval()

In [10]:
result

42

上面这个看起来很自然，但是隐含的知识点不强调的话可能就被忽略了。不用with块的话，用`sess.run..`，而在with块里不是，而是调用变量的初始器，好像没用会话，实则代码的含义是：`tf.get_default_session().run(x.initializer)`。并且，`f.eval`也等同于`tf.get_default_session().run(f)`。`with`块已经把我们定义的会话作为默认会话了。 这大大提高了代码的可读性。

In [11]:
# 全局初始化
init = tf.global_variables_initializer() # init节点
with tf.Session() as sess:
    init.run()
    result = f.eval()

In [12]:
result

42

### 管理图

任何创造的节点都会自动被加入默认图。

In [13]:
reset_graph()
x1 = tf.Variable(1)
x1.graph is tf.get_default_graph() # 判断是不是默认图

True

只用默认图在大部分场景下是合适的，但是有些场景下需要多个图时，我们也可以自己手动创建图。

In [14]:
graph = tf.Graph()
with graph.as_default(): # 将自己设定的图设置为默认用的图，但并不是取代默认的那个图
    x2 = tf.Variable(2)
x2.graph is graph

True

In [15]:
x2.graph is tf.get_default_graph() # 自己设置的图和默认的图不是

False

### 节点值的生命周期

变量的生命开始的标志是：初始化被run起来
变量的声明结束的标志是：session关闭

In [16]:
w = tf.constant(3)
x = w + 2
y = x + 5
z = x * 3

with tf.Session() as sess:
    print(y.eval())
    print(z.eval())

10
15


这里虽然y,z同样依赖w,x，但是计算y时依赖的w,x计算出来后，z不会复用。除非代码按照下面的方式写。

In [17]:
with tf.Session() as sess:
    y_val, z_val = sess.run([y,z])
    print(y_val)
    print(z_val)

10
15


### 使用TF实现线性回归

In [18]:
import numpy as np
from sklearn.datasets import fetch_california_housing

housing = fetch_california_housing()
m,n = housing.data.shape
housing_data_plus_bias = np.c_[np.ones((m,1)),housing.data]

In [19]:
X = tf.constant(housing_data_plus_bias,dtype=tf.float32,name='X')
y = tf.constant(housing.target.reshape(-1,1),dtype=tf.float32,name='y')
XT = tf.transpose(X)
theta = tf.matmul(tf.matmul(tf.matrix_inverse(tf.matmul(XT,X)),XT),y)
with tf.Session() as sess:
    theta_val = theta.eval()

In [20]:
theta_val

array([[ -3.69535103e+01],
       [  4.36627001e-01],
       [  9.43351071e-03],
       [ -1.07151151e-01],
       [  6.44667268e-01],
       [ -3.95081770e-06],
       [ -3.78605886e-03],
       [ -4.21335578e-01],
       [ -4.34634268e-01]], dtype=float32)

### 实现梯度下降

第一种先用手动计算梯度的方式，然后调包。

In [21]:
# 特征向量必须是归一化的
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaled_housing_data = scaler.fit_transform(housing.data)
scaled_housing_data_plus_bias = np.c_[np.ones((m,1)),scaled_housing_data]

In [22]:
print(scaled_housing_data_plus_bias.mean(axis=0))
print(scaled_housing_data_plus_bias.mean(axis=1))
print(scaled_housing_data_plus_bias.mean())
print(scaled_housing_data_plus_bias.shape)

[  1.00000000e+00   6.60969987e-17   5.50808322e-18   6.60969987e-17
  -1.06030602e-16  -1.10161664e-17   3.44255201e-18  -1.07958431e-15
  -8.52651283e-15]
[ 0.38915536  0.36424355  0.5116157  ..., -0.06612179 -0.06360587
  0.01359031]
0.111111111111
(20640, 9)


In [23]:
# 手动计算梯度
reset_graph()
n_epoches = 1000
learning_rate = 0.01

X = tf.constant(scaled_housing_data_plus_bias,dtype=tf.float32,name='X')
y = tf.constant(housing.target.reshape(-1,1),dtype=tf.float32,name='y')

theta = tf.Variable(tf.random_uniform([n+1,1],-1.0,1.0,seed=42),name='theta')
y_pred = tf.matmul(X,theta,name='predictions')

error = y_pred - y
mse = tf.reduce_mean(tf.square(error),name='mse')
gradients = 2 / m * tf.matmul(tf.transpose(X),error)
training_op = tf.assign(theta, theta - learning_rate * gradients)

init = tf.global_variables_initializer()

with tf.Session() as sess:
    sess.run(init)
    
    for epoch in range(n_epoches):
        if epoch % 100 == 0:
            print('Epoch',epoch, 'MSE = ', mse.eval())
        sess.run(training_op)
    best_theta = theta.eval()


Epoch 0 MSE =  9.16154
Epoch 100 MSE =  0.714501
Epoch 200 MSE =  0.566705
Epoch 300 MSE =  0.555572
Epoch 400 MSE =  0.548811
Epoch 500 MSE =  0.543636
Epoch 600 MSE =  0.539629
Epoch 700 MSE =  0.536509
Epoch 800 MSE =  0.534068
Epoch 900 MSE =  0.532147


In [24]:
best_theta

array([[ 2.06855226],
       [ 0.88740271],
       [ 0.14401656],
       [-0.34770885],
       [ 0.36178368],
       [ 0.00393811],
       [-0.04269556],
       [-0.66145283],
       [-0.63752782]], dtype=float32)

In [25]:
best_theta.shape

(9, 1)

### 保存和重用模型

一旦训练好模型，就应该保存起来。保存起来的模型可以用在其他的项目中，也可以与其他的模型进行比较等。更重要的原因是，一旦电脑崩溃，可以用最近保存的那个checkpoint，而不用从头开始训练。

In [40]:
reset_graph()

n_epoches = 1000
learning_rate = 0.01

# 数据准备
X = tf.constant(scaled_housing_data_plus_bias, dtype=tf.float32,name='X')
y = tf.constant(housing.target.reshape(-1,1), dtype=tf.float32, name='y')
theta = tf.Variable(tf.random_uniform([n + 1,1],-1.0, 1.0,seed=42),name='theta') # 生成随机数，注意n+1,1是theta的形状
y_pred = tf.matmul(X,theta, name='predictions')
error = y_pred - y # error是个向量
mse = tf.reduce_mean(tf.square(error),name='mse') # 得到一个标量的表达式
optimizer = tf.train.GradientDescentOptimizer(learning_rate=learning_rate)
training_op = optimizer.minimize(mse)

# 初始化节点
init = tf.global_variables_initializer()

# 保存训练过程的工具
saver = tf.train.Saver()

with tf.Session() as sess:
    sess.run(init)
    
    for epoch in range(n_epoches):
        if epoch % 100 == 0:
            print('Epoch',epoch, 'MSE=',mse.eval())
            save_path = saver.save(sess, '/tmp/my_model.ckpt')
        sess.run(training_op)
    best_theta = theta.eval()
    save_path = saver.save(sess,'/tmp/my_model_final.ckpt') # 最后存储一次

Epoch 0 MSE= 9.16154
Epoch 100 MSE= 0.714501
Epoch 200 MSE= 0.566705
Epoch 300 MSE= 0.555572
Epoch 400 MSE= 0.548811
Epoch 500 MSE= 0.543636
Epoch 600 MSE= 0.539629
Epoch 700 MSE= 0.536509
Epoch 800 MSE= 0.534068
Epoch 900 MSE= 0.532147


In [41]:
best_theta

array([[ 2.06855249],
       [ 0.88740271],
       [ 0.14401659],
       [-0.34770876],
       [ 0.36178362],
       [ 0.00393811],
       [-0.04269556],
       [-0.66145277],
       [-0.6375277 ]], dtype=float32)

### 下面这部分插入的是`tf.reduce_mean`函数的使用

In [37]:
# 下面这部分插入的是`tf.reduce_mean`函数的使用
a = [[1.,2.,3.,4.],[5.,6.,7.,8.]] # 一维很好理解，这里用的是二维
re = tf.reduce_mean(a)

In [38]:
with tf.Session() as sess:
    res = re.eval()

In [39]:
res

4.5

保存模型就一行代码即可，**restore**模型也同样简单。

In [43]:
with tf.Session() as sess:
    saver.restore(sess,'/tmp/my_model_final.ckpt')
    best_theta_restored = theta.eval()
    '/tmp/my_model.ckpt.data-00000-of-00001'
    '/tmp/my_model.ckpt.index'
    '/tmp/my_model.ckpt.meta'

INFO:tensorflow:Restoring parameters from /tmp/my_model_final.ckpt


看到我们在保存的时候，文件名是以`.ckpt`结尾，实际存储时，会保存为:

<pre>
'/tmp/my_model.ckpt.data-00000-of-00001'
'/tmp/my_model.ckpt.index'
'/tmp/my_model.ckpt.meta'
</pre>

我记得自己在第一次导入的时候看到这三个文件很懵，不知道怎么办，后来发现还是只需要导入以`.ckpt`结尾的文件即可。就像上面的做法一样。

而不管是save还是restore，都是通过`saver = tf.train.Saver()`这个对象来实现的。

另外，保存或者重新载入模型都是针对当前会话下所有的变量的，如果需要更加精细化的控制的话，也是可以做到的。下面举例子。


In [44]:
np.allclose(best_theta,best_theta_restored)

True

In [45]:
saver = tf.train.Saver({'weights': theta})

上面这个只保存了名叫`weights`的theta变量。

默认情况下，saver也会保存图结构本身，文件结尾是.meta。能够通过tf.train.import_meta_graph()载入图结构，返回一个saver，通过这个返回的saver能够重载图状态：变量的值。

In [48]:
reset_graph()

saver = tf.train.import_meta_graph('/tmp/my_model_final.ckpt.meta') # 导入图结构
theta = tf.get_default_graph().get_tensor_by_name('theta:0')

with tf.Session() as sess:
    saver.restore(sess, '/tmp/my_model_final.ckpt') # 载入图状态
    best_theta_restored = theta.eval()

INFO:tensorflow:Restoring parameters from /tmp/my_model_final.ckpt


In [49]:
np.allclose(best_theta,best_theta_restored)

True

这种可重载模型的方法使得我们能够重用预训练模型，且不用对应的Python代码去重建图。因为图本身也可以导入。通过.meta文件。

### 可视化图与训练过程 - 基于TensorBoard

到目前为止，我们都是用`print`函数来监视训练过程。实际上有更好的方法，这个方法就是用Tensorboard。

这种可视化的方法能够极大帮助我们识别图中的错误，发现瓶颈等。

在Jupyter内也可显示，但是并不推荐，性能会很差，在浏览器中会更好一些。

In [63]:
reset_graph()

from datetime import datetime

now = datetime.utcnow().strftime('%Y%m%d%H%M%S')
root_logdir = '/tmp/tf_logs' 
logdir = '{}/run-{}/'.format(root_logdir,now) # 将时间戳添加到保存的日志文件上

In [64]:
n_epoches = 1000
learning_rate = 0.01

X = tf.placeholder(tf.float32, shape=(None, n + 1), name='X')
y = tf.placeholder(tf.float32,shape=(None,1), name='y')
theta = tf.Variable(tf.random_uniform([n + 1,1], -1.0, 1.0, seed=42), name='theta') # 初始化theta
y_pred = tf.matmul(X, theta, name='predictions')
error = y_pred - y # 向量
mse = tf.reduce_mean(tf.square(error), name='mse') # 有负数的样本，用二次方
optimizer = tf.train.GradientDescentOptimizer(learning_rate=learning_rate)
training_op = optimizer.minimize(mse)

init = tf.global_variables_initializer()


In [65]:
mse_summary = tf.summary.scalar('MSE',mse)
file_writer = tf.summary.FileWriter(logdir, tf.get_default_graph()) # 通过FileWriter来写入总结文件

In [66]:
n_epoches = 10 # 控制训练轮次
batch_size = 100
n_batches = int(np.ceil(m / batch_size))

In [67]:
def fetch_batch(epoch, batch_index, batch_size):
    np.random.seed(epoch * n_batches + batch_index)
    indices = np.random.randint(m, size=batch_size)
    X_batch = scaled_housing_data_plus_bias[indices]
    y_batch = housing.target.reshape(-1,1)[indices]
    return X_batch, y_batch

with tf.Session() as sess:
    sess.run(init) # 运行初始化
    
    for epoch in range(n_epoches):
        for batch_index in range(n_batches): # 整个样本被分为好几个batch
            X_batch, y_batch = fetch_batch(epoch, batch_index,batch_size)
            
            if batch_index % 10 == 0:
                summary_str = mse_summary.eval(feed_dict={X:X_batch, y:y_batch})
                step = epoch * n_batches + batch_index
                file_writer.add_summary(summary_str, step)
            sess.run(training_op, feed_dict={X:X_batch, y:y_batch})
    best_theta = theta.eval()

In [68]:
# 注意要关闭FileWriter
file_writer.close()

In [62]:
best_theta

array([[ 2.07033372],
       [ 0.86371452],
       [ 0.12255152],
       [-0.31211886],
       [ 0.38510385],
       [ 0.00434168],
       [-0.01232954],
       [-0.83376884],
       [-0.803047  ]], dtype=float32)

### 命名空间
### 模块化

这两个暂时不展开，先看下面这个主题。

### 共享变量

如果想在图中的各个组件共用某个变量的值，简单的方法是先定义一个变量，然后作为参数传值即可。对于少量的共享参数这个是可行的，一旦变量多起来后，就会很痛苦了。

另外一种解决痛苦的方式是定义一个字典，或者定义一个类专门用来存储共享的变量。

还有一种方式是将变量赋值为函数的属性。


In [69]:
# 属性法
def relu(X):
    with tf.name_scope('relu'):
        if not hasattr(relu,'threshold'):
            relu.threshold = tf.Variable(0.0,name='threshold')
        #[...]
        return tf.maximum(z,relu.threshold, name='max')

#### Tensorflow提供的方法

TF提供了额外的选择，使得代码更加整洁与模块化。

方法就是通过`get_variable`函数来创建共享变量。如果变量还不存在的话，否则重用现在的即可。具体行为通过`variable_scope`属性控制。

下面的代码就会创建'relu/threshold'变量。

In [70]:
reset_graph()

with tf.variable_scope('relu'):
    threshold = tf.get_variable('threshold',shape=(),initializer=tf.constant_initializer(0.0))

但是上面这种写法，如果前面已经存在了，就会出现错误。需要显式设定`reuse`为True,此时就不必再指定变量的shape和初始器。

In [71]:
reset_graph()

with tf.variable_scope('relu',reuse=True):
    threshold = tf.get_variable('threshold')

ValueError: Variable relu/threshold does not exist, or was not created with tf.get_variable(). Did you mean to set reuse=tf.AUTO_REUSE in VarScope?

执行上面的cell，发现出现错误就是因为没有定义过这个变量。与上面效果相同的方法是下面这种，调用`scope_reuse_variables()`来指定reuse属性为真。意味着也会有与上面相同的错误。

In [75]:
# 这个执行起来会出现和上面一样的错
with tf.variable_scope('relu') as scope:
    scope.reuse_variables()
    threshold = tf.get_variable('threshold')