# 波士顿房价预测

吴明晖

浙江大学城市学院

2018.8

<h1>目录<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Tensorflow实现单变量线性回归" data-toc-modified-id="Tensorflow实现单变量线性回归-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Tensorflow实现单变量线性回归</a></span></li><li><span><a href="#Tensorflow实现多变量线性回归" data-toc-modified-id="Tensorflow实现多变量线性回归-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Tensorflow实现多变量线性回归</a></span><ul class="toc-item"><li><span><a href="#载入数据" data-toc-modified-id="载入数据-2.1"><span class="toc-item-num">2.1&nbsp;&nbsp;</span>载入数据</a></span></li><li><span><a href="#构建模型" data-toc-modified-id="构建模型-2.2"><span class="toc-item-num">2.2&nbsp;&nbsp;</span>构建模型</a></span></li><li><span><a href="#训练模型" data-toc-modified-id="训练模型-2.3"><span class="toc-item-num">2.3&nbsp;&nbsp;</span>训练模型</a></span></li></ul></li></ul></div>

# Tensorflow实现单变量线性回归

** 详见示例：单变量线性回归.ipynb **

# Tensorflow实现多变量线性回归

** 在上一节中，我们使用Tensorflow构建了第一个完整的模型——一元线性回归。在这一节中，我们将构建一个多变量线性模型来实现多维数据的回归。此外，我们还将介绍如何利用Tensorflow自带的可视化工具TensorBoard分析训练过程。 **

## 载入数据

** 导入相关库 **

In [None]:
%matplotlib notebook

import matplotlib.pyplot as plt
import tensorflow as tf
import tensorflow.contrib.learn as skflow
from sklearn.utils import shuffle
import numpy as np
import pandas as pd

** 数据集简介 **

本数据集包含与波士顿房价相关的多个因素：<br>
** CRIM **：城镇人均犯罪率<br>
** ZN **：住宅用地超过25000 sq.ft. 的比例<br>
** INDUS ** : 城镇非零售商用土地的比例<br>
** CHAS **：Charles河空变量（如果边界是河流，则为1；否则，为0）<br>
** NOX **：一氧化氮浓度<br>
** RM **：住宅平均房间数<br>
**AGE **：1940年之前建成的自用房屋比例<br>
** DIS **：到波士顿5个中心区域的加权距离<br>
** RAD **：辐射性公路的靠近指数<br>
** TAX **：每1万美元的全值财产税率<br>
** PTRATIO **：城镇师生比例<br>
** LSTAT **：人口中地位低下者的比例<br>
** MEDV **：自住房的平均房价，单位：千美元<br>

** 数据集以CSV格式存储，可通过Pandas库读取并进行格式转换 **

** Pandas库 **可以帮助我们快速读取常规大小的数据文件<br>
能够读取CVS文件, 文本文件、MS Excel、SQL数据库以及用于科学用途的HDF5格式文件<br>
自动转换为Numpy的多维阵列

** 通过Pandas导入数据 **

In [None]:
df = pd.read_csv("data/boston.csv", header=0)
print (df.describe())

** 载入本示例所需数据 **

In [None]:
x_data = df[['CRIM', 'DIS', 'LSTAT']].values.astype(float) #选取其中3个比较重要的影响因素
y_data = df['MEDV'].values.astype(float) #获取y

## 构建模型 

** 定义$x$和$y$的占位符 **

In [None]:
x = tf.placeholder(tf.float32, [None,3], name = "x") # 3个影响因素
y = tf.placeholder(tf.float32, [None,1], name = "y")

** 创建变量 **

In [None]:
with tf.name_scope("Model"):
    w = tf.Variable(tf.random_normal([3,1], stddev=0.01), name="w0")
    b = tf.Variable(1., name="b0")
    def model(x, w, b):
        return tf.matmul(x, w) + b

    pred= model(x, w, b)

<img src="name_scope_w.jpg" >

可以看到** b0 **和** w0 **都在命名空间** Model **下

** 补充介绍——命名空间name_scope ** <br>
Tensorflow中常有数以千计节点，在可视化过程中很难一下子全部展示出来，因此可用name_scope为变量划分范围，在可视化中，这表示在计算图中的一个层级。<br>
- name_scope** 不会影响 **用get_variable()创建的变量的名字<br>
- name_scope** 会影响 **用Variable()创建的变量以及op_name<br>
下面举例说明：

<img src="name_scope.jpg" >

## 训练模型 ##

** 设置训练参数 **

In [None]:
train_epochs = 50 # 迭代次数
learning_rate = 0.01 #学习率

** 定义均方差损失函数 **

In [None]:
with tf.name_scope("LossFunction"):
    loss_function = tf.reduce_mean(tf.pow(y-pred, 2)) #均方误差

<img src="loss_function_multi.jpg" width=400 height=400/>

同样，我们可以通过TensorBoard查看命名空间LossFunction下的操作（op），包括：mean, pow和sub(相减)，与我们定义的loss_function = tf.reduce_mean(tf.pow(y-pred, 2))相一致。

** 选择优化器 **

In [None]:
optimizer = tf.train.AdamOptimizer(learning_rate).minimize(loss_function)

** 声明会话 **

In [None]:
sess = tf.Session()
init = tf.global_variables_initializer()

** 生成图协议文件 **

In [None]:
tf.train.write_graph(sess.graph, 'log/boston','graph.pbtxt')

In [None]:
loss_op = tf.summary.scalar("loss", loss_function)
merged = tf.summary.merge_all()

** 补充介绍——TensorBoard **<br>
TensorBoard是Tensorflow自带的可视化工具。<br>
目前支持7种可视化对象：** SCALARS, IMAGES,AUDIO,GRAPHS,DISTRIBUTIONS,HISTOGRAMS,EMBEDDINGS **。

在训练过程中，通过记录下结构化的数据，然后运行一个本地服务器，监听6006端口，即可实现可视化。<br>
先指定需要记录的数据，然后通过以下指令则可打开TensorBoard面板：<br>
** tensorboard --logdir=/your/log/path **<br>
输入上述指令后，会显示：

<img src="tb_6006.jpg" />

此时，我们就可以在浏览器中打开 ** http://192.168.2.102:6006 **，查看面板各项功能。<br>
注意：具体IP地址会因机器不同而不同，查看命令窗口中“You can navigate to”后面所显示的IP即可。<br>
例如，本示例中通过** tf.summary.scalar **记录loss_function的值，因此可在TensorBoard的SCALARS面板中查看到如下可视化结果：

<img src="loss_scalar_multi.jpg" width=600 height=500 />

** 启动会话 **

In [None]:
sess.run(init)

** 创建摘要的文件写入符（FileWriter） **

In [None]:
writer = tf.summary.FileWriter('log/boston', sess.graph) 

tf.summary.FileWriter('/path/to/logs', sess.graph) 中所指定的路径‘/path/to/logs’，是运行tensorboard命令时参数logdir的值

** 迭代训练 **

In [None]:
for epoch in range (train_epochs):
    lossv=0.0
    for xs, ys in zip(x_data, y_data):   
        z1 = xs.reshape(1,3)
        z2 = ys.reshape(1,1)
        sess.run(optimizer, feed_dict={x: z1, y: z2}) 
        summary_str = sess.run(loss_op, feed_dict={x: z1, y: z2})
        lossv+=sess.run(loss_function, feed_dict={x: z1, y: z2})/506.00
        writer.add_summary(summary_str, epoch) 
    xvalues, yvalues = shuffle(x_data, y_data)
    print (lossv)
    b0temp=b.eval(session=sess)
    w0temp=w.eval(session=sess)
    print("epoch=", epoch+1,"b=", b0temp,"w=", w0temp )
    

In [None]:
print("y=",w0temp[0], "x1+",w0temp[1], "x2+",w0temp[2], "x3+", [b0temp])
print("y=",w0temp[0], "CRIM+", w0temp[1], 'DIS+', w0temp[2], "LSTAT+", [b0temp])