# TensorFlow多元线性回归

## 波士顿房价预测

### 北京信息科技大学大数据特长班2019《深度学习》实验课

<h1>目录<span class="tocSkip"></span></h1>
<div class="toc">
    <ul class="toc-item">
        <li>
            <span><a href="#Tensorflow实现多元线性回归" data-toc-modified-id="Tensorflow实现多元线性回归"><span class="toc-item-num"></span>Tensorflow多元线性回归</a></span>
            <ul class="toc-item">
                <li>
                <span><a href="#1.载入数据" data-toc-modified-id="1.载入数据"><span class="toc-item-num">1&nbsp;&nbsp;</span>载入数据</a></span></li>
                <li><span><a href="#2.构建模型" data-toc-modified-id="2.构建模型"><span class="toc-item-num">2&nbsp;&nbsp;</span>构建模型</a></span></li>
                <li><span><a href="#3.训练模型" data-toc-modified-id="3.训练模型"><span class="toc-item-num">3&nbsp;&nbsp;</span>训练模型</a></span></li>
                <li><span><a href="#4.测试模型" data-toc-modified-id="4.测试模型"><span class="toc-item-num">4&nbsp;&nbsp;</span>测试模型</a></span></li>
                <li><span><a href="#5.可视化" data-toc-modified-id="5.可视化"><span class="toc-item-num">5&nbsp;&nbsp;</span>可视化</a></span></li>
            </ul></li></ul></div>

# Tensorflow多元线性回归

### 本实验用波士顿房屋价格预测实例来进行多元线性回归学习。

### 多元线性回归模型： y=w<sub>0</sub>+w<sub>1</sub>x<sub>1</sub>+w<sub>2</sub>x<sub>2</sub>+...+w<sub>d</sub>x<sub>d</sub>

## 1.载入数据

** 1.1导入相关库 **

In [1]:

%matplotlib notebook
import matplotlib.pyplot as plt
import tensorflow as tf
from tensorflow import keras
from sklearn.utils import shuffle

查看Keras内置的数据集。keras内置数据集包括：boston_housing,cifar10,cifar100,mnist,fashion_mnist,imdb,reuters等。

In [2]:

dir(keras.datasets)

['__builtins__',
 '__cached__',
 '__doc__',
 '__file__',
 '__loader__',
 '__name__',
 '__package__',
 '__path__',
 '__spec__',
 'boston_housing',
 'cifar10',
 'cifar100',
 'fashion_mnist',
 'imdb',
 'mnist',
 'reuters']

** 数据集简介 **

本实验使用波士顿房屋(boston_housing)数据集对房价数据进行回归分析，数据来自1970年代，波斯顿周边地区的房价，是用于机器学习的经典数据集。该数据集很小，共计506条数据，分为404个训练样本和102个测试样本。每条数据包含13个特征，分别为：

** CRIM **：城镇人均犯罪率<br>
** ZN **：住宅用地超过25000 sq.ft. 的比例<br>
** INDUS ** : 城镇非零售商用土地的比例<br>
** CHAS **：Charles河空变量（如果边界是河流，则为1；否则，为0）<br>
** NOX **：一氧化氮浓度<br>
** RM **：住宅平均房间数<br>
**AGE **：1940年之前建成的自用房屋比例<br>
** DIS **：到波士顿5个中心区域的加权距离<br>
** RAD **：辐射性公路的靠近指数<br>
** TAX **：每1万美元的全值财产税率<br>
** PTRATIO **：城镇师生比例<br>
** LSTAT **：人口中地位低下者的比例<br>
** MEDV **：自住房的平均房价，单位：千美元<br>

** 1.2读取数据集 **

In [3]:
from tensorflow.keras.datasets import boston_housing
#读取数据集，keras可以自动分割为训练集和测试集
(train_data,train_targets),(test_data,test_targets)=boston_housing.load_data()

可以先查看一下数据集，以对其有个整体认识

In [4]:
test_targets.shape


(102,)

In [5]:
train_data[:5]

array([[1.23247e+00, 0.00000e+00, 8.14000e+00, 0.00000e+00, 5.38000e-01,
        6.14200e+00, 9.17000e+01, 3.97690e+00, 4.00000e+00, 3.07000e+02,
        2.10000e+01, 3.96900e+02, 1.87200e+01],
       [2.17700e-02, 8.25000e+01, 2.03000e+00, 0.00000e+00, 4.15000e-01,
        7.61000e+00, 1.57000e+01, 6.27000e+00, 2.00000e+00, 3.48000e+02,
        1.47000e+01, 3.95380e+02, 3.11000e+00],
       [4.89822e+00, 0.00000e+00, 1.81000e+01, 0.00000e+00, 6.31000e-01,
        4.97000e+00, 1.00000e+02, 1.33250e+00, 2.40000e+01, 6.66000e+02,
        2.02000e+01, 3.75520e+02, 3.26000e+00],
       [3.96100e-02, 0.00000e+00, 5.19000e+00, 0.00000e+00, 5.15000e-01,
        6.03700e+00, 3.45000e+01, 5.98530e+00, 5.00000e+00, 2.24000e+02,
        2.02000e+01, 3.96900e+02, 8.01000e+00],
       [3.69311e+00, 0.00000e+00, 1.81000e+01, 0.00000e+00, 7.13000e-01,
        6.37600e+00, 8.84000e+01, 2.56710e+00, 2.40000e+01, 6.66000e+02,
        2.02000e+01, 3.91430e+02, 1.46500e+01]])

In [6]:
train_targets[:5]

array([15.2, 42.3, 50. , 21.1, 17.7])

** 1.3数据归一化：** <br>

由于每个属性量纲不同，而且取值范围差异很大，直接进行回归会影响最终效果<br>
因此，需要对数据进行归一化处理，使各个属性的数据都变换为[-1,1]之间的数据<br>
常用的归一化的方法有Z-Score法和Min-Max法<br>
** Z-Score法：**（X-Mean）/(Standard deviation)<br>
** Min-Max法：**（X-Min）/(Max-Min)<br>

本实验采用Z-Score方法

In [7]:
#训练集各属性数据归一化
mean = train_data.mean(axis=0)#计算平均值
train_data -=mean#数据去均值
std = train_data.std(axis=0)#计算标准差
train_data/=std#归一化
#测试集要用同样的方法进行归一化
test_data-=mean
test_data/=std

再查看一下归一化后的数据集

In [8]:
train_data[:5]

array([[-0.27224633, -0.48361547, -0.43576161, -0.25683275, -0.1652266 ,
        -0.1764426 ,  0.81306188,  0.1166983 , -0.62624905, -0.59517003,
         1.14850044,  0.44807713,  0.8252202 ],
       [-0.40342651,  2.99178419, -1.33391162, -0.25683275, -1.21518188,
         1.89434613, -1.91036058,  1.24758524, -0.85646254, -0.34843254,
        -1.71818909,  0.43190599, -1.32920239],
       [ 0.1249402 , -0.48361547,  1.0283258 , -0.25683275,  0.62864202,
        -1.82968811,  1.11048828, -1.18743907,  1.67588577,  1.5652875 ,
         0.78447637,  0.22061726, -1.30850006],
       [-0.40149354, -0.48361547, -0.86940196, -0.25683275, -0.3615597 ,
        -0.3245576 , -1.23667187,  1.10717989, -0.51114231, -1.094663  ,
         0.78447637,  0.44807713, -0.65292624],
       [-0.0056343 , -0.48361547,  1.0283258 , -0.25683275,  1.32861221,
         0.15364225,  0.69480801, -0.57857203,  1.67588577,  1.5652875 ,
         0.78447637,  0.3898823 ,  0.26349695]])

## 2.构建模型 

** 2.1 定义$x$和$y$的占位符 **

In [9]:

x = tf.placeholder(tf.float32, [None,13], name = "x")
y = tf.placeholder(tf.float32, [None,1], name = "y")

** 2.2 创建变量 **

In [10]:
with tf.name_scope("Model"):
    w = tf.Variable(tf.random_normal([13,1],stddev=0.01),name="w")
    b = tf.Variable(1.,name="b")
    def model(x,w,b):
        return tf.matmul(x,w) + b#矩阵乘法
    pred=model(x,w,b)

Instructions for updating:
Colocations handled automatically by placer.


** 命名空间name_scope ** <br>
Tensorflow中常有数以千计节点，在可视化过程中很难一下子全部展示出来，因此可用name_scope为变量划分范围，在可视化中，这表示在计算图中的一个层级。<br>
- name_scope** 不会影响 **用get_variable()创建的变量的名字<br>
- name_scope** 会影响 **用Variable()创建的变量以及op_name<br>
下面举例说明：

## 3.训练模型 ##

** 3.1 设置训练超参数 **

In [11]:
train_epochs = 500 # 迭代次数
learning_rate = 0.1 #学习率


** 3.2 定义均方差损失函数 **

In [12]:
with tf.name_scope("LossFunction"):
    err=y-pred
    err_2=tf.pow(err, 2)
    loss_function = tf.reduce_mean(err_2) #均方根误差


同样，我们可以通过TensorBoard查看命名空间LossFunction下的操作（op），包括：mean, pow和sub(相减)，与我们定义的loss_function = tf.reduce_mean(tf.pow(y-pred, 2))相一致。

** 3.3 选择优化器 **

In [13]:
optimizer = tf.train.AdamOptimizer(learning_rate).minimize(loss_function)

** 3.4 声明会话 **

In [14]:
sess = tf.Session()
init = tf.global_variables_initializer()#初始化操作

** 3.5 生成图协议文件 **

In [15]:
tf.train.write_graph(sess.graph, 'log/boston','graph.pbtxt')

'log/boston/graph.pbtxt'

In [16]:

loss_op = tf.summary.scalar("loss", loss_function)#显示标量信息
merged = tf.summary.merge_all()#所有summary全部保存到磁盘

通过tf.summary.scalar( )记录loss_function的值，因此可在TensorBoard的SCALARS面板中查看到Loss值

** 3.6 启动会话 **

In [17]:
sess.run(init)

** 3.7 创建摘要的文件写入符（FileWriter） **

In [18]:

writer = tf.summary.FileWriter('log/boston', sess.graph)#指定一个文件用来保存图。

tf.summary.FileWriter('/path/to/logs', sess.graph) 中所指定的路径‘/path/to/logs’，是运行tensorboard命令时参数logdir的值

** 3.8 迭代训练 **

In [19]:
loss_list = []   #用于保存loss值的列表
for epoch in range (train_epochs):
    ys=train_targets.reshape(404,1)#重新调整矩阵的行数、列数、维数;将一维数组变成二维数组
    _,summary_str,lossv=sess.run([optimizer,loss_op,loss_function],#优化器，误差的标量信息，均方根误差
                                 feed_dict={x: train_data, y: ys})     
    writer.add_summary(summary_str, epoch)#将这些卸入文件中    
    loss_list.append(lossv)     #每步添加一次
    xvalues, yvalues = shuffle(train_data, train_targets)
    print (epoch,lossv)


0 542.3535
1 528.6355
2 516.44226
3 505.7722
4 496.57657
5 488.73697
6 482.0515
7 476.2529
8 471.0522
9 466.18134
10 461.4217
11 456.61923
12 451.6875
13 446.59924
14 441.37054
15 436.04602
16 430.68433
17 425.34763
18 420.0935
19 414.96884
20 410.00696
21 405.22525
22 400.62515
23 396.19376
24 391.90732
25 387.73508
26 383.6444
27 379.60574
28 375.596
29 371.6011
30 367.61658
31 363.64636
32 359.7007
33 355.79327
34 351.93817
35 348.1472
36 344.42834
37 340.78455
38 337.2135
39 333.709
40 330.26212
41 326.8627
42 323.50122
43 320.1703
44 316.86514
45 313.58408
46 310.3278
47 307.09882
48 303.9006
49 300.7362
50 297.60788
51 294.51645
52 291.46133
53 288.44034
54 285.45084
55 282.48993
56 279.55475
57 276.64362
58 273.7554
59 270.8903
60 268.04874
61 265.23212
62 262.44144
63 259.6777
64 256.94128
65 254.23207
66 251.54947
67 248.89262
68 246.26039
69 243.65196
70 241.06657
71 238.50389
72 235.96391
73 233.44667
74 230.9525
75 228.4817
76 226.03438
77 223.6105
78 221.2099
79 218.83234


** 3.9 训练的简单可视化 **

In [None]:
plt.plot(loss_list)

** 3.10 查看学习到的多元线性回归模型系数 **

In [22]:


b_hat=b.eval(session=sess)
w_hat=w.eval(session=sess)
print(b_hat)
print(w_hat)

22.18728
[[-1.1073202 ]
 [ 1.3526922 ]
 [ 0.02607783]
 [ 0.9945241 ]
 [-2.4015353 ]
 [ 2.3965657 ]
 [ 0.21086183]
 [-3.4714723 ]
 [ 2.904751  ]
 [-1.9536452 ]
 [-1.9828655 ]
 [ 0.8195087 ]
 [-4.027182  ]]


## 4.测试模型

把测试集feed进模型中，运行后查看平均预测误差。

In [21]:
y_test=test_targets.reshape(102,1)
lossv=sess.run(loss_function, feed_dict={x: test_data, y: y_test})     
print("测试集上平均预测误差为：",lossv)


测试集上平均预测误差为： 23.21593


## 5.可视化

** 5.1 启动TensorBoard **<br>

在Anaconda Prompt中运行TensorBoard，并将日志的地址指向程序日志输出的地址

命令：tensorboard --logdir=/path/log

** 5.2 访问TensorBoard **<br>

浏览器访问网址

http://localhost:6006
