# 手工梯度下降

In [3]:
# 导入相关包
import tensorflow as tf
import numpy as np
from sklearn.datasets import fetch_california_housing
from sklearn.preprocessing import StandardScaler

In [4]:
# 下载并整理数据
housing = fetch_california_housing()
m,n = housing.data.shape # 获取数据的行列数
housing_data_plus_bias = np.c_[np.ones((m,1)),housing.data] # 为数据添加偏差项，即添加y=ax+b中的b

# 数据预处理
## 将输入的特征向量进行了归一化（区间缩放或标准化） 

In [5]:
## 使用sklearn中的StandardScaler类可以将数据按期属性（按列进行）减去其均值，并除以其方差。
## 得到的结果是，对于每个属性/每列来说所有数据都聚集在0附近，方差为1。
## 好处在于可以保存训练集中的参数（均值、方差）直接使用其对象转换测试集数据
## 先利用fit()得到scaler，scaler里面存的有计算出来的均值和方差,
## 然后利用scaler中的均值和方差来转换X，使X标准化
## 对数据进行归一化后，梯度下降的速度会有明显的提升
scaler = StandardScaler().fit(housing_data_plus_bias)
scaled_housing_data_plus_bias = scaler.transform(housing_data_plus_bias)

## 创建计算图（转为常量，设置参数）

In [6]:
## 将数据转换为常量
n_epochs = 1000
global_learning_rate = 0.01
X = tf.constant(scaled_housing_data_plus_bias, dtype=tf.float32, name="X")
y = tf.constant(housing.target.reshape(-1,1), dtype=tf.float32, name="y") # 数据标签
XT = tf.transpose(X)
theta = tf.Variable(tf.random_uniform([n+1,1],-1.0,1.0),name="theta")     # 参数
y_pred =  tf.matmul(X, theta, name="prediction")                          # 预测值
error = y_pred-y                                                          # 误差
mse = tf.reduce_mean(tf.square(error), name="mse")                        # 均方误差(成本函数)
gradient = 2/m * tf.matmul(XT, error)                                     # 梯度
training_op = tf.assign(theta, theta-global_learning_rate*gradient)       # 训练

Instructions for updating:
Colocations handled automatically by placer.


## 执行会话（执行计算图节点的计算）

In [10]:
init = tf.global_variables_initializer()                                  # 添加初始化节点

with tf.Session() as sess:
    sess.run(init)
    
    for epoch in range(n_epochs):                                       # 逐步训练
        if epoch%100==0:
            print("Epoch:", epoch, "MSE=", mse.eval())                    # 每一步均方误差
        sess.run(training_op)                                             # 执行每一步训练，优化更新梯度
        
    best_theta = theta.eval()                                             # 训练完毕，返回最佳参数
    print("The best theta is", best_theta)

Epoch: 0 MSE= 7.8536496
Epoch: 100 MSE= 4.9941845
Epoch: 200 MSE= 4.8792524
Epoch: 300 MSE= 4.858754
Epoch: 400 MSE= 4.846935
Epoch: 500 MSE= 4.838008
Epoch: 600 MSE= 4.831042
Epoch: 700 MSE= 4.825565
Epoch: 800 MSE= 4.8212366
Epoch: 900 MSE= 4.8178
The best theta is [[-0.6437273 ]
 [ 0.91499436]
 [ 0.15231565]
 [-0.39398995]
 [ 0.3974812 ]
 [ 0.00659792]
 [-0.04398565]
 [-0.57503194]
 [-0.55403525]]
