In [6]:
import tensorflow as tf

# 建立一个线性回归的模型
class MyLinearRegression(object):
    """实现一个线性回归的训练"""
    def __init__(self):
        # 自己设定的学习率，如果学习率过大，那损失不会减小反而会增大，一般 0~1
        self.learning_rate = 0.1
        pass
    
    def inputs(self):
        """获取需要训练的数据"""
        # 因为要进行张量运算（矩阵）所以这里特指值定义成二维的
        # x:[100, 1]; y_true  x * 0.7 + 0.8
        x_data = tf.random_normal(shape=[100, 1], mean=0.0, stddev=1.0, name='x_data')
        # 假设不知道这个矩阵
        y_true = tf.matmul(x_data, [[0.7]]) + 0.8
        return x_data, y_true

    def inference(self, feature):
        """根据数据特征值建立线性回归模型，feature是特征值"""
        # 先定义一个命名空间避免混乱
        with tf.variable_scope("linear_model"):
            # w,b : x[100, 1] * w + b = y_predict
            # 随机初始化权重和偏置，注意，权重和偏置必须使用tf.Variable变量OP去定义，因为只有Variable才能被梯度下降（模型）所训练
            # 权重w应该是[1, 1]形状的矩阵，因为它参与了矩阵的乘法
            self.weight = tf.Variable(tf.random_normal(shape=[1, 1], mean=0.0, stddev=1.0), name="weight")
            # 偏置是直接加的，所以应该是[1]的形状
            self.bias = tf.Variable(tf.random_normal(shape=[1], mean=0.0, stddev=1.0), name="bias")
            # 建立模型预测
            y_predict = tf.matmul(feature, self.weight) + self.bias
        return y_predict
    
    def loss(self, y_true, y_predict):
        """根据预测值和真实值求出均方误差"""
        # 定义一个命名空间
        # sum((y_true-y_predict)^2)mean()
        with tf.variable_scope("losses"):
            # 求出损失
            # tf.reduce_mean()：对列表中的数据求和之后求平均值
            loss = tf.reduce_mean(tf.square(y_true - y_predict))       
        return loss
    
    def sgd_op(self, loss):
        """利用梯度下降优化器去优化损失(优化模型参数)"""
        # 定义一个命名空间
        with tf.variable_scope("train_op"):
            train_op = tf.train.GradientDescentOptimizer(self.learning_rate).minimize(loss)
        return train_op
    
    def train(self):
        """用于训练的函数"""
        # 获取默认的图
        g = tf.get_default_graph()
        # 在默认的图中进行操作
        with g.as_default():
            # 进行训练
            # 1.获取数据
            x_data, y_true = self.inputs()
            # 2.利用模型得出预测结果
            y_predict = self.inference(x_data)
            # 3.损失计算
            loss = self.loss(y_true, y_predict)
            # 4.优化损失
            train_op = self.sgd_op(loss)
            
            # 开启会话运行训练
            with tf.Session() as sess:
                # 初始化变量
                sess.run(tf.global_variables_initializer())
                # 打印模型没有训练的初始化的参数
                print("模型初始化的参数权重：%f, 偏置为：%f" % (self.weight.eval(), self.bias.eval()))
                
                """由于只训练一次所以没有什么效果，那我们让它训练多次"""
                for i in range(100):
                    # 接下来调用运行
                    sess.run(train_op)
                    # 再打印一遍优化之后的参数 
                    print("第%d次模型优化后的参数权重：%f, 偏置为：%f, 损失为：%f" % (i, self.weight.eval(), self.bias.eval(), loss.eval()))
        


# 运行整个程序
if __name__ == '__main__':
    lr = MyLinearRegression()
    lr.train()

模型初始化的参数权重：0.306833, 偏置为：0.260018
第0次模型优化后的参数权重：0.380172, 偏置为：0.371984, 损失为：0.277629
第1次模型优化后的参数权重：0.424781, 偏置为：0.442982, 损失为：0.214328
第2次模型优化后的参数权重：0.494726, 偏置为：0.524637, 损失为：0.111439
第3次模型优化后的参数权重：0.529687, 偏置为：0.580316, 损失为：0.085464
第4次模型优化后的参数权重：0.565146, 偏置为：0.624292, 损失为：0.056273
第5次模型优化后的参数权重：0.597086, 偏置为：0.660062, 损失为：0.025921
第6次模型优化后的参数权重：0.621292, 偏置为：0.689315, 损失为：0.017762
第7次模型优化后的参数权重：0.635836, 偏置为：0.709729, 损失为：0.012643
第8次模型优化后的参数权重：0.646689, 偏置为：0.726883, 损失为：0.008025
第9次模型优化后的参数权重：0.657364, 偏置为：0.741641, 损失为：0.005747
第10次模型优化后的参数权重：0.665476, 偏置为：0.753491, 损失为：0.004023
第11次模型优化后的参数权重：0.671828, 偏置为：0.762520, 损失为：0.001948
第12次模型优化后的参数权重：0.675189, 偏置为：0.768923, 损失为：0.001564
第13次模型优化后的参数权重：0.679907, 偏置为：0.774411, 损失为：0.001164
第14次模型优化后的参数权重：0.683294, 偏置为：0.779504, 损失为：0.000778
第15次模型优化后的参数权重：0.686069, 偏置为：0.783462, 损失为：0.000403
第16次模型优化后的参数权重：0.689946, 偏置为：0.786851, 损失为：0.000219
第17次模型优化后的参数权重：0.691896, 偏置为：0.789607, 损失为：0.000183
第18次模型优化后的参数权重：0.694116, 偏置为：0.791990, 损

### 实现线性回归
1. **学习率、步长和梯度爆炸**
    * 学习率不应该设置过大、0~1之间的数，如果过大，导致梯度爆炸（损失、参数优化成nan）
    * 学习率越大，达到最终比较好的效果步长越小
    * 学习率越小，达到最终比较好的效果步长越大
    * 一般选择较小的学习率
    
2. **在极端条件下，权重的值变得非常大，以至于溢出，导致`NaN`值。以下是梯度爆炸解决方案（深度神经网络当中更容易出现）**
    * 重新设计网络
    * 调整学习率
    * 使用梯度截断（在训练过程中检查和限制梯度的大小）
    * 使用激活函数
    
3. **模型要优化的参数必须选择`tf.Variable`定义，并且指定`trainable`参数为可训练**