# B站：北大TensorFlow笔记

## 目标1：
搭建神经网络，总结搭建的八股
### TensorFlow中的神经网络

#### 整个计算过程
* 张量表示数据
* 计算图搭建神经网络
* 会话执行计算图
* 优化线上权重（参数）
* 得到模型

In [2]:
#coding:utf-8
import tensorflow as tf
import numpy as np

#### 张量表示数据
1.先用`constant`构建两个常数向量的变量  
2.两个向量做加法，返回值

关于相应的名称
* 乘法：mul
* 除法：truediv
* 加法：add
* 减法：sub
* 取余数：mod

In [3]:
a = tf.constant([1.0, 2.0])
b = tf.constant([3.0, 4.0])
result = a % b
print(result)

Tensor("mod:0", shape=(2,), dtype=float32)


#### 计算图（Graph）搭建神经网路

**能print()出以下内容的变量都称为计算图，即有加减乘除内容的运算**  
`Tensor("mod:0", shape=(2,), dtype=float32)`

* 计算图参数的解读：  
    * 张量名称`add:0`
        * add->节点名  
        * 0->第0个输出  
    * shape->维度（2,）表示一维数组，长度为2  
    * dtype=float32->数据类型

**图只负责搭建网络，不进行计算**

**矩阵相乘案例**

* 一个中括号内有几个数，就代表有几列数
* 一个中括号内有几个中括号，就代表有几行数

In [15]:
x = tf.constant([[1.0, 2.0]])
w = tf.constant([[3.0], [4.0]])
y = tf.matmul(x, w)
print(y)

Tensor("MatMul_6:0", shape=(1, 1), dtype=float32)


#### 使用会话（Session）进行计算，执行计算图
使用with实现，结构如下
```
with tf.Session() as sess:
    print(sess.run(y))
```

In [5]:
x = tf.constant([[1.0, 2.0]])
w = tf.constant([[3.0], [4.0]])
y = tf.matmul(x, w)
print(y)

with tf.Session() as sess:
    print(sess.run(y))

Tensor("MatMul_1:0", shape=(1, 1), dtype=float32)
[[ 11.]]


#### 优化权重（参数）

**1.首先随机生成参数`tf.Variable()`**  
`w = tf.Variable(tf.random_normal([2,3], stddev=2, mean=0, seed=1))`

* tf.random_normal：生成正态分布的随机数
    * 大小[2,3]
    * 以下没有特殊要求可以不写：
        * stddev：标准差=2
        * mean：均值为0
        * seed：随机种子为1（表示做随机数的序列，固定随机种子，每次生成的随机数保持一致）

**2.关于生成随机数的分布，有以下几种：**  
* tf.random_normal()：正态分布
* tf.truncated_normal()：去掉过大偏离点的正态分布（如果随机出的数据超出平均值两个标准差，则会被去掉）
* tf.random_uniform()：平均分布

**3.生成数组常量**
* tf.zeros，生成全0数组，`tf.zeros([3,2],int32)`，生成三行两列全0矩阵
* tf.ones，生成全1数组，`tf.ones([3,2],int32)`，生成三行两列全1矩阵
* tf.fill，生成全定值数组，`tf.fill([3,2],6)`，生成三行两列全1矩阵
* tf.constant，根据给定的数值生成数组（前面用到过）

In [6]:
q = tf.zeros([3,2], tf.int32)
q = tf.ones([3,2], tf.int32)
q = tf.fill([3,2], 6)

with tf.Session() as sess:
    print(sess.run(q))

[[6 6]
 [6 6]
 [6 6]]


### 神经网络的实现

**整个过程：**

* 训练模型  
1.准备数据集，提取特征，作为输入喂给NN  
2.从输入到输出，搭建NN结构（前向传播）：先搭建计算图，再执行会话  
3.将特征数据喂给NN，迭代优化NN权值参数（反向传播） 


* 使用模型  
4.将训练好的模型进行预测和分类  

### 构建前向传播

#### 变量初始化
* 1.定义变量初值（搭建框架）
初始化所有变量的函数，简写为初始化节点`init_op`
```
x = tf.constant([[0.7, 0.5]])
w1 = tf.Variable(tf.random_normal([2, 3],stddev=1, seed=1))
w2 = tf.Variable(tf.random_normal([3, 1],stddev=1, seed=1))
```
* 2.执行初始化（赋予变量初值）
```
with tf.Session() as sess:
    init_op = tf.global_variables_initializer()
    sess.run(init_op)
```

#### 张量乘法
* 1.定义张量之间的关系（搭建框架）
```
a = tf.matmul(x, w1)
y = tf.matmul(a, w2)
```
* 2.执行乘法
```
with tf.Session() as sess:
    print("y is:\n", sess.run(y))
```


#### Other Points
1.参数矩阵的具体形状  
* 本层指的是计算层（W1是指第一个计算层，W2指的是第二层，因此不包含输入层）  
* (上层节点个数, 本层节点个数）

2.当前为什么没有用到激活函数和偏置值b？

In [14]:
# coding:utf-8
# 两层全连接神经网络demo

# 1.定义输入、随机正态分布初始化权重参数的初值
# 定义一个固定输入，使用tf.constant
x = tf.constant([[0.7, 0.5]])
w1 = tf.Variable(tf.random_normal([2, 3],stddev=1, seed=1))
w2 = tf.Variable(tf.random_normal([3, 1],stddev=1, seed=1))

# 2.定义前向传播过程中变量之间的关系（相乘）
a = tf.matmul(x, w1)
y = tf.matmul(a, w2)

# 3.使用Session计算结果
with tf.Session() as sess:
    # 01.初始化变量
    init_op = tf.global_variables_initializer()
    sess.run(init_op)
    
    # 02.进行NN计算，并且输出结果
    print("y is:\n", sess.run(y))

y is:
 [[ 3.0904665]]


### 构建反向传播

#### 喂数据
先用`tf.placeholder`进行占位，shape=(数据个数, 数据维度)，告诉`sess.run(y)`要输入多少个数据

* 喂一组数据，数据有两个特征：
先占一个位置的数据，然后输入数据
```
x = tf.placeholder(tf.float32,shape=(1, 2))
sess.run(y, feed_dict={x:[[0.5, 0.6]]})
```

* 喂多组数据，数据同样是有两维特征：
数据个数填写None，代表无数个数据/未知
```
x = tf.placeholder(tf.float32,shape=(None, 2))
sess.run(y, feed_dict={x:[[0.1,0.2], [0.2,0.3], [0.3,0.4], [0.4,0.5]]})
```

##### 向NN喂入一组特征

In [20]:
# coding:utf-8
# 两层全连接神经网络demo

# 1.定义输入、随机正态分布初始化权重参数的初值
# 定义一个输入，使用tf.placeholder()
x = tf.placeholder(tf.float32, shape=(1, 2))
w1 = tf.Variable(tf.random_normal([2, 3],stddev=1, seed=1))
w2 = tf.Variable(tf.random_normal([3, 1],stddev=1, seed=1))

# 2.定义前向传播过程中变量之间的关系（相乘）
a = tf.matmul(x, w1)
y = tf.matmul(a, w2)

# 3.使用Session计算结果
with tf.Session() as sess:
    # 01.初始化变量
    init_op = tf.global_variables_initializer()
    sess.run(init_op)
    
    # 02.使用feed_dict喂入参数，进行NN计算，并且输出结果
    print("y is:\n", sess.run(y, feed_dict={x: [[0.7, 0.5]]}))

y is:
 [[ 3.0904665]]


##### 向NN喂入多组特征

In [21]:
# coding:utf-8
# 两层全连接神经网络demo

# 1.定义输入、随机正态分布初始化权重参数的初值
# 定义多个输入，使用tf.placeholder()
x = tf.placeholder(tf.float32, shape=(None, 2))
w1 = tf.Variable(tf.random_normal([2, 3],stddev=1, seed=1))
w2 = tf.Variable(tf.random_normal([3, 1],stddev=1, seed=1))

# 2.定义前向传播过程中变量之间的关系（相乘）
a = tf.matmul(x, w1)
y = tf.matmul(a, w2)

# 3.使用Session计算结果
with tf.Session() as sess:
    # 01.初始化变量
    init_op = tf.global_variables_initializer()
    sess.run(init_op)
    
    # 02.使用feed_dict喂入参数，进行NN计算，并且输出结果
    print("y is:\n", sess.run(y, feed_dict={x: [[0.7, 0.5], [0.2, 0.3], [0.3, 0.4], [0.4, 0.5]]}))
    print("w1:\n", sess.run(w1))
    print("w2:\n", sess.run(w2))

y is:
 [[ 3.0904665 ]
 [ 1.2236414 ]
 [ 1.72707319]
 [ 2.23050475]]
w1:
 [[-0.81131822  1.48459876  0.06532937]
 [-2.4427042   0.0992484   0.59122431]]
w2:
 [[-0.81131822]
 [ 1.48459876]
 [ 0.06532937]]


#### 损失函数
常见的损失函数
* MSE均方误差
即为预测值与真实值差的平方，除以样本个数n  
`loss = tf.reduce_mean(tf.square(y_-y))`

#### 反向传播训练
目标：减小loss数值  
常见方法：
* 梯度下降  
`train_step = tf.train.GradientDescentOptimizer(learning_rate).minimize(loss)`
* Momentum优化  
`train_step = tf.train.MomentumOptimizer(learining_rate, momentum).minimize(loss)`
* Adam  
`train_step = tf.train.AdamOptimizer(learning_rate).minimize(loss)`

其中，学习率learning_rate代表参数每次更新的幅度

**代码案例如下：需要背下来**

In [7]:
#coding:utf-8
import tensorflow as tf
import numpy as np

* 1.生成数据集

In [8]:
# batch_size：一次喂给神经网络多少数据（此数值不可以过大，否则会吃不消）
BATCH_SIZE = 8
seed = 23455

# 基于随机种子23455生成数据集
rng = np.random.RandomState(seed)
# 生成32行数据，每组数据都有 体积和重量 两个属性作为特征
X = rng.rand(32,2)
Y = [[int(x0 + x1 < 1)] for (x0, x1) in X]

print("X:\n",X)
print("Y:\n",Y)

* 2.搭建NN的输入、输出、参数
* 3.搭建NN的前向传播过程

In [None]:
# 搭建NN的输入、输出、参数（其中y是矩阵计算后的值，而y_是从矩阵Y中取出来的标签
x = tf.placeholder(tf.float32, shape=(None, 2))
y_= tf.placeholder(tf.float32, shape=(None, 1))

w1 = tf.Variable(tf.random_normal([2, 3], stddev=1, seed=1))
w2 = tf.Variable(tf.random_normal([3, 1], stddev=1, seed=1))

# 搭建NN的前向传播过程
a = tf.matmul(x, w1)
y = tf.matmul(a, w2)

* 4.反向传播，指定损失函数loss

In [57]:
# 均方误差计算损失
loss = tf.reduce_mean(tf.square(y-y_))

# 梯度下降开始学习，学习率0.001
# train_step = tf.train.GradientDescentOptimizer(0.001).minimize(loss)

train_step = tf.train.MomentumOptimizer(0.001, 0.9).minimize(loss)
# train_step = tf.train.AdamOptimizer(0.001).minimize(loss)

#### 生成Session，训练steps轮

In [58]:
with tf.Session() as sess:
    # 初始化变量
    init_op = tf.global_variables_initializer()
    sess.run(init_op)
    
    # 输出训练前的权重
    print("w1:\n", sess.run(w1))
    print("w2:\n", sess.run(w2))
    print("\n")
    
    # 训练模型
    STEPS = 12001
    for i in range(STEPS):
        start = (i*BATCH_SIZE) % 32
        end = start + BATCH_SIZE
        # 分批喂入训练数据，进行权重的学习（梯度下降法）
        sess.run(train_step, feed_dict={x:X[start:end], y_:Y[start:end]})
#         print("train_step\n",train_step)
        
        # 输出训练后的权值参数
#         print("\n")
#         print("w1:\n",sess.run(w1))
#         print("w2:\n",sess.run(w2))
        
        # 每500次计算一次均方误差
        if i % 500 == 0:
            total_loss = sess.run(loss, feed_dict={x:X, y_:Y})
            print("After %d training steps, loss_mse on all data is %g" % (i+1, total_loss))

w1:
 [[-0.81131822  1.48459876  0.06532937]
 [-2.4427042   0.0992484   0.59122431]]
w2:
 [[-0.81131822]
 [ 1.48459876]
 [ 0.06532937]]


After 1 training steps, loss_mse on all data is 5.13118
After 501 training steps, loss_mse on all data is 0.384391
After 1001 training steps, loss_mse on all data is 0.383592
After 1501 training steps, loss_mse on all data is 0.383562
After 2001 training steps, loss_mse on all data is 0.383561
After 2501 training steps, loss_mse on all data is 0.383561
After 3001 training steps, loss_mse on all data is 0.383561
After 3501 training steps, loss_mse on all data is 0.383561
After 4001 training steps, loss_mse on all data is 0.383561
After 4501 training steps, loss_mse on all data is 0.383561
After 5001 training steps, loss_mse on all data is 0.383561
After 5501 training steps, loss_mse on all data is 0.383561
After 6001 training steps, loss_mse on all data is 0.383561
After 6501 training steps, loss_mse on all data is 0.383561
After 7001 training steps, l

## 目标2