# 神经网络 pytorch

In [3]:
import torch
torch.__version__

'2.2.1'

# 一个三层的神经网络系统
## 1.输入层  
 * 样本数据是一个两个维度的向量,也就是说每个样本数据都两个特征
 * X = $[x_1^{(0)},x_2^{(0)}]$    其中$(0)$表示第0层(也就是输入层)
 * Y 表示X这个样本的标签值


## 2.隐藏层，总共一个隐藏层，隐藏层准备了三个神经元
 * 第一个神经元   
    $$ 
        z_1^{(1)} =
            w_{11}^{(1)} * x_1^{(0)} + 
            w_{12}^{(1)} * x_2^{(0)} +
                b_1^{(1)}     
    $$
    
    $$       
        a_1^{(1)}= relu(z_1^{(1)})
    $$
    
    * $w_{11}^{(1)}$  第(1)层，第1个神经元的第1个权重
    * $x_1^{(0)}$  第(0)层第1个特征值
    * $w_{12}^{(1)}$ 第(1)层，第1个神经元的第2个权重
    * $x_2^{(0)}$ 第(0)层第2个特征值
    * $b_1^{(1)}$ 第(1)层，第1个神经元的偏执
    * $z_1^{(1)}$ 第(1)层，第1个神经元计算的原值(没有经过激活函数)
    * $a_1^{(1)}$ 第(1)层，第1个神经元的激活值(relu是激活函数)
    * $relu(z_1^{(1)})$ 用relu激活函数把$a_1^{(1)}$激活

* 第二个神经元  
    $$ 
        w_{21}^{(1)} * x_1^{(0)} + 
        w_{22}^{(1)} * x_2^{(0)} + 
            b_2^{(1)} = z_2^{(1)} 
    $$ 
    
    $$       
        a_2^{(1)}= relu(z_2^{(1)})
    $$
 * 第三个神经元  
    $$ 
        w_{31}^{(1)} * x_1^{(0)} + 
        w_{32}^{(1)} * x_2^{(0)} + 
            b_3^{(1)} = z_3^{(1)} 
    $$ 
    $$       
        a_3^{(1)}= relu(z_3^{(1)})
    $$

## 3.输出层，用一个神经元表示
 * 输出层神经元表示
   $$ 
       w_{11}^{(2)} * a_1^{(1)} + 
       w_{12}^{(2)} * a_2^{(1)} +
       w_{13}^{(2)} * a_3^{(1)} +
        b_1^{(2)} 
        = z_1^{(2)} 
    $$
    
    <font color='red'> 
    $$
       a_1^{(2)}= relu(z_1^{(2)}) = y 
    $$
    </font>
    
   * $w_{11}^{(2)}$ 第(2)层，第1个神经元的第1个权重； 输出层神经元接收的第1个输入值$a_1^{(1)}$的权重
   * $w_{12}^{(2)}$ 第(2)层，第1个神经元的第2个权重； 输出层神经元接收的第2个输入值$a_2^{(1)}$的权重
   * $w_{13}^{(2)}$ 第(2)层，第1个神经元的第3个权重； 输出层神经元接收的第3个输入值$a_3^{(1)}$的权重

   * $a_1^{(1)}$ 第(1)层(上一层)，第1个神经元的输入值；输出层神经元接收的第1个输入值
   * $a_2^{(1)}$ 第(1)层(上一层)，第2个神经元的输入值；输出层神经元接收的第2个输入值
   * $a_3^{(1)}$ 第(1)层(上一层)，第3个神经元的输入值；输出层神经元接收的第3个输入值
   
   * $b_1^{(2)}$ 第(2)层第1个神经元的偏执；输出层神经元的偏执
   * $z_1^{(2)}$ 第(2)层第1个神经元的原函数值；输出层神经元的函数原值
   * $a_1^{(2)}$ 输出层神经元被激活的值；这里就是整个神经网络的输出值了(<font color='red'>预测值</font>),用y表示
   * $relu(z_1^{(2)}) = a_1^{(2)} = y $ 用relu激活函数把$z_1^{(2)}$激活

## 4.损失函数
$l_1 = \cfrac 12 (y-Y)^2$
* y 是预测值 <font color='red'> 
                $ y = a_1^{(2)}= relu(z_1^{(2)}) $
            </font>
    
* Y 是标签值
* 多个样本可用$(y_1,Y_1)  , (y_2,Y_2)$等表示

## 5.用梯度下降更新各个参数
* 隐藏层3个神经元需要更新的参数  
  * 第1个神经   $ w_{11}^{(1)}、w_{12}^{(1)}、b_1^{(1)} $
  * 第2个神经   $ w_{21}^{(1)}、w_{22}^{(1)}、b_2^{(1)} $
  * 第3个神经   $ w_{31}^{(1)}、w_{32}^{(1)}、b_3^{(1)} $

* 输出层1个神经元需要更新的参数  
  * $ w_{11}^{(2)}、w_{12}^{(2)}、b_1^{(2)} $

* 求待更新参数的偏导(梯度的分量) ,比如隐藏层中第一个神经元的第一个权重$w_{11}^{(1)}$
   <font color='red' size=4>
    $$
             \frac{\partial l_1}{\partial w_{11}^{(1)}}= 
                   \frac{\mathrm{d}l_1} {\mathrm{d}y}
                   \frac{\partial y}{\partial z_1^{(2)}}
                   \frac{\partial z_1^{(2)}}{\partial a_1^{(1)}}
                   \frac{\partial a_1^{(1)}}{\partial z_1^{(1)}}
                   \frac{\partial z_1^{(1)}}{\partial w_{11}^{(1)}}
    $$
    </font>
   
   
   

* 其中各个函数表达式如下
    * $l_1 = \dfrac 12 (y-Y)^2$
    
    * $ y = relu(z_1^{(2)}) $
    
    * $ z_1^{(2)} =  
        w_{11}^{(2)} * a_1^{(1)} + 
        w_{12}^{(2)} * a_2^{(1)} +
        w_{13}^{(2)} * a_3^{(1)} +
        b_1^{(2)} 
      $
      
    * $ a_1^{(1)}= relu(z_1^{(1)}) $  
    
    * $ z_1^{(1)} =
            w_{11}^{(1)} * x_1^{(0)} + 
            w_{12}^{(1)} * x_2^{(0)} +
            b_1^{(1)}     
      $

* 链式求导中各个每项求导结果如下  
    * <font color='red' size=2> 
        $\cfrac{\mathrm{d}l_1} {\mathrm{d}y}= y-Y$
      </font>
      
    * <font color='red' size=2> 
        $\cfrac{\partial y}{\partial z_1^{(2)}}= 1 $
      </font>
    
    * <font color='red' size=2> 
        $\cfrac{\partial z_1^{(2)}}{\partial a_1^{(1)}}= w_{11}^{(2)}$
      </font>
    
    * <font color='red' size=2> 
        $\cfrac{\partial a_1^{(1)}}{\partial z_1^{(1)}}= 1$
      </font>
    
    * <font color='red' size=2> 
        $\cfrac{\partial z_1^{(1)}}{\partial w_{11}^{(1)}}= x_1^{(0)}$
      </font>

* 最终求偏导值如下
 <font color='red' size=4>
    $$
             \frac{\partial l_1}{\partial w_{11}^{(1)}}= 
                   (y-Y) * 1 * w_{11}^{(2)} * 1 * x_1^{(0)}
    $$
    </font>

* 训练过程中，$y、Y、x_1^{(0)}$都是已知量，可使用如下公式更新参数  

    <font color='red' size=3>
         $w_{11}^{(1)新} = w_{11}^{(1)旧} - \eta \frac{\partial l_1}{\partial w_{11}^{(1)}}  $
    </font>

# 开始编码

## 1.输入层数据


In [138]:
# 1.1准备一个有两个特征值的样本
x1 = torch.tensor(2.) #样本的第一个特征值
x2 = torch.tensor(3.) #样本的第二个特征值
Y = torch.tensor(5.) #样本的标签值

### 2.初始化隐藏层数据(初始化各个神经元权重和偏执项参数，一般随机就可以)
 这里为了方便演示，把所有偏执设置为0，后面不对偏执进行更新

In [140]:
# 2.1第1个神经元的权重值 requires_grad=True,表示这个参数需要求梯度
w11 = torch.tensor(1.,requires_grad=True)  #第1个权重参数
w12 = torch.tensor(0.,requires_grad=True)  #第2个权重参数

# 2.2第2个神经元的权重值
w21 = torch.tensor(1.,requires_grad=True)  #第1个权重参数
w22 = torch.tensor(0.,requires_grad=True)  #第2个权重参数

# 2.3第3个神经元的权重值
w31 = torch.tensor(0.,requires_grad=True) #第1个权重参数
w32 = torch.tensor(0.,requires_grad=True) #第2个权重参数

### 3.初始化输出层神经元数据

In [141]:
# 3.1 输出层只有一个神经元，有三个输入来接收隐藏层的三个输出数据
w1 = torch.tensor(1.,requires_grad=True)  #神经元第1个权重参数
w2 = torch.tensor(1.,requires_grad=True)  #神经元第2个权重参数
w3 = torch.tensor(0.,requires_grad=True)  #神经元第3个权重参数 

### 4.前向传播

In [178]:
# 激活函数
def relu(x):
    if x>0:
        return x
    else:
        return 0

# 4.1 隐藏层第一个神经元
z1 = w11 * x1 + w12 * x2  #原值
a1 = relu(z1) #激活值
print('a1',a1)


# 4.2 隐藏层第二个神经元
z2 = w21 * x1 + w22 * x2  #原值
a2 = relu(z2) #激活值
print('a2',a2)

# 4.3 隐藏层第三个神经元
z3 = w31 * x1 + w32 * x2  #原值
a3 = relu(z3) #激活值
print('a3',a3)

# 4.4 输出层神经元
y = w1 * a1 + w2 * a2 + w3 * a3
y = relu(y) #激活
print('y',y)

# 4.5 定义损失函数
loss = y - Y 
loss = pow(loss, 2)  # loss的2次幂除以2
# 打印损失值，可以使用这个值来结束训练
print('loss',loss)

a1 tensor(2.7916, grad_fn=<AddBackward0>)
a2 tensor(2.0260, grad_fn=<AddBackward0>)
a3 0
y tensor(4.8368, grad_fn=<AddBackward0>)
loss tensor(0.0266, grad_fn=<PowBackward0>)


### 5.反向传播

In [179]:
# ????? 这个也不知道是干啥的
w11.retain_grad()

# 5.1 求梯度，求梯度中各个分量值，该函数值计算梯度只分量，不负责更新
loss.backward() #???? 不是幂等的，每次求都更新了？？？？？

In [180]:
# 参数的梯度值(一个分量)
print('w11.grad:',w11.grad)
print('w12.grad:',w12.grad)
print('w21.grad:',w21.grad)
print('w22.grad:',w22.grad)
print('w31.grad:',w31.grad) #为啥神经元是0时，梯度返回None???????
print('w32.grad:',w32.grad) #为啥神经元是0时，梯度返回None???????
print('w1.grad:',w1.grad)
print('w2.grad:',w2.grad)
print('w3.grad:',w3.grad)

w11.grad: tensor(-0.6553)
w12.grad: None
w21.grad: None
w22.grad: None
w31.grad: None
w32.grad: None
w1.grad: None
w2.grad: None
w3.grad: None


  print('w12.grad:',w12.grad)
  print('w21.grad:',w21.grad)
  print('w22.grad:',w22.grad)
  print('w1.grad:',w1.grad)
  print('w2.grad:',w2.grad)
  print('w3.grad:',w3.grad)


In [181]:
# 5.2 参数更新
a = 0.5 # 学习率
# 5.3 隐藏层神经元参数更新
w11 = w11 - a * w11.grad
w12 = w12 - a * w12.grad
w21 = w21 - a * w21.grad
w22 = w22 - a * w22.grad
w31 = w31 - a * w31.grad
w32 = w32 - a * w32.grad

# 5.4 输出神经元参数更新
w1 = w1 - a * w1.grad
w2 = w2 - a * w2.grad
w3 = w3 - a * w3.grad

print('w11:',w11)
print('w12:',w12)
print('w21:',w21)
print('w22:',w22)
print('w31:',w31) 
print('w32:',w32) 
print('w1:',w1)
print('w2:',w2)
print('w3:',w3)

  w12 = w12 - a * w12.grad


TypeError: unsupported operand type(s) for *: 'float' and 'NoneType'

In [182]:
# 查看损失值，当小于某个值时可以结束训练
loss

tensor(0.0266, grad_fn=<PowBackward0>)