In [150]:
import torch
import numpy as np

In [151]:
def sigmoid(x):
    return 1 / (1+np.exp(-x))

def d_sidmoid(x):
    return sigmoid(x)*(1-sigmoid(x))

# sigmoid 函数的导数 ==> sidmoid(x)*(1-sigmoid(x))

In [152]:
w1 = 0.15
w2 = 0.2
w3 = 0.25
w4 = 0.3
b1 = 0.35

w5 = 0.4
w6 = 0.45
w7 = 0.5
w8 = 0.55
b2 = 0.6

i1 = 0.05
i2 = 0.1

true_o1 = 0.01
true_o2 = 0.99

### 输入层 ==> 隐含层的输出

In [153]:
net_h1 = i1*w1 + i2*w2 + b1 # 线性中间值
net_h2 = w3*i1 + w4*i2 + b1 # 线性中间值
net_h1, net_h2

(0.3775, 0.39249999999999996)

In [154]:
out_h1 = sigmoid(net_h1)
out_h2 = sigmoid(net_h2)
out_h1, out_h2 # 说明 h1 和 h2 使用的偏置项是同一个

(0.5932699921071872, 0.596884378259767)

### 隐含层 ==> 输出层的输出

In [155]:
net_o1 = w5*out_h1 + w6*out_h2 + b2
net_o2 = w7*out_h1 + w8*out_h2 + b2
net_o1, net_o2

(1.10590596705977, 1.2249214040964653)

In [156]:
out_o1 = sigmoid(net_o1)
out_o2 = sigmoid(net_o2)
out_o1, out_o2 # 说明 o1 和 o2 都是用了同一个偏置项 b2

(0.7513650695523157, 0.7729284653214625)

In [157]:
def square_loss(o, true_o):
    return np.square(o - true_o)

### 计算总误差

In [158]:
loss_o1 = square_loss(out_o1, true_o1)
loss_o2 = square_loss(out_o2, true_o2)
total_loss = loss_o1/2 + loss_o2/2
loss_o1/2, loss_o2/2, total_loss

(0.274811083176155, 0.023560025583847746, 0.2983711087600027)

In [159]:
# 1 total_loss ==> 对 out_o1 的偏导数
total_loss_partial_out_o1 = out_o1 - true_o1
total_loss_partial_out_o1

0.7413650695523157

In [160]:
# 2 out_o1 ==> 对 net_o1 的偏导数
out_o1_partial_net_o1 = out_o1*(1-out_o1)
out_o1_partial_net_o1

0.18681560180895948

In [161]:
# 3 net_o1 ==> 对 w5 求导
net_o1_partial_w5 = out_h1
net_o1_partial_w5

0.5932699921071872

In [162]:
# total_loss ==> 对 w5 求导 
total_loss_partial_w5 = total_loss_partial_out_o1 * out_o1_partial_net_o1 * net_o1_partial_w5
total_loss_partial_w5 # 这样就可以更新 w5 的权重了
# 所以到这里应该明白，每一个权重的导数值都是从尾向前进行的
# 每一个权重的导数值都要从尾部开始，而不可能只是从中间某个位置开始向前

0.08216704056423078

### 计算 w1 的偏导数
原文链接：https://www.cnblogs.com/charlotte77/p/5629865.html

In [163]:
# 依然是使用链式求导法则一次向前
# 但是在求 w1 这个参数的篇导数值的时候
# 其他所有的 wi 都视为常数！这也正是求偏导的常用技巧
# 但是其他的 wi 其实是有值得，最后求出表达式后，
# 只需要带入其他的 wi 的具体值就可以得到 w1 的偏导数值了
# 一个神经元被分割为 net 和 out 两部分至关重要！
# out(x) 函数的输入正是 net ==> 也就是 out(net(上一层的out))
# 神经元的左边为树突，左边的权重属于右侧的这个神经元的权重，正是 net 的部分
# -----------------------------------------------
# 在 total_loss 到 w1 的路上，分叉要加起来求！这是值得注意的点！
# 但是更简单的理解就是导数的定义，让 w1 有一个增量，估计此时的 total_loss
# 从而得到 w1 的偏导数的值
# ----------------------------------------
# 更新参数的策略
# pytorch 实在调用 step() 函数后才统一更新
# 而这篇文章则是求一个参数的偏导数值后就立即更新该参数的值
# ----------------------------------------------