如果从优化的角度来看的话,一个网络就是一个函数,一个function,多元函数。 那么就可以用多元函数求偏导数的方法,求出每个的偏导数。 那这个偏导数是梯度吗? 答案不是。偏导数和error(误差)相乘才是真正的梯度。 bp算法的历史悠久啊。 为什么work呢?这个问题我还是等以后再来回答吧。