## understand automatic differentiation 

微分求解分为4类：
1. 手动求解 （manual differentiation） ：
    计算梯度公式，代入实际数值；
2. 数值微分（Numerical differentiation）：
    导数定义 (f(x+d)-f(x))/d  d->0, 但是比较慢(计算两次函数值)，且有截断误差roundoff （比如sin（x）泰勒展开，只计算前几项，后面截断）和舍入误差truncation error（计算不精确）； 一般可以用来验证梯度实现的正确性；
3. 符号微分（symbolic differentiation）：
    对数学表达式自动微分求解，但是会有表达式膨胀的问题，比如 16a(1-a)((1-2a)^2) 对a 求偏导: 16(1-a)((1-2a)^2)-16a((1-2a)^2)-64a(1-a)(1-2a)
4. 自动微分 （Automatic differentiation）：
    自动微分法是一种介于符号微分和数值微分的方法：数值微分强调一开始直接代入数值近似求解；符号微分强调直接对代数进行求解，最后才代入问题数值；自动微分将符号微分法应用于最基本的算子，比如常数，幂函数，指数函数，对数函数，三角函数等，然后代入数值，保留中间结果，最后再应用于整个函数。因此它应用相当灵活，可以做到完全向用户隐藏微分求解过程，由于它只对基本函数或常数运用符号微分法则，所以它可以灵活结合编程语言的循环结构，条件结构等，使用自动微分和不使用自动微分对代码总体改动非常小，并且由于它的计算实际是一种图计算，可以对其做很多优化. 分为forwoard mode 和reverse mode。
    

# forward mode

前向模式在计算图前向传播时同时计算微分
$ x -> x + epsilon$
在计算时： $x*x -> (x+epsilon)*(x+epsilon) = x*x + 2*x*epsilon + epsilon*epsilon$

假设 $epsilon*epsilon=0$则：
$x*x -> (x+epsilon)*(x+epsilon) = x*x + 2*x*epsilon$
梯度为 $\frac{x*x + 2*x*epsilon - x*x}{epsilon}=2x$, 梯度为epsilon的系数


则前向的结果是： $x*x$; 后向梯度是$2*x$


假设是数值法：
$\frac{d(x*x)}{dx}=\frac{(x+epsilon)*(x+epsilone)-x*x}{epsilon} = \frac{2*epsilon*x}{epsilon}=2x$

则把每一个变量增加一个域去计算梯度

In [23]:
class Node(object):
    def __init__(self,val=0):
        self.val=val
        self.grads=[1]

class Op(object):
    def __init__(self):
        self.node=Node()
    def compute(self, nodes):
        assert False, "Implemented in subclass"

        
# 实际计算在各个操作算子上        
class MulOp(Op):
    def compute(self, node1, node2):
        self.node.val=node1.val*node2.val
        self.node.grads=[0]*len(node1.grads+node2.grads)
        for i in range(len(node1.grads)):
            self.node.grads[i]+=node2.val*node1.grads[i]
        for i in range(len(node2.grads)):
            self.node.grads[len(node1.grads)+i]+=node1.val*node2.grads[i]  
        
'''
a = 1 + e1
b = 2 + e2
a*b = (2 + 2e1 + 1e2) 

grad(a) = 2
grad(b) = 1
'''

# x1*x2*x3 对x1, x2, x3 分别求偏导数
node1=Node(1)
node2=Node(2)
node3=Node(4)

mul_op=MulOp()
mul_op.compute(node1,node2)

mul_op1=MulOp()
mul_op1.compute(mul_op.node,node3)

print(mul_op.node.grads)
print(mul_op1.node.grads)

    
        
    

[2, 1]
[8, 4, 2]


# backward mode

In [27]:
import numpy as np
import math

class Node(object):
    def __init__(self,inputs,grads=1):
        self.val=inputs
        self.grad=grads

class Op(object):
    def __init__(self,name):
        self._name=name
        self.node=Node(name)
        self.inputs=[]
        self.node.grads=0
    def compute(self, nodes):
        assert False, "Implemented in subclass"
    def gradient(self, nodes):
        assert False, "Implemented in subclass"
        

# 实际计算在各个操作算子上   
class Const(Op):
    def compute(self, val):
        self.node.val=val
        self.inputs=[]
        return val
    def gradient(self,out_grad):
        grads=out_grad
        self.node.grads=grads
        return grads

       
class MulOp(Op):
    def compute(self, node1, node2):
        inputs= node1.val * node2.val
        self.inputs=[node1,node2]
        self.node.val=inputs
    
    def gradient(self, out_grad):
        self.node.grads=out_grad
        grads=[self.inputs[1].val * out_grad ,self.inputs[0].val*out_grad]
        self.inputs[0].grads+=grads[0]
        self.inputs[1].grads+=grads[1]
        
class AddOp(Op):
    def compute(self, node1, node2):
        inputs = node1.val+ node2.val
        self.inputs=[node1,node2]
        self.node.val=inputs
        
    def gradient(self, out_grad):
        self.inputs[0].grads+=out_grad
        self.inputs[1].grads+=out_grad
        
        
class SubOp(Op):
    def compute(self, node1, node2):
        inputs = node1.val-node2.val
        self.inputs=[node1,node2]
        self.node.val=inputs
        
    def gradient(self, out_grad):
        self.inputs[0].grads+=out_grad
        self.inputs[1].grads-=out_grad

class In(Op):
    def compute(self, node1):
        inputs=math.log(node1.val,math.e)
        self.inputs=[node1]
        self.node.val=inputs
    
    def gradient(self, out_grad):
        self.inputs[0].grads+=out_grad*(1/self.inputs[0].val)
    
class Sin(Op):
    def compute(self, node):
        inputs=np.sin(node.val)
        self.inputs=[node]
        self.node.val=inputs
    def gradient(self, out_grad):
        self.inputs[0].grads+=out_grad*np.cos(self.inputs[0].val)
    

# ln(x)+x*y+sin(y) 对x 和 y 求导
node1=Const("const1")
node1.compute(2)
node2=Const("const2")
node2.compute(5)

in_op=In("in")
in_op.compute(node1.node)
mul_op=MulOp("mul1")
mul_op.compute(node1.node,node2.node)
sin_op=Sin("sin")
sin_op.compute(node2.node)
add_op=AddOp("add")
add_op.compute(in_op.node,mul_op.node)
sub_op=SubOp("sub")
sub_op.compute(add_op.node,sin_op.node)
print("forward result:",sub_op.node.val)

sub_op.gradient(1)
add_op.gradient(sub_op.inputs[0].grads)
in_op.gradient(add_op.inputs[0].grads)
mul_op.gradient(add_op.inputs[1].grads)
sin_op.gradient(sub_op.inputs[1].grads)
print("the differential of final result to node1: ", node1.node.grads)
print("the differential of final result to node2: ", node2.node.grads)


node1=Const("const1")
node1.compute(1)
node2=Const("const2")
node2.compute(2)
node3=Const("const3")
node3.compute(4)

# x1*x2*x3 对x1, x2, x3 分别求偏导数
mul_op=MulOp("mul1")
mul_op1=MulOp("mul2")
mul_op.compute(node1.node,node2.node)
mul_op1.compute(mul_op.node,node3.node)
mul_op1.gradient(1)
mul_op.gradient(mul_op1.inputs[0].grads)
print(node1.node.grads)
print(node2.node.grads)
print(node3.node.grads)

forward result: 11.652071455223084
the differential of final result to node1:  5.5
the differential of final result to node2:  1.7163378145367738
8
4
2
