# 2.1 微分基本概念

In [14]:
# 微分：符号微分，数值微分，自动微分
# 自动微分：表达式追踪（evaluation trace）

In [15]:
# L1 = x
# L(n+1) = 4L(n) * (1 - L(n))
# (v, dv) = (x, 1) # 初代
# for i in range(3):
#     (v, dv) = ((4*v)*(1-v), 4*dv-8*v*dv)  # 微分表达式迭代后不变
# (v,dv)

# 2.2 自动微分的两种模式

In [16]:
# 自动微分：前向微分，后向微分
# 原理：所有的数值计算都有基本运算组成，基本运算的导数表达式已知，通过链式法则将数值运算各部分组合成整体

In [17]:
# 1.原函数转化为DAG图；2.根据链式求导法则展开
# 正向求导：求链路上所有节点对xi的导数，一次只能对某一个变量求导；
# 反向求导：求DAG所有节点的导数，一次可以对所有变量求导

In [18]:
# 求解jacobian矩阵，向量对向量求导
# 正向模式，jacobian-vector production
# 反向模式，vector-jacobian production
# 对于一个输出变量yi进行一次反向模式，得到jacobian矩阵的1行，dyi/dx1，...，dyi/dxn
# 对于一个输入变量xi进行一次正向模式，得到jacobian矩阵的一列，dy1/dxi,...,dym/dxi
# 当m>n适合用正向模型；当x<n适合用反向模式  神经网络！！！

# 2.3 自动微分实现方式

In [19]:
# 表达式或图(库函数)，操作符重载OO（pytorch，tensorflow），源码转换AST（mindspore）
# 基于表达式实现主要依赖构建基础微分表达库，手动调用库
# 基于操作符重载依赖于语言的多态性来记录实现
# 基于源码转换核心在于AST完成基本表达式的分解和微分操作

# 2.4 实现正向自动微分的AI框架

In [20]:
# 分解程序为一系列已知微分规则的基础表达式组合，并使用高级语言的重载操作
# 在重载运算操作的过程中，根据已知微分规则给出各基础表达式的微分结果
# 根据基础表达式间的数据依赖关系，使用链式法则将微分结果组合完成程序的微分结果

In [21]:
import numpy as np
import torch

In [22]:
class ADTangent:
    def __init__(self, x, dx):
        self.x = x
        self.dx = dx
    
    # print ADTangent对象时会输出str
    def __str__(self):
        content = f"value:{self.x:.4f}, grad:{self.dx}"
        return content
    
    def __add__(self, other):
        if isinstance(other, ADTangent):
            x = self.x + other.x
            dx = self.dx + other.dx
        elif isinstance(other, float):
            x = self.x + other
            dx = self.dx
        else:
            NotImplementedError
        return ADTangent(x, dx)
    
    def __sub__(self, other):
        if isinstance(other, ADTangent):
            x = self.x - other.x
            dx = self.dx - other.dx
        elif isinstance(other, float):
            x = self.x - other
            dx = self.dx
        else:
            NotImplementedError
        return ADTangent(x, dx)
    
    def __mul__(self, other):
        if isinstance(other, ADTangent):
            x = self.x * other.x
            dx = self.dx * other.x + self.x * other.dx
        elif isinstance(other, float):
            x = self.x * other
            dx = self.dx * other
        else:
            NotImplementedError
        return ADTangent(x, dx)
    
    # 对自身的操作，涉及一个对象
    def log(self):
        x = np.log(self.x)
        dx = 1 / self.x * self.dx
        return ADTangent(x, dx)
    
    def sin(self):
        x = np.sin(self.x)
        dx = np.cos(self.x) * self.dx
        return ADTangent(x, dx)

In [41]:
# 使用ADTangent重载操作符
# sin和log是静态方法可以这样写
x1 = ADTangent(2, 1)
x2 = ADTangent(5, 0)
f = ADTangent.log(x1) + x1 * x2 - ADTangent.sin(x2)
print(f)

value:11.6521, grad:5.5


In [42]:
# 正解，sin和log不是静态方法
f = x1.log() + x1 * x2 - x2.sin()
print(f)

value:11.6521, grad:5.5


In [24]:
# 使用pytorch

In [25]:
x1 = torch.tensor(2.0, requires_grad=True)
x2 = torch.tensor(5.0, requires_grad=True)
f = torch.log(x1) + x1 * x2 - torch.sin(x2)
f.backward()
f, x1.grad, x2.grad

(tensor(11.6521, grad_fn=<SubBackward0>), tensor(5.5000), tensor(1.7163))

# 2.5 亲自实现一个pytorch

In [26]:
# 多态性是继封装性和继承性之后，面向对象的第三大特性。
# 它是指在父类中定义的属性和方法被子类继承之后，可以具有不同的数据类型或表现出不同的行为，
# 这使得同一个属性或方法在父类及其各个子类中具有不同的含义。
# 对面向对象来说，多态分为编译时多态和运行时多态。

In [27]:
# 其中编译时多态是静态的，主要是指方法的重载，它是根据参数列表的不同来区分不同的方法。
# 通过编译之后会变成两个不同的方法，在运行时谈不上多态。

In [28]:
# Java的引用变量有两个类型，等号左边类型称为编译时类型，等号右边类型称为运行时类型。
# 编译时类型：声明引用变量的类型。
# 运行时类型：实际赋给引用变量的类型。
# 当编译时类型和运行时类型不一致时，就产生了对象的多态性。
# 可以将子类的向上转型看作是基本类型的自动类型转换，
# 当子类向上转型为父类后，其引用类型就是父类类型。
# 通过父类的引用是无法访问到子类对象中特有的属性和方法，只能访问父类中存在的属性和方法。
# 使用多态的方式调用父类中存在的方法时，实际上调用的是子类覆盖重写后的方法。

In [29]:
# 目前AI框架中使用操作符重载 00 的一个典型代表是 Pytroch，其中使用数据结构 Tape来记录计算流程
# 在反向模式求解梯度的过程中进行 replay Operator。

In [30]:
# 操作符重载:预定义了特定的数据结构，并对该数据结构重载了相应的基本运算操作符
# Tape记录: 程序在实际执行时会将相应表达式的操作类型和输入输出信息记录至特殊数据结构
# 遍历微分:得到特殊数据结构后，将对数据结构进行遍历并对其中记录的基本运算操作进行微分
# 链式组合:把结果通过链式法则进行组合，完成自动微分