In [5]:
import torch
import torch.nn as nn
import torchviz

print(torch.__file__)

/home/roark/.local/lib/python3.10/site-packages/torch/__init__.py


# how computational graph is constructed and executed
参考：
1. How Computational Graphs are Constructed in PyTorch https://pytorch.org/blog/computational-graphs-constructed-in-pytorch/
2. How Computational Graphs are Executed in PyTorch
https://pytorch.org/blog/how-computational-graphs-are-executed-in-pytorch/
3. pytorch internals http://blog.ezyang.com/category/pytorch/

## I. pytorch的基础知识

### I.1 pytorch源码核心文件概况
<font color=blue>**四个最重要的文件夹：**</font>
1. **torch**: 用户import和使用的python modules
2. **torch/csrc/：**pytorch前端功能的c++ code实现，主要是包括：
   1. python代码与c++代码之间转换的binding code。
   2. autograd engine在其中的子文件夹autograd中。
   3. JIT compiler在其中的子文件夹jit中。
   4. c++前端代码
3. **aten/：**‘A tensor library’的简称，用c++写的。是fundational tensor operation library。基本所有tensor的其他操作都是在aten提供的基础上实现的。 
   - kernel proper在aten中
4. **c10/：**'Caffe2'和'A Ten'的简称。是core abstractions of pytorch，包括Tensor和Storage data structure的具体实现。

<font color=blue>**用户代码的工作方式：**</font>
1. 用户用torch中提供的modules写代码
2. pytorch的编译器会将用户代码转化成用户代码的c++实现。
   - <font color=red>注:这部分代码是动态生成的，不是调用提前写好的package或者lib。</font>
   - 这部分代码中包含了torch/csrc/的binding code，autograd engine等内容，用于明确用户需要的功能如何用c++实现。
3. 上述c++代码调用torch/csrc/、aten和c10中的内容完成计算。
   - aten中的operation lib
   - c10中的data structure

### I.2 tensor相关的数据结构：tensor, variable和storage
#### 1. Storage
   - storage是tensor的underlying data buffer。其数据结构定义为struct Storage，只有基础data相关的信息，如：data_ptr, data type, byte_size, device等，没有view需要的stride信息和autograd需要的autoMeta信息。
   - 由于storage struct不含有stride信息，因此可以实现同一个data对应tensor的不同view。
   - Storage的定义在<font color=green>'c10/core/StorageImpl.h'</font>文件中

#### 2. Variable：最初Variable wraps tensor
   - 过去为了完成autograd，对tensor和function都做了wrap。Variable wraps tensor，这里wrapper的主要工作是加上了tensor参加autograd时需要的信息AutogradMeta。
     - 所以，<font color=blue>过去一般把tensor理解成不需要requires_grad的Variable，此时就不需要对它们apply autograd machinery了。</font><font color=red>现在Variable也改为定义成了tensor。未来pytorch团队会取消Variable，把现在Variable实现的功能都在tensor中直接实现。</font>
   - Variable以c++的形式定义在<font color=green>'torch/csrc/autograd/variable.h'</font>文件中。这里定义了struct AutogradMeta类型，主要包括的信息有：
     - grad_
     - 指向Node类型的ptr：grad_fn_
     - 指向Node类型的ptr：grad_accumulator_
   - 提供的常用接口：requires_grad(), grad()
- <font color=orange>虽然现在varible和tensor是一样的。但为了方便理解，还是可以将Variable简单理解成：Variable可以实现tensor能实现的所有ops，并且能interact with autograd machinery.</font>

#### 3. Tensor
   - tensor的定义在<font color=green>'c10/core/TensorImpl.h'</font>文件中。其中主要的信息包括：
     - 一个指向storage struct的pointer，在这个storage struct中还有一个指向底层data的pointer
     - metadata：view specifical metadata，包括size, offset和strides等信息
   - tensor的定义提供给用户的接口主要有两类：
     1. <font color=blue>**查询tensor attribute的接口**</font>: layout(), device(), dtype(), stride(), is_continuous(), is_sparse(), is_cpu(), is_cuda(), etc.
     2. <font color=blue>**autograd interface**</font>: set_requires_grad(), requires_grad(), grad(), is_neg(),etc.

## II. Computation Graph是如何构建的

### II.1 autograd相关的源码文件
三个关键文件夹：
1. <font color=blue>**tools/autograd：**</font>其中包括以下内容：
   1. 文档derivatives.yaml：定义了tensor基本ops的梯度计算方法，也就是这些function的vjp()。
   2. 一个名为templates的文件夹和一些python scripts。他们在building time期间，按照derivatives.yaml中对应函数的定义，生成完成对应computation需要的c++ code。
      - 另外，scripts还负责为aten中的functions生成wrapper，用它们wrapped之后的版本来构建计算图。

2. <font color=blue>**torch/autograd：**</font>用户用pytorch的autograd功能的接口都在这个文件中。其中主要有以下几个python script：
   - <font color=norange>function.py：</font>这里定义了class torch.autograd.Function，所有pytorch中的differentiable function都是通过继承这个class定义的。
     - 另外以function为base class，又定义了InplaceFunction和NestedIOFunction两个class
   - <font color=norange>functional.py：</font>"vjp", "jvp", "jacobian", "hessian", "hvp", "vhp"这6个函数的实现。
   - <font color=norange>grad_mode.py：</font>提供了用来set grad mode的几个function
   - <font color=norange>grad_check.py：</font>gradcheck()和gradgradcheck()两个函数的实现
   - 另外还有实现autograd profiler, anomaly detection等功能的python scripts。

3. <font color=blue>**torch/csrc/autograd：**</font>这里全部是c++ code。所有computation graph生成和执行相关的代码都在这个文件夹中。<font color=green>主要有三类文件，分别implement：autograd engine, metadata storage和其他需要的components。</font>另外还有一些python_开头的文件，用来允许autograd engine使用python objects。一些重要的文档包括：
   - <font color=norange>variable.h：</font>定义class Variable，详见前文。
   - <font color=norange>edge.h：</font>定义struct Edge，用来表示a particular input of a function.
   - <font color=norange>function.h:</font> 定义class Node, 用Node定义的struct TraceableFunction
   - <font color=norange>engine.h：</font>定义了struct Engine，用于管理整个梯度计算的工作进程。
   - <font color=norange>autograd.h: </font>定义了backward()和grad()两个函数，他们的功能都是计算梯度，区别是:backward把梯度计算的结构直接accumulate到input tensor上；grad()会将计算出来的梯度作为函数返回值返回，不会改变对应input tensor的grad属性。

### II.2 计算图的三个数据结构
#### Graph：只是抽象数据结构，没有具体的object
- Graph在pytorch中是一个抽象概念，并没有一个Graph对应的数据结构，但是有Node和Edge的数据结构定义。Node obj由Edge obj连接起来构成了Graph这个抽象的数据结构。

In [6]:
## 3个operation function构成的计算图示意：Forward chain与Backward chain的对应关系
#
#    in2    |||||||||||||   out1=in2   |||||||||||||   out2=in3   ||||||||||||| out3
#  -------> |    f_1    | -----------> |    f_2    | -----------> |    f_3    |-----> 
#           |||||||||||||              |||||||||||||              |||||||||||||
#               |                          |                         |
#               |out1.grad_fn              |out1.grad_fn             |out3.grad_fn
#               V                          V                         V
#           |||||||||||||              |||||||||||||              |||||||||||||
#   outf1B  | Node:     | inf1B=outf2B | Node:     | inf2B=outf3B | Node:     |  inf3B
#  <------- |f1_Backward| <----------- |f2_Backward| <----------- |f3_Backward| <-----
#           |||||||||||||     dout1    |||||||||||||     dout2    |||||||||||||  dout3

#### Node obj
- 定义在<font color=orange>**torch/csrc/autograd/function.h**</font>中。定义为struct Node，但是继承了c++标准库的Node类，因此是一个class。
- <font coloblue>所有autograd machinery中的函数都继承了这个class</font>
- 定义中包括的信息: 
  1. <font color=blue>**override of the operator()**</font>，在该override函数定义中，通过apply(inputs)来perform call to the actual function。
     - 有了这里operator()的重定义，Node类型的函数f就可以用f()来invoke函数自己定义的apply(inputs)。
     - 但operator()的定义中，apply()是virtual function，没有给实际定义，所以autograd machinery中的函数都要override apply()。<font color=deeppink>building time期间，tools/autograd中的python scripts文件自动生成grad_fn指向的Backward对象的c++ code，其中就包括override apply()函数。</font>
  2. Nodes通过他们的next_edge接口而连在一起，实现Graph connectivity。Node定义中除了operator()的override之外，就是维护它的list of next edges。实际上Node本身在实例化的时候用的arguments就是edge_list()。
     - 定义中提供的相关接口有：
       - num_inputs()和num_outputs()：分别返回Nodes的inputs和outputs数量。注意，'grad_fn'指向的Node的inputs是原函数的outputs。 
       - add_next_edge(edge)：用来给Nodes增加一个edge
       - get_next_edge(index)：用来retrieve Node的next_edge信息
       - next_edges(): 用来遍历所有的next_edges
       - set_next_edge(index, edge): 
- 例子：如下图
  - func3的output的grad_fn指向Node1
  - func3有两个inputs，分别是func1和func2的output，因此在backward chain中：
    - func3对应的Node1就有两个grad_outputs，分别是Node1和Node2的grad_inputs
    - Node1的edge_list()中有两个next_edge，分别指向Node1和Node2

              Node2    <---------------------- next_edge1 ------------------------  
           (bacward)             ptr                                             |
               |                                                                 |
              func1 :  output1 --------                                          |
            (forward)                  \                                         |
                                  input,number=1                                 |
                                          \                                      |
                                           --> func3 -- output3 -- grad_fn --> Node1 
                                          /                                  (bacward) 
                                  input,number=2                                 |
                                        /                                        |
              func2 :  output2 ---------                                         |
            (forward)                                                            |
                |                 ptr                                            |
              Node3    <---------------------- next_edge2 ------------------------  
           (backward)
           
                            <==================   ==================> 
                             backward chain方向    forward chain方向

#### Edge obj
- 定义在<font color=orange>**torch/csrc/autograd/edge.h**</font>中。定义为struct Edge.
- 实例化的argument是Node pointer和input_nr，所以Edge可以用(Node, input_nr)pair来表示。
  - Node：direct edge的pointer所指向的Node。这个Nodey也是某个grad_fn指向的obj。这个grad_fn对应的forward function的output是backward chain中前序Node的input。
  - input_nr：Node对应forward func的output作为bacward chain中前序Node的forward func的input时的序号。
  - 还有几个Edge定义的ops: ==,!=,is_valid()  
- Edge用pointer的方式把backward chain中涉及的grad_fn Nodes顺序连接起来。
- 例子：如上图：
    - func3对应的Node1有两个next_edge，分别指向Node1和Node2
    - 这两个edge有各自相应的input number序号，即input_nr的取值     

### II.3 计算图的构造过程

<font color=blue>**step1：定义一个requires_grad-True**</font>
- 之后c10中的allocator会allocate一个AutogradMeta对象来hold graph信息

In [2]:
x = torch.tensor([0.5, 0.5], requires_grad=True)

- <font color=orange>struct AutogradMeta定义在torch/csrc/autograd/variable.h中，其中主要信息包括：
  1. tensor的梯度
  2. 一个指针grad_fn指向一个函数，后面engine会call这个function来计算梯度；
  3. 一个梯度累积对象
</font>

In [3]:
## struct TORCH_API AutogradMeta的主要内容

# struct TORCH_API AutogradMeta : Public c10::AutogradMetaInerface{
#     std::string name_;
    
#     Variable grad_;
#     std::shared_ptr<Node> grad_fn_;
#     std::weak_ptr<Node> grad_accumulator_;
#     // other contents
# }

<font color=blue>**step2：让tensor作为input，call a differentiable function**</font>
- 此时，tools/autograd中的python scripts文件会为aten中的乘法函数生成wrapper，这个wrapper就是为了提供除了函数自身运算之外，autograd machine需要的其他信息。
  - 其中包括按照derivatives.yaml中定义的规则生成MulBackward的c++ code，实际就是backward的apply()函数。
- 之后，function的**output tensor**的AutogradMeta中的grad_fn会指向function的backward method。
  - 如：下面v的grad_fn=\<MulBackward0\>
- 每个backward对象都继承了TraceableFunction class，而TraceableFunciton又继承了Node，只另外设置了enable tracing的性质。所以grad_fn指向的backward对象也是一个Node obj。<font color=green>**当执行的计算不止简单的一个operation的时候，他们的backward obj就构成Graph上的Nodes。**</font>

In [4]:
v = x[0] * x[1]
v

tensor(0.2500, grad_fn=<MulBackward0>)

tensor能做的基础运算都定义在Aten中。他们

## III. 计算图是如何执行的