## PyTorch 基础概念
科学计算工具包，一般有两个核心问题：

- 怎么定义数据?
- 怎么定义数据操作?

In [1]:
import torch

##  怎么定义数据?  torch.Tensor

张量是数字的各种形式的统称。

In [2]:
torch.Tensor

torch.Tensor

可以是一个数

In [3]:
x = torch.tensor(666)
x

tensor(666)

可以是一维数组（向量）：

In [4]:
x = torch.tensor([1,2,3,4,5,6])
x

tensor([1, 2, 3, 4, 5, 6])

也可以是二维数组（矩阵）：

In [5]:
x = torch.ones(2,3)
x

tensor([[1., 1., 1.],
        [1., 1., 1.]])

以及任意维度的数组（张量）：

In [6]:
x = torch.ones(2,3,4)
x

tensor([[[1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.]],

        [[1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.]]])

In [7]:
x = torch.ones(2,3,4,5)
x

tensor([[[[1., 1., 1., 1., 1.],
          [1., 1., 1., 1., 1.],
          [1., 1., 1., 1., 1.],
          [1., 1., 1., 1., 1.]],

         [[1., 1., 1., 1., 1.],
          [1., 1., 1., 1., 1.],
          [1., 1., 1., 1., 1.],
          [1., 1., 1., 1., 1.]],

         [[1., 1., 1., 1., 1.],
          [1., 1., 1., 1., 1.],
          [1., 1., 1., 1., 1.],
          [1., 1., 1., 1., 1.]]],


        [[[1., 1., 1., 1., 1.],
          [1., 1., 1., 1., 1.],
          [1., 1., 1., 1., 1.],
          [1., 1., 1., 1., 1.]],

         [[1., 1., 1., 1., 1.],
          [1., 1., 1., 1., 1.],
          [1., 1., 1., 1., 1.],
          [1., 1., 1., 1., 1.]],

         [[1., 1., 1., 1., 1.],
          [1., 1., 1., 1., 1.],
          [1., 1., 1., 1., 1.],
          [1., 1., 1., 1., 1.]]]])

### Tensor支持各种各样的数据

![](http://img.huaiwen.me/20190122103658.png)


创建Tensor
---------------

在PyTorch中新建tensor的方法有很多:

|函数|功能|
|:---:|:---:|
|Tensor(\*sizes)|基础构造函数|
|tensor(data,)|类似np.array的构造函数|
|ones(\*sizes)|全1Tensor|
|zeros(\*sizes)|全0Tensor|
|empty(\*sizes)|空Tensor|
|eye(\*sizes)|对角线为1，其他为0|
|arange(s,e,step|从s到e，步长为step|
|linspace(s,e,steps)|从s到e，均匀切分成steps份|
|rand/randn(\*sizes)|均匀/标准分布|
|normal(mean,std)/uniform(from,to)|正态分布/均匀分布|
|randperm(m)|随机排列|

这些创建方法都可以在创建的时候指定数据类型dtype和存放device(cpu/gpu).




创建一个空张量

In [8]:
x = torch.empty(5, 3)
x

tensor([[-2.0735e+35,  4.5663e-41,  2.8627e+37],
        [ 3.0964e-41,  0.0000e+00,  0.0000e+00],
        [ 0.0000e+00,  0.0000e+00,  0.0000e+00],
        [ 0.0000e+00,  0.0000e+00,  0.0000e+00],
        [-2.0734e+35,  4.5663e-41, -2.0734e+35]])

创建一个随机初始化的Tensor

In [9]:
x = torch.rand(5, 3)
x

tensor([[0.9318, 0.2371, 0.1589],
        [0.0688, 0.2077, 0.6359],
        [0.3027, 0.4106, 0.7026],
        [0.5255, 0.0306, 0.4057],
        [0.8786, 0.1950, 0.0239]])

创建一个全0的tensor，里面的数据类型是long型

In [10]:
x = torch.zeros(5, 3, dtype=torch.long)
x

tensor([[0, 0, 0],
        [0, 0, 0],
        [0, 0, 0],
        [0, 0, 0],
        [0, 0, 0]])

或者基于现有的tensor，创建一个新tensor，从而可以利用原有的tensor的dtype，device，size之类的属性信息

In [11]:
y = x.new_ones(5, 3)      #tensor new_* 方法，利用原来tensor的dtype，device
print(y)

z = torch.randn_like(x, dtype=torch.float)    # 利用原来的tensor的大小，但是重新定义了dtype
print(z)                                      

tensor([[1, 1, 1],
        [1, 1, 1],
        [1, 1, 1],
        [1, 1, 1],
        [1, 1, 1]])
tensor([[ 0.8245,  0.0069,  0.9230],
        [-0.2677, -1.7572, -0.1019],
        [-0.6777, -1.1986,  0.4543],
        [ 1.6686,  2.1688,  0.7056],
        [-2.1275, -0.7824, -2.4771]])


看一下它的大小：


In [12]:
z.size()

torch.Size([5, 3])

## 怎么定义数据操作? torch.autograd.Function

凡是用Tensor进行各种运算的，都是Function

我们最终，还是需要用Tensor来进行计算的，计算无非是
- 基本运算，加减乘除，求幂求余
- 布尔运算，大于小于，最大最小
- 线性运算，矩阵乘法，求模，求行列式

基本运算
--------------

|函数|功能|
|:--:|:--:|
|abs/sqrt/div/exp/fmod/log/pow..|绝对值/平方根/除法/指数/求余/求幂..|
|cos/sin/asin/atan2/cosh..|相关三角函数|
|ceil/round/floor/trunc| 上取整/四舍五入/下取整/只保留整数部分|
|clamp(input, min, max)|超过min和max部分截断|
|sigmod/tanh..|激活函数|
|mean/sum/median/mode|均值/和/中位数/众数|
|norm/dist|范数/距离|
|std/var|标准差/方差|
|cumsum/cumprod|累加/累乘|


布尔运算
--------------

|函数|功能|
|:--:|:--:|
|gt/lt/ge/le/eq/ne|大于/小于/大于等于/小于等于/等于/不等|
|topk|最大的k个数|
|sort|排序|
|max/min|比较两个tensor最大最小值|


线性计算
--------------

|函数|功能|
|:---:|:---:|
|trace|对角线元素之和(矩阵的迹)|
|diag|对角线元素|
|triu/tril|矩阵的上三角/下三角，可指定偏移量|
|mm/bmm|矩阵乘法，batch的矩阵乘法|
|addmm/addbmm/addmv/addr/badbmm..|矩阵运算
|t|转置|
|dot/cross|内积/外积
|inverse|求逆矩阵
|svd|奇异值分解

## Tensor和Function交替组成计算图

![](http://img.huaiwen.me/20190118154957.png)

In [13]:
import torch
x = torch.ones(2,2,requires_grad=True)
x

tensor([[1., 1.],
        [1., 1.]], requires_grad=True)

In [14]:
x.data # 用来存数据

tensor([[1., 1.],
        [1., 1.]])

In [15]:
x.grad is None # 用来存梯度

True

In [16]:
x.grad_fn is None # 用来指向创造自己的Function, 用户创建的为None

True

对于如下的公式：
$$
\begin{cases}
x_i = 1 \\
y_i & = x_i+2           \\
z_i & = 3y_i^2          \\
out & = \frac{1}{4}\sum_i z_i \\ 
% z_i\bigr\rvert_{x_i=1} & = 27 
\end{cases}
$$

In [17]:
y  = x + 2
y

tensor([[3., 3.],
        [3., 3.]], grad_fn=<AddBackward>)

In [18]:
y.grad_fn

<AddBackward at 0x7f4a99f9f780>

In [19]:
z = y * y * 3
z

tensor([[27., 27.],
        [27., 27.]], grad_fn=<MulBackward>)

In [20]:
out = z.mean()
out

tensor(27., grad_fn=<MeanBackward1>)

In [21]:
out.backward()

$$
\begin{cases}
x_i = 1 \\
y_i & = x_i+2           \\
z_i & = 3y_i^2          \\
out & = \frac{1}{4}\sum_i z_i \\ 
% z_i\bigr\rvert_{x_i=1} & = 27 
\end{cases}
$$

所以:

$$ \frac{\partial out}{\partial z_i}  = \frac{1}{4} $$


$$ \frac{\partial z_i}{\partial y_i}  = 6y_i      $$


$$ \frac{\partial y_i}{\partial x_i}  = 1 $$
所以
$$\frac{\partial out}{\partial x_i} = \frac{1}{4}*6y_i = \frac{3}{2}(x_i+2)$$
$$\frac{\partial out}{\partial x_i}\bigr\rvert_{x_i=1} = \frac{9}{2} = 4.5$$

In [22]:
x.grad

tensor([[4.5000, 4.5000],
        [4.5000, 4.5000]])

In [None]:
反向传播顺序：

out
z.mean()
y *  y * 3
x + 2    x + 2

In [23]:
out.grad_fn  # out  = z.mean()

<MeanBackward1 at 0x7f4a99f9fc88>

In [24]:
out.grad_fn.next_functions  # z = y * (y * 3) 第一个乘以操作

((<MulBackward at 0x7f4a99f9fcc0>, 0),)

In [25]:
out.grad_fn.next_functions[0][0].next_functions # z = y * (y * 3) 第二个乘以操作

((<ThMulBackward at 0x7f4a99f9fe80>, 0),)

In [26]:
out.grad_fn.next_functions[0][0].next_functions[0][0].next_functions # y = x + 2 

((<AddBackward at 0x7f4a99f9f780>, 0), (<AddBackward at 0x7f4a99f9f780>, 0))

In [29]:
out.grad_fn.next_functions[0][0].next_functions[0][0].next_functions[0][0].next_functions # x

((<AccumulateGrad at 0x7f4a99fa72e8>, 0),)

In [30]:
x.grad

tensor([[4.5000, 4.5000],
        [4.5000, 4.5000]])

In [31]:
out.grad_fn.next_functions[0][0].next_functions[0][0].next_functions[0][0].next_functions[0][0].next_functions

()