## 1 张量（tensor），一个n维数组，用来存储和操作数据
### 张量表⽰由⼀个数值组成的数组，这个数组可能有多个维度。具有⼀个轴的张量对应数学上的向量（vector），具有两个轴的张量对应数学上的矩阵（matrix）

### 导入torch，虽然它被称为PyTorch，但我们应该导⼊torch而不是pytorch。

In [1]:
import torch 

### 创建张量

In [2]:
x = torch.arange(12) # 创建一个包含从0开始的12个整数的一阶张量

In [3]:
x

tensor([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

### 访问张量形状

In [4]:
x.shape

torch.Size([12])

### 改变张量形状，而不改变元素数量和元素值

In [5]:
x1=x.reshape(3,4) #将x的形状变为（3,4）并赋值给x1
x1

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]])

In [6]:
x1.shape

torch.Size([3, 4])

### 访问张量大小，即元素个数

In [7]:
x.numel()

12

In [8]:
x1.numel()

12

### 初始化张量

In [9]:
torch.zeros((2, 3, 4)) # 创建一个形状为（2,3,4），所有元素为0的张量

tensor([[[0., 0., 0., 0.],
         [0., 0., 0., 0.],
         [0., 0., 0., 0.]],

        [[0., 0., 0., 0.],
         [0., 0., 0., 0.],
         [0., 0., 0., 0.]]])

In [10]:
torch.ones(2,3,4) # 创建一个形状为（2,3,4），所有元素为1的张量

tensor([[[1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.]],

        [[1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.]]])

In [11]:
torch.randn(3, 4) # 创建一个形状为（3,4）的服从标准正态分布的张量

tensor([[-0.8351, -1.8786,  0.7115,  0.1558],
        [-0.2058, -0.0438, -0.6923, -0.1689],
        [-1.9915,  0.3353, -1.5131, -0.7806]])

### 访问元素

In [12]:
X = torch.arange(12, dtype=torch.float32).reshape((3,4))
X

tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11.]])

In [13]:
X[1,2] #访问第1行第2列的元素

tensor(6.)

In [14]:
X[1,:] # 访问第1行所有元素

tensor([4., 5., 6., 7.])

In [15]:
X[:,1] # 访问第1列所有元素

tensor([1., 5., 9.])

## 2 张量的运算

### 加减乘除，按元素运算

In [16]:
x = torch.tensor([2, 4, 6, 8])
y = torch.tensor([2, 2, 2, 2])
x,y

(tensor([2, 4, 6, 8]), tensor([2, 2, 2, 2]))

In [17]:
x+y,x-y,x*y,x/y,x**y

(tensor([ 4,  6,  8, 10]),
 tensor([0, 2, 4, 6]),
 tensor([ 4,  8, 12, 16]),
 tensor([1, 2, 3, 4]),
 tensor([ 4, 16, 36, 64]))

### 哈达玛积：两个矩阵按元素相乘

In [18]:
A = torch.arange(20, dtype=torch.float32).reshape(5, 4)
B = A.clone() # 通过分配新内存，将A的⼀个副本分配给B
A,B,

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.],
         [12., 13., 14., 15.],
         [16., 17., 18., 19.]]),
 tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.],
         [12., 13., 14., 15.],
         [16., 17., 18., 19.]]))

In [19]:
A*B

tensor([[  0.,   1.,   4.,   9.],
        [ 16.,  25.,  36.,  49.],
        [ 64.,  81., 100., 121.],
        [144., 169., 196., 225.],
        [256., 289., 324., 361.]])

### 多个张量连结

In [20]:
X = torch.arange(12, dtype=torch.float32).reshape((3,4))
Y = torch.tensor([[2.0, 1, 4, 3], [1, 2, 3, 4], [4, 3, 2, 1]])
X,Y

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.]]),
 tensor([[2., 1., 4., 3.],
         [1., 2., 3., 4.],
         [4., 3., 2., 1.]]))

In [21]:
torch.cat((X, Y), dim=0) # 按行连结

tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11.],
        [ 2.,  1.,  4.,  3.],
        [ 1.,  2.,  3.,  4.],
        [ 4.,  3.,  2.,  1.]])

In [22]:
torch.cat((X, Y), dim=1) # 按列连结

tensor([[ 0.,  1.,  2.,  3.,  2.,  1.,  4.,  3.],
        [ 4.,  5.,  6.,  7.,  1.,  2.,  3.,  4.],
        [ 8.,  9., 10., 11.,  4.,  3.,  2.,  1.]])

### 逻辑运算

In [23]:
X==Y

tensor([[False,  True, False,  True],
        [False, False, False, False],
        [False, False, False, False]])

### 转置

In [24]:
X.T

tensor([[ 0.,  4.,  8.],
        [ 1.,  5.,  9.],
        [ 2.,  6., 10.],
        [ 3.,  7., 11.]])

### 广播机制 
#### 上⾯的部分是在相同形状的两个张量上执⾏按元素操作。在某些情况下，即使形状不同，仍然可以通过调⽤⼴播机制（broadcasting mechanism）来执⾏按元素操作。这种机制的⼯作⽅式如下：⾸先，通过适当复制元素来扩展⼀个或两个数组，以便在转换之后，两个张量具有相同的形状。其次，对⽣成的数组执⾏按元素操作。

In [25]:
a = torch.arange(3).reshape((3, 1))
b = torch.arange(2).reshape((1, 2))
a, b

(tensor([[0],
         [1],
         [2]]),
 tensor([[0, 1]]))

#### 由于a和b分别是3x1和1x2矩阵，如果我们让它们相加，它们的形状不匹配。我们将两个矩阵⼴播为⼀个更⼤的3 x2矩阵，如下所⽰：矩阵a将复制列，矩阵b将复制⾏，然后再按元素相加。

In [26]:
a+b

tensor([[0, 1],
        [1, 2],
        [2, 3]])

### 降维

In [27]:
A = torch.arange(20, dtype=torch.float32).reshape(5, 4)
A

tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11.],
        [12., 13., 14., 15.],
        [16., 17., 18., 19.]])

In [28]:
A.sum() # 所有元素求和

tensor(190.)

In [29]:
A.mean() # 所有元素求平均

tensor(9.5000)

In [30]:
A.sum(axis=0) # 指定axis=0将通过汇总所有行的元素降维

tensor([40., 45., 50., 55.])

In [31]:
A.sum(axis=1) # 指定axis=1将通过汇总所有列的元素降维

tensor([ 6., 22., 38., 54., 70.])

### 点积

In [32]:
x = torch.arange(4, dtype = torch.float32)
y = torch.ones(4, dtype = torch.float32)
x, y

(tensor([0., 1., 2., 3.]), tensor([1., 1., 1., 1.]))

In [33]:
torch.dot(x, y)

tensor(6.)

### 矩阵乘法，区别于哈达玛积

In [34]:
A = torch.arange(20, dtype=torch.float32).reshape(5, 4)
B = torch.ones(4, 3)
A,B

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.],
         [12., 13., 14., 15.],
         [16., 17., 18., 19.]]),
 tensor([[1., 1., 1.],
         [1., 1., 1.],
         [1., 1., 1.],
         [1., 1., 1.]]))

In [35]:
torch.mm(A,B)

tensor([[ 6.,  6.,  6.],
        [22., 22., 22.],
        [38., 38., 38.],
        [54., 54., 54.],
        [70., 70., 70.]])

### 范数，向量范数是将向量映射到标量的函数$f(x)$，满足以下性质：
### 1.$f(\alpha x)=|\alpha|f(x)$
### 2.$f(x+y)\leq f(x)+f(y)$
### 3.$f(x)\geq 0$

### $L_p$范数： $||x||_p=(\sum_{i=0}^n|x_i|^p)^{1/p}$ 

In [36]:
u = torch.tensor([3.0, -4.0])
torch.norm(u) # 计算u的L2范数

tensor(5.)

In [37]:
torch.abs(u).sum() # 计算u的L1范数

tensor(7.)

In [38]:
X=torch.ones((4, 9))            
X,  torch.norm(X) # 矩阵的弗罗⻉尼乌斯范数

(tensor([[1., 1., 1., 1., 1., 1., 1., 1., 1.],
         [1., 1., 1., 1., 1., 1., 1., 1., 1.],
         [1., 1., 1., 1., 1., 1., 1., 1., 1.],
         [1., 1., 1., 1., 1., 1., 1., 1., 1.]]),
 tensor(6.))

## 3 自动求导

### 3.1 梯度  
#### 连结⼀个多元函数对其所有变量的偏导数，得到该函数的梯度（gradient）向量。梯度对于设计深度学习中的优化算法有很⼤⽤处。
#### n维向量$\textbf{x}=[x_1,x_2,...,x_n]^T$的标量函数$f(x)$关于$\textbf{x}$的梯度为：

$\nabla f(\textbf{x})=[\frac{\partial f(\textbf{x})}{\partial x_1},\frac{\partial f(\textbf{x})}{\partial x_2},...,\frac{\partial f(\textbf{x})}{\partial x_n}]^T$

#### 实际中，根据我们设计的模型，系统会构建⼀个计算图（computational graph），来跟踪计算是哪些数据通过哪些操作组合起来产⽣输出。⾃动求导使系统能够随后反向传播梯度。这⾥，反向传播（backpropagate）只是意味着跟踪整个计算图，填充关于每个参数的偏导数。

### 3.2 例如，对$y=2x^Tx$关于列向量$x$求导

In [39]:
x = torch.arange(4.0) # 创建变量x并分配一个初始值
x

tensor([0., 1., 2., 3.])

##### 在计算y关于x的梯度之前，我们需要⼀个地⽅来存储梯度。

In [40]:
x = torch.arange(4.0, requires_grad=True) # 创建一个x，并使其可以保存梯度
x.grad 

In [41]:
y = 2 * torch.dot(x, x)
y

tensor(28., grad_fn=<MulBackward0>)

#### 通过调⽤反向传播函数来⾃动计算y关于x的梯度，并打印这些梯度

In [42]:
y.backward() #用反向传播函数计算梯度
x.grad # 访问y关于x的梯度

tensor([ 0.,  4.,  8., 12.])

#### 函数$y=2x^Tx$关于$x$的梯度应为$4x$,现在进行验算

In [43]:
x.grad==4*x

tensor([True, True, True, True])

#### 现在计算x的另⼀个函数,首先需要将梯度值清零

In [44]:
x.grad.zero_()

tensor([0., 0., 0., 0.])

In [45]:
y = x.sum()
y.backward()
x.grad

tensor([1., 1., 1., 1.])

### 3.3 非标量变量的反向传播

#### 在深度学习中，通常会试图计算⼀批训练样本中每个组成部分的损失函数的导数，⽬的不是计算微分矩阵，而是每个样本单独计算的偏导数之和

In [46]:
x.grad.zero_()
y = x * x
y

tensor([0., 1., 4., 9.], grad_fn=<MulBackward0>)

In [47]:
y.sum().backward()
x.grad

tensor([0., 2., 4., 6.])

### 3.4 分离计算
#### 有时，我们希望将某些计算移动到记录的计算图之外。例如，假设y是作为x的函数计算的，而z则是作为y和x的函数计算的。现在，想象⼀下，我们想计算z关于x的梯度，但由于某种原因，我们希望将y视为⼀个常数。
#### 在这⾥，我们可以分离y来返回⼀个新变量u,并将u作为常数处理

In [48]:
x.grad.zero_()
y = x * x
u = y.detach() # 将y分离出来并返回为u
z = u * x

#### 下面的反向传播函数计算$z=u*x$关于x的偏导数，而不是$z=x*x*x$关于x的偏导数。

In [49]:
z.sum().backward()
x.grad

tensor([0., 1., 4., 9.])

In [50]:
x.grad==u 

tensor([True, True, True, True])