# 数据操作

## 创建数组
在PyTorch中，torch.Tensor是存储和变换数据的主要工具。Tensor提供GPU计算和自动求梯度等更多功能。

"tensor"这个单词一般可译作“张量”，张量可以看作是一个多维数组。标量可以看作是0维张量，向量可以看作1维张量，矩阵可以看作是二维张量。



In [31]:
import torch

In [32]:
# 创建未初始化的tensor
x = torch.empty(5,3)
print("no init:\n",x)

# 创建随机初始化的tensor
x = torch.rand(5,3)
print("\n random init:\n",x)

#long型全0数组
x = torch.zeros(5,3,dtype = torch.long)
print("\n zero init with long type:\n",x)

#直接根据数据创建
x = torch.tensor([5.5,3])
print("\n create tensor by values:\n",x)

#通过现有的tensor创建，会默认重用输入tensor的一些属性
#全1矩阵
x = x.new_ones(5,3,dtype = torch.float64)#返回的tensor有相同的torch.dtype和torch.device
print("\n ones init:\n",x)

#随机矩阵
x = torch.randn_like(x,dtype = torch.float)#指定数据类型
print("\n create by existing tensor:\n",x)

no init:
 tensor([[8.9082e-39, 6.9796e-39, 9.0919e-39],
        [9.9184e-39, 7.7143e-39, 1.0010e-38],
        [8.4490e-39, 1.0286e-38, 9.8266e-39],
        [1.0469e-38, 9.2755e-39, 8.7245e-39],
        [5.2347e-39, 5.1429e-39, 4.6837e-39]])

 random init:
 tensor([[0.6278, 0.8419, 0.8850],
        [0.4946, 0.4858, 0.6241],
        [0.7569, 0.6837, 0.5785],
        [0.8162, 0.0562, 0.7390],
        [0.5574, 0.8088, 0.3911]])

 zero init with long type:
 tensor([[0, 0, 0],
        [0, 0, 0],
        [0, 0, 0],
        [0, 0, 0],
        [0, 0, 0]])

 create tensor by values:
 tensor([5.5000, 3.0000])

 ones init:
 tensor([[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]], dtype=torch.float64)

 create by existing tensor:
 tensor([[ 0.0753, -0.7372, -0.8509],
        [-0.5709, -0.7559,  1.0408],
        [-0.2600,  0.5239, -1.6627],
        [-0.8166, -1.0407,  1.1757],
        [ 1.0029,  0.3438, -0.1568]])


In [33]:
print(x.size())
print(x.shape)

torch.Size([5, 3])
torch.Size([5, 3])


|函数|功能|
|:-:|:-:|
|Tensor(*sizes)	|基础构造函数|
|tensor(data,)	|类似np.array的构造函数|
|ones(*sizes)	|全1Tensor|
|zeros(*sizes)	|全0Tensor|
|eye(*sizes)	|对角线为1，其他为0|
|arange(s,e,step)	|从s到e，步长为step|
|linspace(s,e,steps)	|从s到e，均匀切分成steps份|
|rand/randn(*sizes)	|均匀/标准分布|
|normal(mean,std)/uniform(from,to)	|正态分布/均匀分布|
|randperm(m)	|随机排列$|

## 操作 

### 算数

In [39]:
y = torch.rand(5,3)
print("x+y:\n",x+y)

print("\n torch.add(x,y):\n",torch.add(x,y))

result = torch.empty(5,3)
torch.add(x,y,out = result)#指定输出的数组
print("\n指定输出:\n",result)

y.add_(x)
print("\n inplace加法,y.add_(x):\n",y)
#pytorch操作inplace版本都有后缀_,例如x.copy(y),x.t_()

x+y:
 tensor([[ 1.0608, -0.1471, -0.3967],
        [ 0.3624,  0.0083,  1.9584],
        [ 0.0354,  0.9472, -1.1002],
        [-0.6092, -0.6832,  1.4037],
        [ 1.3033,  1.1648,  0.7210]])

 torch.add(x,y):
 tensor([[ 1.0608, -0.1471, -0.3967],
        [ 0.3624,  0.0083,  1.9584],
        [ 0.0354,  0.9472, -1.1002],
        [-0.6092, -0.6832,  1.4037],
        [ 1.3033,  1.1648,  0.7210]])

指定输出:
 tensor([[ 1.0608, -0.1471, -0.3967],
        [ 0.3624,  0.0083,  1.9584],
        [ 0.0354,  0.9472, -1.1002],
        [-0.6092, -0.6832,  1.4037],
        [ 1.3033,  1.1648,  0.7210]])

 inplace加法,y.add_(x):
 tensor([[ 1.0608, -0.1471, -0.3967],
        [ 0.3624,  0.0083,  1.9584],
        [ 0.0354,  0.9472, -1.1002],
        [-0.6092, -0.6832,  1.4037],
        [ 1.3033,  1.1648,  0.7210]])


### 索引
类似NumPy的索引操作来访问Tensor的一部分，需要注意的是：**索引出来的结果与原数据共享内存**，也即修改一个，另一个会跟着修改。

In [6]:
y = x[0,:]
y+=1
print(y)
print(x[0,:])

tensor([1.5199, 0.5101, 0.5206])
tensor([1.5199, 0.5101, 0.5206])


|函数|	功能|
|:-:|:-:|
|index_select(input, dim, index)	|在指定维度dim上选取，比如选取某些行、某些列|
|masked_select(input, mask)	|例子如上，a[a>0]，使用ByteTensor进行选取|
|nonzero(input)|	非0元素的下标|
|gather(input, dim, index)|	根据index，在dim维度上选取数据，输出的size与index一样|

In [7]:
a= torch.randn(4,3)
# 用法1
# 第一种用法 c会成为一个新的张量且不会和a共用内存
c = torch.index_select(a,1,torch.tensor([0]))
# 用法2
# 第二种用法d会和a共用内存 
d = a.index_select(1,torch.tensor([0]))

In [8]:
torch.randn(3,3,3).index_select(0,torch.tensor(0))

tensor([[[-0.3144, -0.7410,  0.4588],
         [-0.6570,  0.6372, -1.4192],
         [-0.1012, -0.4568, -2.0608]]])

In [9]:
print(a.masked_select(a>0))
print(torch.masked_select(a,a>0))
print(a[a>0])

tensor([0.2130, 1.1274, 0.5048, 0.9305, 0.1160, 2.0087])
tensor([0.2130, 1.1274, 0.5048, 0.9305, 0.1160, 2.0087])
tensor([0.2130, 1.1274, 0.5048, 0.9305, 0.1160, 2.0087])


In [10]:
a = torch.zeros(4,4)
a[1,2]+=1
torch.nonzero(a)

tensor([[1, 2]])

In [47]:
# dim=1表示,
# 从input中的每一行中,选择index=[[1],[0],[0]],即选择每一行的第1,0,0个元素,构成新tensor

input = torch.tensor([[0.2973, 0.6688],
        [0.6045, 0.5933],
        [0.6964, 0.2374]])
 
index = torch.tensor([[1],
        [0],
        [0]])

print(torch.gather(input,dim=1,index=index))

#dim=1/0表示,从input中的每一行/列中,选择index=[[1,0],[0,0],[0,1]],即选择第一行的第1,0个,第二行选择第0,0个,第三行选择第0,1个元素,构成新tensor
index = torch.tensor([[1, 0],
        [0, 0],
        [0, 1]])
                            
print(torch.gather(input,dim=1,index=index))

tensor([[0.6688],
        [0.6045],
        [0.6964]])
tensor([[0.6688, 0.2973],
        [0.6045, 0.6045],
        [0.6964, 0.2374]])


### 改变形状

注意view()返回的新Tensor与源Tensor虽然可能有不同的size，但是是**共享data的**

In [48]:
y = x.view(15)
z = x.view(-1, 5)  # -1所指的维度可以根据其他维度的值推出来
print(x.size(),"\n", y.size(),'\n', z.size())

torch.Size([5, 3]) 
 torch.Size([15]) 
 torch.Size([3, 5])


In [13]:
# 返回一个真正新的副本（即不共享data内存）
# 使用clone还有一个好处是会被记录在计算图中，即梯度回传到副本时也会传到源Tensor
x_cp = x.clone().view(15)
x -= 1
print(x)
print(x_cp)

tensor([[ 0.5199, -0.4899, -0.4794],
        [-1.1256,  0.1002,  0.6374],
        [-1.2400, -1.3876, -1.6877],
        [-1.4366,  0.3284,  0.5157],
        [-2.1807,  0.7099, -0.7837]])
tensor([ 1.5199,  0.5101,  0.5206, -0.1256,  1.1002,  1.6374, -0.2400, -0.3876,
        -0.6877, -0.4366,  1.3284,  1.5157, -1.1807,  1.7099,  0.2163])


In [14]:
# 转换为python数字
print(torch.randn(1).item())

-0.9740490317344666


### 线性代数
|函数	|功能|
|:-:|:-:|
|trace|	对角线元素之和(矩阵的迹)|
|diag	|对角线元素|
|triu/tril	|矩阵的上三角/下三角，可指定偏移量|
|mm/bmm	|矩阵乘法，batch的矩阵乘法|
|addmm/addbmm/addmv/addr/baddbmm|	矩阵运算|
|t	|转置|
|dot/cross|	内积/外积|
|inverse|	求逆矩阵|
|svd	|奇异值分解|

##  广播

In [15]:
x = torch.arange(1, 3).view(1, 2)
print(x)
y = torch.arange(1, 4).view(3, 1)
print(y)
print(x + y)

tensor([[1, 2]])
tensor([[1],
        [2],
        [3]])
tensor([[2, 3],
        [3, 4],
        [4, 5]])


## 运算的内存开销     

索引操作是不会开辟新内存的，而像y = x + y这样的运算是会新开内存的，然后将y指向新内存

**注**：虽然view返回的Tensor与源Tensor是共享data的，但是依然是一个新的Tensor（因为Tensor除了包含data外还有一些其他属性），**二者id（内存地址）并不一致**。

In [16]:
x = torch.tensor([1,2])
y = torch.tensor([3,4])
# Python自带的id函数
id_before = id(y)
y = y+x
print(id(y),id_before,id(y)==id_before)

2509139775800 2509139779320 False


In [17]:
# 想指定结果到原来的y的内存，可以使用索引来进行替换操作
x_1 = torch.tensor([1,2])
y_1 = torch.tensor([3,4])

id_before = id(y_1)

y_1[:] = y_1+x_1

print(id(y_1),id_before,id(y_1)==id_before)

# 还可以使用运算符全名函数中的out参数/自加运算符+=(也即add_())达到上述效果
x_2 = torch.tensor([1,2])
y_2 = torch.tensor([3,4])

id_before = id(y_2)

torch.add(x_2,y_2,out = y_2)
# y+=x
# y.add_(x)
print(id(y_2),id_before,id(y_2)==id_before)

2509139817880 2509139817880 True
2509139818840 2509139818840 True


##  Tensor和Numpy互相转换           
用`numpy()`和`from_numpy()`将Tensor和NumPy中的数组**相互转换**。但是需要注意的一点是： 这两个函数所产生的的Tensor和NumPy中的数组**共享相同的内存**

还有一个常用的将NumPy中的array转换成Tensor的方法就是`torch.tensor()`, 需要注意的是，此方法总是会进行**数据拷贝**（就会消耗更多的时间和空间），所以返回的Tensor和原来的数据**不共享内存**。

In [18]:
a = torch.ones(5)
b = a.numpy()
print(a, b)

a += 1
print(a, b)
b += 1
print(a, b)

import numpy as np
a = np.ones(5)
b = torch.from_numpy(a)
print(a, b)

a += 1
print(a, b)
b += 1
print(a, b)

tensor([1., 1., 1., 1., 1.]) [1. 1. 1. 1. 1.]
tensor([2., 2., 2., 2., 2.]) [2. 2. 2. 2. 2.]
tensor([3., 3., 3., 3., 3.]) [3. 3. 3. 3. 3.]
[1. 1. 1. 1. 1.] tensor([1., 1., 1., 1., 1.], dtype=torch.float64)
[2. 2. 2. 2. 2.] tensor([2., 2., 2., 2., 2.], dtype=torch.float64)
[3. 3. 3. 3. 3.] tensor([3., 3., 3., 3., 3.], dtype=torch.float64)


In [19]:
#所有在CPU上的Tensor（除了CharTensor）都支持与NumPy数组相互转换。
# 用torch.tensor()将NumPy数组转换成Tensor，需要注意的是该方法总是会进行数据拷贝，返回的Tensor和原来的数据不再共享内存。

c = torch.tensor(a)
a += 1
print(a, c)

[4. 4. 4. 4. 4.] tensor([3., 3., 3., 3., 3.], dtype=torch.float64)


## Tensor on GPU

In [49]:
# 用方法to()可以将Tensor在CPU和GPU（需要硬件支持）之间相互移动。
if torch.cuda.is_available():
    device = torch.device("cuda")          # GPU
    print(x)
    y = torch.ones_like(x, device=device)  # 直接创建一个在GPU上的Tensor
    x = x.to(device)                       # 等价于 .to("cuda")
    z = x + y
    print(z)
    print(z.to("cpu", torch.double))       # to()还可以同时更改数据类型

tensor([[ 0.0753, -0.7372, -0.8509],
        [-0.5709, -0.7559,  1.0408],
        [-0.2600,  0.5239, -1.6627],
        [-0.8166, -1.0407,  1.1757],
        [ 1.0029,  0.3438, -0.1568]])
tensor([[ 1.0753,  0.2628,  0.1491],
        [ 0.4291,  0.2441,  2.0408],
        [ 0.7400,  1.5239, -0.6627],
        [ 0.1834, -0.0407,  2.1757],
        [ 2.0029,  1.3438,  0.8432]], device='cuda:0')
tensor([[ 1.0753,  0.2628,  0.1491],
        [ 0.4291,  0.2441,  2.0408],
        [ 0.7400,  1.5239, -0.6627],
        [ 0.1834, -0.0407,  2.1757],
        [ 2.0029,  1.3438,  0.8432]], dtype=torch.float64)


# 自动梯度       
PyTorch提供的autograd包能够根据输入和前向传播过程自动构建计算图，并执行反向传播    

## 概念   

1. **Tensor是这个包的核心类**     
    如果将其属性`.requires_grad`设置为`True`，它将开始追踪(track)在其上的所有操作（这样就可以利用链式法则进行梯度传播了）。完成计算后，可以调用`.backward()`来完成所有梯度计算。**此Tensor的梯度将累积到`.grad`属性中**。                
    - `.detach()`:如果不想要被继续追踪，可以调用`.detach()`其将其从追踪记录中分离出来。         
    
    - `with torch.no_grad()`：将不想被追踪的操作代码块包裹起来。在评估模型的时候很常用，因为在评估模型时，并不需要计算可训练参数（`requires_grad=True`）的梯度。
    
**注意在y.backward()时，如果y是标量**，则不需要为backward()传入任何参数；否则，需要传入一个与y同形的Tensor。



2. **Function是另外一个很重要的类**。       

    Tensor和Function互相结合就可以构建一个**记录有整个计算过程的有向无环图**（`DAG`）。             

    **每个Tensor都有一个`.grad_fn`属性**，该属性即创建该Tensor的Function, 就是说该Tensor是不是通过某些运算得到的，若是，则`grad_fn`返回一个与这些运算相关的对象，否则是None。





## Tensor
创建一个Tensor并设置requires_grad=True:

In [21]:
x = torch.ones(2,2,requires_grad = True)   
print("tensor x:",x)
print("grad func of tensor x:",x.grad_fn)

y = x+2
print("\n tensor y:",y)
print("grad func of tensor y:",y.grad_fn)   

print("\n",x.is_leaf, y.is_leaf)

tensor x: tensor([[1., 1.],
        [1., 1.]], requires_grad=True)
grad func of tensor x: None

 tensor y: tensor([[3., 3.],
        [3., 3.]], grad_fn=<AddBackward0>)
grad func of tensor y: <AddBackward0 object at 0x00000248345F1F88>

 True False


注意x是直接创建的，所以它没有grad_fn, 而y是通过一个加法操作创建的，所以它有一个为`<AddBackward>`的grad_fn。

像**x这种直接创建的称为叶子节点，叶子节点对应的grad_fn是None**。

In [22]:
z = y*y*3 
out = z.mean()
print(z,"\n",out)

tensor([[27., 27.],
        [27., 27.]], grad_fn=<MulBackward0>) 
 tensor(27., grad_fn=<MeanBackward0>)


- 通过**.requires_grad_()**来用in-place的方式改变requires_grad属性

In [23]:
a = torch.randn(2, 2) # 缺失情况下默认 requires_grad = False
a = ((a * 3) / (a - 1))
print(a.requires_grad) # False

a.requires_grad_(True)

print(a.requires_grad) # True
b = (a * a).sum()
print(b.grad_fn)

False
True
<SumBackward0 object at 0x0000024834632F48>


## 梯度

In [24]:
# 因为out是一个标量，所以调用backward()时不需要指定求导变量：
out.backward()
print(x.grad)

tensor([[4.5000, 4.5000],
        [4.5000, 4.5000]])


数学上，如果有一个函数值和自变量都为向量的函数$\vec{y}=f(\vec{x})$, 那么$\vec{y}$关于 $\vec{x}$的梯度就是一个雅可比矩阵（Jacobian matrix）:

$$J=\left(\begin{array}{ccc}\frac{\partial y_{1}}{\partial x_{1}}  \cdots \frac{\partial y_{1}}{\partial x_{n}}\\\vdots  \ddots  \vdots\\\frac{\partial y_{m}}{\partial x_{1}}  \cdots  \frac{\partial y_{m}}{\partial x_{n}}\end{array}\right)$$       

```torch.autograd```这个包就是用来计算一些雅克比矩阵的乘积的。例如$v$是一个标量函数$l=g(\vec{y})$的梯度:     
$$v = (\frac{\partial l}{\partial y_1},\cdots,\frac{\partial l}{\partial y_m})$$     

那么根据链式法则我们有$l$关$\vec{x}$的雅克比矩阵就为:    

$$v J=\left(\begin{array}{ccc}\frac{\partial l}{\partial y_{1}}  \cdots  \frac{\partial l}{\partial y_{m}}\end{array}\right) \left(\begin{array}{ccc}\frac{\partial y_{1}}{\partial x_{1}}  \cdots  \frac{\partial y_{1}}{\partial x_{n}}\\\vdots  \ddots \vdots\\\frac{\partial y_{m}}{\partial x_{1}}  \cdots  \frac{\partial y_{m}}{\partial x_{n}}\end{array}\right)=\left(\begin{array}{ccc}\frac{\partial l}{\partial x_{1}}  \cdots \frac{\partial l}{\partial x_{n}}\end{array}\right)$$

<font color = "red">**注意：grad在反向传播过程中是累加的(accumulated)**，这意味着每一次运行反向传播，梯度都会累加之前的梯度，所以一般**在反向传播之前需把梯度清零**。<\font>

In [25]:
# 再来反向传播一次，注意grad是累加的
out2 = x.sum()
out2.backward()
print(x.grad)

out3 = x.sum()

x.grad.data.zero_()

out3.backward()
print(x.grad)

tensor([[5.5000, 5.5000],
        [5.5000, 5.5000]])
tensor([[1., 1.],
        [1., 1.]])


- **为什么在y.backward()时，如果y是标量，则不需要为backward()传入任何参数；否则，需要传入一个与y同形的Tensor?**         

简单来说就是为了**避免向量（甚至更高维张量）对张量**求导，而**转换成标量对张量**求导。        

举个例子，假设形状为```m × n```的矩阵```X```经过运算得到了```p × q```的矩阵 ```Y```，```Y ```又经过运算得到了```s × t```的矩阵```Z```。     

那么按照前面讲的规则，```dZ/dY```应该是一个```s×t×p×q```四维张量，```dY/dX```是一个```p×q×m×n```的四维张量。         

- **存在问题**
1. 两个四维张量难以相乘
2. 四维和三维张量难以相乘  
3. 导数的导数在此种情况下难以求出     


- **解决方法**:不允许张量对张量求导，只允许标量对张量求导，求导结果是和自变量同形的张量,所以必要时我们要把张量通过将所有张量的元素加权求和的方式转换为标量。


举个例子，假设$y$由自变量$x$计算而来，$w$是和$y$同形的张量，则$y.backward(w)$的含义是：先计算$l = torch.sum(y\times w)$，则$l$是个标量，然后求$l$对自变量$x$的导数，$dl/dx = d(y*w)/dx$。      



In [26]:
x = torch.tensor([1.0, 2.0, 3.0, 4.0], requires_grad=True)
y = 2 * x
z = y.view(2, 2)
print(z)


# 现在 z 不是一个标量，所以在调用backward时需要传入一个和z同形的权重向量进行加权求和得到一个标量。

v = torch.tensor([[1.0, 0.1], [0.01, 0.001]], dtype=torch.float)
z.backward(v)
print(x.grad)

tensor([[2., 4.],
        [6., 8.]], grad_fn=<ViewBackward0>)
tensor([2.0000, 0.2000, 0.0200, 0.0020])


**中断梯度追踪的例子**

In [27]:
x = torch.tensor(1.0, requires_grad=True)
y1 = x ** 2 
with torch.no_grad():
    y2 = x ** 3
y3 = y1 + y2

print(x.requires_grad)
print(y1, y1.requires_grad) # True
print(y2, y2.requires_grad) # False
print(y3, y3.requires_grad) # True

True
tensor(1., grad_fn=<PowBackward0>) True
tensor(1.) False
tensor(2., grad_fn=<AddBackward0>) True


In [28]:
y3.backward()
print(x.grad)

tensor(2.)


如果我们想要修改```tensor```的数值，但是又不希望被```autograd```记录（即不会影响反向传播），那么我么可以对```tensor.data```进行操作。

In [29]:
x = torch.ones(1,requires_grad=True)

print(x.data) # 还是一个tensor
print(x.data.requires_grad) # False,已经是独立于计算图之外

y = 2 * x
x.data *= 100 # 只改变了值，不会记录在计算图，所以不会影响梯度传播

y.backward()
print(x) # 更改data的值也会影响tensor的值
print(x.grad)

tensor([1.])
False
tensor([100.], requires_grad=True)
tensor([2.])
