# Chapter 2 PyTorch基础知识

* 0维张量/标量：数字
* 1维张量/向量：向量
* 2维张量：矩阵
* 3维张量：时间序列（公用数据集类型）
* 4维张量：图像
* 5维张量：视频

eg: (width,height,channel)=3D<br>
    (sample_size,width,height,channel)=4D

In [7]:
from __future__ import print_function
import torch

#### 创建tensor

In [8]:
#创建一个随机初始化4行3列的矩阵
x=torch.rand(4,3)
print(x)

tensor([[0.9615, 0.0910, 0.7541],
        [0.5478, 0.9582, 0.1062],
        [0.1827, 0.2619, 0.0581],
        [0.4111, 0.8922, 0.3651]])


In [9]:
#构造一个矩阵全为0，并且数据类型为long
x=torch.zeros(4,3,dtype=torch.long)
print(x)

tensor([[0, 0, 0],
        [0, 0, 0],
        [0, 0, 0],
        [0, 0, 0]])


In [10]:
#使用已有的数据，构造一个张量
x=torch.tensor([5.5,3])
print(x)

tensor([5.5000, 3.0000])


In [12]:
#基于已经存在的tensor，创建一个tensor
x=x.new_ones(4,3,dtype=torch.double)
#或者写为:x=torch.ones(4,3,dtype=torch.double)
print(x)

#重置数据类型
x=torch.randn_like(x,dtype=torch.float)
print(x)

tensor([[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]], dtype=torch.float64)
tensor([[-1.1805,  0.3705, -1.9573],
        [ 1.8177, -0.1416, -1.6568],
        [ 1.1019,  1.0646, -0.6532],
        [ 0.0510, -0.4728, -0.1473]])


In [13]:
#获取维度信息
print(x.size())
print(x.shape)

torch.Size([4, 3])
torch.Size([4, 3])


#### 常见的构造Tensor的函数
* Tensor(*sizes) 基础构造函数
* tensor(data) 类似于np.array
* ones(*sizes) 全1
* zeros(*sizes) 全0
* eye(*sizes) 对角为1，其余为0
* arange(s,e,step) 从s到e，步长为step
* linspace(s,e,steps) 从s到e，均匀分为step份
* rand/randn(*sizes) rand是[0,1)的均匀分布，randn是服从N(0,1)的正态分布
* normal(mean,std) 正态分布（均值为mean，标准差为std）
* randperm(m) 随机排列

#### 操作

##### `加法操作`

In [14]:
#方法一
y=torch.rand(4,3)
print(x+y)

tensor([[-3.9194e-01,  1.3294e+00, -1.5366e+00],
        [ 2.8090e+00,  6.6517e-01, -1.2615e+00],
        [ 1.1996e+00,  1.0735e+00,  1.1622e-01],
        [ 3.6831e-01,  1.7502e-03,  7.1452e-01]])


In [15]:
#方法二
print(torch.add(x,y))

tensor([[-3.9194e-01,  1.3294e+00, -1.5366e+00],
        [ 2.8090e+00,  6.6517e-01, -1.2615e+00],
        [ 1.1996e+00,  1.0735e+00,  1.1622e-01],
        [ 3.6831e-01,  1.7502e-03,  7.1452e-01]])


In [16]:
#方法三
result=torch.empty(5,3)
torch.add(x,y,out=result)
print(result)
#这里的out不需要和真实的运算结果保持维数一致，但是会有警告提示

tensor([[-3.9194e-01,  1.3294e+00, -1.5366e+00],
        [ 2.8090e+00,  6.6517e-01, -1.2615e+00],
        [ 1.1996e+00,  1.0735e+00,  1.1622e-01],
        [ 3.6831e-01,  1.7502e-03,  7.1452e-01]])


  torch.add(x,y,out=result)


In [17]:
#方法四
y.add_(x)
print(y)

tensor([[-3.9194e-01,  1.3294e+00, -1.5366e+00],
        [ 2.8090e+00,  6.6517e-01, -1.2615e+00],
        [ 1.1996e+00,  1.0735e+00,  1.1622e-01],
        [ 3.6831e-01,  1.7502e-03,  7.1452e-01]])


In [18]:
print(x[:,1]) #显示x的第二列

tensor([ 0.3705, -0.1416,  1.0646, -0.4728])


In [19]:
y=x[0,:]
y+=1
print(y)
print(x[0,:]) #原来的tensor也被更改了

##索引出来的结果与原来的数据共享内存，修改一个时另外一个也会被修改

tensor([-0.1805,  1.3705, -0.9573])
tensor([-0.1805,  1.3705, -0.9573])


In [22]:
#改变tensor的大小或者形状时，使用torch.view
x=torch.randn(4,4)
print(x)
y=x.view(16) #将x变为16维的
print(y)
z=x.view(-1,8) #-1指的是这一维的维数由其他维度决定
#即z为8列的，行数则会相应的变味2
print(z)
print(x.size(),y.size(),z.size())

tensor([[-5.7076e-01, -1.0511e+00,  1.6455e+00,  2.2046e-01],
        [-1.6691e+00,  1.0400e+00,  6.6054e-01,  1.1049e+00],
        [-6.9345e-01, -1.5643e-03, -3.5746e-01, -1.2440e+00],
        [ 1.5544e-01,  4.6448e-01, -4.4565e-01,  9.2924e-01]])
tensor([-5.7076e-01, -1.0511e+00,  1.6455e+00,  2.2046e-01, -1.6691e+00,
         1.0400e+00,  6.6054e-01,  1.1049e+00, -6.9345e-01, -1.5643e-03,
        -3.5746e-01, -1.2440e+00,  1.5544e-01,  4.6448e-01, -4.4565e-01,
         9.2924e-01])
tensor([[-5.7076e-01, -1.0511e+00,  1.6455e+00,  2.2046e-01, -1.6691e+00,
          1.0400e+00,  6.6054e-01,  1.1049e+00],
        [-6.9345e-01, -1.5643e-03, -3.5746e-01, -1.2440e+00,  1.5544e-01,
          4.6448e-01, -4.4565e-01,  9.2924e-01]])
torch.Size([4, 4]) torch.Size([16]) torch.Size([2, 8])


view()返回的新tensor与源tensor共享内存<br>
即view仅仅是改变了对这个张量的观察角度，当改变其中一个时，另外一个也会改变

In [24]:
x+=1 #后面x与y同时加1
print(x)
print(y)

tensor([[1.4292, 0.9489, 3.6455, 2.2205],
        [0.3309, 3.0400, 2.6605, 3.1049],
        [1.3066, 1.9984, 1.6425, 0.7560],
        [2.1554, 2.4645, 1.5543, 2.9292]])
tensor([1.4292, 0.9489, 3.6455, 2.2205, 0.3309, 3.0400, 2.6605, 3.1049, 1.3066,
        1.9984, 1.6425, 0.7560, 2.1554, 2.4645, 1.5543, 2.9292])


In [None]:
x=torch.randn(1)
print(x)
print(x.item())

#### 广播机制：当对两个形状不同的tensor按照元素进行计算时，可能会触发广播机制
<br>先适当复制元素使得这两个tensor形状相同后再按照元素进行计算

In [31]:
x=torch.arange(1,3) #arange(s,e)为从[s,e)
print(x)
x=torch.arange(1,3).view(1,2) #生成1行2列的tensor
print(x)
y=torch.arange(1,4).view(3,1) #生成3行1列的tensor
print(y)
print(x+y)

tensor([1, 2])
tensor([[1, 2]])
tensor([[1],
        [2],
        [3]])
tensor([[2, 3],
        [3, 4],
        [4, 5]])


x 和 y 分别是1行2列和3行1列的矩阵，如果要计算 x + y ，那么 x 中第一行的2个元素被广播 (复制)到了第二行和第三行，⽽ y 中第⼀列的3个元素被广播(复制)到了第二列。如此，就可以对2 个3行2列的矩阵按元素相加。

#### 自动求导

神经网络的核心为`autograd包`<br>
该包为张量上的所有操作提供了自动求导机制<br>
`torch.Tensor`为这个包的核心类：当设置`.requires_grad`为True时，它将会追踪对于该张量的所有操作；当完成计算后可以调用`.backward()`来自动计算所有的梯度；这个张量的所有梯度会自动累加到`.grad`属性

In [32]:
x=torch.randn(3,3,requires_grad=True)
print(x.grad_fn)

None


如果需要计算导数，可以在`Tensor`上调用`.backward()`。<br>
如果 Tensor 是一个标量(即它包含一个元素的数据），则不需要为 backward() 指定任何参数，但是如果它有更多的元素，则需要指定一个`gradient参数`，该参数是形状匹配的张量。

In [33]:
#创建一个张量并设置requires_grad=True用来追踪其计算历史
x=torch.ones(2,2,requires_grad=True)
print(x)

tensor([[1., 1.],
        [1., 1.]], requires_grad=True)


In [35]:
#对这个张量做一次运算
y=x**2
print(y)
#y是计算的结果，所以它有grad_fn属性
print(y.grad_fn)

tensor([[1., 1.],
        [1., 1.]], grad_fn=<PowBackward0>)
<PowBackward0 object at 0x7fe00e1848b0>


In [36]:
#对y进行更多的操作
z=y*y*3
out=z.mean()
print(z,out)

tensor([[3., 3.],
        [3., 3.]], grad_fn=<MulBackward0>) tensor(3., grad_fn=<MeanBackward0>)


In [37]:
a=torch.randn(2,2) #缺失情况下默认requires_grad=False
a=((a*3)/(a-1))
print(a.requires_grad)
a.requires_grad_(True)
print(a.requires_grad)
b=(a*a).sum()
print(b.grad_fn)

False
True
<SumBackward0 object at 0x7fe0313f7520>


#### 梯度
现在开始进行反向传播
out为一个标量，因此out.backward()与out.backward(torch.tensor(1.))等价

In [38]:
out.backward()

In [39]:
print(x.grad) #导数d(out)/dx （雅可比矩阵）

tensor([[3., 3.],
        [3., 3.]])


注意：grad在反向传播过程中是累加的(accumulated)，这意味着每一次运行反向传播，梯度都会累加之前的梯度，所以一般在反向传播之前需把梯度清零。

`torch.autograd`可以用于计算一些雅可比矩阵的乘积

In [40]:
#再次进行反向传播
out2=x.sum()
out2.backward()
print(x.grad)

out3=x.sum()
x.grad.data.zero_()
out3.backward()
print(x.grad)

tensor([[4., 4.],
        [4., 4.]])
tensor([[1., 1.],
        [1., 1.]])


In [42]:
x=torch.randn(3,requires_grad=True)
print(x)

y=x*2
i=0
while y.data.norm()<1000:
    y=y*2
    i=i+1
print(y)
print(i)

tensor([ 0.6156, -2.5324,  2.1429], requires_grad=True)
tensor([  315.2114, -1296.6089,  1097.1757], grad_fn=<MulBackward0>)
8


torch.autograd 不能直接计算完整的雅可比矩阵，但是如果我们只想要雅可比向量积，只需将这个向量作为参数传给 backward：

In [43]:
v = torch.tensor([0.1, 1.0, 0.0001], dtype=torch.float)
y.backward(v)

print(x.grad)

tensor([5.1200e+01, 5.1200e+02, 5.1200e-02])


也可以通过将代码块包装在 with torch.no_grad(): 中，来阻止 autograd 跟踪设置了.requires_grad=True的张量的历史记录。

In [44]:
print(x.requires_grad)
print((x ** 2).requires_grad)

with torch.no_grad():
    print((x ** 2).requires_grad)

True
True
False


如果我们想要修改 tensor 的数值，但是又不希望被 autograd 记录(即不会影响反向传播)， 那么我们可以对 tensor.data 进行操作。

In [45]:
x = torch.ones(1,requires_grad=True)

print(x.data) # 还是一个tensor
print(x.data.requires_grad) # 但是已经是独立于计算图之外

y = 2 * x
x.data *= 100 # 只改变了值，不会记录在计算图，所以不会影响梯度传播

y.backward()
print(x) # 更改data的值也会影响tensor的值 
print(x.grad)

tensor([1.])
False
tensor([100.], requires_grad=True)
tensor([2.])
