Deep Learning with PyTorch A 60 Minute Blitz

In [1]:
from __future__ import print_function
import torch

x = torch.empty(5, 3)
print(x)

tensor([[ 0.0000e+00,  1.0842e-19, -1.2472e-27],
        [ 4.6577e-10,  1.1210e-44,  0.0000e+00],
        [ 0.0000e+00,  0.0000e+00,  0.0000e+00],
        [ 0.0000e+00,  4.9102e-34,  1.4013e-45],
        [ 1.4013e-45,  0.0000e+00,  0.0000e+00]])


In [2]:
x = torch.rand(5, 3)
print(x)

tensor([[0.1002, 0.7185, 0.2078],
        [0.9008, 0.3965, 0.4144],
        [0.5663, 0.2216, 0.0890],
        [0.6127, 0.5090, 0.6936],
        [0.3121, 0.5371, 0.3155]])


In [3]:
x = torch.zeros(5, 3, dtype=torch.long)
print(x)

tensor([[0, 0, 0],
        [0, 0, 0],
        [0, 0, 0],
        [0, 0, 0],
        [0, 0, 0]])


In [4]:
x = torch.tensor([5.5, 3])
print(x)

tensor([5.5000, 3.0000])


In [7]:
x = x.new_ones(5, 3, dtype=torch.double)      # new_* methods take in sizes
print(x)

x = torch.randn_like(x, dtype=torch.float)    # 重载 dtype!
print(x)  

print(x.size()) #torch.Size本质上还是tuple，所以支持tuple的一切操作


tensor([[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]], dtype=torch.float64)
tensor([[-0.7981,  0.2493, -0.7194],
        [ 0.3679,  1.2780, -2.2528],
        [-0.2227,  0.2879,  0.4972],
        [-0.5812, -0.4504,  0.5923],
        [ 0.5480, -0.2582, -0.1864]])
torch.Size([5, 3])


# 运算

In [10]:
y = torch.rand(5, 3)
print(x + y) # first way

print(torch.add(x, y)) # second way 

result = torch.empty(5, 3)
torch.add(x, y, out=result)
print(result) # third way 

# adds x to y fourth way 
y.add_(x)
print(y)

# 注意： 任何一个in-place改变张量的操作后面都固定一个_。例如x.copy_(y)、x.t_()将更改x

tensor([[-0.3770,  0.6977,  0.0774],
        [ 0.9525,  2.0335, -2.1073],
        [-0.1558,  1.0540,  1.0401],
        [-0.2023, -0.2495,  1.5115],
        [ 0.8604,  0.2533,  0.7508]])
tensor([[-0.3770,  0.6977,  0.0774],
        [ 0.9525,  2.0335, -2.1073],
        [-0.1558,  1.0540,  1.0401],
        [-0.2023, -0.2495,  1.5115],
        [ 0.8604,  0.2533,  0.7508]])
tensor([[-0.3770,  0.6977,  0.0774],
        [ 0.9525,  2.0335, -2.1073],
        [-0.1558,  1.0540,  1.0401],
        [-0.2023, -0.2495,  1.5115],
        [ 0.8604,  0.2533,  0.7508]])
tensor([[-0.3770,  0.6977,  0.0774],
        [ 0.9525,  2.0335, -2.1073],
        [-0.1558,  1.0540,  1.0401],
        [-0.2023, -0.2495,  1.5115],
        [ 0.8604,  0.2533,  0.7508]])


In [14]:
# 类似 number 一样的各种index 操作

print(x[:,1])
print(x[1,:])
print(x[:])
print(x[:,0])

tensor([ 0.2493,  1.2780,  0.2879, -0.4504, -0.2582])
tensor([ 0.3679,  1.2780, -2.2528])
tensor([[-0.7981,  0.2493, -0.7194],
        [ 0.3679,  1.2780, -2.2528],
        [-0.2227,  0.2879,  0.4972],
        [-0.5812, -0.4504,  0.5923],
        [ 0.5480, -0.2582, -0.1864]])
tensor([-0.7981,  0.3679, -0.2227, -0.5812,  0.5480])


In [16]:
# transfer the shape

x = torch.randn(4, 4)
y = x.view(16)
z = x.view(-1, 8)  # the size -1 is inferred from other dimensions
print(x.size(), y.size(), z.size())

print(x)
print(y)
print(z)


torch.Size([4, 4]) torch.Size([16]) torch.Size([2, 8])
tensor([[ 0.6360,  1.4440,  0.6681, -1.9473],
        [-0.1962, -1.4734, -0.3524,  0.4839],
        [-0.7634, -0.5775, -1.5449, -0.6311],
        [-0.4246,  2.0180,  2.1591,  1.4222]])
tensor([ 0.6360,  1.4440,  0.6681, -1.9473, -0.1962, -1.4734, -0.3524,  0.4839,
        -0.7634, -0.5775, -1.5449, -0.6311, -0.4246,  2.0180,  2.1591,  1.4222])
tensor([[ 0.6360,  1.4440,  0.6681, -1.9473, -0.1962, -1.4734, -0.3524,  0.4839],
        [-0.7634, -0.5775, -1.5449, -0.6311, -0.4246,  2.0180,  2.1591,  1.4222]])


In [18]:
# 如果是仅包含一个元素的tensor，可以使用.item()来得到对应的python数值
x = torch.randn(1)
print(x)
print(x.item())
# 但是对于matrix 可以吗？ no!
# x = torch.randn(4, 4)
# x.item() 

tensor([0.2760])
0.27598994970321655


ValueError: only one element tensors can be converted to Python scalars

# Numpy bridge

In [26]:
a = torch.ones(5)
print(a)
b = a.numpy()
print(b)
print(type(b))
c = b.tolist() 
print(c)
print(type(c))

#
a.add_(1)
print(a)
print(b)

tensor([1., 1., 1., 1., 1.])
[1. 1. 1. 1. 1.]
<class 'numpy.ndarray'>
[1.0, 1.0, 1.0, 1.0, 1.0]
<class 'list'>
tensor([2., 2., 2., 2., 2.])
[2. 2. 2. 2. 2.]


In [27]:
# transfer numpy to torch tensor
import numpy as np
a = np.ones(5)
b = torch.from_numpy(a)
np.add(a, 1, out=a)
print(a)
print(b)
# CPU上的所有张量(CharTensor除外)都支持转换为NumPy以及由NumPy转换回来。

[2. 2. 2. 2. 2.]
tensor([2., 2., 2., 2., 2.], dtype=torch.float64)


# CUDA Tensor 

In [29]:
# 没有 nividina 显卡不支持！
# let us run this cell only if CUDA is available
# 我们将使用`torch.device`来将tensor移入和移出GPU
if torch.cuda.is_available():
    device = torch.device("cuda")          # a CUDA device object
    y = torch.ones_like(x, device=device)  # 直接在GPU上创建tensor
    x = x.to(device)                       # 或者使用`.to("cuda")`方法
    z = x + y
    print(z)
    print(z.to("cpu", torch.double))       # `.to`也能在移动时改变dtype

# Autograd：自动求导

PyTorch中，所有神经网络的核心是autograd包。

autograd包为张量上的所有操作提供了自动求导机制。它是一个在运行时定义（define-by-run）的框架，这意味着反向传播是根据代码如何运行来决定的，并且每次迭代可以是不同的.

torch.Tensor是这个包的核心类。如果设置它的属性 .requires_grad为True，那么它将会追踪对于该张量的所有操作。当完成计算后可以通过调用.backward()，来自动计算所有的梯度。这个张量的所有梯度将会自动累加到.grad属性.

要阻止一个张量被跟踪历史，可以调用.detach()方法将其与计算历史分离，并阻止它未来的计算记录被跟踪。

为了防止跟踪历史记录（和使用内存），可以将代码块包装在with torch.no_grad():中。在评估模型时特别有用，因为模型可能具有requires_grad = True的可训练的参数，但是我们不需要在此过程中对他们进行梯度计算。

还有一个类对于autograd的实现非常重要：Function。

Tensor和Function互相连接生成了一个非循环图，它编码了完整的计算历史。每个张量都有一个.grad_fn属性，它引用了一个创建了这个Tensor的Function（除非这个张量是用户手动创建的，即这个张量的grad_fn是None）。

如果需要计算导数，可以在Tensor上调用.backward()。如果Tensor是一个标量（即它包含一个元素的数据），则不需要为backward()指定任何参数，但是如果它有更多的元素，则需要指定一个gradient参数，它是形状匹配的张量。

In [33]:
import torch
x = torch.ones(2, 2, requires_grad=True)
print(x)

y = x + 2
print(y)

print(y.grad_fn)

z = y * y * 3
out = z.mean()

print(z, out)

tensor([[1., 1.],
        [1., 1.]], requires_grad=True)
tensor([[3., 3.],
        [3., 3.]], grad_fn=<AddBackward0>)
<AddBackward0 object at 0x1187dfcc0>
tensor([[27., 27.],
        [27., 27.]], grad_fn=<MulBackward0>) tensor(27., grad_fn=<MeanBackward1>)


In [34]:
a = torch.randn(2, 2)
a = ((a * 3) / (a - 1))
print(a.requires_grad)
a.requires_grad_(True)
print(a.requires_grad)
b = (a * a).sum()
print(b.grad_fn)

False
True
<SumBackward0 object at 0x1187dfe10>


# 梯度

In [35]:
out.backward()
print(x.grad)

tensor([[4.5000, 4.5000],
        [4.5000, 4.5000]])


In [36]:
# 雅可比向量积的这一特性使得将外部梯度输入到具有非标量输出的模型中变得非常方便。
x = torch.randn(3, requires_grad=True)

y = x * 2
while y.data.norm() < 1000:
    y = y * 2

print(y)

tensor([ 244.9386,  188.2238, 1050.6339], grad_fn=<MulBackward0>)


在这种情况下，y不再是标量。torch.autograd不能直接计算完整的雅可比矩阵，但是如果我们只想要雅可比向量积，只需将这个向量作为参数传给backward：


In [38]:
v = torch.tensor([0.1, 1.0, 0.0001], dtype=torch.float)
y.backward(v)

print(x.grad)

tensor([1.0240e+02, 1.0240e+03, 1.0240e-01])


为了防止跟踪历史记录（和使用内存），可以将代码块包装在with torch.no_grad():中。在评估模型时特别有用，因为模型可能具有requires_grad = True的可训练的参数，但是我们不需要在此过程中对他们进行梯度计算。

也可以通过将代码块包装在 with torch.no_grad(): 中，来阻止autograd跟踪设置了 .requires_grad=True 的张量的历史记录。

In [39]:
print(x.requires_grad)
print((x ** 2).requires_grad)

with torch.no_grad():
    print((x ** 2).requires_grad)

True
True
False


More information can be found via the link
https://pytorch.org/docs/stable/autograd.html

# Neural Networks 