In [1]:
import torch

In [2]:
print(torch.__version__)

0.4.1


In [6]:
from __future__ import print_function
import torch as t

In [8]:
# 构建 5x3 矩阵，只是分配了空间，未初始化
x=t.Tensor(5,3)
x

tensor([[0.0000e+00, 0.0000e+00, 0.0000e+00],
        [0.0000e+00, 1.1446e+24, 4.1754e-41],
        [0.0000e+00, 0.0000e+00, 0.0000e+00],
        [0.0000e+00, 2.1019e-44, 0.0000e+00],
        [6.5163e-32, 5.0727e-43, 6.5163e-32]])

In [9]:
# 使用[0,1]均匀分布随机初始化二维数组
x=t.rand(5,3)
x

tensor([[0.7630, 0.9882, 0.6546],
        [0.7617, 0.7773, 0.9930],
        [0.1289, 0.9791, 0.1733],
        [0.7015, 0.3995, 0.5282],
        [0.4517, 0.0495, 0.9574]])

In [10]:
# 查看x的形状
print(x.size())

torch.Size([5, 3])


In [12]:
# 查看列的个数, 两种写法等价
x.size()[1], x.size(1)

(3, 3)

In [14]:
y=t.rand(5,3)
y

tensor([[0.5920, 0.1866, 0.3143],
        [0.4981, 0.7700, 0.2334],
        [0.1928, 0.3741, 0.9404],
        [0.7107, 0.0444, 0.3602],
        [0.5980, 0.0461, 0.2578]])

In [15]:
x+y # 加法的第一种写法

tensor([[1.3551, 1.1748, 0.9688],
        [1.2598, 1.5473, 1.2264],
        [0.3217, 1.3531, 1.1137],
        [1.4122, 0.4439, 0.8884],
        [1.0497, 0.0956, 1.2152]])

In [16]:
t.add(x,y) # 加法的第二种写法

tensor([[1.3551, 1.1748, 0.9688],
        [1.2598, 1.5473, 1.2264],
        [0.3217, 1.3531, 1.1137],
        [1.4122, 0.4439, 0.8884],
        [1.0497, 0.0956, 1.2152]])

In [18]:
# 加法的第三种写法：指定加法结果的输出目标为result
result=t.Tensor(5,3)
result

tensor([[0.0000, 0.0000, 0.0000],
        [0.0000, 0.0000, 0.0000],
        [0.0000, 0.0000, 0.0000],
        [0.0000, 0.0000, 0.0000],
        [0.0000, 0.0000, 0.0000]])

In [19]:
t.add(x,y,out=result)
result

tensor([[1.3551, 1.1748, 0.9688],
        [1.2598, 1.5473, 1.2264],
        [0.3217, 1.3531, 1.1137],
        [1.4122, 0.4439, 0.8884],
        [1.0497, 0.0956, 1.2152]])

In [20]:
print("y: ")
print(y)

y: 
tensor([[0.5920, 0.1866, 0.3143],
        [0.4981, 0.7700, 0.2334],
        [0.1928, 0.3741, 0.9404],
        [0.7107, 0.0444, 0.3602],
        [0.5980, 0.0461, 0.2578]])


In [21]:
print("add1:")
y.add(x) # 普通加法，不改变y的内容
print(y)

add1:
tensor([[0.5920, 0.1866, 0.3143],
        [0.4981, 0.7700, 0.2334],
        [0.1928, 0.3741, 0.9404],
        [0.7107, 0.0444, 0.3602],
        [0.5980, 0.0461, 0.2578]])


In [22]:
print("add2:")
y.add_(x) # inplace 加法，y变了
print(y)

add2:
tensor([[1.3551, 1.1748, 0.9688],
        [1.2598, 1.5473, 1.2264],
        [0.3217, 1.3531, 1.1137],
        [1.4122, 0.4439, 0.8884],
        [1.0497, 0.0956, 1.2152]])


注意，函数名后面带下划线_ 的函数会修改Tensor本身。例如，x.add_(y)和x.t_()会改变 x，但x.add(y)和x.t()返回一个新的Tensor， 而x不变。

In [23]:
# Tensor的选取操作与Numpy类似
x[:,1]

tensor([0.9882, 0.7773, 0.9791, 0.3995, 0.0495])

In [25]:
x[:,1].size()

torch.Size([5])

In [26]:
a=t.ones(5) # 新建一个全1的Tensor
a

tensor([1., 1., 1., 1., 1.])

In [27]:
b=a.numpy() # Tensor -> Numpy
b

array([1., 1., 1., 1., 1.], dtype=float32)

In [28]:
import numpy as np
a=np.ones(5)
b=t.from_numpy(a) # Numpy->Tensor
print(a)
print(b)

[1. 1. 1. 1. 1.]
tensor([1., 1., 1., 1., 1.], dtype=torch.float64)


Tensor和numpy对象共享内存，所以他们之间的转换很快，而且几乎不会消耗什么资源。但这也意味着，如果其中一个变了，另外一个也会随之改变。

In [29]:
b.add_(1) # 以`_`结尾的函数会修改自身
print(a)
print(b) # Tensor和Numpy共享内存

[2. 2. 2. 2. 2.]
tensor([2., 2., 2., 2., 2.], dtype=torch.float64)


Tensor可通过.cuda 方法转为GPU的Tensor，从而享受GPU带来的加速运算。

In [33]:
# 在不支持CUDA的机器下，下一步不会运行
if t.cuda.is_available():
    x=x.cuda()
    y=y.cuda()
    x+y

RuntimeError: generic_type: cannot initialize type "_CudaDeviceProperties": an object with that name is already defined

# Autograd: 自动微分
深度学习的算法本质上是通过反向传播求导数，而PyTorch的`Autograd`模块则实现了此功能。在Tensor上的所有操作，Autograd都能为它们自动提供微分，避免了手动计算导数的复杂过程。

`autograd.Variable`是Autograd中的核心类，它简单封装了Tensor，并支持几乎所有Tensor有的操作。Tensor在被封装为Variable之后，可以调用它的`.backward`实现反向传播，自动计算所有梯度。

Variable主要包含三个属性。

- `data`：保存Variable所包含的Tensor
- `grad`：保存`data`对应的梯度，`grad`也是个Variable，而不是Tensor，它和`data`的形状一样。
- `grad_fn`：指向一个`Function`对象，这个`Function`用来反向传播计算输入的梯度，具体细节会在下一章讲解。

In [45]:
from torch.autograd import Variable

In [46]:
# 使用Tensor新建一个Variable
x=Variable(t.ones(2,2),requires_grad=True)
x

tensor([[1., 1.],
        [1., 1.]], requires_grad=True)

In [47]:
y=x.sum()
y

tensor(4., grad_fn=<SumBackward0>)

In [48]:
y.grad_fn

<SumBackward0 at 0x16a0dc2e2b0>

In [49]:
y.backward() # 反向传播,计算梯度

In [50]:
# y = x.sum() = (x[0][0] + x[0][1] + x[1][0] + x[1][1])
# 每个值的梯度都为1
x.grad

tensor([[1., 1.],
        [1., 1.]])

注意：grad在反向传播过程中是累加的(accumulated)，这意味着每一次运行反向传播，梯度都会累加之前的梯度，所以反向传播之前需把梯度清零。

In [51]:
y.backward()
x.grad

tensor([[2., 2.],
        [2., 2.]])

In [52]:
y.backward()
x.grad

tensor([[3., 3.],
        [3., 3.]])

In [53]:
# 以下划线结束的函数是inplace操作，就像add_
x.grad.data.zero_()

tensor([[0., 0.],
        [0., 0.]])

In [54]:
y.backward()
x.grad

tensor([[1., 1.],
        [1., 1.]])

Variable和Tensor具有近乎一致的接口，在实际使用中可以无缝切换。

In [55]:
x=Variable(t.ones(4,5))
y=t.cos(x)
x_tensor_cos=t.cos(x.data)
print(y)
x_tensor_cos

tensor([[0.5403, 0.5403, 0.5403, 0.5403, 0.5403],
        [0.5403, 0.5403, 0.5403, 0.5403, 0.5403],
        [0.5403, 0.5403, 0.5403, 0.5403, 0.5403],
        [0.5403, 0.5403, 0.5403, 0.5403, 0.5403]])


tensor([[0.5403, 0.5403, 0.5403, 0.5403, 0.5403],
        [0.5403, 0.5403, 0.5403, 0.5403, 0.5403],
        [0.5403, 0.5403, 0.5403, 0.5403, 0.5403],
        [0.5403, 0.5403, 0.5403, 0.5403, 0.5403]])