In [1]:
import torch
import numpy as np

pytorch is similar to numpy but can run on GPU

In [3]:
# 创建一个 numpy ndarray
numpy_tensor = np.random.randn(10, 20) # Uniformly distributed floats over [0, 1) and normally distributed
numpy_tensor

array([[ 0.06191989, -0.41222913, -0.78557398,  0.64694303, -1.47365569,
        -1.29847439,  0.06243896, -0.6116409 , -0.60722276,  0.96338425,
        -1.35071806, -2.45575326, -2.04397362, -0.19189195, -0.24039745,
         0.23219301, -0.59517626,  0.83291552, -0.45072781, -0.18976192],
       [-0.86372197, -1.73553531, -0.55897759, -1.67242617,  2.46670261,
         1.08155503, -0.38750959,  0.3954579 , -0.02826794,  0.98628238,
         1.43753395,  0.70333173, -0.22447596, -0.0862116 ,  0.49030129,
         1.23622065, -0.36132387, -0.30580081, -0.60276072,  0.32513557],
       [ 0.97429289,  0.2173625 ,  0.47856582, -1.0435808 , -0.54770982,
        -0.89551609, -0.63466349,  1.23574382,  1.15480442, -0.59924094,
         0.96132239,  0.34528879,  1.39903263,  1.71049909,  0.37806151,
        -0.08721293, -1.55909763,  0.18827277,  1.63383547, -1.1794518 ],
       [ 1.81680978, -1.15031558, -0.26672517,  1.91356811, -0.00275361,
        -1.26786037, -0.7369151 ,  1.26087088,  

In [5]:
# transfer ndarray to tensor in 2 ways
pytorch_tensor1 = torch.Tensor(numpy_tensor)
pytorch_tensor2 = torch.from_numpy(numpy_tensor)

# reverse
# 如果 pytorch tensor 在 cpu 上
numpy_array = pytorch_tensor1.numpy()

# 如果 pytorch tensor 在 gpu 上
numpy_array = pytorch_tensor1.cpu().numpy()

In [None]:
# put tensor on GPU
# 第一种方式是定义 cuda 数据类型
dtype = torch.cuda.FloatTensor # 定义默认 GPU 的 数据类型
gpu_tensor = torch.randn(10, 20).type(dtype)

# 第二种方式更简单，推荐使用
gpu_tensor = torch.randn(10, 20).cuda(0) # 将 tensor 放到第一个 GPU 上
gpu_tensor = torch.randn(10, 20).cuda(1) # 将 tensor 放到第二个 GPU 上


# put it back to cpu
cpu_tensor = gpu_tensor.cpu()

In [None]:
# 可以通过下面两种方式得到 tensor 的大小
print(pytorch_tensor1.shape)
print(pytorch_tensor1.size())

# 得到 tensor 的数据类型
print(pytorch_tensor1.type())

# 得到 tensor 的维度
print(pytorch_tensor1.dim())

# 得到 tensor 的所有元素个数
print(pytorch_tensor1.numel())

torch operations

In [7]:
x = torch.ones(2, 2)
print(x) # 这是一个float tensor

tensor([[1., 1.],
        [1., 1.]])


In [8]:
# 将其转化为整形
x = x.long()
# x = x.type(torch.LongTensor)
print(x)

tensor([[1, 1],
        [1, 1]])


In [9]:
# 再将其转回 float
x = x.float()
# x = x.type(torch.FloatTensor)
print(x)

tensor([[1., 1.],
        [1., 1.]])


In [10]:
x = torch.randn(4, 3)
print(x)

tensor([[-1.1183,  0.9595, -0.2493],
        [ 0.3594,  0.3995, -1.5957],
        [-1.5453,  0.6201, -0.7023],
        [ 0.4077,  0.7170, -0.5429]])


In [12]:
# 沿着行取最大值
max_value, max_idx = torch.max(x, dim=1)
# 每一行的最大值
max_value

tensor([0.9595, 0.3995, 0.6201, 0.7170])

In [13]:
# 每一行最大值的下标
max_idx

tensor([1, 1, 1, 1])

In [14]:
# 沿着行对 x 求和
sum_x = torch.sum(x, dim=1)
print(sum_x)

tensor([-0.4082, -0.8368, -1.6275,  0.5817])


In [15]:
# 增加维度或者减少维度
print(x.shape)
x = x.unsqueeze(0) # 在第一维增加
print(x.shape)
x

torch.Size([4, 3])
torch.Size([1, 4, 3])


tensor([[[-1.1183,  0.9595, -0.2493],
         [ 0.3594,  0.3995, -1.5957],
         [-1.5453,  0.6201, -0.7023],
         [ 0.4077,  0.7170, -0.5429]]])

In [18]:
x = x.unsqueeze(1) # 在第二维增加
print(x.shape)
x

torch.Size([1, 1, 1, 4, 3])


tensor([[[[[-1.1183,  0.9595, -0.2493],
           [ 0.3594,  0.3995, -1.5957],
           [-1.5453,  0.6201, -0.7023],
           [ 0.4077,  0.7170, -0.5429]]]]])

In [19]:
x = x.squeeze(0) # 减少第一维
print(x.shape)

torch.Size([1, 1, 4, 3])


In [20]:
x = x.squeeze() # 将 tensor 中所有的一维全部都去掉
print(x.shape)

torch.Size([4, 3])


In [21]:
x = torch.randn(3, 4, 5)
print(x.shape)

# 使用permute和transpose进行维度交换
x = x.permute(1, 0, 2) # permute 可以重新排列 tensor 的维度
print(x.shape)

x = x.transpose(0, 2)  # transpose 交换 tensor 中的两个维度
print(x.shape)

torch.Size([3, 4, 5])
torch.Size([4, 3, 5])
torch.Size([5, 3, 4])


In [22]:
# 使用 view 对 tensor 进行 reshape
x = torch.randn(3, 4, 5)
print(x.shape)

x = x.view(-1, 5) # -1 表示任意的大小，5 表示第二维变成 5
print(x.shape)

x = x.view(3, 20) # 重新 reshape 成 (3, 20) 的大小
print(x.shape)

torch.Size([3, 4, 5])
torch.Size([12, 5])
torch.Size([3, 20])


pytorch中大多数的操作都支持 inplace 操作，也就是可以直接对 tensor 进行操作而不需要另外开辟内存空间

In [23]:
x = torch.ones(3, 3)
print(x.shape)

# unsqueeze 进行 inplace
x.unsqueeze_(0)
print(x.shape)

# transpose 进行 inplace
x.transpose_(1, 0)
print(x.shape)

torch.Size([3, 3])
torch.Size([1, 3, 3])
torch.Size([3, 1, 3])


In [24]:
x = torch.ones(3, 3)
y = torch.ones(3, 3)
print(x)

# add 进行 inplace
x.add_(y)
print(x)

tensor([[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]])
tensor([[2., 2., 2.],
        [2., 2., 2.],
        [2., 2., 2.]])


In [25]:
x+y

tensor([[3., 3., 3.],
        [3., 3., 3.],
        [3., 3., 3.]])

## variable

tensor 是 PyTorch 中的完美组件，但是构建神经网络还远远不够，我们需要能够构建计算图的 tensor，这就是 Variable。Variable 是对 tensor 的封装，操作和 tensor 是一样的，但是每个 Variabel都有三个属性，Variable 中的 tensor本身.data，对应 tensor 的梯度.grad以及这个 Variable 是通过什么方式得到的.grad_fn

In [27]:
# 通过下面这种方式导入 Variable
from torch.autograd import Variable

x_tensor = torch.randn(10, 5)
y_tensor = torch.randn(10, 5)

# 将 tensor 变成 Variable
x = Variable(x_tensor, requires_grad=True) # 默认 Variable 是不需要求梯度的，所以我们用这个方式申明需要对其进行求梯度
y = Variable(y_tensor, requires_grad=True)

In [28]:
z = torch.sum(x + y)
print(z.data)
print(z.grad_fn)

tensor(-5.5970)
<SumBackward0 object at 0x7f2316ea8790>


上面我们打出了 z 中的 tensor 数值，同时通过grad_fn知道了其是通过 Sum 这种方式得到的

In [29]:
# 求 x 和 y 的梯度
z.backward()

print(x.grad)
print(y.grad)

tensor([[1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.]])
tensor([[1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.]])


## autograd

In [30]:
x = Variable(torch.Tensor([2]), requires_grad=True)
y = x + 2
z = y ** 2 + 3
print(z)

tensor([19.], grad_fn=<AddBackward0>)


In [31]:
# 使用自动求导
z.backward()
print(x.grad)

tensor([8.])


In [32]:
m = Variable(torch.FloatTensor([[2, 3]]), requires_grad=True) # 构建一个 1 x 2 的矩阵
n = Variable(torch.zeros(1, 2)) # 构建一个相同大小的 0 矩阵
print(m)
print(n)

tensor([[2., 3.]], requires_grad=True)
tensor([[0., 0.]])


In [33]:
# 通过 m 中的值计算新的 n 中的值
n[0, 0] = m[0, 0] ** 2
n[0, 1] = m[0, 1] ** 3
print(n)

tensor([[ 4., 27.]], grad_fn=<CopySlices>)


将上面的式子写成数学公式，可以得到
n = (n0,n1) = (m0^2, m1^3)

在 PyTorch 中，如果要调用自动求导，需要往backward()中传入一个参数，这个参数的形状和 n 一样大，比如是 (w0,w1)，那么自动求导的结果就是

In [34]:
n.backward(torch.ones_like(n)) # 将 (w0, w1) 取成 (1, 1)

通过调用 backward 我们可以进行一次自动求导，如果我们再调用一次 backward，会发现程序报错，没有办法再做一次。这是因为 PyTorch 默认做完一次自动求导之后，计算图就被丢弃了，所以两次自动求导需要手动设置一个东西，我们通过下面的小例子来说明。

In [35]:
x = Variable(torch.FloatTensor([3]), requires_grad=True)
y = x * 2 + x ** 2 + 3
print(y)

tensor([18.], grad_fn=<AddBackward0>)


In [36]:
y.backward(retain_graph=True) # 设置 retain_graph 为 True 来保留计算图

In [37]:
print(x.grad)

tensor([8.])


In [38]:
y.backward() # 再做一次自动求导，这次不保留计算图

In [39]:
print(x.grad)

tensor([16.])


可以发现 x 的梯度变成了 16，因为这里做了两次自动求导，所以讲第一次的梯度 8 和第二次的梯度 8 加起来得到了 16 的结果。