In [14]:
import torch
import numpy as np

## 数据类型

In [2]:
x = torch.arange(12)
x

tensor([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [3]:
x.shape

torch.Size([12])

In [4]:
x.numel()

12

In [5]:
X = x.reshape(3, 4)
X

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]])

In [6]:
x.shape

torch.Size([12])

In [7]:
x.numel()

12

In [8]:
X = x.reshape(2, -1)
X

tensor([[ 0,  1,  2,  3,  4,  5],
        [ 6,  7,  8,  9, 10, 11]])

In [9]:
X = x.reshape(-1, 5)
X

RuntimeError: shape '[-1, 5]' is invalid for input of size 12

In [10]:
np.zeros((2, 3, 4))

array([[[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]],

       [[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]]])

In [11]:
torch.randn(2, 3, 4)

tensor([[[ 0.6956,  0.0832, -0.7122,  0.2005],
         [ 1.7719, -1.0342,  0.1365, -1.7408],
         [-1.0587, -0.3618,  0.0223,  0.9754]],

        [[ 0.3207,  1.4005, -1.2151, -0.0663],
         [ 0.2547, -0.2127, -0.6607,  0.7077],
         [ 0.7447,  0.4846,  0.5035,  0.8594]]])

In [12]:
torch.tensor([[2, 1, 4, 3], [1, 2, 3, 4], [4, 3, 2, 1]])

tensor([[2, 1, 4, 3],
        [1, 2, 3, 4],
        [4, 3, 2, 1]])

## 运算

In [15]:
x = torch.tensor([1.0, 2, 4, 8])
y = torch.tensor([2, 2, 2, 2])
x + y, x - y, x * y, x / y, x ** y  # **运算符是求幂运算

(tensor([ 3.,  4.,  6., 10.]),
 tensor([-1.,  0.,  2.,  6.]),
 tensor([ 2.,  4.,  8., 16.]),
 tensor([0.5000, 1.0000, 2.0000, 4.0000]),
 tensor([ 1.,  4., 16., 64.]))

In [16]:
type(x)

torch.Tensor

In [21]:
x.dtype

torch.float32

In [22]:
y.dtype

torch.int64

In [20]:
x.numpy()

array([1., 2., 4., 8.], dtype=float32)

In [23]:
y.numpy()

array([2, 2, 2, 2], dtype=int64)

In [26]:
X = torch.ones(3, 4)
Y = torch.zeros(3, 4)

In [27]:
# X
# Y
torch.cat((X, Y), dim=0)

tensor([[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]])

In [28]:
# X|Y
torch.cat((X, Y), dim=1)

tensor([[1., 1., 1., 1., 0., 0., 0., 0.],
        [1., 1., 1., 1., 0., 0., 0., 0.],
        [1., 1., 1., 1., 0., 0., 0., 0.]])

In [29]:
X.sum()

tensor(12.)

### broadcast

In [30]:
a = torch.arange(3).reshape((3, 1))
b = torch.arange(2).reshape((1, 2))
a, b

(tensor([[0],
         [1],
         [2]]),
 tensor([[0, 1]]))

In [32]:
# 由于a和b分别是 3*1 和 1*2 矩阵，如果让它们相加，它们的形状不匹配。 我们将两个矩阵广播为一个更大的矩阵，如下所示：
# 矩阵a将复制列， 矩阵b将复制行，然后再按元素相加。
a + b

tensor([[0, 1],
        [1, 2],
        [2, 3]])

In [33]:
# 实际是这个运算逻辑
a = torch.tensor([[0, 0], [1, 1], [2, 2]])
b = torch.tensor([[0, 1], [0, 1], [0, 1]])
a + b

tensor([[0, 1],
        [1, 2],
        [2, 3]])

### index and slice

In [34]:
X[-1], X[1:3]

(tensor([1., 1., 1., 1.]),
 tensor([[1., 1., 1., 1.],
         [1., 1., 1., 1.]]))

In [35]:
X[1, 2] = 9
X

tensor([[1., 1., 1., 1.],
        [1., 1., 9., 1.],
        [1., 1., 1., 1.]])

In [36]:
X[0:2, :] = 12
X

tensor([[12., 12., 12., 12.],
        [12., 12., 12., 12.],
        [ 1.,  1.,  1.,  1.]])

In [38]:
X[0:2, 1:3] = -1
X

tensor([[12., -1., -1., 12.],
        [12., -1., -1., 12.],
        [ 1.,  1.,  1.,  1.]])

### memory

In [43]:
before = id(Y)
before

1941361513856

In [47]:
Y = Y + X

In [48]:
# 内存地址有改变，说明数值的更新并不是原地更新
id(Y), id(Y) == before

(1941361520496, False)

这是不可取的，原因有两个：
1. 首先，我们不想总是不必要地分配内存。在机器学习中，我们可能有数百兆的参数，并且在一秒内多次更新所有参数。通常情况下，我们希望原地执行这些更新；
2. 如果我们不原地更新，其他引用仍然会指向旧的内存位置，这样我们的某些代码可能会无意中引用旧的参数。

In [51]:
before = id(X)
X += Y
id(X) == before

True

自增等操作可以原地赋值

In [50]:
Z = torch.zeros_like(Y)
print('id(Z):', id(Z))
Z[:] = X + Y
print('id(Z):', id(Z))

id(Z): 1941361517696
id(Z): 1941361517696


Z[:]可以在原数据上操作