In [2]:
import torch

使用arange创建一个行向量x。这个行向量包含以0开始的前12个整数（默认创建整数）。

In [3]:
x=torch.arange(12)
x

tensor([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

可以通过张量的shape属性来访问张量（沿每个轴的长度）的形状。

In [5]:
x.shape

torch.Size([12])

如果只想知道张量中元素的综述，即形状的所有元素乘积，可以检查它的大小（size）

In [6]:
x.numel()

12

要想改变一个张量的形状而不改变元素数量和元素值，可以调用reshape函数。

In [7]:
X=x.reshape(3,4)
X

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]])

也可以通过-1来自动计算出维度。

In [8]:
x.reshape(-1,4)

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]])

In [9]:
x.reshape(3,-1)

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]])

有时，我们希望使用全0、全1、其他常量，或者从特定分布中随机采样的数字来初始化矩阵。我们可以创建一个形状为（2,3,4）的张量，其中所有元素都设置为0。

In [10]:
torch.zeros((2,3,4)) # 注意两个括号

tensor([[[0., 0., 0., 0.],
         [0., 0., 0., 0.],
         [0., 0., 0., 0.]],

        [[0., 0., 0., 0.],
         [0., 0., 0., 0.],
         [0., 0., 0., 0.]]])

同样，我们可以创建一个形状为（2，3，4）的张量，其中所欲元素都设置为1。

In [11]:
torch.ones((2,3,4))

tensor([[[1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.]],

        [[1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.]]])

生成随机数

In [12]:
torch.randn(3,4)

tensor([[-0.5149, -0.6680, -0.7535,  0.1487],
        [ 0.6508,  0.4483,  2.3212,  1.4149],
        [ 1.5409,  1.4272, -0.4532, -1.4534]])

# 2.1.2 运算符

加减乘除，按元素运算。

把多个张量连结在一起，把它们端到端地叠起来形成一个更大的张量。
下面的例子分别演示了当我们沿行（轴-0，形状的第一个元素）和按列(轴-1，形状的第二个元素)连结两个矩阵时的结果。

In [13]:
X=torch.arange(12,dtype=torch.float32).reshape((3,4))
Y=torch.tensor([[2.0,1,4,3],[1,2,3,4],[4,3,2,1]])
torch.cat((X,Y),dim=0),torch.cat((X,Y),dim=1)

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.],
         [ 2.,  1.,  4.,  3.],
         [ 1.,  2.,  3.,  4.],
         [ 4.,  3.,  2.,  1.]]),
 tensor([[ 0.,  1.,  2.,  3.,  2.,  1.,  4.,  3.],
         [ 4.,  5.,  6.,  7.,  1.,  2.,  3.,  4.],
         [ 8.,  9., 10., 11.,  4.,  3.,  2.,  1.]]))

# 2.1.3 广播机制
在某些情况下，即使形状不同，我们仍然可以通过调用广播机制来执行按元素操作。
这种机制的工作方式如下：首先，通过适当复制元素来扩展一个或两个数组，以便在转换之后，两个张量具有相同的形状。其次，对生成的数组执行按元素操作。
在大多数情况下，我们将沿着数组中长度为1的轴进行广播，如下：

In [14]:
a=torch.arange(3).reshape((3,1))
b=torch.arange(2).reshape((1,2))
a,b

(tensor([[0],
         [1],
         [2]]),
 tensor([[0, 1]]))

a,b两个矩阵直接相加，形状不匹配。将两个矩阵广播为一个更大的3*2矩阵。如下所示：矩阵a将复制列，矩阵b将复制行，然后再按元素相加。

In [15]:
a+b

tensor([[0, 1],
        [1, 2],
        [2, 3]])

# 2.1.4 索引和切片
第一个元素的索引是0；用[-1]选择最后一个元素，可以用[1:3]选择第二个和第三个元素：

In [17]:
X,X[-1],X[1:3]

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.]]),
 tensor([ 8.,  9., 10., 11.]),
 tensor([[ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.]]))

如果想为多个元素赋相同的值，我们只需要索引所有元素，然后为它们赋值

In [18]:
X[0:2,:]=12 # 第0，1行全部被赋值为12
X

tensor([[12., 12., 12., 12.],
        [12., 12., 12., 12.],
        [ 8.,  9., 10., 11.]])

# 2.1.5 节省内存
运行一些操作可能会导致为新结果分配内存。 例如，如果我们用Y = X + Y，我们将取消引用Y指向的张量，而是指向新分配的内存处的张量。

在下面的例子中，我们用Python的id()函数演示了这一点， 它给我们提供了内存中引用对象的确切地址。 运行Y = Y + X后，我们会发现id(Y)指向另一个位置。 这是因为Python首先计算Y + X，为结果分配新的内存，然后使Y指向内存中的这个新位置。

In [19]:
before=id(Y)
Y=Y+X
id(Y)==before # 相加后的Y地址与相加前的地址不同

False

这可能是不可取的，原因有两个：首先，我们不想总是不必要地分配内存。 在机器学习中，我们可能有数百兆的参数，并且在一秒内多次更新所有参数。 通常情况下，我们希望原地执行这些更新。 其次，如果我们不原地更新，其他引用仍然会指向旧的内存位置， 这样我们的某些代码可能会无意中引用旧的参数。

幸运的是，执行原地操作非常简单。 我们可以使用切片表示法将操作的结果分配给先前分配的数组，例如Y[:] =\<expression\>。 为了说明这一点，我们首先创建一个新的矩阵Z，其形状与另一个Y相同， 使用zeros_like来分配一个全 0 的块。

In [20]:
Z=torch.zeros_like(Y)
print('id(Z):',id(Z))
Z[:]=X+Y
print('id(Z):',id(Z))

id(Z): 1240793929184
id(Z): 1240793929184


如果在后续计算中没有重复使用X，我们也可以使用X[:]=X+Y或X+=Y来减少操作的内存开销。

In [21]:
before=id(X)
X+=Y
id(X)==before

True

# 2.1.6 转换为其他python对象


转换为numpy张量（ndarray）

In [22]:
A=X.numpy()
B=torch.tensor(A)
type(A),type(B)

(numpy.ndarray, torch.Tensor)

要将大小为1的张量转换为python标量，我们可以调用item函数或python的内置函数。

In [23]:
a=torch.tensor([3.5])
a,a.item(),float(a),int(a)

(tensor([3.5000]), 3.5, 3.5, 3)