# 2.1 数据操作

## 2.1.1 入门

In [1]:
import torch

张量标识一个数值组成的数组，这个数组可能有多个维度。除非额外指定，新的张量将存储在内存中，并采用基于CPU的计算。

In [2]:
x = torch.arange(12)
x

tensor([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

`torch.arange`创建的张量默认为整数，也可以职位创建类型为浮点数。

In [3]:
y = torch.arange(12, dtype=torch.float32).reshape(3, 4)
y

tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11.]])

我们可以通过张量的`shape`属性来访问张量的形状张量中元素的总数

In [4]:
x.shape

torch.Size([12])

In [5]:
x.numel()

12

要改变一个张量的形状而不改变元素数量和元素值，我们可以调用`reshape`函数

In [6]:
X = x.reshape(3, 4)
X


tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]])

我们不需要通过手动

使用全0、全1、其他常量或者从特定分布随机采样的数字

In [7]:
torch.zeros((2, 3, 4))

tensor([[[0., 0., 0., 0.],
         [0., 0., 0., 0.],
         [0., 0., 0., 0.]],

        [[0., 0., 0., 0.],
         [0., 0., 0., 0.],
         [0., 0., 0., 0.]]])

In [8]:
torch.ones(2, 3, 4)

tensor([[[1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.]],

        [[1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.]]])

有时我们想通过某个特定的概率分布中随机采样来得到张量中每个元素的值。例如，当我们构造数组来作为神经网络参数时，我们通常会随机初始化参数的值。以下代码创建一个形状为(3, 4)的张量。七中的每个元素都从均值为0，标准差为1的标准高斯分布(正态分布中随机采样)。

In [9]:
torch.randn(3, 4)

tensor([[-0.2549, -0.1946, -0.7959,  0.7533],
        [ 0.0300, -1.3293,  1.5273, -0.2914],
        [ 1.0374,  0.9919, -0.8054,  0.3090]])

还可以通过提供包含数值的Python列表(或嵌套列表)，来为所需张量中的每个元素赋予确定值。

In [10]:
torch.tensor([[2, 1, 4, 3], [1, 2, 3, 4], [4, 3, 2, 1]])

tensor([[2, 1, 4, 3],
        [1, 2, 3, 4],
        [4, 3, 2, 1]])

## 2.1.2 运算符

对于任意具有相同形状的张量，常见的标准算术运算符都可以省纪委按元素运算。

In [11]:
x = torch.tensor([1.0, 2, 3, 8])
y = torch.tensor([2, 2, 2, 2])
x+y, x-y, x*y, x/y, x**y

(tensor([ 3.,  4.,  5., 10.]),
 tensor([-1.,  0.,  1.,  6.]),
 tensor([ 2.,  4.,  6., 16.]),
 tensor([0.5000, 1.0000, 1.5000, 4.0000]),
 tensor([ 1.,  4.,  9., 64.]))

"按元素"方式可以应用更多的计算，包括求幂这样的一元运算符

In [12]:
torch.exp(x)

tensor([2.7183e+00, 7.3891e+00, 2.0086e+01, 2.9810e+03])

我们也可以把多个张量*连接*(concatenate)在一起，把它们端对端地叠起来形成一个更大的张量。我们只需要提供张量列表，**并给出沿哪个轴连接**。

In [13]:
X = torch.arange(12, dtype=torch.float32).reshape((3, 4))
Y = torch.tensor([[2.0, 1, 4, 3], [1, 2, 3, 4], [4, 3, 2, 1]])
torch.cat((X, Y), dim=0),torch.cat((X, Y), dim=1)

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.],
         [ 2.,  1.,  4.,  3.],
         [ 1.,  2.,  3.,  4.],
         [ 4.,  3.,  2.,  1.]]),
 tensor([[ 0.,  1.,  2.,  3.,  2.,  1.,  4.,  3.],
         [ 4.,  5.,  6.,  7.,  1.,  2.,  3.,  4.],
         [ 8.,  9., 10., 11.,  4.,  3.,  2.,  1.]]))

通过逻辑运算符构建二元张量

In [14]:
X == Y

tensor([[False,  True, False,  True],
        [False, False, False, False],
        [False, False, False, False]])

对张量中的所有元素求和，会产生一个单元素张量

In [15]:
X.sum()

tensor(66.)

## 2.1.3 广播机制

在某些情况下，即使形状不同，我们仍然可以通过调用*广播机制*(broadcasting mechanism)来执行按元素操作。这种机制的工作方式如下：首先，通过适当复制元素来扩展一个或两个数组，使得两个张量具有相同的形状。其次，对生成的张量执行按元素操作。    
在大多数情况下，我们将沿着数组长度为1的轴进行广播。

In [16]:
a = torch.arange(3).reshape(3, 1)
b = torch.arange(2).reshape(1, 2)
a, b

(tensor([[0],
         [1],
         [2]]),
 tensor([[0, 1]]))

由于a和b分别是3x1和1x2矩阵，如果让它们相加，它们的形状不匹配。我们将两个矩阵广播为一个更大的3x2矩阵：将a复制列，b复制行。然后按元素相加。

In [17]:
a+b

tensor([[0, 1],
        [1, 2],
        [2, 3]])

## 2.1.4 索引和切片

可以用`[-1]`选择最后一个元素，用`[1:3]`选择第1个和第2个元素

In [18]:
X[-1], X[1:3]

(tensor([ 8.,  9., 10., 11.]),
 tensor([[ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.]]))

除了读取外，我们还可以通过指定索引来将元素写入矩阵

In [19]:
X[1, 2] = 9
X

tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  9.,  7.],
        [ 8.,  9., 10., 11.]])

如果我们想为多个元素赋值相同的值，我们只需要索引所有的元素，然后为它们赋值。

In [20]:
X[0:2, :] = 12
X

tensor([[12., 12., 12., 12.],
        [12., 12., 12., 12.],
        [ 8.,  9., 10., 11.]])

## 2.1.5 节省内存

Python的`id()`函数类似于C++中的指针。    
运行一些操作可能会导致为新结果分配内存。例如我们如果用Y=X+Y, 我们将取消引用Y指向的张量，而是指向新分配的内存处的张量。   
在下面的例子中，我们用Python的`id()`函数演示了这一点，他给我们提供了内存引用对象的确切地址。运行Y=X+Y之后，我们会发现`id(Y)`指向另一个位置。这是因为Python首先计算Y+X，为结果分配新的内存，然后使Y指向内存中的这个新位置。

In [21]:
before = id(Y)
Y = Y + X
id(Y) == before

False

这可能是不可取的，原因有两个：首先，我们不想总是不必要地分配内存。在机器学习中，我们可能有数百兆的参数，并且在一秒内多次更新所有参数，通常情况下，我们希望原地执行这些更新操作。其次，如果我们不原地更新，其他引用仍然会指向旧的内存位置，这样我们某些代码可能会无意中引用旧的参数。    
我们可以用切片表示法将操作的结果分配给先前分配的数组。

In [22]:
Z = torch.zeros_like(Y)
print('id(Z):', id(Z))
Z[:] = X + Y
print('id(Z):', id(Z))

id(Z): 1946616982288
id(Z): 1946616982288


如果在后续过程中没有使用X，我们也可以通过X[:]=X+Y或者**X+=Y**来减少操作的内存开销

In [23]:
before = id(X)
X += Y
id(X) == before

True

## 2.1.6 转换为其他Python对象

将深度学习框架定义的张量转换为NumPy张量(ndarray)很容易，反之也同样容易。转换后的结果不共享内存。这个小的不便实际上非常重要的：当你的CPU或GPU上执行操作时，如果Python的NumPy包也希望使用相同的内存块执行操作，你不希望停下来计算它。

In [24]:
import numpy as np
A = X.numpy()
B = torch.tensor(A)
type(A), type(B)

(numpy.ndarray, torch.Tensor)

要将大小为1的张量转换为Python标量，我们可以调用`item()`函数或者Python的内置函数。

In [25]:
a = torch.tensor([3.5])
a, a.item(), float(a), int(a)

(tensor([3.5000]), 3.5, 3.5, 3)