# 数据操作

## N维数组样例
N维数组是机器学习和神经网络的主要数据结构
- 0-d 标量 一个类别
- 1-d 向量 一个特征向量
- 2-d 矩阵 一个样本-特征矩阵
- 3-d RGB图片（宽 × 高 × 通道）
- 4-d 一个RGB图片批量（批量大小 × 宽 × 高 × 通道）

## 创建数组
创建数组需要
- 形状：例如3×4的矩阵
- 每个元素的数据类型
- 每个元素的值：例如随机数，0等

In [48]:
import torch

张量（tensor）是一个由数值组成的数组，这个数组可以有多个维度

In [49]:
x = torch.arange(0,12,3) # [0,12),步长为3的一维tensor
print(x)
y = torch.zeros(3,4)
print(y)

tensor([0, 3, 6, 9])
tensor([[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]])


可以通过`shape`属性访问tensor的形状和通过`numel`函数得到tensor的元素总数

In [50]:
x.shape, y.shape, x.numel(), y.numel()

(torch.Size([4]), torch.Size([3, 4]), 4, 12)

改变一个tensor的形状而不改变元素数量和元素值，使用`reshape`函数

In [51]:
x = torch.arange(0,20,2)
X = x.reshape(2,5)
X

tensor([[ 0,  2,  4,  6,  8],
        [10, 12, 14, 16, 18]])

创建全零全1全随机的tensor `zeros`函数 `ones`函数 `randn`函数

In [52]:
torch.zeros(3,3)

tensor([[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]])

In [53]:
torch.ones(3,4)

tensor([[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]])

In [54]:
torch.randn(2,3)

tensor([[-0.8481,  1.1079, -0.1201],
        [ 1.4731,  0.8983, -0.0908]])

通过提供包含数值的Python列表来为所需tensor中的每个元素赋予确定值

In [55]:
torch.tensor([[2, 1, 4, 3], [1, 2, 3, 4], [4, 3, 2, 1]])

tensor([[2, 1, 4, 3],
        [1, 2, 3, 4],
        [4, 3, 2, 1]])

常见的标准算术运算符（`+`、`-`、`*`、`/` 和 `**`(x的y次方)）都可以被升级为**按元素运算**

In [56]:
x = torch.tensor([1.0, 2, 4, 8])
y = torch.tensor([3, 3, 3, 3])
x + y, x - y, x * y, x / y, x ** y

(tensor([ 4.,  5.,  7., 11.]),
 tensor([-2., -1.,  1.,  5.]),
 tensor([ 3.,  6., 12., 24.]),
 tensor([0.3333, 0.6667, 1.3333, 2.6667]),
 tensor([  1.,   8.,  64., 512.]))

按元素计算e的x次方

In [57]:
torch.exp(x)

tensor([2.7183e+00, 7.3891e+00, 5.4598e+01, 2.9810e+03])

把多个tensor连结concatenate在一起，使用`cat`函数

In [58]:
X = torch.arange(12, dtype=torch.float32).reshape((3,4))
X

tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11.]])

In [59]:
Y = torch.tensor([[2.0, 1, 4, 3], [1, 2, 3, 4], [4, 3, 2, 1]])
Y

tensor([[2., 1., 4., 3.],
        [1., 2., 3., 4.],
        [4., 3., 2., 1.]])

In [60]:
torch.cat((X, Y), dim=0) # 按行合并（增加行数）

tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11.],
        [ 2.,  1.,  4.,  3.],
        [ 1.,  2.,  3.,  4.],
        [ 4.,  3.,  2.,  1.]])

In [61]:
torch.cat((X, Y), dim=1) # 按列合并（增加列数）

tensor([[ 0.,  1.,  2.,  3.,  2.,  1.,  4.,  3.],
        [ 4.,  5.,  6.,  7.,  1.,  2.,  3.,  4.],
        [ 8.,  9., 10., 11.,  4.,  3.,  2.,  1.]])

通过逻辑运算符构建二元tensor

In [62]:
X == Y

tensor([[False,  True, False,  True],
        [False, False, False, False],
        [False, False, False, False]])

对tensor中的所有元素进行求和，产生一个只有一个元素的tensor

In [63]:
X.sum()

tensor(66.)

**广播机制**broadcasting mechanism：即使形状不同的tensor也可以执行按元素操作

In [64]:
a = torch.arange(3).reshape((3, 1))
b = torch.arange(2).reshape((1, 2))
a, b

(tensor([[0],
         [1],
         [2]]),
 tensor([[0, 1]]))

In [65]:
a + b # 将a复制一列成(3, 2)的矩阵，将b复制三行成(3, 2)的矩阵，再相加

tensor([[0, 1],
        [1, 2],
        [2, 3]])

**选择元素**：`[-1]`选择最后一个元素，`[1:3]`选择索引为1和2的元素（**左闭右开**）

In [66]:
X

tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11.]])

In [67]:
X[-1]

tensor([ 8.,  9., 10., 11.])

In [68]:
X[1:3]

tensor([[ 4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11.]])

指定索引将元素写入矩阵

In [71]:
X[1, 2] = 100
X

tensor([[  0.,   1.,   2.,   3.],
        [  4.,   5., 100.,   7.],
        [  8.,   9.,  10.,  11.]])

为多个元素赋值相同的值，我们只需要索引所有元素，然后为它们赋值

In [72]:
X[0:2, 0:2] = 99
X

tensor([[ 99.,  99.,   2.,   3.],
        [ 99.,  99., 100.,   7.],
        [  8.,   9.,  10.,  11.]])

运行一些操作可能会导致为新结果分配内存，即之间的值的内存已经被析构

In [73]:
before = id(Y)
Y = Y + X
id(Y) == before

False

解决办法是使用`Y += X`或`Y[:] = X + Y`来避免分配新内存，以减少内存开销

In [74]:
before = id(Y)
Y += X
id(Y) == before

True

Tensor <-> NumPy张量

In [75]:
A = X.numpy()
B = torch.tensor(A)
type(A), type(B)

(numpy.ndarray, torch.Tensor)

大小为1的tensor <-> Python标量

In [77]:
a = torch.tensor([3.5])
a, a.item, float(a), int(a)

(tensor([3.5000]), <function Tensor.item>, 3.5, 3)