# 数据操作

n维数组，也称**张量(tensor)**，类似numpy的ndarray

pytorch的张量**优势**：
  - 支持GPU加速计算
  - 支持自动微分


## 入门

介绍一些基本的数值计算工具

In [1]:
# 首先导入pytorch
import torch

**张量**可以有多个维度，1个维的称为**向量(vector)**，2个维的称为**矩阵(matrix)**，张量的每个值称为**元素(element)**，**维度(dim)**从0开始数

使用**arange()**创建一个行向量
默认为整数，也可以指定为浮点数
默认存储在内存中，采用CPU计算，也可以指定GPU

In [None]:
#创建向量x包含0-11的整数
x = torch.arange(12)
x

tensor([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

张量的形状：**shape属性**，每个维度的长度

In [3]:
x.shape

torch.Size([12])

张量的大小size：**numel()**，元素总和

In [5]:
x.numel()

12

重新设置形状：**reshape()**，不改变向量的大小

In [None]:
# 将张量x从形状(12,)变为(3,4)
X = x.reshape((3,4))
X

tensor([[ 0,  1,  2],
        [ 3,  4,  5],
        [ 6,  7,  8],
        [ 9, 10, 11]])

reshape支持自动计算维度长度，可以用-1作为填充值

上述例子中把大小12的向量变成3行4列的矩阵，只知道3行时也能计算出4列，可以写成**x.reshape(3,-1)**，同理可以写成**x.reshape(-1,4)**

pytorch支持位置参数和元组参数两种传参方式，效果是一样的：
  - 位置参数：x.reshape((3,4))
  - 元组参数：x.reshape(3,4)

全0张量：zeros()

In [10]:
torch.zeros((2,3,4))

tensor([[[0., 0., 0., 0.],
         [0., 0., 0., 0.],
         [0., 0., 0., 0.]],

        [[0., 0., 0., 0.],
         [0., 0., 0., 0.],
         [0., 0., 0., 0.]]])

全1张量：ones()

In [None]:
torch.ones((2,3,4))

tensor([[[1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.]],

        [[1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.]]])

从标准高斯分布(标准正态分布，均值0、方差1)随机采样：randn()

In [19]:
torch.randn((3,4))

tensor([[-1.1700, -0.6251,  0.9586,  0.3610],
        [-0.8830, -1.0980, -0.7370,  0.5211],
        [-0.4225, -0.3137,  0.5396, -0.9068]])

还可以用python的列表、numpy的数组等初始化张量

In [20]:
torch.tensor([[1,2,3,4], [4,2,3,1], [3,4,2,1]])

tensor([[1, 2, 3, 4],
        [4, 2, 3, 1],
        [3, 4, 2, 1]])

## 运算符

**标量运算**：**按元素**计算，对应位置的元素做计算
- 一元函数：求幂exp()，对每个元素求幂
- 二元函数：相同形状的张量可进行加减乘除幂运算等


In [21]:
x = torch.tensor([1.0, 2,3,4])
y = torch.tensor([2,2,2,2])
# 二元函数对应位置计算
(x+y, x-y, x*y, x/y, x**y)

(tensor([3., 4., 5., 6.]),
 tensor([-1.,  0.,  1.,  2.]),
 tensor([2., 4., 6., 8.]),
 tensor([0.5000, 1.0000, 1.5000, 2.0000]),
 tensor([ 1.,  4.,  9., 16.]))

In [22]:
# 一元函数求幂
torch.exp(x)

tensor([ 2.7183,  7.3891, 20.0855, 54.5981])

**连接(concatenate)**：**cat()**，将两个张量**端对端拼接**，给出张量和拼接的**度dim**

In [23]:
X = torch.arange(12, dtype=torch.float32).reshape((3,4))
Y = torch.tensor([[2.0, 1, 4, 3], [1, 2, 3, 4], [4, 3, 2, 1]])
# 第0维：按行拼接
# 第1维：按列拼接
(torch.cat((X,Y), dim=0), torch.cat((X,Y), dim=1))

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.],
         [ 2.,  1.,  4.,  3.],
         [ 1.,  2.,  3.,  4.],
         [ 4.,  3.,  2.,  1.]]),
 tensor([[ 0.,  1.,  2.,  3.,  2.,  1.,  4.,  3.],
         [ 4.,  5.,  6.,  7.,  1.,  2.,  3.,  4.],
         [ 8.,  9., 10., 11.,  4.,  3.,  2.,  1.]]))

通过**逻辑运算符**构建张量，元素值为真(true/1)、假(false/0)

In [24]:
X == Y

tensor([[False,  True, False,  True],
        [False, False, False, False],
        [False, False, False, False]])

对所有元素求和**sum()**，得到单元素张量

In [25]:
X.sum()

tensor(66.)

## 广播机制

对于形状不同的张量可以通过**广播机制**来执行按元素操作
- 要求：从最后一个维度开始比较，要么相等，要么有一方为1

In [None]:
# 对于3行1列的矩阵与1行2列的矩阵相加时：
# - 前者复制1列变成3行2列
# - 后者复制2行变成3行2列
# - 然后相加

a = torch.arange(3).reshape((3,1))
b = torch.arange(2).reshape((1,2))
a+b

tensor([[0, 1],
        [1, 2],
        [2, 3]])

In [51]:
a = torch.arange(6).reshape((3,2,1))
b = torch.arange(3).reshape((1,3)) # 看成(1,1,3)
# (3,2,1)和(1,1,3)每个维度都不等，但是都有一方为1
a+b

tensor([[[0, 1, 2],
         [1, 2, 3]],

        [[2, 3, 4],
         [3, 4, 5]],

        [[4, 5, 6],
         [5, 6, 7]]])

In [52]:
a = torch.arange(6).reshape((3,1,1))
b = torch.arange(3).reshape((1,3)) # 看成(1,1,3)
# (3,1,2)和(1,1,3)最后一维既不相等，也没有1，报错
a+b

RuntimeError: shape '[3, 1, 1]' is invalid for input of size 6

## 索引和切片

张量可以通过索引访问，第一个元素索引为0，最后一个元素索引为-1，支持切片

In [27]:
# 访问X的最后一个元素
# 切片：第2个和第三个元素
(X[-1], X[1:3])

(tensor([ 8.,  9., 10., 11.]),
 tensor([[ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.]]))

指定索引写入

In [29]:
X[1,2] = 14
X

tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  5., 14.,  7.],
        [ 8.,  9., 10., 11.]])

指定切片写入

In [31]:
# 将第2行和第3行变为15
X[1:3, :] = 15
X

tensor([[ 0.,  1.,  2.,  3.],
        [15., 15., 15., 15.],
        [15., 15., 15., 15.]])

## 节省内存

运行操作会为新结果分配内存，如 Y=X+Y，Y会指向新分配的张量

In [None]:
# id()可以知道对象的确切地址
before = id(Y)
Y = Y+X
id(Y) == before

False

可以用**切片**执行**原地操作**，不产生新的对象

In [35]:
Z = torch.zeros_like(Y)
print("id(Z): ", id(Z))
Z[:] = X + Y
print("id(Z): ", id(Z))

id(Z):  1755679266352
id(Z):  1755679266352


如果后续不需要原值，可以用原地操作节省内存
可以用**切片**，也可以用**复合赋值运算符**(+=, -=等)

In [36]:
before = id(X)
X += Y
id(X) == before

True

## 转换为其他python对象

pyhton的列表、numpy的数组、pytorch张量之间可以很简单的互相转换

In [38]:
# torch张量转换成numpy数组
A = X.numpy()
# numpy数组转换成torch张量
B = torch.tensor(A)
(type(A), type(B))

(numpy.ndarray, torch.Tensor)

将大小为1得到张量转换为python标量：item()、内置函数等

In [39]:
a = torch.tensor([3.5])
(a, a.item(), float(a), int(a))

(tensor([3.5000]), 3.5, 3.5, 3)