# Tensors

Tensor 是 Pytorch 中最核心的数据结构，在 Pytorch 中几乎所有的形式的数据都在用 Tensor表示，模型的输入与输出格式都是 Tensor。它是一种多维数组结构，类似于 NumPy 的 `ndarray`，但具有更高的灵活性和 GPU 加速的能力。Tensor 的特点和操作在计算图（Computational Graph）中可以高效地支持梯度计算，适合自动微分（Autograd），因此在构建和训练神经网络时被广泛使用。

In [1]:
import torch
from torch import Tensor
import numpy as np

## Tensor的属性

### Tensor 的数据类型

torch 在创建 Tensor 时，`dtype`的指定只支持使用`torch.[DataType]`这样的方式去指定，而不能像numpy一样，可以直接使用字符串。

以下显示了从 `List` 创建一个新的 Tensor 时，同时指定了创建的 Tensor 的数值类型为 `int`，如果不显示的指定，那么默认是 `torch.int64`

In [2]:
t1 = torch.tensor([1, 2, 3], dtype=torch.int)
t2 = torch.tensor([1, 2, 3])
print(f"dtype of t1: {t1.dtype}")
print(f"dtype of t2: {t2.dtype}")

dtype of t1: torch.int32
dtype of t2: torch.int64


区别于 Torch，在 Numpy 中 "int" 默认代表的是 `int64`:

In [3]:
t = np.array([1, 2, 3], dtype="int")
print(f"dtype of t: {t.dtype}")

dtype of t: int64


其中`torch.dtype`表示Tensor的数据类型，常见的有下面几种不同的数据类型，和 c/c++ 中的表示是比较一致的。

浮点类型：

- `torch.float32`或`torch.float`
- `torch.float64`或`torch.double`
- `torch.float16`或`torch.half`
- `torch.bfloat16`

整数类型

- `torch.uint8`
- `torch.int8`
- `torch.int16`
- `torch.int32`
- `torch.int64`

布尔类型

- `torch.bool`

虚数类型


- `torch.complex32`: complex32 目前只是实验性的支持，后续可能会取消支持
- `torch.complex64`
- `torch.complex128`或`torch.cdouble`

虚数类型的 Tensor 在深度学习中使用的比较少，最近随机大语言模型的兴起，在相对旋转位置编码（RoPE）中有所使用。下面的代码演示了虚数 Tensor 的创建。

In [4]:
# 创建一个 Complex64 张量
real_part = torch.randn(3, 3)  # 实部
imag_part = torch.randn(3, 3)  # 虚部
complex_tensor = torch.complex(
    real_part, imag_part
)  # 构建出来的 Tensor 默认是 complex64 类型

print(complex_tensor)
print(complex_tensor.dtype)  # 输出: torch.complex64
complex_tensor = complex_tensor.to(dtype=torch.cdouble)
print(complex_tensor.dtype)  # 输出: torch.complex128

tensor([[ 1.6260+0.2726j,  1.2438+0.0740j,  0.4589+0.9147j],
        [ 0.0079+0.6308j, -0.6461+0.2834j, -2.4735-0.7730j],
        [ 0.5586-0.5617j, -1.3726+1.1622j,  0.4843+1.2107j]])
torch.complex64
torch.complex128


[`bfloat16`](https://en.wikipedia.org/wiki/Bfloat16_floating-point_format)是一种和IEEE half-precision 16-bit float规定不一致的16Bit浮点数格式，它是直接对32位的IEEE 754规定的单精度float32的格式进行截取形成的，它是为机器学习系统特别定制的，它的组成是：
- 1位符号位
- 8个指数位
- 7个小数位

神经网络对指数的大小比对尾数的大小更敏感，也就是对数值的表示范围比较敏感。为了确保下溢、上溢和`NaN`的行为完全相同，`bfloat16`的指数大小与`float32`相同。`bfloat16`处理非规格化数的规则与`float32`不同，它会将它们截断为零。与通常需要特殊处理，如损失缩放的`float16`不同，`bfloat16`是训练和运行深度神经网络时`float32`的即插即用替换。

简而言之，`bfloat16`表示的数值范围更大，但是精度不如`float16`。

<div class="wy-nav-content-img">
    <img src="assets/Tensors_floating_point_formats.png" width="800px" alt="34 层的ResNet架构与 VGG19 以及线性连接的结构之间的对比">
    <p>图1: 三种浮点数格式的表示与区别</p>
</div>

另外，在 Torch 2.x 的版本中也开始实验性的支持`FP8`格式，目前支持两种类型的`FP8`格式，一种是`E3M4`一种是`E5M2`，其中`E5M2`和 IEEE 的 `fp16`的指数部分长度一致，这使得 E5M2 和 IEEE FP16 格式之间可以直接转换。`E5M2`它表达的数值范围更大，可以处理一些特殊值。

一般来说，我们会在模型推理以及训练过程的前向阶段为了保持较高的精度会使用`E3M4`的格式，而在训练的反向阶段，使用`E5M2`来有较好的数值动态范围，避免梯度消失与爆炸。

Paper: [FP8 Formats for Deep Learning](https://arxiv.org/abs/2209.05433)

<div class="wy-nav-content-img">
    <img src="assets/Tensors_FP8_format.png" width="600px" alt="二种半精度浮点数与二种 FP8 精度在存储格式上的区别">
    <p>图2: 二种半精度浮点数与二种 FP8 精度在存储格式上的区别</p>
</div>

上图展示了使用不同数值类型来表示“0.3952” 时，实际能够近似到的值。

In [5]:
import torch
from tabulate import tabulate

f32_type = torch.float32
f16_type = torch.float16
bf16_type = torch.bfloat16
e4m3_type = torch.float8_e4m3fn
e5m2_type = torch.float8_e5m2

# collect finfo for each type
table = []
for dtype in [f32_type, f16_type, bf16_type, e4m3_type, e5m2_type]:
    numbits = (
        32
        if dtype == f32_type
        else 16 if dtype == bf16_type or dtype == f16_type else 8
    )
    info = torch.finfo(dtype)
    table.append(
        [info.dtype, numbits, info.max, info.min, info.smallest_normal, info.eps]
    )

headers = ["data type", "bits", "max", "min", "smallest normal", "eps"]
print(tabulate(table, headers=headers))

data type        bits              max               min    smallest normal          eps
-------------  ------  ---------------  ----------------  -----------------  -----------
float32            32      3.40282e+38      -3.40282e+38        1.17549e-38  1.19209e-07
float16            16  65504            -65504                  6.10352e-05  0.000976562
bfloat16           16      3.38953e+38      -3.38953e+38        1.17549e-38  0.0078125
float8_e4m3fn       8    448              -448                  0.015625     0.125
float8_e5m2         8  57344            -57344                  6.10352e-05  0.25


### Tensor 的设备类型

`torch.device`表示的是Tensor的数据存储的设备，其中分为`cpu`和`cuda`

In [6]:
torch.device("cpu")

device(type='cpu')

In [7]:
torch.device("cuda:0")

device(type='cuda', index=0)

In [8]:
torch.device(type="cuda", index=0)

device(type='cuda', index=0)

In [9]:
torch.tensor([1, 2, 3, 4, 5, 6], device=torch.device("cuda:0"))

tensor([1, 2, 3, 4, 5, 6], device='cuda:0')

### Tensor 的内存布局

Tensor 的 `layout` 属性表示Tensor内部数据存储的内部布局，目前还是一个不成熟(beta)的特性，目前支持

- torch.strided
- torch.sparse_coo

现在主要用的就是面向 dense Tensor的`torch.strided`，Tensor的 `strides` 是一个list，它代表每个dimension上两邻两个元素之间的跨度(元素个数)。

In [10]:
torch.arange(60).reshape(3, 4, 5).stride()

(20, 5, 1)

我们可以理解为 Tensor 底层的存储的是一个一维的数组，我们对于 `Tensor`的索引，全部是是通过一个下标对应的 stride 来计算出最终在一维数组上的偏移量。 这样实现的好处时，对于 `Tensor`的很多操作，它并不需要实际对 `Tensor`的内存数据进行变动。

In [11]:
t = torch.arange(12).view(3, 4)
# t_transposed 和 t 共享底层的数据
t_transposed = t.transpose(0, 1)
print(t.stride())
print(t_transposed.stride())

(4, 1)
(1, 4)


`stride()`方法除了可以直接返回一个`List`之外，还可以通过维度的索引，返回对应维度上相邻两个元素之间在底层数组上的跨度。

In [12]:
print(f"stride on dim 0: {t.stride(0)}")
print(f"stride on dim 1: {t.stride(1)}")

stride on dim 0: 4
stride on dim 1: 1


和 Numpy 不同的是，torch 中的 `stride` 以元素的个数来表示跨度，而 Numpy 则是用字节数量来表示相邻两个元素之间的跨度。

In [13]:
np.arange(60).reshape(3, 4, 5).strides

(160, 40, 8)

### Tensor属性转换

我们可以使用`to`方法来进行 Tensor 的相关属性的转换，包括：数值类型、设备类型等，接口返回的是一个新的转换后的 Tensor

In [14]:
device_cuda = torch.device("cuda")
data = torch.tensor([1])
print(data.dtype, data.device)
data = data.to(dtype=torch.float32, device=device_cuda)
print(data.dtype, data.device)

torch.int64 cpu
torch.float32 cuda:0


也可以通过 Tensor 的`dtype`方法来直接将返回新数据类型的 Tensor

In [15]:
data.int()  # 将 data 转换为 int 类型
data.float()  # 将 data 转换为 bool 类型
data.bool()  # 将 data 转换为 bool 类型

tensor([True], device='cuda:0')

### Tensor的形状

Tensor除了具有3个标准的属性外，一旦我们创建了一个Tensor，那么它就会具有一些形状相关的属性，我们可以通过下面这些接口获取 `Tensor` 不同的尺寸相关的信息。

- `t.shape`: 返回的是一个 `torch.Size(tuple)` 类型的结果，表示每一维的维度值
- `t.size()`: 和 `t.shape` 一致
- `t.size(i)`: 返回第 `i` 个维度的值
- `t.ndim`：返回 `Tensor` 有多少维
- `t.numel()`：它是一个方法，返回 `Tensor` 内有多少个元素
- `len(t)`：返回的是 `Tensor` 在第`0`维上的维度值

In [16]:
t = torch.empty(2, 3, 4)
print(f"shape of t: {t.shape}")
print(f"size of t: {t.size()}")
print(f"size(1) of t: {t.size(1)}")
print(f"strides of t: {t.stride()}")
print(f"strides of axes{1} of t: {t.stride(1)}")
print(f"ndim of t: {t.ndim}")
print(f"numel of t: {t.numel()}")
print(f"len of t: {len(t)}")

shape of t: torch.Size([2, 3, 4])
size of t: torch.Size([2, 3, 4])
size(1) of t: 3
strides of t: (12, 4, 1)
strides of axes1 of t: 4
ndim of t: 3
numel of t: 24
len of t: 2


## Tensor的创建

在Pytorch中我们可以有多种方法来创建Tensor，常用的包括下面几种：

- 从已有的 `scalar`、`list`、`tuple`、`numpy.array` 来创建
- 用`arange`、`linspace`、`logspace`等创建一维数列 `Tensor`
- 用`ones`、`zeros`、`eye`、`full`、`empty`等来创建特别填充值的多维 `Tensor`
- 用随机数来创建指定形状的 `Tensor`

### 从现有数据来创建

我们可以使用`torch.tensor()`函数来从已有的一个 array_like 的 data 来创建一个 Tensor

In [17]:
# 从list创建
t1 = torch.tensor([1, 2, 3, 4, 5])
# 从tuple创建
t2 = torch.tensor((1, 2, 3))
# 从numpy.array创建，同时指定dtype和device
t3 = torch.tensor(np.array([1, 2, 3, 4, 5]), dtype=torch.float32, device="cuda:0")

需要注意的是，无论是从 `python` 的内置序列创建，还是从 `numpy.array` 来创建，创建出来的 `Tensor` 都是复制了原数据的内容。如果我们希望，创建的 `Tensor` 不额外分配存储空间，而是和之前的 `numpy.array` 共享存储，那么可以使用`as_tensor`方法

In [18]:
arr = np.array([1, 2, 3, 4, 5])
print(f"原始的array: ", arr)
t = torch.as_tensor(arr)
# 对于Tensor的数据改动，也会影响在ndarray上
t[0] = 6
print(f"修改后的arr: ", arr)

原始的array:  [1 2 3 4 5]
修改后的arr:  [6 2 3 4 5]


不过使用`as_tensor`后，能共享底层存储的，前提是，`as_tensor` 方法中指定的`dtype`和`device`和原 `ndarry` 是一致的。由于 `numpy` 不支持 CUDA，所以这样只能创建 cpu 上的 Tensor

In [19]:
arr = np.array([1, 2, 3, 4, 5])  # 原 arr 的数值类型是 int64
t = torch.as_tensor(arr, dtype=torch.float32)  # 这种情况下，并不会共享底层存储
t[0] = 6
print(arr)

[1 2 3 4 5]


当我们使用 List 来创建 Tensor 时，需要注意对于数据类型的转换处理：对于 int 类型，NDArray 和 Tensor 都会转换为 `int64`，对于浮点数 float，Tensor 默认转换为`float32`，而 NDArray 则默认转换为 `float64`

In [20]:
il = [1, 2, 3, 4, 5]
print(f"ndarray的默认整数类型为:{np.array(il).dtype}")
print(f"tensor的默认整数类型为: {torch.tensor(il).dtype}")

fl = [1.0, 2.0, 3.0, 4.0, 5.0]  # List[float]
print(f"ndarray的默认整数类型为:{np.array(fl).dtype}")
print(f"tensor的默认整数类型为: {torch.tensor(fl).dtype}")

ndarray的默认整数类型为:int64
tensor的默认整数类型为: torch.int64
ndarray的默认整数类型为:float64
tensor的默认整数类型为: torch.float32


从另外一个 Tensor 来创建 Tensor，无论 b 是否指新新的 `dtype` 和 `device`，b 都不和 a 共享数据，根据 Warning 提示，我们知道这种用法目标在 Pytorch 中是不推荐的，如果要复制 Tensor，可以直接用 `clone` 方法。

In [21]:
a = torch.tensor([1, 2, 3])
b = torch.tensor(a, dtype=torch.float, device="cuda:0")

  b = torch.tensor(a, dtype=torch.float, device="cuda:0")


In [22]:
b = a.clone()
b = b.to(device="cuda:0")
print(b)

tensor([1, 2, 3], device='cuda:0')


### torch.Tensor()

请注意 `torch.Tensor`和 `torch.tensor`的不同。 `torch.Tensor` 实际上是`torch.FloatTensor`，用它来创建新的Tensor时，实际调用的是构造函数，它会默认以`torch.float32`来作为`dtype`。而`torch.tensor`会根据`data`的类型自动推断。

In [23]:
l = [1, 2, 3, 4, 5]
print(torch.Tensor(l).dtype)
print(torch.tensor(l).dtype)

torch.float32
torch.int64


### 创建特别填充值的Tensor

#### `torch.arange`

`torch.arange(start=0, end, step=1)` 用于创建一个区间范围的 Tensor

In [24]:
print(torch.arange(5))
print(torch.arange(1, 5))
print(torch.arange(1, 20, 3))

tensor([0, 1, 2, 3, 4])
tensor([1, 2, 3, 4])
tensor([ 1,  4,  7, 10, 13, 16, 19])


如果 `start`、`end` 以及 `step` 中有浮点数，则创建出来的是 `FloatTensor`

In [25]:
torch.arange(1, 3.5, 0.5)

tensor([1.0000, 1.5000, 2.0000, 2.5000, 3.0000])

注意上面是没有包括 3.5 那个点的

#### `torch.linspace`

`torch.linspace`与`torch.arange`有点类似，都指定一个起点，一个终点，和一个步长。但`linspace`里步长最终指定了生成的一维 Tensor 中元素的个数

```python
def linspace(start:float ,end:float ,steps:int) -> Tensor:
    pass
```

另外需要注意的是`torch.linspace`生成的一定是一个浮点数的Tensor，而且和`torch.arange`不同的是：`linspace`生成的Tensor是包括末点值的（inclusive）

In [26]:
torch.linspace(3, 10, 5)

tensor([ 3.0000,  4.7500,  6.5000,  8.2500, 10.0000])

#### `torch.logspace`

`torch.logspace`和`torch.linspace`行为类似，区别在于`logspace`生成的序列的范围的起始与终点是一个以`base`为底，`start`和`end`为指数的数字。

```python
def logspace(start:float ,end:float ,steps:int, base=10.0) -> Tensor:
    pass
```

#### `torch.ones`、`torch.zeros`、`torch.emtpy`

它们三个都是用于创建一个指定 `size` 的Tensor，分别以`1`、`0`和未初始化的值来填充创建好的 `Tensor`。它们三个返回的都是 `FloatTensor`

In [27]:
print(torch.ones((2, 2)))
print(torch.zeros((3, 4)))
print(torch.empty((3, 3)))

tensor([[1., 1.],
        [1., 1.]])
tensor([[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]])
tensor([[3.5373e-05, 4.5572e-41, 3.5373e-05],
        [4.5572e-41, 0.0000e+00, 0.0000e+00],
        [0.0000e+00, 0.0000e+00, 0.0000e+00]])


`torch.ones/zeros/empty`支持`torch.ones(d1,d2,...)`这种调用方法，而 `numpy` 则不支持。

#### `torch.eye`

`torch.eye` 返回的是一个 2D 的对角线为 `1`，其他值都为`0` 的 `FloatTensor`

In [28]:
torch.eye(4)

tensor([[1., 0., 0., 0.],
        [0., 1., 0., 0.],
        [0., 0., 1., 0.],
        [0., 0., 0., 1.]])

#### `torch.full`

`torch.full`返回的是一个指定`size`和填充值的Tensor，Tensor的 `dtype` 是由填充值的类型来推导的。

```python
def full(size, fill_value) -> Tensor:
  '''
  Args:
    size(int...): a list ,tuple or torch.Size
    fill_vale(Scalar)
  '''
  pass
```

In [29]:
torch.full((2, 3), 1.0)

tensor([[1., 1., 1.],
        [1., 1., 1.]])

#### `torch.diag`

如果输入的是一个 `1d` 的 Tensor，则返回的是一个 `2d` 的对角矩阵，其对角线上的元素为传入的 `Tensor`，也可以通过`diagonal`来指定对角线元素的轴偏值。

In [30]:
torch.diag(torch.tensor([1, 2, 3]))

tensor([[1, 0, 0],
        [0, 2, 0],
        [0, 0, 3]])

In [31]:
torch.diag(torch.tensor([1, 2, 3]), diagonal=-1)

tensor([[0, 0, 0, 0],
        [1, 0, 0, 0],
        [0, 2, 0, 0],
        [0, 0, 3, 0]])

传入 `2d` 的 `Tensor`，则返回 `Tensor` 的对角线上的元素，返回的是一个 `1d` 的 `Tensor`

In [32]:
torch.diag(torch.tensor([[1, 2, 3], [4, 5, 6], [7, 8, 9]]))

tensor([1, 5, 9])

In [33]:
torch.diag(torch.tensor([[1, 2, 3], [4, 5, 6], [7, 8, 9]]), diagonal=1)

tensor([2, 6])

### 使用随机数来创建 `Tensor`

#### `torch.normal`

`torch.normal`返回一个正态分布产生在的随机数填充的Tensor，它一共有4种参数传递方式

* 第一种是: `torch.norm(mean, std)` 其中 `mean` 和 `std` 都是一个 Tensor，生成的 `Tensor` 的形状和 `mean` 和`std` 的形状是一致的，其中每个元素都是通过对应位置的 `mean` 和 `std` 形成的正态分布来随机产生的。
* 第二种是: `normal(mean=0.0, std, *, out=None)`。这种参数传递用法，与上面的区别就是 `mean` 变成一个 `scalar`，那么说明每个元素来共享一个 `mean` 值。在这种情况下。
* 第三种是: `normal(mean, std=1.0, *, out=None)`。这种情况和第 2 种情况，恰恰相反了，`std` 变成了每个元素共享的。
* 第四种是: `normal(mean, std, size, *, out=None)`。这种情况下，所有的元素都共享 `mean` 和 `std`，最终 `Tensor` 的形状是由 `size` 来决定的。

In [34]:
mean = torch.randn(3, 4)
std = torch.rand((3, 4))
torch.normal(mean, std)

tensor([[ 2.0296, -0.4701,  0.1796, -0.5136],
        [-1.6148,  0.7872, -0.9362,  1.4091],
        [ 0.0777, -0.7316, -1.0285, -2.2252]])

In [35]:
torch.normal(1.0, std)

tensor([[ 1.1250,  0.4628,  2.7116,  0.6063],
        [ 1.2810,  0.8124,  0.4107,  0.7474],
        [ 0.7084,  1.1920, -0.7098,  1.2650]])

In [36]:
torch.normal(mean, 0.5)

tensor([[ 2.2751, -0.2002,  0.5267, -0.8647],
        [-1.4531,  0.8913, -0.8418,  1.7195],
        [ 0.2077, -0.6990, -0.4085, -1.8245]])

In [37]:
torch.normal(0, 1, (3, 4))

tensor([[-0.0147, -0.7058,  0.6063,  0.1756],
        [ 0.5358, -0.5268, -0.1732, -1.9743],
        [ 1.6481, -0.0582,  1.1962, -2.3791]])

#### `torch.rand`、`torch.randn`

* `rand`直接生成指定形状的 `Tensor`，其中每个元素都是由`[0,1)`均匀分布来随机产生。
* `randn`直接生成指定形状的 `Tensor`，其中每个元素都是由标准正态分布来随机产生。

In [38]:
torch.rand(3, 4)  # 或者 torch.randn((3,4))

tensor([[0.5694, 0.6862, 0.6448, 0.9219],
        [0.7739, 0.2337, 0.6813, 0.9098],
        [0.5170, 0.7443, 0.1146, 0.3266]])

In [39]:
torch.randn(3, 4)  # 或者 torch.randn((3,4))

tensor([[ 2.2253, -0.2388, -1.1644,  1.8077],
        [ 0.7187,  0.2216, -0.5639, -0.8072],
        [-0.8558,  1.1578,  1.1449,  0.7575]])

#### `torch.randint`

```python
randint(low=0, high, size, **kwargs)
```
产生一个由 `[low,high)` 区间均匀分布随机数填充的 `LongTensor`

In [40]:
torch.randint(1, 10, (3, 4))

tensor([[9, 5, 1, 2],
        [8, 1, 9, 7],
        [2, 2, 8, 1]])

#### `torch.randperm`

生成一个随机全排列的一维的 `LongTensor`，一般可以用于 RandomShuffle 的场景下，作为下标，比如下：`RandomSampler`里。

In [41]:
torch.randperm(12)

tensor([ 0, 10,  6,  1,  7,  9,  8, 11,  2,  3,  5,  4])

### 使用`xx_like`系列创建相同形态的Tensor

除了shape保持一致外，`dtype`、`layout`、`device`等，若无特别指定，则也与源 `Tensor` 保持一致。

```python
torch.zeros_like(input, **kwargs) # 返回与input相同size的零矩阵
torch.ones_like(input, **kwargs) #返回与input相同size的单位矩阵
torch.full_like(input, fill_value, **kwargs) #返回与input相同size，单位值为fill_value的矩阵
torch.empty_like(input, **kwargs) # 返回与input相同size,并被未初始化的数值填充的tensor
torch.rand_like(input, dtype=None, **kwargs) #返回与input相同size的tensor, 填充均匀分布的随机数值
torch.randint_like(input, low=0, high, dtype=None, **kwargs) #返回与input相同size的tensor, 填充[low, high)均匀分布的随机数值
torch.randn_like(input, dtype=None, **kwargs) #返回与input相同size的tensor, 填充标准正态分布的随机数值
```

In [42]:
src = torch.randn(4, 5)

In [43]:
torch.zeros_like(src)

tensor([[0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.]])

In [44]:
torch.ones_like(src, dtype=torch.int)

tensor([[1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1]], dtype=torch.int32)

In [45]:
torch.empty_like(src, device="cuda:0")

tensor([[0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.]], device='cuda:0')

In [46]:
# 这里即使full_value是int类型，但生成的Tensor，依然是用的src的dtype
torch.full_like(src, 42)

tensor([[42., 42., 42., 42., 42.],
        [42., 42., 42., 42., 42.],
        [42., 42., 42., 42., 42.],
        [42., 42., 42., 42., 42.]])

In [47]:
torch.rand_like(src)

tensor([[0.3649, 0.4973, 0.2954, 0.2283, 0.3783],
        [0.4030, 0.3560, 0.2984, 0.0538, 0.6853],
        [0.9367, 0.0751, 0.0192, 0.1870, 0.0224],
        [0.4367, 0.9709, 0.9743, 0.0202, 0.0806]])

In [48]:
torch.randn_like(src)

tensor([[-0.2378,  1.3116,  1.0912,  0.0476, -0.9063],
        [ 1.0352,  0.5998,  0.5077,  1.5463, -1.3423],
        [-0.5876,  0.7427, -0.9596, -0.8097, -1.2763],
        [ 0.4394,  0.4913, -0.6191, -1.1212, -1.3895]])

In [49]:
torch.randint_like(src, 1, 10)

tensor([[2., 6., 6., 6., 4.],
        [3., 2., 3., 2., 7.],
        [3., 6., 3., 3., 2.],
        [2., 2., 2., 5., 1.]])

## Tensor的操作

Pytorch中的 `Tensor` 大约支持 100 种以上的操作，其中包括了数学运算、线性代数、矩阵操作（转置、索引、切片等），这些操作都可以跑在 CPU 或 GPU 上，这也是 Pytorch `Tensor`的强大之处。

我们可以通过这个[页面](https://pytorch.org/docs/stable/torch.html)，来对Tensor支持的所有操作做个大概的了解。

### 索引访值

#### 基础索引

我们可以像访问 `numpy.ndarray` 一样，对 `torch.Tensor` 进行各种下标索引与范围切片。

In [50]:
t = torch.arange(12).reshape(3, 4)
print(f"t: {t}")
print(f"取t的第2行的所有元素: {t[1]}")
print(f"取t的最后一列的所有元素: {t[:, -1]}")
print(f"取t的第2列到最后一列的所有元素: {t[:, 2:]}")
print(f"取t的位置(2,3)上的元素: {t[2, 3]}")

t: tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]])
取t的第2行的所有元素: tensor([4, 5, 6, 7])
取t的最后一列的所有元素: tensor([ 3,  7, 11])
取t的第2列到最后一列的所有元素: tensor([[ 2,  3],
        [ 6,  7],
        [10, 11]])
取t的位置(2,3)上的元素: 11


当我们通过索引访问Tensor的单一元素时，得到的实际是一个`Tensor` 类型的对象，它并不是 python 中的内置数据类型，我们可以通过Tensor的`item()`方法来获取python对象的标量。

In [51]:
single_element = t[2, 3]
print(type(single_element))
print(single_element.shape)
print(single_element.item())

<class 'torch.Tensor'>
torch.Size([])
11


注意对如果某个维度上我们只取一行/列数据，那么有两种方式，这两种方式得到的结果的 Shape 会不一样

In [52]:
t1 = t[:, 2:3]
t2 = t[:, 2]
print(t1)  # 还是一个二维的Tensor
print(t2)  # 一维的 Tensor

tensor([[ 2],
        [ 6],
        [10]])
tensor([ 2,  6, 10])


#### 高级索引

Tensor 的高级索引，支持我们直接用一个 `Long` 型的 `Tensor` 作为索引来取原 Tensor 中的元素。

In [53]:
t = torch.randn(8, 10)
# indices 的所有元素都代表 t 的 dim=0 的下标
indices = torch.randint(0, 8, (3, 2))
t[indices].shape

torch.Size([3, 2, 10])

#### torch.gather

torch.gather 往往用于我们希望依次在输入 Tensor 的某个维度上取出其中一些索引的值。比如下面的 topK 的结果中，我们希望根据返回的 indices 取得对应的元素，也就是 values，这里可以用 gather

In [54]:
t = torch.randn(3, 5)
values, indices = torch.topk(t, k=2, dim=1)
print(t)
print(values)
print(indices)

tensor([[-2.0688,  0.6633,  1.1023, -0.5922, -0.2700],
        [ 1.3701,  0.2983,  1.6838, -0.2791, -2.1550],
        [-0.7148, -0.3601,  0.8379, -1.0062, -1.4216]])
tensor([[ 1.1023,  0.6633],
        [ 1.6838,  1.3701],
        [ 0.8379, -0.3601]])
tensor([[2, 1],
        [2, 0],
        [2, 1]])


In [55]:
values == torch.gather(t, dim=1, index=indices)

tensor([[True, True],
        [True, True],
        [True, True]])

### 组合与分片

#### torch.cat

```python
def cat(tensors, dim=0) -> Tensor:
    pass    
```

`torch.cat`将给定义的tensor的序列(tensors)，按给定义的维度上合并起来，这就要求，这些tensor，除了合并的维度，其他的维度必须一致。

In [56]:
t1 = torch.randn(2, 3)
t2 = torch.randn(3, 3)
torch.cat([t1, t2], dim=0)

tensor([[-0.3146,  0.7856, -0.8999],
        [ 0.1525,  0.3796,  0.4523],
        [ 0.1411, -0.0736,  0.8204],
        [-0.4679, -0.5389, -0.3914],
        [ 0.3581,  0.1357, -0.6964]])

#### torch.stack

`torch.stack`和`torch.cat`接口用法一致，但它并不是在原有的维度上拼接，而是直接扩展一个新的维度。

这就要求，序列中的tensor在维度上必须一致。

In [57]:
t1 = torch.randn(2, 3)
t2 = torch.randn(2, 3)
torch.stack([t1, t2], dim=0)

tensor([[[-0.1604, -0.5684,  0.3347],
         [ 0.1768, -1.4267,  0.9843]],

        [[-1.0624,  1.6439, -0.4874],
         [-0.0111, -1.1370,  0.3593]]])

#### torch.split

```python
def split(tensor, split_size_or_sections, dim=0):
    pass
```

`split`将tensor按指定的维度，分拆为多个Tensor的元组，拆分的块chunk的大小是splite_size指定的。可能出现不能整分的情况，这时候最后一块大小一般小于 `splite_size`

`split` 出来的 `Tensor` 是原 `Tensor` 的一个`view`视图。

In [58]:
a = torch.arange(10).view(5, 2)
torch.split(a, 2)

(tensor([[0, 1],
         [2, 3]]),
 tensor([[4, 5],
         [6, 7]]),
 tensor([[8, 9]]))

`split_size_or_sections`也可能是一个list(int)，这时候，它的每个元素，代表每个chunk的大小

In [59]:
a1, a2, a3 = torch.split(a, (1, 3, 1))
a1, a2, a3

(tensor([[0, 1]]),
 tensor([[2, 3],
         [4, 5],
         [6, 7]]),
 tensor([[8, 9]]))

#### torch.chunk

```python
def chunk(input, chunks, dim=0) -> List[Tensors]:
    pass
```
`chunk`和`split`功能类似，不同在于，`chunk` 的第二的参数，直接指定的是 `chunk` 的数量，最后一个 `chunk` 的数量可能会少一些。也有可能 `axis[dim]<chunks`，那么就直接切分为`axis[dim]`个。

切分出来的这些 `Tensor` 和原 `Tensor` 都是共享底层存储的，也就是说每个 `chunk` 都是原`Tensor`的一个`view`。

In [60]:
print(a.shape)
len(a.chunk(3, dim=1))  # 由于 shape[1] 小于 3，所以只能切分成 2 块

torch.Size([5, 2])


2

### 变换操作

#### torch.reshape

```python
reshape(input, shape) -> Tensor
```
`reshape`返回一个和原Tensor具有相同数据，相同数量的Tensor，只是shape不一致。

#### torch.view

`torch.view` vs. `torch.reshape`

`view` 接口是随着第一个 Pytorch 版本就发布的，而`reshape`接口是 v0.4版本中才加入的。`reshape`可以用在`compact`或`non-compact`的 `Tensor` 上，而`view`只能用在`compact`的tensor上。`reshape`如果作用于`non-compact`的 `Tensor`上，则会产生一个拷贝。


#### `torch.transpose`

```python
def transpose(input, dim0, dim1) -> Tensor:
    pass
```
转置input的指定的2个维度，返回的Tensor和原来的Tensor共享存储，内部实际上只是改变了 `stride`。

In [61]:
x = torch.rand(2, 3, 4)
y = torch.transpose(x, 0, 2)
print(x.stride())
print(y.stride())

(12, 4, 1)
(1, 4, 12)


#### `torch.permute`

`permute` 是一个更强大的进行不同维度进行变换的操作，它基本可以完全替代`transpose`。

In [62]:
torch.permute(x, (2, 0, 1)).shape

torch.Size([4, 2, 3])

#### `squeeze` 和 `unsqueeze`

`squeeze` 在指定的维度上添加一维，而 `unsqueeze` 则在指定的维度上去掉 `size=1`的维度，如果对应维度上的`size`不等于 1，则不做任何操作

In [63]:
x = torch.randn(2, 3)
y = x.unsqueeze(dim=1).unsqueeze(dim=0)
print(f"x shape: {x.shape}, \ny (x.unsqueeze) shape: {y.shape}")
print("unsqueeze shape", y.squeeze(dim=0).shape)

x shape: torch.Size([2, 3]), 
y (x.unsqueeze) shape: torch.Size([1, 2, 1, 3])
unsqueeze shape torch.Size([2, 1, 3])


#### `contiguous`

在 PyTorch 中，有一些对张量（Tensors）的操作不会改变张量的内容，但会改变数据的组织方式。这些操作包括：

`narrow()`，`view()`，`expand()` 和 `transpose()`

例如：当调用 `transpose()` 时，PyTorch 并不会生成一个新的张量来重新布局数据，它只是修改张量对象中的元信息，使 offset 和 stride 描述所需的新形状。在下面的例子中，转置后的张量和原始张量共享同一块内存。

In [64]:
x = torch.randn(3, 2)
y = torch.transpose(x, 0, 1)
print(f"y.contiguous: {y.is_contiguous()}")
x[0, 0] = 42
print(y[0, 0])

y.contiguous: False
tensor(42.)


这时就涉及到 “连续性”（contiguous）的概念了。在上面的例子中，`x` 是连续的，但 `y` 不是，因为它的内存布局不同于从头创建的同形状张量。需要注意的是，“连续性”这个词可能有些误导性，因为这并不是说张量的内容散布在不连接的内存块中。这里的字节仍然分配在一个内存块中，只是元素的顺序不同！

当调用 `contiguous()` 时，它实际上会复制张量，使其内存中的元素顺序与从头用相同数据创建的张量的顺序一致。

通常你不需要担心这一点。在大多数情况下，你可以假设一切都会正常运行，直到你遇到 `RuntimeError: input is not contiguous` 的错误提示，即 PyTorch 需要一个连续的张量时，再添加一次 `contiguous()` 调用即可。

### 降维操作

#### `torch.mean`

```python
def mean(input, dim, keepdim=False, *, out=None) -> Tensor:
  '''
  Args:
    input (Tensor): the input tensor.
    dim (int or tuple of ints): the dimension or dimensions to reduce.
    keepdim (bool): whether the output tensor has :attr:`dim` retained or not.
  '''
```

对 input 沿着`dim`的维度求均值，这样的话，指定的那个维度就会被压缩掉，如果指定了`keepdim=True`的话，那个维度会保留，值为1

In [65]:
t = torch.randn(5, 6)
print(t)
# 按列的方向(dim=0)将整个Tenoor压缩成为1维的
print(torch.mean(t, dim=0))
# 压缩掉 dim=1 变成 1 维，但同时保持这个维度还存在，它还是一个 2D 的 Tensor
print(torch.mean(t, dim=1, keepdim=True))

tensor([[ 2.1964e-01, -1.8094e-01, -2.3633e-01, -8.9539e-01, -8.8298e-01,
          2.5287e-01],
        [-5.6449e-01,  1.1332e+00,  1.3148e+00, -8.3117e-01, -6.1372e-02,
         -2.3306e-01],
        [-9.9353e-01,  4.7723e-03, -7.6517e-01, -1.6716e-01, -2.2254e-01,
          1.6273e+00],
        [-1.1033e+00, -1.5613e+00,  3.0557e-01, -1.1018e-03,  9.1161e-01,
          8.8587e-02],
        [-1.3331e+00,  1.3878e-01, -1.8567e+00, -4.9110e-01, -4.6809e-01,
         -6.4348e-01]])
tensor([-0.7550, -0.0931, -0.2476, -0.4772, -0.1447,  0.2185])
tensor([[-0.2872],
        [ 0.1263],
        [-0.0860],
        [-0.2267],
        [-0.7756]])


对于高维Tensor，我们还可以同时对多个维度进行 Reduce，求其均值。

In [66]:
t = torch.randn(2, 3, 4)
# 等价于reduce第0维，得到一个3x4的Tensor后，再reduce第1维，得到(3,)的Vector
t1 = torch.mean(t, dim=(0, 2))
t2 = t.mean(0).mean(1)
print(t1)
print(t2)

tensor([ 0.4651, -0.0868, -0.3484])
tensor([ 0.4651, -0.0868, -0.3484])


#### `torch.sum`

`torch.sum`是一个和`torch.mean`用法上很像的操作，只是`sum`的reduce op变成了求和，而不是求均值。

In [67]:
torch.sum(t, dim=(0, 2))

tensor([ 3.7211, -0.6946, -2.7875])

#### `torch.argmax`

`argmax` 返回对应维度上数值最大的元素的下标。这个操作在我们做多分类时时候尤其常见。网络输出的是每个类别的概率，我们求出概率最大的那个元素的下标，也就得到了目标的类别。

In [68]:
x = torch.rand((2, 3))
print("x:", x)
print("Argmax:", x.argmax(dim=1))

x: tensor([[0.7786, 0.9272, 0.2082],
        [0.6738, 0.2240, 0.6439]])
Argmax: tensor([1, 0])


#### `torch.maxmimu`

相同 Shape 的 Tensor 和 Tensor 按元素逐个比大小，保留最大的

In [69]:
def relu(x):
    return torch.maximum(x, torch.tensor(0))


x = torch.randn((2, 3))
print(f"x:\n\t{x} \nrelu(x):\n\t{relu(x)}")

x:
	tensor([[-2.4755, -1.9741,  0.5477],
        [-1.7354,  2.1774, -0.0848]]) 
relu(x):
	tensor([[0.0000, 0.0000, 0.5477],
        [0.0000, 2.1774, 0.0000]])


### 排序操作

#### `torch.sort`

```python
sort(input, dim=-1, descending=False, *, out=None) -> (Tensor, LongTensor)
```
`sort`对 input 按给定义的 `dim` 进行升序排列，返回排列后的 `Tensor` 的同时，也返回一个对应的下标的重排后的Tensor

`dim`的默认值是`Tensor`的最后一维

In [70]:
a = torch.rand(2, 3)
print(a)
values, indices = torch.sort(a, dim=1, descending=True)
print("sorted values:", values)
print("sroted index:", indices)

tensor([[0.6712, 0.3191, 0.3396],
        [0.2225, 0.5578, 0.1161]])
sorted values: tensor([[0.6712, 0.3396, 0.3191],
        [0.5578, 0.2225, 0.1161]])
sroted index: tensor([[0, 2, 1],
        [1, 0, 2]])


#### `torch.topk`

```python
topk(input, k, dim=None, largest=True, sorted=True, *, out=None) -> (Tensor, LongTensor)
```
`topk`返回input中指定维度上，最大的 `k` 个元素，以及对应的索引。

In [71]:
a = torch.randn(5)
print(a)
values, indices = torch.topk(a, 3)
print("top3 values:", values)
print("top3 index:", indices)

tensor([ 1.2982, -2.3320,  0.5917,  0.2135,  0.4425])
top3 values: tensor([1.2982, 0.5917, 0.4425])
top3 index: tensor([0, 2, 4])


#### `torch.kthvalue`

```python
kthvalue(input, k, dim=None, keepdim=False, *, out=None) -> (Tensor, LongTensor)
```
`kthvalue`计算输出Tensor的指定维度上第`k`小的元素以及下标。也就是从小到大排序的第 `k` 个（从 1 计数）。如果dim没有指定，则默认为Tensor的最后一维。

In [72]:
a = torch.randn(4, 3)
print(a)
kth_values, kth_indices = torch.kthvalue(a, 2, dim=0)
print("2th values:", kth_values)
print("2th index:", kth_indices)

tensor([[ 0.6328,  0.8376, -0.0609],
        [ 1.1792, -1.2289,  1.5499],
        [-0.5145, -0.4100, -2.0221],
        [ 1.0787, -0.2838,  0.0410]])
2th values: tensor([ 0.6328, -0.4100, -0.0609])
2th index: tensor([0, 2, 0])


### `repeat` 和 `repeat_interleave`

* `repeat(d0, d1, d2)` 将对应的维度复制多份，如果之前没有对应的维度，则可以当作原来维度为1，处理。
* `repeat_interleave(n, dim)` 在对应的维度上进行复制，但复制的方式不是`[a b c a b c ]`这种，而是`[a a b b c c]`

In [73]:
a = torch.arange(6).reshape((2, 3))
print(a)
print(a.repeat((2, 1, 2)))
print(a.repeat_interleave(2, dim=0))

tensor([[0, 1, 2],
        [3, 4, 5]])
tensor([[[0, 1, 2, 0, 1, 2],
         [3, 4, 5, 3, 4, 5]],

        [[0, 1, 2, 0, 1, 2],
         [3, 4, 5, 3, 4, 5]]])
tensor([[0, 1, 2],
        [0, 1, 2],
        [3, 4, 5],
        [3, 4, 5]])


### 原地操作(in-place)

pytorch的Tensor支持了很多原地操作，它们的特点就是在方法末尾以`_`结束

In [74]:
t1 = torch.ones(2, 3)
print(f"t1 = {t1}")
t1.add_(2)
print(f"after plus 2: t1 = {t1}")

t1 = tensor([[1., 1., 1.],
        [1., 1., 1.]])
after plus 2: t1 = tensor([[3., 3., 3.],
        [3., 3., 3.]])


### 转换为其他数据类型

我们可以调用`numpy`接口,返回一个 `numpy.ndarray` 的对象，可以调用 `tolist` 接口，返回一个 `list` 的对象

In [75]:
t = torch.tensor([1, 2, 3, 4, 5, 6])
# 返回的ndarray还是和t是共享存储的
nparray = t.numpy()
li = t.reshape(2, 3).tolist()

## 爱因斯坦标识

In [76]:
from einops import rearrange, reduce, repeat

### 实现 `transpose` 和 `permute` 的功能

In [77]:
x = torch.randn(2, 3, 8, 8)

# Transose
torch.allclose(rearrange(x, "b c h w->b h w c"), x.permute((0, 2, 3, 1)))

True

### 一步实现 Transpose + Reshape

In [78]:
# 一步完成 Transpose + Reshape
torch.allclose(
    rearrange(x, "b c h w -> (b h w) c"), x.permute(0, 2, 3, 1).reshape(-1, x.size(1))
)

True

### 实现维度拆分

In [79]:
x = torch.randn(2, 3, 64)

torch.allclose(rearrange(x, "b c (h w) -> b c h w", h=8), x.reshape(2, 3, 8, 8))

True

### 实现 Image2Patch 的功能

将 二维图像转换为 $B\times N \times D$ 的序列 Patches 的形式。

In [80]:
image = torch.randn(2, 3, 256, 256)

patches = rearrange(image, "b c (h1 ph) (w1 pw) -> b (h1 w1) (ph pw c)", ph=8, pw=8)
print(patches.shape)

torch.Size([2, 1024, 192])


### Reduce 操作

In [81]:
x = torch.randn(8, 10)

# mean
x_mean = reduce(x, "b d -> b", reduction="mean")
# sum
x_sum = reduce(x, "b d -> 1 d", reduction="sum")

x = torch.randn(2, 3, 4)
x_max = reduce(x, "b n d -> d", reduction="max")

### 扩维与复制

In [82]:
x = torch.randn(5, 5)
rearrange(x, "i j -> 1 i j").shape

torch.Size([1, 5, 5])

In [83]:
x = torch.randn(1, 2, 2)
print(x)
# 在最后一维上进行复制 2 次
print(repeat(x, "1 i j -> 3 i (2 j)"))

tensor([[[-1.6514,  0.5428],
         [-1.0820, -1.2077]]])
tensor([[[-1.6514,  0.5428, -1.6514,  0.5428],
         [-1.0820, -1.2077, -1.0820, -1.2077]],

        [[-1.6514,  0.5428, -1.6514,  0.5428],
         [-1.0820, -1.2077, -1.0820, -1.2077]],

        [[-1.6514,  0.5428, -1.6514,  0.5428],
         [-1.0820, -1.2077, -1.0820, -1.2077]]])
