##  广播机制

即是张量的size不同，也能利用广播机制来对两个张量进行操作，即广播机制后，两个张量会拥有相同的size。大多数情况下会沿着长度为1的轴作广播。

In [3]:
import torch
a = torch.arange(3).reshape((3, 1))
b = torch.arange(2).reshape((1, 2))
a,b

(tensor([[0],
         [1],
         [2]]),
 tensor([[0, 1]]))

由于a是3行1列的矩阵，b是1行2列的矩阵，普通情况下没办法相加，于是a会沿着列的方向广播，b会沿着行的方向广播，广播时会复制元素，a和b都会变成3×2的矩阵。

In [4]:
a+b

tensor([[0, 1],
        [1, 2],
        [2, 3]])

## 降维
默认情况下，调用求和函数会沿所有方向降低张量的维度,使它变为一个标量。
也可以指定沿某个轴的方向求和，但是这个轴的方向会在输出形状中消失。

In [8]:
A = torch.arange(20, dtype=torch.float32).reshape(5, 4)
A,A.size()

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.],
         [12., 13., 14., 15.],
         [16., 17., 18., 19.]]),
 torch.Size([5, 4]))

In [9]:
sum_A = A.sum()
sum_A,sum_A.size()

(tensor(190.), torch.Size([]))

In [11]:
sum_A_axis0 = A.sum(axis=0)
sum_A_axis0,sum_A_axis0.size()

(tensor([40., 45., 50., 55.]), torch.Size([4]))

In [12]:
sum_A_axis1 = A.sum(axis=1)
sum_A_axis1,sum_A_axis1.size()

(tensor([ 6., 22., 38., 54., 70.]), torch.Size([5]))

可以将sum()中的参数keepdim设置成True来进行非降维求和

In [16]:
sum_A = A.sum(axis=0,keepdim=True)
sum_A,sum_A.size()

(tensor([[40., 45., 50., 55.]]), torch.Size([1, 4]))

由于求和后sum_A依然是两个轴，所以可以进行A/sum_A的操作

In [17]:
A/sum_A

tensor([[0.0000, 0.0222, 0.0400, 0.0545],
        [0.1000, 0.1111, 0.1200, 0.1273],
        [0.2000, 0.2000, 0.2000, 0.2000],
        [0.3000, 0.2889, 0.2800, 0.2727],
        [0.4000, 0.3778, 0.3600, 0.3455]])

若不设置keepdim=True，sum_A会损失一个轴，这样A/sum_A就成了非法操作

In [2]:
import torch

a = torch.ones(2,5,4)
a

tensor([[[1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.]],

        [[1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.]]])

In [4]:
b = a.sum(axis = 1)
b

tensor([[5., 5., 5., 5.],
        [5., 5., 5., 5.]])

In [5]:
b = a.sum(axis = 0)
b

tensor([[2., 2., 2., 2.],
        [2., 2., 2., 2.],
        [2., 2., 2., 2.],
        [2., 2., 2., 2.],
        [2., 2., 2., 2.]])

In [6]:
b = a.sum(axis = [0,2])
b

tensor([8., 8., 8., 8., 8.])

In [7]:
b = a.sum(axis = 1,keepdim = True)
b

tensor([[[5., 5., 5., 5.]],

        [[5., 5., 5., 5.]]])