## 张量的概念
张量的大小可以用形状（shape）来描述。比如一个三维张量的形状是 [2,2,5][2, 2, 5][2,2,5]，表示每一维（也称为轴（axis））的元素的数量，即第0轴上元素数量是2，第1轴上元素数量是2，第2轴上的元素数量为5。

图1.5给出了3种纬度的张量可视化表示。
<img src="images/fcdd500471b842a4811bd7ab3f724ab4b9226fc94bf446818904e59ce1bb6e00.png" width="1200"/>


- 一个数字的叫标量：1
- 一维数组的叫向量：[1]
- 二维数组的叫矩阵：[2,3]
- 三维数组的叫张量：[2,2,3]

## 创建张量

创建一个张量可以有多种方式，如：指定数据创建、指定形状创建、指定区间创建等。

In [7]:
import paddle # 导入paddle库

tensor_1 = paddle.to_tensor(data=[2,3,4],dtype=paddle.float32) # 创建一维tenser，也就是向量
tensor_1.ndim # 打印对应的维度

1

In [8]:
tensor_2 = paddle.to_tensor(data=[[1,2,3],[4,5,6]],dtype=paddle.float32) # 创建二维tensor，也就是矩阵
tensor_2.ndim

2

In [9]:
tensor_3 = paddle.to_tensor(data=[
    [[1,2,3],[4,5,6]],
    [[1,2,3],[4,5,6]]
],dtype=paddle.float32) # 创建三维tensor，也就是张量
tensor_3.ndim

3

In [10]:
tensor_4 = paddle.reshape(x=tensor_3,shape=(2,3,2))# 也可以通过shape对别人的tensor进行转换
tensor_4

Tensor(shape=[2, 3, 2], dtype=float32, place=Place(cpu), stop_gradient=True,
       [[[1., 2.],
         [3., 4.],
         [5., 6.]],

        [[1., 2.],
         [3., 4.],
         [5., 6.]]])

### 指定形状创建，通过飞桨内部自带的一些函数创建

In [11]:
# 创建全是 0 的tenosr
tensor_all_zero = paddle.zeros(shape=(2,2,4),dtype=paddle.int32)
tensor_all_zero

Tensor(shape=[2, 2, 4], dtype=int32, place=Place(cpu), stop_gradient=True,
       [[[0, 0, 0, 0],
         [0, 0, 0, 0]],

        [[0, 0, 0, 0],
         [0, 0, 0, 0]]])

In [12]:
# 创建全是 1 的tenosr
tensor_all_one = paddle.ones(shape=(2,2,4),dtype=paddle.int32)
tensor_all_one

Tensor(shape=[2, 2, 4], dtype=int32, place=Place(cpu), stop_gradient=True,
       [[[1, 1, 1, 1],
         [1, 1, 1, 1]],

        [[1, 1, 1, 1],
         [1, 1, 1, 1]]])

In [13]:
# 使用paddle.full创建数据全为指定值，形状为[m, n]的Tensor，这里我们指定数据为10
full_Tensor = paddle.full(shape=[2, 3], fill_value=10,dtype=paddle.int32)
full_Tensor

Tensor(shape=[2, 3], dtype=int32, place=Place(cpu), stop_gradient=True,
       [[10, 10, 10],
        [10, 10, 10]])

### 指定区间创建tensor

In [14]:
# 使用paddle.arange创建以步长step均匀分隔数值区间[start, end)的一维Tensor
arange_Tensor = paddle.arange(start=1, end=5, step=2)
arange_Tensor

Tensor(shape=[2], dtype=int64, place=Place(cpu), stop_gradient=True,
       [1, 3])

### 张量的属性
- `Tensor.ndim`：张量的维度，例如向量的维度为1，矩阵的维度为2。
- `Tensor.shape`： 张量每个维度上元素的数量。
- `Tensor.shape[n]`：张量第nnn维的大小。第nnn维也称为轴（axis）。
- `Tensor.size`：张量中全部元素的个数。
为了更好地理解ndim、shape、axis、size四种属性间的区别，创建一个如图1.6所示的四维张量。
<img src="images/d8461ef0994549a98c1b253f2a31fe60edb7bb200b964b43a9c25818f22a31c6.png" width="1200"/>

In [15]:
ndim_4_Tensor = paddle.ones(shape=[2, 3, 4, 5],dtype=paddle.int32)

print("Number of dimensions:", ndim_4_Tensor.ndim)
print("Shape of Tensor:", ndim_4_Tensor.shape)
print("Elements number along axis 0 of Tensor:", ndim_4_Tensor.shape[0])
print("Elements number along the last axis of Tensor:", ndim_4_Tensor.shape[-1])
print('Number of elements in Tensor: ', ndim_4_Tensor.size)

Number of dimensions: 4
Shape of Tensor: [2, 3, 4, 5]
Elements number along axis 0 of Tensor: 2
Elements number along the last axis of Tensor: 5
Number of elements in Tensor:  120


### 张量与Numpy数组转换

In [16]:
ndim_1_Tensor = paddle.to_tensor([1., 2.])
# 将当前 Tensor 转化为 numpy.ndarray
print('Tensor to convert: ', ndim_1_Tensor.numpy())

Tensor to convert:  [1. 2.]


## 数学运算

张量类的基础数学函数如下：
```
x.abs()                       # 逐元素取绝对值
x.ceil()                      # 逐元素向上取整
x.floor()                     # 逐元素向下取整
x.round()                     # 逐元素四舍五入
x.exp()                       # 逐元素计算自然常数为底的指数
x.log()                       # 逐元素计算x的自然对数
x.reciprocal()                # 逐元素求倒数
x.square()                    # 逐元素计算平方
x.sqrt()                      # 逐元素计算平方根
x.sin()                       # 逐元素计算正弦
x.cos()                       # 逐元素计算余弦
x.add(y)                      # 逐元素加
x.subtract(y)                 # 逐元素减
x.multiply(y)                 # 逐元素乘（积）
x.divide(y)                   # 逐元素除
x.mod(y)                      # 逐元素除并取余
x.pow(y)                      # 逐元素幂
x.max()                       # 指定维度上元素最大值，默认为全部维度
x.min()                       # 指定维度上元素最小值，默认为全部维度
x.prod()                      # 指定维度上元素累乘，默认为全部维度
x.sum()                       # 指定维度上元素的和，默认为全部维度
```
同时，为了更方便地使用张量，飞桨对Python数学运算相关的魔法函数进行了重写，以下操作与上述结果相同。
```
x + y  -> x.add(y)            # 逐元素加
x - y  -> x.subtract(y)       # 逐元素减
x * y  -> x.multiply(y)       # 逐元素乘（积）
x / y  -> x.divide(y)         # 逐元素除
x % y  -> x.mod(y)            # 逐元素除并取余
x ** y -> x.pow(y)            # 逐元素幂
```
张量类的逻辑运算函数如下：
```
x.isfinite()                  # 判断Tensor中元素是否是有限的数字，即不包括inf与nan
x.equal_all(y)                # 判断两个Tensor的全部元素是否相等，并返回形状为[1]的布尔类Tensor
x.equal(y)                    # 判断两个Tensor的每个元素是否相等，并返回形状相同的布尔类Tensor
x.not_equal(y)                # 判断两个Tensor的每个元素是否不相等
x.less_than(y)                # 判断Tensor x的元素是否小于Tensor y的对应元素
x.less_equal(y)               # 判断Tensor x的元素是否小于或等于Tensor y的对应元素
x.greater_than(y)             # 判断Tensor x的元素是否大于Tensor y的对应元素
x.greater_equal(y)            # 判断Tensor x的元素是否大于或等于Tensor y的对应元素
x.allclose(y)                 # 判断两个Tensor的全部元素是否接近
```
矩阵运算
```
x.t()                         # 矩阵转置
x.transpose([1, 0])           # 交换第 0 维与第 1 维的顺序
x.norm('fro')                 # 矩阵的弗罗贝尼乌斯范数
x.dist(y, p=2)                # 矩阵（x-y）的2范数
x.matmul(y)                   # 矩阵乘法
```

## 广播机制
广播机制的条件
飞桨的广播机制主要遵循如下规则（参考Numpy广播机制）：
1）每个张量至少为一维张量。
2）从后往前比较张量的形状，当前维度的大小要么相等，要么其中一个等于1，要么其中一个不存在。

In [17]:
# 当两个Tensor的形状一致时，可以广播
x = paddle.ones((2, 3, 4))
y = paddle.ones((2, 3, 4))
z = x + y
print('broadcasting with two same shape tensor: ', z.shape)
print(z)

broadcasting with two same shape tensor:  [2, 3, 4]
Tensor(shape=[2, 3, 4], dtype=float32, place=Place(cpu), stop_gradient=True,
       [[[2., 2., 2., 2.],
         [2., 2., 2., 2.],
         [2., 2., 2., 2.]],

        [[2., 2., 2., 2.],
         [2., 2., 2., 2.],
         [2., 2., 2., 2.]]])


In [18]:
j = paddle.ones((2, 3, 1, 5))
k = paddle.ones((3, 4, 1))
# 从后往前依次比较：只要有一个是1，或者相等即可，没有的补1
# j 2  3  1  5
# k 1  3  4  1
p = j + k
print('broadcasting with two different shape tensor:', p.shape)
print(p)

broadcasting with two different shape tensor: [2, 3, 4, 5]
Tensor(shape=[2, 3, 4, 5], dtype=float32, place=Place(cpu), stop_gradient=True,
       [[[[2., 2., 2., 2., 2.],
          [2., 2., 2., 2., 2.],
          [2., 2., 2., 2., 2.],
          [2., 2., 2., 2., 2.]],

         [[2., 2., 2., 2., 2.],
          [2., 2., 2., 2., 2.],
          [2., 2., 2., 2., 2.],
          [2., 2., 2., 2., 2.]],

         [[2., 2., 2., 2., 2.],
          [2., 2., 2., 2., 2.],
          [2., 2., 2., 2., 2.],
          [2., 2., 2., 2., 2.]]],


        [[[2., 2., 2., 2., 2.],
          [2., 2., 2., 2., 2.],
          [2., 2., 2., 2., 2.],
          [2., 2., 2., 2., 2.]],

         [[2., 2., 2., 2., 2.],
          [2., 2., 2., 2., 2.],
          [2., 2., 2., 2., 2.],
          [2., 2., 2., 2., 2.]],

         [[2., 2., 2., 2., 2.],
          [2., 2., 2., 2., 2.],
          [2., 2., 2., 2., 2.],
          [2., 2., 2., 2., 2.]]]])


## 算子定义
算子是构建复杂机器学习模型的基础组件，包含一个函数f(x)f(x)f(x)的前向函数和反向函数。

In [19]:
class Op(object):
    # 定义一个算子模型类
    def __init__(self):
        pass

    def __call__(self, *args,**kwargs):
        # 当直接op()调用的就是__call__方法
        raise NotImplementedError

    def forward(self,*args,**kwargs):
        # 前向计算，返回输出，这个必须子类进行重写
        raise NotImplementedError

    def backward(self, *args,**kwargs):
        # 反向传播，计算梯度，这个必须子类进行重写
        raise NotImplementedError


### 加法算子
<img src="images/308b6d78396b4db0a3df548dcb4de971900d90bdc34a481b9211260cd25c9377.png" width="1200"/>

In [25]:
class add(Op):
    # 定义一个加法算子
    def __init__(self):
         # 初始化父类init方法
        super(add, self).__init__()

    def __call__(self, x, y):
        # 定义call方法
        return self.forward(x, y)

    def forward(self,x, y):
        # 定义向前add计算逻辑
        self.x = x
        self.y = y
        outputs = x + y
        return outputs

    def backward(self, grads):
        # 定义反向传播梯度计算
        grads_x = grads * 1
        grads_y = grads * 1
        return grads_x, grads_y


In [26]:
# 定义x=1、y=4，根据反向计算，得到x、y的梯度。
x = 1
y = 4
add_op = add()
z = add_op(x, y)
grads_x, grads_y = add_op.backward(grads=1)
print("x's grad is: ", grads_x)
print("y's grad is: ", grads_y)

x's grad is:  1
y's grad is:  1


### 本书使用的算子介绍
<img src="images/5bc27443b5ab4df99c7578f75ea973e84cab41d1caf949bea84af0b814325621.png" width="1200"/>
<img src="images/cd5e251e1b9c4f37888af85b4ee9386ffc65fca2d4f4473a8f6adc14e1e3238d.png" width="1200"/>

### 本书中实现的优化器
<img src="images/085004d14449417392350eec7404219a803444b4e49b4bbc963bdae4f59d2fcb.png" width="1200"/>

### Dataset类
<img src="images/a7fe6d71b8754f5a80bfbd44639508a64024972f4af14c609e4bebf0f2e0d21c.png" width="1200"/>

## Runner类
- RunnerV1：在第2节中实现，用于线性回归模型的训练，其中训练过程通过直接求解解析解的方式得到模型参数，没有模型优化及计算损失函数过程，模型训练结束后保存模型参数。
- RunnerV2：在第3.1.6节中实现。RunnerV2主要增加的功能为：
    - 在训练过程引入梯度下降法进行模型优化；
    - 模型训练过程中计算在训练集和验证集上的损失及评价指标并打印，训练过程中保存最优模型。我们在第4.3.2节和第4.3.2节分别对RunnerV2进行了完善，加入自定义日志输出、模型阶段控制等功能。
- RunnerV3：在第4.5.4节中实现。RunnerV3主要增加三个功能：使用随机梯度下降法进行参数优化；训练过程使用DataLoader加载批量数据；模型加载与保存中，模型参数使用state_dict方法获取，使用state_dict加载。