# 2. Tensor

本期重点：
- 2.2 张量的属性
- 2.5 数据创建pytorch张量的四种方法的区别
- 2.6 张量的重塑操作(reshaping)
- 2.8.2 张量的广播

## 2.1 张量介绍

* 张量是神经网络中使用的主要数据结构，网络中的输入、输出和转换均使用张量表示；
* n维张量中，n表示在结构中访问特定元素所需要的索引数量（张量是n维数组）；
* 张量被称为一个泛化的原因：我们可以使用张量来表示所有的n维数组；

| 索引数量 | 计算机科学中的名称 | 数学中的名称 | Tensor表示|
|:-------- |:------------------ |:------------ |:----------|
|    0   |      数字      |    标量    |  0维张量  |
|    1   |      数组      |    矢量    |  1维张量  |
|    2   |    二维数组     |    矩阵    |  2维张量  |
|    n   |    N维数组      |   N维张量   | n维张量  |

* 注意：张量的维度(rank)跟我们所说的向量空间的向量维度不同；张量的维度并不能告诉我们张量中有多少个分量（如果我们在三维的欧几里得空间中有一个三维向量，即我们会有三个分量(x,y,z);而一个三维张量可以有多于三个分量，也可以有少于三个分量）；如下：二维张量t有9个分量

In [1]:
import torch

In [3]:
t = torch.Tensor([
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]]
)
t

tensor([[1., 2., 3.],
        [4., 5., 6.],
        [7., 8., 9.]])

In [4]:
t.shape

torch.Size([3, 3])

In [5]:
len(t.shape)

2

张量 t 的 rank 是 2，表示我们需要两个所以来访问最里层的内容，shape 是\[3, 3\]

## 2.2 张量的属性(rank, axes and shape)
* 张量的rank, axes, shape是使用张量时最关注的三个属性；
* 所有的rank, axes, shape都与索引的概念有本质上的联系；

### 2.2.1 Rank
* 张量的rank是指张量的维数
* 一个张量的rank告诉我们需要多少个索引来访问或引用张量结构中包含的特定数据元素

### 2.2.2 Axes
* 一个张量的axes是一个张量的一个特定维度
* 对于张量，其最后一个axes的元素均为数字 
* 张量的rank告诉我们一个张量有多少个axes

### 2.2.3 Shape
* 张量的shape由每个axes的长度决定（知道了张量的shape就可知道每个轴的索引）
* 张量的shape很重要：原因1：可以让我们从概念上想象一个张量(越高阶的张量越抽象)；原因2：形状可以提现所有有关rank、axes和索引的信息

In [6]:
t

tensor([[1., 2., 3.],
        [4., 5., 6.],
        [7., 8., 9.]])

In [7]:
t.shape

torch.Size([3, 3])

In [9]:
rank = len(t.shape)
rank

2

t 的第一个 axes 是一个数组

In [12]:
t[0]

tensor([1., 2., 3.])

t 的第二个 axes 是一个数

In [13]:
 t[0][0]

tensor(1.)

## 2.3 张量输入到神经网络

* CNN输入张量的长度通常为4：[batchsize, color_channel, height, width]；通过这4个索引，可以在特定图像的特定颜色通道中导航到特定的像素；
* 卷积神经网络的样本输入通常是批量的而不是单个的；
* 张量经过卷积层后的变化：卷积会改变高度、宽度以及颜色通道的数量；通道数与滤波器的数量有关；滤波器的大小会影响到高度和宽度；
* 经过卷积的通道不再叫彩色通道(已被改变)，而叫做特征通道(特征图:输入颜色通道和卷积滤波器所产生的卷积结果)
* 输出通道 = 特征通道 = 特征映射

## 2.4 pytorch张量及其创建

* pytorch神经网络中必须编写的第一行程序是“数据预处理程序”
* 数据预处理的最终目标：是将我们要处理的任何数据转换成能够感知神经网络的张量

### 2.4.1 张量元素的属性
| Data type          |   dtype     |   CPU tensor   |   GPU tensor  |
|:-----------------------|:---------------|:-----------------|:---------------|
| 32-bit floating point  | torch.float32 | torch.FloatTensor | torch.cuda.FloatTensor |
| 64-bit floating point  | torch.float64 | torch.DoubleTensor| torch.cuda.DoubleTensor|
| 16-bit floating point  | torch.float16 | torch.HalfTensor  | torch.cuda.HalfTensor |
| 8-bit integer(unsigned)| torch.uint8  | torch.BYteTensor| torch.cuda.ByteTensor|
| 8-bit integer(signed)  | torch.int8| torch.CharTensor| torch.cuda.CharTensor|
| 16-bit integer(signed) | torch,int16|torch.ShortTensor|torch.cuda.ShortTensor|
| 32-bit integer(signed) | torch.int32|torch.IntTensor| torch.cuda.IntTensor|
| 64-bit integer(signed) | torch.int64|torch.LongTensor| torch.cuda.LongTensor|

In [14]:
t = torch.tensor(
    [[1,2,3],
     [4,5,6],
     [7,8,9]]
)
print(t.dtype)       
print(t.device)    
print(t.layout)  

torch.int64
cpu
torch.strided


张量与张量之间的运算必须是相同数据类型在相同的设备上发生的

### 2.4.2 关于张量的两件事
* 张量是包含一个同一类型的数据
* 张量之间的计算依赖于类型和设备

### 2.4.3 用数据创建pytorch张量的4种方法

In [15]:
import numpy as np

In [16]:
t = np.array(
    [[1,2,3],
     [4,5,6],
     [7,8,9]]
)
print(torch.Tensor(t))           # 类构造函数
print(torch.tensor(t))           # 工厂函数
print(torch.as_tensor(t))        # 工厂函数
print(torch.from_numpy(t))       # 工厂函数

tensor([[1., 2., 3.],
        [4., 5., 6.],
        [7., 8., 9.]])
tensor([[1, 2, 3],
        [4, 5, 6],
        [7, 8, 9]])
tensor([[1, 2, 3],
        [4, 5, 6],
        [7, 8, 9]])
tensor([[1, 2, 3],
        [4, 5, 6],
        [7, 8, 9]])


* 工厂函数：接受参数输入并返回特定类型对象的函数；
* 工厂函数允许更多的动态对象创建；具有更好的文档，并有更多的配置参数；
* 通常情况下会更倾向于选择工厂函数

### 2.4.4 无数据情况下创建张量

In [17]:
torch.eye(3,3)

tensor([[1., 0., 0.],
        [0., 1., 0.],
        [0., 0., 1.]])

In [18]:
torch.zeros(3,3)

tensor([[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]])

In [19]:
torch.ones(3,3)

tensor([[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]])

In [20]:
torch.rand(3,3)

tensor([[0.9620, 0.4890, 0.6287],
        [0.4797, 0.9278, 0.3500],
        [0.8081, 0.7143, 0.9540]])

## 2.5 数据创建pytorch张量的四种方法的区别

* pytorch张量是torch.tensor pytorch类的实例
* 一个张量的抽象概念和一个pytorch张量的区别在于：pytorch张量给了我们一个具体的实现，我们可以使用和编码它

### 2.5.1 四种方法的区别1：数据类型

In [23]:
data = np.array([1,2,3])
t1 = torch.Tensor(data)
print(t1)
print(t1.dtype)
print('----------------')
t2 = torch.tensor(data)
print(t2)
print(t2.dtype)
print('----------------')
t3 = torch.as_tensor(data)
print(t3)
print(t3.dtype)
print('----------------')
t4 = torch.from_numpy(data)
print(t4)
print(t4.dtype)

tensor([1., 2., 3.])
torch.float32
----------------
tensor([1, 2, 3])
torch.int64
----------------
tensor([1, 2, 3])
torch.int64
----------------
tensor([1, 2, 3])
torch.int64


* 上述使用类构造函数和工厂函数后生成的数据类型不同，主要原因是：构造函数在构造一个张量时使用**全局缺省值**，而工厂函数通过输入数据的类型来**推断**输出数据的类型

In [24]:
# 工厂函数可以显示指定数据类型，类构造函数不能这样操作
t = torch.tensor(np.array([1,2,3]), dtype=torch.float64)
t

tensor([1., 2., 3.], dtype=torch.float64)

### 2.5.2 四种方法的区别2：数据分配内存方式

In [25]:
data = np.array([1,2,3])
print(data)

t1 = torch.Tensor(data)
t2 = torch.tensor(data)
t3 = torch.as_tensor(data)
t4 = torch.from_numpy(data)

data[0] = 0
data[1] = 0
data[2] = 0
# t1 和 t2 输出的都是更改前的数组
print(t1)
print(t2)
# t3 和 t4 输出的都是更改后的数组
print(t3)
print(t4)

[1 2 3]
tensor([1., 2., 3.])
tensor([1, 2, 3])
tensor([0, 0, 0])
tensor([0, 0, 0])


* 上述差异是由创建时分配内存的方式造成的：t1和t2的方式是将数组中的元素值直接拷贝到张量中，改变data中的元素值并不会影响到t1和t2中的值；t3和t4的方式是与data数组共享数据；（可将t1和t2的方式看作"值传递"；t3和t4的方式看作“地址传递”）
|    共享数据    |    数据拷贝   |
|:-----------------|:----------------|
| torch.as_tensor() | torch.tensor()|
| torch.from_numpy()| torch.Tensor()|
* 由上可知numpy和tensor是数据共享的，所以他们可以无缝切换
* 数据共享比数据拷贝更高效，更节省内存空间

### 2.5.3 最优的数据转换方法
* 数据拷贝方式的最优选择是 torch.tensor() (因为是工厂函数)
* 内存共享方式的最优选择是 torch.as_tensor() (因为torch.as_tensor可以接受任何python数据结构；而torch.from_numpy只接受numpy数组)
* 数据拷贝的方式更注重实现；而内存共享的方式更注重代码性能

### 2.5.4 使用内存共享工厂函数的注意事项：
* 1.由于numpy.ndaaray对象分配在CPU上，所以如果使用GPU的话，torch.as_tensor函数必须把数据从CPU上拷到GPU上
* 2.as_tensor()对于python内置的数据结构，如列表，是无效的
* 3.as_tensor的调用要求熟悉共享特征，以免对底层数据做不必要的更改，而影响到对象
* 4.当as_tensor和numpy.ndarray有大量的相互往返的操作时，对性能的提升会有较大的影响

## 2.6 张量的重塑操作(reshaping)

### 2.6.1 常用张量操作类型
* Reshaping operations
* Element-wise operations
* Reduction operations
* Access operations

### 2.6.2 张量的重塑
* 张量的重塑是最重要的张量操作：因为张量的形状能提供给我们一些具体的东西，我们可以用它来塑造和直观的理解张量

In [27]:
t = torch.tensor(
    [[1,1,1,1],
     [2,2,2,2],
     [3,3,3,3]], dtype=torch.float32)
print(t.size())
print(t.shape)

torch.Size([3, 4])
torch.Size([3, 4])


In [28]:
# 得到张量中的元素个数
t.numel() 

12

元素的个数与张量的重塑有直接的关系，重塑后每个轴长之积必须与元素个数相同

In [29]:
# reshape, squeezing
print(t.reshape(1,12))
print(t.reshape(1,12).shape)
# squeezing
print(t.reshape(1,12).squeeze())
print(t.reshape(1,12).squeeze().shape)
# unsqueezing
print(t.reshape(1,12).squeeze().unsqueeze(dim=0))
print(t.reshape(1,12).squeeze().unsqueeze(dim=0).shape)

tensor([[1., 1., 1., 1., 2., 2., 2., 2., 3., 3., 3., 3.]])
torch.Size([1, 12])
tensor([1., 1., 1., 1., 2., 2., 2., 2., 3., 3., 3., 3.])
torch.Size([12])
tensor([[1., 1., 1., 1., 2., 2., 2., 2., 3., 3., 3., 3.]])
torch.Size([1, 12])


* squeezing:可以移除所有长度为1的axes (减少rank)
* unsqueezing: 会增加一个长度为1的axes （增加rank）
* flatten张量：除去所有的axes，只保留一个，创造一个单轴张量包含原张量所有元素；
* flatten操作是从一个卷积层过度到一个全连接层时在神经网络中必须发生的；
* flatten操作是一种特殊的reshaping操作，即所有axes被挤压成一个axes

In [31]:
# 张量的flatten
t = torch.tensor(
    [[1,1,1,1],
     [2,2,2,2],
     [3,3,3,3]], dtype=torch.float32)
t = t.flatten()   
t

tensor([1., 1., 1., 1., 2., 2., 2., 2., 3., 3., 3., 3.])

## 2.7 多批次张量的flatten
* flatten操作的前提：张量至少有两个轴
* 全连接层接收被flatten的张量来作为输入
* 多批次张量的flatten：保持batch的长度不变，只flatten图像通道部分

In [32]:
# t1,t2,t3为三个4x4的图像
t1 = torch.tensor([
            [1,1,1,1],
            [1,1,1,1],
            [1,1,1,1],
            [1,1,1,1]
        ])

t2 = torch.tensor([
            [2,2,2,2],
            [2,2,2,2],
            [2,2,2,2],
            [2,2,2,2]
        ])

t3 = torch.tensor([
            [3,3,3,3],
            [3,3,3,3],
            [3,3,3,3],
            [3,3,3,3]
        ])
# 使用stack将其合并成一个秩为3的张量
t = torch.stack((t1,t2,t3))
print(t.shape)    
# 增加一个彩色通道轴，将其变成CNN期望的形式，以上三张图像均为灰度图像
t = t.reshape(3,1,4,4)
print(t[0])    # 第一个图像
print(t[0][0])     # 第一个图像的第一个通道
print(t[0][0][0])  # 第一个图像的第一个通道中的第一行像素
print(t[0][0][0][0])   # 第一个图像的第一个通道中的第一行的第一个像素

# 该张量的flatten:我们期望只将图像张量flatten，而不是全部flatten
# 参数start_dim告诉flatten函数应该从哪个轴开始
print(t.flatten(start_dim=1))  
print(t.flatten(start_dim=1).shape)  


torch.Size([3, 4, 4])
tensor([[[1, 1, 1, 1],
         [1, 1, 1, 1],
         [1, 1, 1, 1],
         [1, 1, 1, 1]]])
tensor([[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]])
tensor([1, 1, 1, 1])
tensor(1)
tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1],
        [2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2],
        [3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3]])
torch.Size([3, 16])


## 2.8 张量的操作

### 2.8.1 张量的元素运算(element-wise operation)
* 元素运算是对张量元素的运算，这些元素在张量中对应或具有相同的位置索引
* 两个张量必须有相同的形状才能执行元素操作

In [33]:
t1 = torch.tensor([
                [1,2],
                [3,4]
            ], dtype=torch.float32)

t2 = torch.tensor([
                [9,8],
                [7,6]
            ], dtype=torch.float32)

In [34]:
t1 + t2

tensor([[10., 10.],
        [10., 10.]])

In [35]:
t1 + 2

tensor([[3., 4.],
        [5., 6.]])

In [36]:
t2 - 2

tensor([[7., 6.],
        [5., 4.]])

In [37]:
t1 * 2

tensor([[2., 4.],
        [6., 8.]])

In [38]:
t1 /2 

tensor([[0.5000, 1.0000],
        [1.5000, 2.0000]])

### 2.8.2 张量的广播
* 张量的广播：定义了在元素操作的过程中如何处理不同形状的张量，即：将标量变成与另一个张量相同的形状
* 张量广播在数据标准化时会常用到

In [39]:
t1 = torch.tensor([
                [1,1],
                [1,1]
            ])
t2 = torch.tensor([2,4])
print(t1+t2)

tensor([[3, 5],
        [3, 5]])


In [40]:
np.broadcast_to(t2.numpy,t1.shape) #广播
t1 + t2

tensor([[3, 5],
        [3, 5]])

### 2.8.3 张量的比较运算

* 会返回一个与比较张量形状相同的张量，其值为0或1（0表示False；1表示True）
* element-wise,component-wise以及point-wise的操作方式均相同

## 2.9 张量的缩减操作（reduction）
* 缩减操作是一个减少张量中包含的元素数量的操作
* 元素操作允许我们对多个张量进行操作；缩减操作允许我们对单个张量进行操作

In [41]:
t = torch.tensor([
                [0,1,0],
                [2,0,2],
                [0,3,0]
            ], dtype = torch.float32)
print(t.sum()) 
print(t.numel())  
print(t.sum().numel()) 
print(t.sum().numel() < t.numel())  

tensor(8.)
9
1
True


由上可知，求和操作是缩减操作，缩减操作还有：
* t.sum()
* t.prod()
* t.mean()
* t.std()

In [42]:
# 缩减操作通常允许跨数据结构计算总值
# 对某个轴进行缩减操作
t = torch.tensor([
    [1,1,1,1],
    [2,2,2,2],
    [3,3,3,3]
], dtype=torch.float32)
t.sum(dim=0)

tensor([6., 6., 6., 6.])

In [43]:
t.sum(dim=1)

tensor([ 4.,  8., 12.])

* argmax函数：得到张量的最大输出值的对应索引位置
* 在实际应用中，经常在神经网络输出预测张量上使用argmax，确定哪个类别的预测最高

In [44]:
t = torch.tensor([
                [1,0,0,2],
                [0,3,3,0],
                [4,0,0,5]
            ], dtype=torch.float32)
t.max() 

tensor(5.)

In [45]:
t.argmax()            # 输出的是flatten后的索引

tensor(11)