# 2-1,张量数据结构

Pytorch的基本数据结构是张量Tensor。张量即多维数组。Pytorch的张量和numpy中的array很类似。

本节我们主要介绍张量的数据类型、张量的维度、张量的尺寸、张量和numpy数组等基本概念。


In [1]:
import os
import datetime
import torchkeras

#打印时间
def printbar():
    nowtime = datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S')
    print("\n"+"=========="*8 + "%s"%nowtime)

#mac系统上pytorch和matplotlib在jupyter中同时跑需要更改环境变量
os.environ["KMP_DUPLICATE_LIB_OK"]="TRUE" 
from python_cgtools.utils_date import *
from python_cgtools.utils_torch import *

torch.__version__ =  2.0.1+cu118
torchvision.__version__ =  0.15.2+cu118
pytorch_lightning.__version__ =  2.0.2
torchtext.__version__ =  0.15.2
torchdata.__version__ =  0.6.1
torchmetrics.__version__ =  0.11.4
torchkeras.__version__ =  3.8.2
yaml.__version__ =  6.0
tensorflow sed random seed fail.


In [2]:
start_time = time.time()
print_with_time("start.........")

2023-05-28 23:51:28:start.........


```
torch.__version__=1.10.0
```

### 一，张量的数据类型

张量的数据类型和numpy.array基本一一对应，但是不支持str类型。

包括:

torch.float64(torch.double), 

**torch.float32(torch.float)**, 

torch.float16, 

**torch.int64(torch.long)**, 

torch.int32(torch.int), 

torch.int16, 

torch.int8, 

torch.uint8, 

torch.bool

一般神经网络建模使用的都是torch.float32类型。 

In [3]:
import numpy as np
import torch 

# 自动推断数据类型

# tensor([1]) torch.int64
# tensor([2.]) torch.float32
# tensor([True]) torch.bool
i = torch.tensor([1]);print(i,i.dtype)
x = torch.tensor([2.0]);print(x,x.dtype)
b = torch.tensor([True]);print(b,b.dtype)

tensor([1]) torch.int64
tensor([2.]) torch.float32
tensor([True]) torch.bool


In [4]:
# numpy 默认类型是 int32 和 float64
# pytorch 默认类型是 int64, float32

# [1] int32
# [2.] float64
# tensor([1], dtype=torch.int32) torch.int32
# tensor([2.], dtype=torch.float64) torch.float64
i = np.array([1]);print(i,i.dtype)
j = np.array([2.0]);print(j,j.dtype)

i = torch.tensor(i);print(i,i.dtype)
j = torch.tensor(j);print(j,j.dtype)

[1] int32
[2.] float64
tensor([1], dtype=torch.int32) torch.int32
tensor([2.], dtype=torch.float64) torch.float64


```
tensor(1) torch.int64
tensor(2.) torch.float32
tensor(True) torch.bool
```

In [5]:
# 指定数据类型
# tensor(1, dtype=torch.int32) torch.int32
# tensor(2., dtype=torch.float64) torch.float64
# tensor(2, dtype=torch.int32) torch.int32
i = torch.tensor(1,dtype = torch.int32);print(i,i.dtype)
x = torch.tensor(2.0,dtype = torch.double);print(x,x.dtype)
y = torch.tensor(2.0,dtype = torch.int32);print(y,y.dtype)

tensor(1, dtype=torch.int32) torch.int32
tensor(2., dtype=torch.float64) torch.float64
tensor(2, dtype=torch.int32) torch.int32


  y = torch.tensor(2.0,dtype = torch.int32);print(y,y.dtype)


```
tensor(1, dtype=torch.int32) torch.int32
tensor(2., dtype=torch.float64) torch.float64
```

In [6]:
# 使用特定类型构造函数
# tensor([1]) torch.int64
# tensor([1], dtype=torch.int32) torch.int32
# tensor([2.]) torch.float32
# tensor([2.], dtype=torch.float64) torch.float64
# tensor([ True, False,  True, False]) torch.bool
i = torch.LongTensor([1]);print(i,i.dtype)
i = torch.IntTensor([1]);print(i,i.dtype)
x = torch.Tensor(np.array([2.0]));print(x,x.dtype) #等价于torch.FloatTensor
x = torch.DoubleTensor(np.array([2.0]));print(x,x.dtype)
b = torch.BoolTensor(np.array([1,0,2,0])); print(b,b.dtype)



tensor([1]) torch.int64
tensor([1], dtype=torch.int32) torch.int32
tensor([2.]) torch.float32
tensor([2.], dtype=torch.float64) torch.float64
tensor([ True, False,  True, False]) torch.bool


```
tensor([5], dtype=torch.int32) torch.int32
tensor(2.) torch.float32
tensor([ True, False,  True, False]) torch.bool
```

In [7]:
# 不同类型进行转换
# tensor(1) torch.int64
# tensor(1.) torch.float32
# tensor(1.) torch.float32
# tensor(1.) torch.float32
i = torch.tensor(1); print(i,i.dtype)
x = i.float(); print(x,x.dtype) #调用 float方法转换成浮点类型
y = i.type(torch.float); print(y,y.dtype) #使用type函数转换成浮点类型
z = i.type_as(x);print(z,z.dtype) #使用type_as方法转换成某个Tensor相同类型


tensor(1) torch.int64
tensor(1.) torch.float32
tensor(1.) torch.float32
tensor(1.) torch.float32


```
tensor(1) torch.int64
tensor(1.) torch.float32
tensor(1.) torch.float32
tensor(1.) torch.float32
```

### 二，张量的维度

不同类型的数据可以用不同维度(dimension)的张量来表示。

标量为0维张量，向量为1维张量，矩阵为2维张量。

彩色图像有rgb三个通道，可以表示为3维张量。

视频还有时间维，可以表示为4维张量。

可以简单地总结为：有几层中括号，就是多少维的张量。

In [8]:
# tensor(True)
# 0
# torch.Size([])
scalar = torch.tensor(True)
print(scalar)
print(scalar.dim())  # 标量，0维张量
print(scalar.shape)

tensor(True)
0
torch.Size([])


```
tensor(True)
0
```

In [9]:
# tensor([1., 2., 3., 4.])
# 1
vector = torch.tensor([1.0,2.0,3.0,4.0]) #向量，1维张量
print(vector)
print(vector.dim())


tensor([1., 2., 3., 4.])
1


```
tensor([1., 2., 3., 4.])
1
```

In [10]:
# tensor([[1., 2.],
#         [3., 4.]])
# 2
matrix = torch.tensor([[1.0,2.0],[3.0,4.0]]) #矩阵, 2维张量
print(matrix)
print(matrix.dim())

tensor([[1., 2.],
        [3., 4.]])
2


```
matrix = torch.tensor([[1.0,2.0],[3.0,4.0]]) #矩阵, 2维张量
print(matrix)
print(matrix.dim())
```

In [11]:
# tensor([[[1., 2.],
#          [3., 4.]],

#         [[5., 6.],
#          [7., 8.]]])
# 3
tensor3 = torch.tensor([[[1.0,2.0],[3.0,4.0]],[[5.0,6.0],[7.0,8.0]]])  # 3维张量
print(tensor3)
print(tensor3.dim())

tensor([[[1., 2.],
         [3., 4.]],

        [[5., 6.],
         [7., 8.]]])
3


```
tensor([[[1., 2.],
         [3., 4.]],

        [[5., 6.],
         [7., 8.]]])
3
```

In [12]:
# tensor([[[[1., 1.],
#           [2., 2.]],

#          [[3., 3.],
#           [4., 4.]]],


#         [[[5., 5.],
#           [6., 6.]],

#          [[7., 7.],
#           [8., 8.]]]])
# 4
tensor4 = torch.tensor([[[[1.0,1.0],[2.0,2.0]],[[3.0,3.0],[4.0,4.0]]],
                        [[[5.0,5.0],[6.0,6.0]],[[7.0,7.0],[8.0,8.0]]]])  # 4维张量
print(tensor4)
print(tensor4.dim())

tensor([[[[1., 1.],
          [2., 2.]],

         [[3., 3.],
          [4., 4.]]],


        [[[5., 5.],
          [6., 6.]],

         [[7., 7.],
          [8., 8.]]]])
4


```
tensor([[[[1., 1.],
          [2., 2.]],

         [[3., 3.],
          [4., 4.]]],


        [[[5., 5.],
          [6., 6.]],

         [[7., 7.],
          [8., 8.]]]])
4
```

### 三，张量的尺寸

可以使用 shape属性或者 size()方法查看张量在每一维的长度.

可以使用view方法改变张量的尺寸。

如果view方法改变尺寸失败，可以使用reshape方法.

**torch的view()与reshape()方法都可以用来重塑tensor的shape，
区别就是使用的条件不一样。view()方法只适用于满足连续性条件的tensor，并且该操作不会开辟新的内存空间，
只是产生了对原存储空间的一个新别称和引用，返回值是视图。
而reshape()方法的返回值既可以是视图，也可以是副本，当满足连续性条件时返回view，否则返回副本
[ 此时等价于先调用contiguous()方法在使用view() ]。因此当不确能否使用view时，可以使用reshape。
如果只是想简单地重塑一个tensor的shape，那么就是用reshape，
但是如果需要考虑内存的开销而且要确保重塑后的tensor与之前的tensor共享存储空间，那就使用view()。**

**为什么没把view废除那？最近偶然看到了些资料，又想起了这个问题，觉得有以下原因：
1、在PyTorch不同版本的更新过程中，view先于reshape方法出现，后来出现了鲁棒性更好的reshape方法，但view方法并没因此废除。其实不止PyTorch，其他一些框架或语言比如OpenCV也有类似的操作。
2、view的存在可以显示地表示对这个tensor的操作只能是视图操作而非拷贝操作。这对于代码的可读性以及后续可能的bug的查找比较友好。**

In [13]:
# torch.Size([])
# torch.Size([])
scalar = torch.tensor(True)
print(scalar.size())
print(scalar.shape)

torch.Size([])
torch.Size([])


```
torch.Size([])
torch.Size([4])
```

In [14]:
# torch.Size([4])
# torch.Size([4])
vector = torch.tensor([1.0,2.0,3.0,4.0])
print(vector.size())
print(vector.shape)

torch.Size([4])
torch.Size([4])


```
torch.Size([4])
torch.Size([4])
```

In [15]:
# torch.Size([4])
# torch.Size([2, 2])
matrix = torch.tensor([[1.0,2.0],[3.0,4.0]])
print(vector.size())
print(matrix.shape)

torch.Size([4])
torch.Size([2, 2])


```
torch.Size([2, 2])
```

In [16]:
# 使用view可以改变张量尺寸

# tensor([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])
# torch.Size([12])
# tensor([[ 0,  1,  2,  3],
#         [ 4,  5,  6,  7],
#         [ 8,  9, 10, 11]])
# torch.Size([3, 4])
# tensor([[ 0,  1,  2],
#         [ 3,  4,  5],
#         [ 6,  7,  8],
#         [ 9, 10, 11]])
# torch.Size([4, 3])
vector = torch.arange(0,12)
print(vector)
print(vector.shape)

matrix34 = vector.view(3,4)
print(matrix34)
print(matrix34.shape)

matrix43 = vector.view(4,-1) #-1表示该位置长度由程序自动推断
print(matrix43)
print(matrix43.shape)


tensor([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])
torch.Size([12])
tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]])
torch.Size([3, 4])
tensor([[ 0,  1,  2],
        [ 3,  4,  5],
        [ 6,  7,  8],
        [ 9, 10, 11]])
torch.Size([4, 3])


```
tensor([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])
torch.Size([12])
tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]])
torch.Size([3, 4])
tensor([[ 0,  1,  2],
        [ 3,  4,  5],
        [ 6,  7,  8],
        [ 9, 10, 11]])
torch.Size([4, 3])
```

In [17]:
# 有些操作会让张量存储结构扭曲，直接使用view会失败，可以用reshape方法

# tensor([[ 0,  1,  2,  3,  4,  5],
#         [ 6,  7,  8,  9, 10, 11]])
# torch.Size([2, 6])
# False
# tensor([[ 0,  6,  1,  7],
#         [ 2,  8,  3,  9],
#         [ 4, 10,  5, 11]])

matrix26 = torch.arange(0,12).view(2,6)
print(matrix26)
print(matrix26.shape)

# 转置操作让张量存储结构扭曲
matrix62 = matrix26.t()
print(matrix62.is_contiguous())


# 直接使用view方法会失败，可以使用reshape方法
#matrix34 = matrix62.view(3,4) #error!
matrix34 = matrix62.reshape(3,4) #等价于matrix34 = matrix62.contiguous().view(3,4)
print(matrix34)


tensor([[ 0,  1,  2,  3,  4,  5],
        [ 6,  7,  8,  9, 10, 11]])
torch.Size([2, 6])
False
tensor([[ 0,  6,  1,  7],
        [ 2,  8,  3,  9],
        [ 4, 10,  5, 11]])


```
tensor([[ 0,  1,  2,  3,  4,  5],
        [ 6,  7,  8,  9, 10, 11]])
torch.Size([2, 6])
False
tensor([[ 0,  6,  1,  7],
        [ 2,  8,  3,  9],
        [ 4, 10,  5, 11]])
```

### 四，张量和numpy数组

可以用numpy方法从Tensor得到numpy数组，也可以用torch.from_numpy从numpy数组得到Tensor。

这两种方法关联的Tensor和numpy数组是共享数据内存的。

如果改变其中一个，另外一个的值也会发生改变。

如果有需要，可以用张量的clone方法拷贝张量，中断这种关联。

此外，还可以使用item方法从标量张量得到对应的Python数值。

使用tolist方法从张量得到对应的Python数值列表。


In [18]:
import numpy as np
import torch 

In [19]:
#torch.from_numpy函数从numpy数组得到Tensor

arr = np.zeros(3)
tensor = torch.from_numpy(arr)
print("before add 1:")
print(arr)
print(tensor)

print("\nafter add 1:")
np.add(arr,1, out = arr) #给 arr增加1，tensor也随之改变
print(arr)
print(tensor)


before add 1:
[0. 0. 0.]
tensor([0., 0., 0.], dtype=torch.float64)

after add 1:
[1. 1. 1.]
tensor([1., 1., 1.], dtype=torch.float64)


```
before add 1:
[0. 0. 0.]
tensor([0., 0., 0.], dtype=torch.float64)

after add 1:
[1. 1. 1.]
tensor([1., 1., 1.], dtype=torch.float64)
```

In [20]:
# numpy方法从Tensor得到numpy数组

tensor = torch.zeros(3)
arr = tensor.numpy()
print("before add 1:")
print(tensor)
print(arr)

print("\nafter add 1:")

#使用带下划线的方法表示计算结果会返回给调用 张量
tensor.add_(1) #给 tensor增加1，arr也随之改变 
#或： torch.add(tensor,1,out = tensor)
print(tensor)
print(arr)


before add 1:
tensor([0., 0., 0.])
[0. 0. 0.]

after add 1:
tensor([1., 1., 1.])
[1. 1. 1.]


```
before add 1:
tensor([0., 0., 0.])
[0. 0. 0.]

after add 1:
tensor([1., 1., 1.])
[1. 1. 1.]
```

In [21]:
# 可以用clone() 方法拷贝张量，中断这种关联

tensor = torch.zeros(3)

#使用clone方法拷贝张量, 拷贝后的张量和原始张量内存独立
# before add 1:
# tensor([0., 0., 0.])
# [0. 0. 0.]

# after add 1:
# tensor([1., 1., 1.])
# [0. 0. 0.]
arr = tensor.clone().numpy() # 也可以使用tensor.data.numpy()
print("before add 1:")
print(tensor)
print(arr)

print("\nafter add 1:")

#使用 带下划线的方法表示计算结果会返回给调用 张量
tensor.add_(1) #给 tensor增加1，arr不再随之改变
print(tensor)
print(arr)

before add 1:
tensor([0., 0., 0.])
[0. 0. 0.]

after add 1:
tensor([1., 1., 1.])
[0. 0. 0.]


```
before add 1:
tensor([0., 0., 0.])
[0. 0. 0.]

after add 1:
tensor([1., 1., 1.])
[0. 0. 0.]
```

In [22]:
# item方法和tolist方法可以将张量转换成Python数值和数值列表
scalar = torch.tensor(1.0)
s = scalar.item()
print(s)
print(type(s))

tensor = torch.rand(2,2)
t = tensor.tolist()
print(t)
print(type(t))


1.0
<class 'float'>
[[0.09181702136993408, 0.47938060760498047], [0.8105512857437134, 0.015107154846191406]]
<class 'list'>


```
1.0
<class 'float'>
[[0.8211846351623535, 0.20020723342895508], [0.011571824550628662, 0.2906131148338318]]
<class 'list'>
```

In [23]:
# RuntimeError: a Tensor with 2 elements cannot be converted to Scalar
# 只有 scalar 可以使用 item(),转化为 python 数值
torch.tensor([1.0, 2.0]).item()

RuntimeError: a Tensor with 2 elements cannot be converted to Scalar

**如果本书对你有所帮助，想鼓励一下作者，记得给本项目加一颗星星star⭐️，并分享给你的朋友们喔😊!** 

如果对本书内容理解上有需要进一步和作者交流的地方，欢迎在公众号"算法美食屋"下留言。作者时间和精力有限，会酌情予以回复。

也可以在公众号后台回复关键字：**加群**，加入读者交流群和大家讨论。

![算法美食屋logo.png](https://tva1.sinaimg.cn/large/e6c9d24egy1h41m2zugguj20k00b9q46.jpg)

